设计应用

一种基于状态预测的多线程数据过滤算法

作者：杨嘉佳，李正，郑儿，姚旺君，赵静，关健

发布日期：2024-12-16

来源：电子技术应用

引言

在人工智能时代[1]，正则表达式匹配技术有助于数据的预处理过滤，可为业务应用提供更高质量的数据。例如，正则表达式规则由于其展现出强大的表征能力，可从大规模数据中过滤出复杂且符合深度学习模型要求的数据，提升模型的推理精度。

数据预处理吞吐率是衡量过滤算法的重要性能因素之一，反映出在特定环境下算法可以运行的性能极限，决定其是否适用于高性能大数据预处理领域。因此，本文重点研究如何提高基于正则表达式匹配的数据过滤性能。

当前，已涌现出许多优秀的基于正则表达式技术的数据过滤算法[2]，包括基于非确定型有限自动机(Nondeterministic Finite Automata, NFA)、基于确定型有限自动机(Deterministic Finite Automata, DFA)和基于混合自动机(Hybrid Finite Automata, Hybrid-FA)等实现方式。其中，因DFA的数据过滤性能较为稳定，备受研究人员和开发人员的青睐。

然而，现有的正则表达式过滤算法性能较低，无法满足大数据背景下的高性能过滤需求。因此，本文提出一种基于状态预测的多线程数据过滤算法：通过向量指令字符值比较、多线程加速、状态猜测等技术，实现字符串的分段匹配处理，从而提高算法的吞吐率。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000006254

作者信息：

杨嘉佳，李正，郑儿，姚旺君，赵静，关健

（中国电子信息产业集团有限公司第六研究所，北京 100083）

Magazine.Subscription.jpg