设计应用

一种基于状态预测的多线程数据过滤算法

作者:杨嘉佳,李正,郑儿,姚旺君,赵静,关健
发布日期:2024-12-16
来源:电子技术应用

引言

在人工智能时代[1],正则表达式匹配技术有助于数据的预处理过滤,可为业务应用提供更高质量的数据。例如,正则表达式规则由于其展现出强大的表征能力,可从大规模数据中过滤出复杂且符合深度学习模型要求的数据,提升模型的推理精度。

数据预处理吞吐率是衡量过滤算法的重要性能因素之一,反映出在特定环境下算法可以运行的性能极限,决定其是否适用于高性能大数据预处理领域。因此,本文重点研究如何提高基于正则表达式匹配的数据过滤性能。

当前,已涌现出许多优秀的基于正则表达式技术的数据过滤算法[2],包括基于非确定型有限自动机(Nondeterministic Finite Automata, NFA)、基于确定型有限自动机(Deterministic Finite Automata, DFA)和基于混合自动机(Hybrid Finite Automata, Hybrid-FA)等实现方式。其中,因DFA的数据过滤性能较为稳定,备受研究人员和开发人员的青睐。

然而,现有的正则表达式过滤算法性能较低,无法满足大数据背景下的高性能过滤需求。因此,本文提出一种基于状态预测的多线程数据过滤算法:通过向量指令字符值比较、多线程加速、状态猜测等技术,实现字符串的分段匹配处理,从而提高算法的吞吐率。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006254


作者信息:

杨嘉佳,李正,郑儿,姚旺君,赵静,关健

(中国电子信息产业集团有限公司第六研究所,北京 100083)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。
正则表达式匹配 状态预测 数据过滤
Baidu
map