引言
在人工智能时代[1],正则表达式匹配技术有助于数据的预处理过滤,可为业务应用提供更高质量的数据。例如,正则表达式规则由于其展现出强大的表征能力,可从大规模数据中过滤出复杂且符合深度学习模型要求的数据,提升模型的推理精度。
数据预处理吞吐率是衡量过滤算法的重要性能因素之一,反映出在特定环境下算法可以运行的性能极限,决定其是否适用于高性能大数据预处理领域。因此,本文重点研究如何提高基于正则表达式匹配的数据过滤性能。
当前,已涌现出许多优秀的基于正则表达式技术的数据过滤算法[2],包括基于非确定型有限自动机(Nondeterministic Finite Automata, NFA)、基于确定型有限自动机(Deterministic Finite Automata, DFA)和基于混合自动机(Hybrid Finite Automata, Hybrid-FA)等实现方式。其中,因DFA的数据过滤性能较为稳定,备受研究人员和开发人员的青睐。
然而,现有的正则表达式过滤算法性能较低,无法满足大数据背景下的高性能过滤需求。因此,本文提出一种基于状态预测的多线程数据过滤算法:通过向量指令字符值比较、多线程加速、状态猜测等技术,实现字符串的分段匹配处理,从而提高算法的吞吐率。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006254
作者信息:
杨嘉佳,李正,郑儿,姚旺君,赵静,关健
(中国电子信息产业集团有限公司第六研究所,北京 100083)

此内容为AET网站原创,未经授权禁止转载。