设计应用

安全类文章的多文本分类系统的设计与实现

作者:吴习沫,朱广宇,张 雷
发布日期:2020-12-17
来源:《信息技术与网络安全》2020年第7期

互联网已成为信息传播的普遍途径,然而,由于互联网中的冗余信息过多,各网站提供的标签没有统一的分类标准,使得整合某一特定类的文章信息所消耗的时间成本和人力成本增加。但目前为止,针对网络安全类网站的技术类文章,还没有一套系统能够很好地解决上述对应问题。

为迅速掌握最新的网络安全信息,本文设计并实现了基于CNN和LSTM混合模型的安全类文章多文本分类系统,该系统从多种来源收集安全类技术文本,并将它们以特定格式汇总,自动标记汇总后的文章内容。就信息收集而言,系统主要采集近一年的安全类技术文本,收集的目标内容主要包括文章内容和网页自带的标签,对于各网站自定义的文章标签,可作为多标签的一部分,供用户参考。安全类文本与普通文本对比需要由多个标签对其进行标记分类处理。因此安全类文本的分类要难于普通文本分类处理。

面向网络安全数据高并发的安全类网站,本文设计和实现了信息采集模块,该模块主要实现了基于Scrapy框架的分布式爬虫程序设计,完成了多个安全类网站技术类文章的文本信息数据采集。

本文设计并实现了信息分类模块,它负责对所获得的数据进行预处理、文本表示以及文本分类,其中文本分类模块具体提出了一种基于CNN和LSTM的混合分类模型,它综合了CNN与LSTM的优点,提高了模型的特征提取能力。实验结果表明,基于CNN和LSTM的混合分类模型达到了比较高的准确率,CNN和LSTM的混合模型的准确率为91.99%。CNN-LSTM与CNN、LSTM相比分类准确率提高了1.79%和1.54%。



本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003231

作者信息:

       吴习沫,朱广宇,张  雷

       (华北计算机系统工程研究所,北京100083)


此内容为AET网站原创,未经授权禁止转载。
深度学习 文本分类 爬虫 系统
Baidu
map