设计应用

基于BERT-CNN的新闻文本分类的知识蒸馏方法研究

作者:叶榕,邵剑飞,张小为,邵建龙
发布日期:2023-01-13
来源:2023年电子技术应用第1期

0 引言

    随着大数据时代的到来,今日头条、新浪微博和豆瓣等主流新闻媒体APP产生海量新闻文本,因此如何将这些新闻文本进行快速有效的分类对于用户体验乃至国家网络舆情控制是十分必要的。针对中文新闻文本分类任务,研究者提出许多分类算法和训练模型,证明深度学习分类方法的有效性。

    以BERT[1](Bidirectional Encoder Representation from Transformers)预训练模型为例:在文献[2]的实验中可以得出,BERT-CNN模型取得的效果最佳,但是从工程落地的角度来说,模型参数量过于巨大,仅仅一个BERT模型,参数就达一亿多。本文使用的是谷歌开源的面向中文的BERT预训练模型,占用内存大小为325 Mb。另一方面,针对训练时间过长的缺点,以该实验为例,训练18万条新闻文本数据消耗的时间为3.5 h,很显然对于未来的模型工程落地还存在很大的差距。因此,本文在保证不下降过多模型的准确率的前提下,将BERT-CNN进行模型压缩,降低模型体积以及模型的训练时间,提升模型的泛化能力。

    本文创新点主要体现在:(1)对实验数据集进行了扩充处理,提升模型泛化能力;(2)通过观察不同的T和α的组合对模型蒸馏性能的影响确定最优组合值而不是固定值;(3)蒸馏场景不再局限于传统情感分析(二分类),本实验面向10分类的文本分析,不同标签文本的蒸馏性能也不尽相同。




本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005068




作者信息:

叶榕,邵剑飞,张小为,邵建龙

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)




wd.jpg

此内容为AET网站原创,未经授权禁止转载。
新闻文本 BERT CNN 知识蒸馏
Baidu
map