kaiyun官方注册
您所在的位置: 首页> 人工智能> 设计应用> 藏文网络敏感信息检测研究
藏文网络敏感信息检测研究
网络安全与数据治理
吴瑜,严李强,徐梓恒,卓玛央金
西藏大学信息科学技术学院
摘要:随着互联网的普及,藏文网络空间也面临着日益增多的敏感信息传播风险,给社会稳定和国家安全带来挑战。传统的敏感信息检测方法难以有效应对藏文语言的特殊性和网络信息的复杂性。为了解决这一问题,提出了一种基于CINO-DPCNN的混合神经网络模型。该模型结合了CINO模型对藏文语义的深层次理解和DPCNN模型对文本特征的高效提取能力,能够更准确地识别藏文网络敏感信息。实验结果表明,CINO-DPCNN模型在准确率、F1值等指标方面取得了良好的结果,相较于现有模型有显著提高。这为构建安全、健康的藏文网络环境提供了新的技术支撑,也为其他少数民族语言的敏感信息检测提供了借鉴。
中图分类号:TP181 文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.04.012
引用格式:吴瑜,严李强,徐梓恒,等. 藏文网络敏感信息检测研究[J].网络安全与数据治理,2025,44(4):79-83.
Research on sensitive information detection in Tibetan network
Wu Yu,Yan Liqiang,Xu Ziheng,Zhuoma Yangjin
School of Information Science and Technology, Tibet University,Lasa
Abstract:With the increasing popularity of the Internet, the Tibetan-language online space is facing growing risks of sensitive information dissemination, posing challenges to social stability and national security. Traditional methods for detecting sensitive information are unable to effectively address the unique characteristics of the Tibetan language and the complexity of online information. To address this issue, this paper proposes a hybrid neural network model based on CINO-DPCNN. This model combines the deep understanding of Tibetan semantics provided by the CINO model with the high-efficiency feature extraction capabilities of the DPCNN model, enabling more accurate identification of sensitive information in Tibetan-language online networks. The experimental results demonstrate that the CINO-DPCNN model has achieved excellent performance in terms of accuracy, F1 score, and other indicators, showing significant improvements over existing models. This provides new technical support for building a secure and healthy Tibetan-language online environment and serves as a reference for sensitive information detection in other minority languages.
Key words :Tibetan;sensitive information;CINO model;deep learning

引言

随着网络基础设施和信息通信技术的提升,互联网的规模迅速扩大。根据2024年发布的第53次《中国互联网络发展状况统计报告》,我国网民人数已达10.92亿,互联网普及率达到77.5%[1]。互联网的发展带来了信息传播的便利,也带来了信息安全和内容监管方面的挑战。在西藏等少数民族地区,这一挑战尤为显著。西藏地处中国的边疆地区,拥有悠久的历史和丰富的文化遗产,同时也面临着综合治理的重大挑战。网络上发布的敏感信息,其中包含恶意攻击和歧视性语言等,严重侵犯了个人权利和尊严,导致个体心理、价值观和行为规范的扭曲。此外,虚假新闻或谣言的泛滥可能会破坏社会信任,严重违反社会公德和法律法规,很容易引起社会大众的不满与抵制,还会给社会秩序、国家稳定与团结带来不利影响[2]。

针对网络敏感信息的自动检测和过滤问题,相关研究者采用了各种方法来提高检测的效率和准确性。袁斐洋等[3]根据藏文敏感词权重值对网页进行等级划分,对含有敏感信息的网页进行拦截,避免不法言论和信息的传播,以优化藏区网络环境。南奎娘若等[4]采用基于不同特征加权及权重度量的方法抽取基于敏感的藏文自动摘要。江涛等[5]提出了基于藏文网页的舆情监控系统,系统监控藏文网页的“敏感点”并对“热点”实现预警。汤烈等[6]提出了一个基于K最近邻算法的网络不良信息过滤模型。在样本预处理时对训练样本进行了筛选,使系统的查准率、查全率和处理速度都有一定的提高,更适应实时在线系统的不良信息过滤。普措才仁[7]根据不良信息的特点对潜在语义分析进行了简化,并设计了基于简化的潜在语义分析的藏文Web不良信息检索算法。该检索算法能够对具有关于某个主题的特定倾向的文本进行过滤,对于那些冗长文本中因为关键字分散而造成的假匹配,通过语义分析可以很好地甄别处理,从而提高系统的召回率。陆向艳[8]提出一种基于支持向量机(Support Vector Machine,SVM)的不良信息识别方法,包括文本标记、文本分词、Doc2Vec文本向量化、SVM不良信息分类器训练、SVM不良信息测试5个步骤。实验结果表明该方法能有效识别网络不良信息,为网络不良信息的甄别提供了一种方法参考。

传统的藏文敏感信息检测方法在处理大规模、多样化的藏文文本时效率低下,已无法满足快速增长的在线内容需求。因此,将深度学习技术应用于藏文敏感信息检测以提高检测的准确性,已成为亟待研究的重要课题。本文采用一种基于混合神经网络模型——CINODPCNN,用于藏文网络敏感信息的检测。首先利用面向中国少数民族语言的多语言预训练模型(Chinese Minority Pretrained Language Model,CINO)对敏感信息文本进行动态的词向量构建,捕获藏文文本的语义信息,之后深度卷积神经网络层(Deep Pyramid Convolutional Neural Networks,DPCNN)通过卷积和池化操作对词向量进行局部特征提取,以获得文本的重要模式和特征,最后加入全连接层和分类器实现对敏感信息的识别与分类。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006417


作者信息:

吴瑜,严李强,徐梓恒,卓玛央金

(西藏大学信息科学技术学院,西藏拉萨850000)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。
Baidu
map