设计应用

基于规则和词典的用电安全领域命名实体识别

作者:袁金斗1,潘明明1,张 腾2,姜 珏1
发布日期:2022-12-20
来源:2022年电子技术应用第12期

0 引言

    命名实体识别[1-3](Named Entity Recognition,NER)在通用领域中主要是指识别文本中的人名、地名、机构名、时间、货币等具有特定意义的实体。目前,命名实体识别的主要方法包括三类:基于规则[4]和词典[5-6]的方法、基于统计机器学习的方法[7]和基于深度神经网络的方法[8]

    目前,用电安全领域缺乏权威数据集[9],命名实体识别研究工作首先需要对语料集进行序列标注,标记非结构文本中的相关实体、无关字符、词性序列等,在此研究背景下,采用统计机器学习、深度神经网络的方法较难获取大规模的训练语料集。因此,本文主要基于规则和词典的方法对实体命名识别进行第一阶段研究,发掘用电安全领域实体构词规则及词性特征,构建领域词典及规则模板,进一步扩充语料库,为后续用电安全领域命名实体识别的机器学习、神经网络方法的研究奠定基础。

    从技术角度分析,如果构建的领域词典能够覆盖待识别文本中绝大多数相关实体,那么,基于词典的命名实体识别方法将具有高准确度及高响应度。但是,领域实体的多样性、复杂性、衍生性导致构建覆盖全面的高质量词典较为困难。因此,基于词典的方法通常是基于规则方法的辅助补充手段[10]。基于规则的实体命名识别多采用人工归纳并构造规则模板,选用特征包括标点符号、关键字、指示词和方向词、位置词(如前后缀)、中心词等,以规则模板的正则匹配为主要手段[11]。当语料规模不大且提取的规则能比较精确地反映语言现象时,基于规则和词典的方法其性能要优于基于统计的方法[12]

    另一方面,物联网设备和数据的爆发式增长,使得基于云计算模型的聚合性服务逐渐显露出其在实时性、网络制约、资源开销等方面的不足。为弥补集中式云计算的不足,本文采用边缘计算架构,其优势在于能够在数据产生侧快捷、高效地响应业务需求,减小服务对网络的依赖,在离线状态下也能够提供基础业务服务。




本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,张  腾2,姜  珏1

(1.中国电力科学研究院有限公司,北京100192;2.国网江苏省电力有限公司,江苏 南京210000)




wd.jpg

此内容为AET网站原创,未经授权禁止转载。
用电安全领域 命名实体识别 领域字典 特征字符规则 词性组合规则
Baidu
map