设计应用

基于单页语义特征的垃圾网页检测

作者:陈木生1,2,高斐1,吴俊华1
发布日期:2023-05-31
来源:电子技术应用

0 引言

如今,随着互联网信息的快速增长,搜索引擎被认为是访问网站的关键工具,其用户占到网络用户的80%以上[1]。但是有研究表明,大约60%的用户只查看第一页中最初的5个结果[2]。可以看出,在搜索结果中排名靠前的网页会拥有更多的访问者,由此带来更多的收入。由于通过正常手段提高网页排名非常困难,于是某些网站便通过非正常手段和技术欺骗搜索引擎提高网页排名,这些网页被称为垃圾网页[3]。垃圾网页会降低搜索结果的质量,浪费用户的时间,侵占搜索引擎公司和其他内容网站的合法利益[4]。尽管搜索引擎公司已经使用了各种方法来应对垃圾网页,但至今为止,垃圾网页检测依然是搜索引擎需要重点突破的难题,也是学术领域的一个前沿课题。因此,高效、准确地检测垃圾网页具有重要意义。



本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005343




作者信息:

陈木生1,2,高斐1,吴俊华1

(1.江西理工大学 软件工程学院,江西 南昌 330013;2.南昌市虚拟数字工程与文化传播重点实验室,江西 南昌 330013)


微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。
垃圾网页检测 特征提取 记忆化搜索 隐含狄利克雷分布 词向量
Baidu
map