设计应用

基于深度注意力的融合全局和语义特征的图像描述模型

作者:及昕浩,彭玉青
发布日期:2024-03-07
来源:网络安全与数据治理

引言

图像描述[1-2]是一种使用自然语言描述图像内容的任务,是一项涉及计算机视觉领域和自然语言处理领域的跨领域研究内容。目前大多数方法使用卷积神经网络(Convolutional Neural Network, CNN)编码图像以提取图像特征,然后使用Transformer网络结构来解析图像特征并生成描述语句。Pan等人[3]提出了XLinear注意力块来捕获单或多模态之间的二阶相互作用,并将其集成到Transformer编码器和解码器中。Cornia等人[4]在Transformer编码器和解码器中设计了类似网格的连接,以利用编码器的低级和高级特征。多数研究者针对Transformer网络结构进行改进,没有关注CNN提取到的图像特征其对应的感受野是均匀的网格,难以明显地关注图像中对象内容信息的问题。此外Transformer模型中的注意力机制仅仅是隐式地计算单个区域和其他区域的相似性,无法捕捉长距离的关系。


作者信息:

及昕浩,彭玉青

(河北工业大学人工智能与数据科学学院,天津300401)


文章下载地址:https://www.chinaaet.com/resource/share/2000005902


weidian.jpg

此内容为AET网站原创,未经授权禁止转载。
图像描述 全局特征 语义特征 特征融合
Baidu
map