0 引言
图像语义分割是将图像的每个像素分类为一个实例[1]。该技术是场景理解的基础性技术[2],在自动驾驶[3-5]、人机交互[6]、计算摄影[7]、图像搜索引擎[8]以及医学图像研究[9-11]中起到重要作用。随着深度学习发展,基于CNN的图像语义分割方法逐渐成为图像语义分割的主流[12]。
图像语义分割在嵌入式边缘端有着广阔的应用前景,但是嵌入式边缘设备的处理核心多是基于精简指令集的微处理器,由于顺序数据处理方式的限制,使得网络中的计算无法高效并行完成。为了提升网络在嵌入式边缘端处理效率,在嵌入式边缘端对CNN进行加速的研究受到广泛关注,出现了大量基于高性能计算处理器的网络加速方法[13-16]。其中,FPGA由于内部包含有大量的可编程逻辑资源,可以构建高并行的计算结构,在较低工作时钟频率下仍能实现较高的算法处理速度,可以满足功耗受限的嵌入式边缘端应用的需求,成为嵌入式边缘端网络推理加速的主流硬件加速器之一。但是,当前基于FPGA的深度学习推理加速方法主要面向以单一标准卷积构建的神经网络,而为了提升语义分割的精度以及减少语义分割的计算量,出现了空洞卷积、点卷积、深度卷积和标准卷积等多种卷积运算,需要设计能够支持多种类型卷积的加速器。
针对以上问题,本文提出一种基于FPGA的多类型卷积加速器设计方法,并通过对不同并行度和不同计算结构的加速器进行对比实验,验证加速器设计方法的有效性。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005801
作者信息
史兴强,强小燕,巩凯,邢梦菲
(中国电子科技集团第五十八研究所,江苏 无锡 214035)
