1. 痛点问题
随着数据量的爆炸性增长,张量运算正在成为现代科技中非常重要的数学和计算机科学工具,并在机器学习、深度学习、计算机视觉和自然语言处理等人工智能领域得到广泛应用。基于冯·诺依曼架构的传统电子处理器处理激增的数据流越来越具挑战性,光计算作为一个前沿计算技术,利用光子而不是传统的电子来完成信息处理和计算任务,有望在某些应用场景中克服传统电子计算在并行性、带宽、延迟或能耗等方面的瓶颈或局限性。因此,光子计算逐渐成为下一代高性能计算技术研究的新方向。当前的光子卷积处理器遵循电子卷积(如:Nvidia Ampere架构的Tensor Core、华为Davinci架构的CUBE Core等)的技术路径,将张量卷积转换为多通道的通用矩阵乘法运算(GeMM)。目前,光学张量卷积芯片主要存在以下两个痛点问题:
(1) 该多通道数据流的矩阵乘法运算导致数据复制和光学硬件复杂性,大大增加了计算量和系统成本。
(2) 较低的光学权重精度降低了神经网络的计算精度,严重影响光子计算系统的实际应用。
2. 解决方案
针对以上的核心痛点问题,南京大学现代工程与应用科学学院的江伟课题组等联合电子学院、人工智能学院的研究人员报道了一种单数据流、高权重精度的光子张量卷积处理器,主要的解决方案是:
(1) 为多通道张量数据提供了一种光学上的单通道卷积方法,大大减小了高速模拟器件的所需数量,可将系统小型化、并显著降低成本。
(2) 利用光源直接单片集成的半导体光放大器(SOA)阵列被用作可编程权重库,实现了9.2 bit的权重精度,满足了张量卷积处理(TPU)的8 bit精度要求。
3. 竞争优势分析
在这项工作中,研究团队提出的光子张量卷积处理器(PTPU),相对于其他方案,是一种更简洁、精度更高的多通道张量单通道化的光学卷积方案。
(1) 根据所提出的算法规则,将高阶张量中不同通道的像素混合并重新排列为一维向量。然后,光学波长、空间和时间维度的混合操作使得能够在光学域中直接处理平坦的像素序列。因此,任意高阶张量的所有输入通道合并后只需要一个输入调制器,相关高速器件所占空间比OPS方案小几倍,成本也大幅度降低。
(2) 深度神经网络的实现通常依赖于一定的加权精度,如张量处理单元(TPU)通常具有8bit或更高的精度。研究团队提出了一种光源-权重库一体式集成的DFB-SOA阵列权重库。使用单片集成的多波长激光器阵列被用作波长复用源,并且每个信道都配备有用于逐行幅度控制的专用SOA。SOA权重库仅需要简单的温度控制,就能作为光子突触提供9.2 bit的精度,满足了张量计算需求。
研究团队基于光子张量卷积处理器实现了高通量三维张量卷积,可有效识别新冠肺炎肺部计算机断层扫描(CT)图像,从而预测病毒性肺炎的存在。处理所需时间与基于电子计算机的神经网络相比降低几个数量级。该技术在计算速度、有效带宽和计算能耗等方面,相较目前的基于电子计算机的神经网络均存在显著优势,有望在智能诊断、高维复杂数据处理、智能传感等领域得到广泛应用。
扫码关注,查看更多科技成果