@      laosege 北大团队打造数据流架构,已毕2.8倍以上蒙眬擢升,不停视觉Transformer加快繁难

你的位置:色情艺术中心 > ai 人妖 >

laosege 北大团队打造数据流架构,已毕2.8倍以上蒙眬擢升,不停视觉Transformer加快繁难

laosege 北大团队打造数据流架构,已毕2.8倍以上蒙眬擢升,不停视觉Transformer加快繁难

当作北京大学东说念主工智能参谋院和集成电路学院的双聘助理教会laosege,李萌既懂 AI 又懂芯片。

近日,他和北京大学集成电路学院王源教会及团队遐想出一款面向 Transformer 模子的高效数据流架构——HG-PIPE,并在可编程阵列逻辑(FPGA,Field Programmable Gate Array)平台上完成了及时展示。

总的来说,HG-PIPE 是一种能用于高蒙眬率和低蔓延 ViT(Vision Transformer,视觉 Transformer)处理的活水线架构 FPGA 加快器。

(起首:ICCAD)

HG-PIPE 秉承羼杂粒度活水线架构,因此粗鲁裁汰片上缓冲区本钱,其还将狡计数据流和并行遐想相联结,从而粗鲁排斥活水线气泡(pipeline bubbles)。

HG-PIPE 进一步引入了良好的近似遐想,以已毕基于查找表(LUT,Lookup Tables)的线性运算符和非线性运算符,从而粗鲁缓解资源甩掉。

比拟 AutoViTAcc 等现存加快器,在一块 ZCU102 FPGA 上,HG-PIPE 已毕了卓绝 2.78 倍的蒙眬量和卓绝 2.52 倍的资源遵守。

同期,他们还提供了加快器的架构遐想图,展示了数据在硬件模块间的流动旨趣和狡计旨趣。

通过联结细粒度遐想和粗粒度遐想的优点,本次智力粗鲁同期已毕低蔓延和高资源诓骗遵守,将片上激活缓冲本钱裁汰 83.3%。

现在,他们也曾已毕包括 PoT(Power-of-Two)表索引狡计和基于 LUT(Lookup Tables)的 ReQuant 在内的优化,这些优化在不就义精度的情况下能将数字信号处理(DSP,digital signal processing)使用率裁汰 89.6%。

在 VCK190 建筑板上,HG-PIPE 能以 7118FPS 的速率提供及时视觉 Transformer 处理(十分于 17.8TOP/s),比 V100 图形处理器(GPU,Graphics Processing Unit)快 2.81 倍。

(起首:ICCAD)

有望用于神经汇集处理器芯片

李萌默示:“本次参谋主要面向视觉 Transformer 模子,旨在擢升其在端侧硬件资源受限平台上的部署推理遵守,在应用上具有开阔的出路。”

一方面,当作通用型骨干汇集,视觉 Transformer 模子粗鲁维持包括打算检测、图像分割、姿势识别、视频通晓在内的多种卑劣任务。

另一方面,由于数据隐秘、汇集洽商等身分甩掉,AI 模子端侧部署濒临着宽泛的需求,比如用于车载助手和自动驾驶场景等。

跟着汽车产业的转型和升级、以及自动驾驶时间的缓缓发展,无不预示着果真的无东说念主驾驶也许不久就会到来。

而面向自动驾驶的低蔓延、高能效的端侧神经汇集硬件加快器,必将成为一个合手续火热的参谋鸿沟。

国内宽阔造车新势力比如蔚来、设想、小米等,齐在研发我方在端侧的神经汇集处理器芯片。蔚来也曾在最近展示了自家的流片收尾。

而本次李萌和王源教会团队的参谋遵守,展示了现在对于非自总结 Transformer 而言的遵守最佳的硬件数据流遐想有打算,改日有望用于上述应用场景。

图 | 左:北京大学东说念主工智能参谋院和集成电路学院双聘助理教会李萌(论文共同通信作家);中:北京大学集成电路学院党委布告王源教会(论文共同通信作家);右:北京大学集成电路学院博士生郭晴宇(论文第一作家)(起首:李萌)

日前,关系论文以《HG-PIPE:秉承羼杂颗粒活水线的 Vision Transformer 加快》(HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline)为题发在狡计机赞成遐想外洋会议(ICCAD,International Conference on Computer-Aided Design)[1]。

图 | 关系论文(起首:ICCAD)

十分于每秒 7353 张图像的设想帧速率

往常十年,获利于专用加快芯片和系统辖来的算力擢升,以深度学习为代表的 AI 时间得到了快速发展。同期,也对 AI 提倡了新挑战和新条目。

以重看法模子 Transformer 为例,它比传统的具有更少的归纳偏见以及更强的泛化才气,因而被宽泛用于视觉、谈话等不同模态信息的处理中。

然而,比拟卷积神经汇集,Transformer 模子的参数目和狡计量有着显耀增多,因此在端侧芯单方面积、功耗等相对比较受限的场景中,濒临着更高的部署挑战和狡计挑战。

使用 FPGA 进行视觉 Transformer 加快很有出路,但也很有挑战性。

现存的基于 FPGA 的视觉 Transformer 加快器主要依赖于时序架构,该架构通过重用疏通的硬件块来处理不同的运算符,其短板在于雄壮的内存打听支拨。

不管是粗粒度的照旧细粒度的活水线架构,从空间上伸开视觉 Transformer 狡计。关联词,由于视觉 Transformer 依赖于全局狡计,它们往往会受到硬件资源甩掉和活水线气泡的严重影响。

基于此,团队针对视觉 Transformer 模子的高效推理开展了本次参谋。

自慰

他们但愿恢复的中枢问题是:在 Transformer 模子架构逐步拘谨的情况下,能否通过遐想 Transformer 专用的数据流架构,来已毕超低蔓延的视觉 Transformer 推理优化?

北京大学集成电路学院王源教会,是李萌在本次参谋中的谐和者。从 2021 岁首,王源就启动参谋张量流式处理架构(tensor streaming processing)。

具体来说,王源曾先后参谋了卷积神经汇集和视觉 Transformer 模子,其中对于卷积神经汇集的关系论文发表于 IEEE Transactions on Circuits and Systems I: Regular Papers。

而在本次参谋初期,针对张量流式处理架构能否适用于 Transformer 模子至极通用性等问题,李萌、王源和学生郭晴宇曾开展过一场争论。

由于需要针对 Transformer 汇集的每一层进行定制化遐想,这让 HG-PIPE 濒临着通用性不及以及工程量雄壮的挑战。

不外,当把视觉 Transformer 模子用于不同视觉任务之中,它在骨干汇集上存在一定的通用性。而 FPGA 平台的可重构本性,也不错很猛进度上缩小 HG-PIPE 的使用局限。

此外,对于视觉 Transformer 模子来说,在端侧濒临着高能效、低蔓延的部署需求。

因此,该团队合计这条时间道路具有一定的使用价值。针对架构遐想进行几次大改之后,对于本次参谋的论文和加快器 demo 均在 2023 年之内成型,并获得了很好的加快效果。

(起首:ICCAD)

具体来说:

为了评估本次遐想有打算,他们聘任使用 Deit 微型模子和 Deit 微型模子,在 ZCU102 和 VCK190 这两个 FPGA 平台上进行测试,并与 AutoViTAcc、HeatViT 和 SSR 这三个基线进行了对比。

其中,ZCU102 允许与之前的参谋遵守进行奏凯比较,而 VCK190 维持整个汇集的全面部署。在测量蒙眬量时他们使用 PYNQ 框架进行测量,测量功耗时他们则使用赛灵念念公司的 BEAM 器具进行评估。

通过模拟上述遐想有打算,他们生成了一个时序图。然后,在加快器中按轨则加载输入张量块。当首张图像的加载完成时,下一张图像启动加载,不同图像的推理推论启动出现访佛。

同期,由于 MHA 块(Multi-Head Attention,Transformer 的要道模块)秉承粗粒度的缓冲,导致输出第一个张量块时略有蔓延。

此后续图像狡计,所测得的平均处理周期数是 57624 个周期,这和课题组的预期彼此稳妥,也考证了羼杂粒度活水线的灵验性。

施行数据还泄露:首张图片的总处理时候为 824843 个周期,悉数 1.94ms。当活水线领路后,完成新图片的推理平均仅需 0.136ms,十分于每秒 7353 张图像的设想帧速率。

通过将 HG-PIPE 与其他先进遵守开展基准比较,该团队发现这种羼杂粒度活水线遐想在蒙眬量、资源遵守和功率遵守方面有了显耀提高。

李萌和王源也很抖擞地发现,跟着 Transformer 和大模子的宽泛应用,业界也越来越招供这种高度定制化、低蔓延的时间有打算。

包括 Groq、Tenstorrent、Etched 等外洋公司,也齐在秉承类似的遐想念念想。

李萌补充称,他和团队的过往参谋主要面向视觉 Transformer 模子。事实上,类似念念想也能用于擢升大模子和多模态大模子的端侧部署遵守。

不外,大模子存在自总结解码本性和模子限制指数级增长的特色,因此比视觉 Transformer 模子濒临着更大的存储挑战和访存带宽挑战。

是以,课题组的后续参谋将主要面向多模态大模子,即参谋如安在端侧的有限的硬件资源下,通过冲破带宽甩掉和存储甩掉,来擢升大模子的部署遵守。

参考尊府:

1.Guo, Q., Wan, J., Xu, S., Li, M., & Wang, Y. (2024). HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline.arXiv preprint arXiv:2407.17879.

维持:Ren

运营/排版:何晨龙

01/

02/

03/

04/

05/