分享好友 最新动态首页 最新动态分类 切换频道
Arm Ethos-U85 NPU:利用小语言模型在边缘侧实现生成式 AI
2025-03-02 23:51

随着人工智能 (AI) 的演进,利用小语言模型 (SLM) 在嵌入式设备上执行 AI 工作负载成为业界关注的焦点。Llama、Gemma 和 Phi3 等小语言模型,凭借其出色的成本效益、高效率以及在算力受限设备上的易部署性,赢得了广泛认可。Arm 预计这类模型的数量将在 2025 年继续增长。

Arm 技术以其高性能与低功耗的显著优势,为小语言模型提供了理想的运行环境,能够有效提升运行效率,并进一步优化用户体验。为了直观展示端点 AI 在物联网和边缘计算领域的巨大潜力,Arm技术团队近期打造了一场技术演示。在演示中,当用户输入一个句子后,系统将基于该句扩展生成一个儿童故事。这项演示受到了微软 “Tiny Stories” 论文和 Andrej Karpathy 的 TinyLlama2 项目的启发,TinyLlama2 项目使用了 2,100 万个故事来训练小语言模型生成文本。

该演示搭载了 Arm Ethos-U85 NPU,并在嵌入式硬件上运行小语言模型。尽管大语言模型 (LLM) 更加广为人知,但由于小语言模型能够以更少的资源和较低的成本提供出色的性能,而且训练起来也更为简易且成本更低,因此越来越受到关注。

在嵌入式硬件上实现基于 Transformer 的小语言模型

Arm 的演示展示了 Ethos-U85 作为一个小型低功耗平台,具备运行生成式 AI 的能力,并凸显了小语言模型在特定领域中的出色表现。TinyLlama2 模型相较 Meta 等公司的大模型更为简化,很适合用于展示 Ethos-U85 的 AI 性能,可作为端点 AI 工作负载的理想之选。

为开发此演示,Arm 进行了大量建模工作,包括创建一个全整数的 INT8(和 INT8x16)TinyLlama2 模型,并将其转换为适合 Ethos-U85 限制的固定形状 TensorFlow Lite 格式。

Arm 的量化方法表明,全整数语言模型在取得高准确度和输出质量之间实现了良好平衡。通过量化激活、归一化函数和矩阵乘法,Arm 无需进行浮点运算。由于浮点运算在芯片面积和能耗方面成本较高,这对于资源受限的嵌入式设备来说是一个关键考量。

Ethos-U85 在 FPGA 平台上以 32 MHz 的频率运行语言模型,其文本生成速度可达到每秒 7.5 到 8 个词元 (token),与人类的阅读速度相当,同时仅消耗四分之一的计算资源。在实际应用的系统级芯片 (SoC) 上,该性能最多可提高十倍,从而显著提升了边缘侧 AI 的处理速度和能效。

儿童故事生成特性采用了 Llama2 的开源版本,并结合了 Ethos NPU 后端,在 TFLite Micro 上运行演示。大部分推理逻辑以 C++ 语言在应用层编写,并通过优化上下文窗口内容,提高了故事的连贯性,确保 AI 能够流畅地讲述故事。

由于硬件限制,团队需要对 Llama2 模型进行适配,以确保其在 Ethos-U85 NPU 上高效运行,这要求对性能和准确性进行仔细考量。INT8 和 INT16 混合量化技术展示了全整数模型的潜力,这有利于 AI 社区更积极地针对边缘侧设备优化生成式模型,并推动神经网络在如 Ethos-U85 等高能效平台上的广泛应用。

Arm Ethos-U85 彰显卓越性能

Ethos-U85 的乘法累加 (MAC) 单元可以从 128 个扩展至 2,048 个,与前一代产品 Ethos-U65 相比,其能效提高了 20%。另外相较上一代产品,Ethos-U85 的一个显著特点是能够原生支持 Transformer 网络。

Ethos-U85 支持使用前代 Ethos-U NPU 的合作伙伴能够实现无缝迁移,并充分利用其在基于 Arm 架构的机器学习 (ML) 工具上的既有投资。凭借其卓越能效和出色性能,Ethos-U85 正愈发受到开发者青睐。

如果在芯片上采用 2,048 个 MAC 配置,Ethos-U85 可以实现 4 TOPS 的性能。在演示中,Arm 使用了较小的配置,即在 FPGA 平台上采用 512 个 MAC,并以 32 MHz 的频率运行具有 1,500 万个参数的 TinyLlama2 小语言模型。

这一能力凸显了将 AI 直接嵌入设备的可能性。尽管内存有限(320 KB SRAM 用于缓存,32 MB 用于存储),Ethos-U85 仍能高效处理此类工作负载,为小语言模型和其他 AI 应用在深度嵌入式系统中的广泛应用奠定了基础。

将生成式 AI 引入嵌入式设备

开发者需要更加先进的工具来应对边缘侧 AI 的复杂性。Arm 通过推出 Ethos-U85,并支持基于 Transformer 的模型,致力于满足这一需求。随着边缘侧 AI 在嵌入式应用中的重要性日益增加,Ethos-U85 正在推动从语言模型到高级视觉任务等各种新用例的实现。

Ethos-U85 NPU 提供了创新前沿解决方案所需的卓越性能和出色能效。Arm 的演示显示了将生成式 AI 引入嵌入式设备的重要进展,并凸显了在 Arm 平台上部署小语言模型便捷可行。

最新文章
手机电池寿命一般几年手机电池一般能用几年「手机电池寿命一般几年」
  智能手机时代,我们的生活离不开手机,电没了就得充,每天一充甚至好几充这是少不了的事,随着时间的推移,电池也在老化,那电池到底能用多久呢,到底需不需要换新呢?  我们都知道现在的手机几乎都是内置电池,那就意味着如果需要更
vue中输入框事件的使用及数值校验方式手机号英文「vue中输入框事件的使用及数值校验方式」
最近做项目,用到vue去监听输入框当中值,并且去校验值的正确性,我们都知道 vue 当中 主要监听输入框的方法有四个:input change blur keyup.enter他们都可以使用@+xxxx=在vue当中定义的方法,去引用实现,然后利用v-model去绑定data当中
提额度、降利率、扩范围!蚌埠公积金优化新政……
为发挥住房公积金制度住房保障作用,更好满足住房公积金缴存人刚性和改善性住房需求,促进房地产市场平稳健康发展,结合我市实际情况,拟进一步优化制定住房公积金使用政策。现将有关事项通知如下:一、降低二次使用住房公积金贷款首付比例
37条干货!市场监管总局出实招
在破除壁垒、推动公平竞争方面,要推动实施《公平竞争审查条例实施办法》,保障各类经营主体公平竞争。完善经营者集中监管规则体系,从增强透明度、健全分类分级审查制度、提高便利度等方面,帮助民营企业更精准地识别竞争合规风险,激发民
A股港股跌幅收窄 | 大鱼财经
4月7日下午,在经历早盘和午盘初期的剧烈下跌后,14:30左右,A股和港股均出现了一定的反弹迹象,跌幅有所收窄。尽管市场整体仍处于下行通道,但午后这一变化引发了投资者的关注。 A股市场方面,早盘一度跌超14%的创业板指在午后跌幅收窄至1
苹果iOS 19适配机型曝光:这几个手机更新不了了
苹果公司即将迎来一年一度的全球开发者大会,本次大会的重头戏无疑是即将亮相的iOS 19操作系统。据多方消息透露,iOS 19在设计语言上将迎来重大变革,深度借鉴苹果Vision Pro的操作系统visionOS的视觉风格,为用户带来耳目一新的使用体验。
宁夏利通区实施农村高额彩礼专项治理行动
近年来,宁夏回族自治区吴忠市利通区聚焦高额彩礼、人情攀比、大操大办等突出问题,实施农村高额彩礼专项治理“八项行动”,通过选树“低、零彩礼”示范户、开展“沾泥土”的移风易俗宣讲、发放惠农补贴、签订移风易俗承诺书等具体举措,推
《无限暖暖》又给开放世界泼了一盆冷水手机玩家「《无限暖暖》又给开放世界泼了一盆冷水」
文 |壹娱观察 大娱乐家当《无限暖暖》以比《黑神话:悟空》更高的IGN的评分登陆各大平台时,似乎预示着这款野心勃勃的换装手游似乎成功转型为了一款真正的开放世界大作。然而,随着游戏上线,玩家开始深入体验,一个尴尬的现实逐渐浮出水面
八成白领患手机依赖症 染上指尖上的“毒瘾”手机依赖症「八成白领患手机依赖症 染上指尖上的“毒瘾”」
无论走到哪里,小简都会将手机握在手里,就连过马路等红灯,吃饭等上菜的空隙,她都要刷几下手机屏幕,看看微信朋友圈有什么动态,QQ有没有留言。在使用智能机前,小简的手机只是用来接打电话或发短信的。“自从用了智能手机,我一定得时刻
手机显示剪贴板怎么回事手机剪贴板「手机显示剪贴板怎么回事」
因为你长按复制过文字或者消息什么的,只要你点击了输入框就会提示你粘贴手机剪贴板可按如下操作清空:1、长按信息文本输入框位置,会出现粘贴和剪贴板选项,2、点击剪贴板,有清除字样,3、点击清除即可全部清除剪贴板中的内容。(若剪贴
相关文章
推荐文章
发表评论
0评