HelloKitty • 2023-07-05 16:17
2317
本文由 智东西 撰写/授权提供,转载请注明原出处。
文章来源于:智东西
作者:云鹏
编辑:漠影
试想,拥有数十亿、上百亿参数的 AI 大模型直接在你的手机上运行,是一种怎样的体验?
注意,是完全本地化运行,只依赖手机本身的算力。听起来这似乎还有些遥远,但实际上,已经有安卓手机可以完全本地化运行 Stable Diffusion 这样的生成式 AI 应用了。
不久前,移动芯片巨头高通刚刚公开了一段演示视频,演示中,搭载骁龙芯片的手机可以直接运行参数规模超过 10 亿的 Stable Diffusion,且只需要 15 秒左右就可以出图。
▲搭载骁龙芯片的手机运行Stable Diffusion,15秒左右出图,来源:高通
从实际演示结果来看,其性能和精确度的确已经接近云端处理的水平。
可以说,火爆的生成式 AI 变革潮,已经真正开始落地我们最常见、最离不开的智能手机了,而我们每个人的生活,也必将受到生成式AI的深刻影响。
从 ChatGPT 到 Stable Diffusion、Microsoft 365 Copilot,从文心一言到通义千问,OpenAI、微软、谷歌、百度、阿里等国内外各路科技巨头都在开发 AI 大模型以及生成式 AI 应用。
AI 正迎来大爆发时期,就像此前电视、互联网和智能手机的问世,而这种爆发对算力以及计算架构都提出了新的需求。
AI 大模型动辄百亿、千亿的参数,让 AI 训练和推理的成本都显著提升,计算架构需要不断演进并满足生成式 AI 日益增长的处理和性能需求。
在这样的 AI 产业发展大趋势下,近期高通发布了名为《混合 AI 是 AI 的未来》的技术白皮书,在高通看来,AI 处理必须分布在云端和终端进行,才能实现 AI 的规模化扩展并发挥其最大潜能,因此他们提出了“混合 AI 架构”的概念。
智东西等少数业内媒体与高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 进行了近两个小时的深度对话,深入探讨了“混合 AI”在未来生成式AI发展中将起到的关键作用,以及高通在这波生成式 AI 浪潮中,在硬件、软件、算法、生态等方面进行的深入布局。
毫无疑问,终端侧的生成式 AI 时代已经到来,而在未来端云结合的混合 AI 时代,能够提供全套解决方案的玩家必然会成为产业关注的焦点,而高通已然手握不少“秘密武器”,成为 AI 产业中的关键变量。
生成式 AI 浪潮如何催生出“混合AI架构”?
在深入交流中,不论是高通 Ziad Asghar 提出的观点,还是高通技术白皮书的表述,都表明高通对于混合 AI 的未来是坚信不移的,这种自信究竟从何而来?
实际上,虽然近来生成式 AI 发展迅速,但目前大部分应用都只能在云端运行,前不久 ChatGPT 推出了 iOS 版本,但该应用的任务处理仍然是基于云端的。面向更广阔的普通消费市场,科技巨头们要做的事还有很多。
当下生成式 AI 模型对计算基础设施提出了很高的要求,AI 训练和 AI 推理一直受限于大模型的复杂度和庞大规模而部署在云端。
虽然 AI 大模型每年可能只需要训练几次,但模型的推理成本却会随着日活用户数量及其使用频率的增长而显著增加。云端推理的高成本,让生成式 AI 的规模化扩展陷入瓶颈。
在这样的大趋势下,混合 AI 架构无疑是突破这一瓶颈的很好尝试。
“混合”,就意味着云端要和手机、PC、XR 头显、汽车这些终端设备协同工作,而不是单打独斗,混合 AI 架构会根据大模型和查询需求的复杂度,将任务负载以不同方式分配到云端和终端上。
这种混合 AI 架构能带来的优势是很明显的,比如在成本、能耗、性能、隐私、安全和个性化等方面,本地化处理的融入都可以带来很多加分项。
成本的节省是最显而易见的,将一些任务处理从云端转移到边缘终端,当然可以减轻云基础设施的压力并减少开支。混合 AI 可以利用的是现在已经应用在每个消费者生活中,数十亿的具备 AI 能力的边缘终端设备,包括我们的智能手机、PC,其规模不容小觑。
并且,在边缘终端运行生成式AI模型的能耗也是要低于云端的。这对于当下各大科技巨头完成各自的可持续发展目标也非常关键。
当然,对于每一位实际用户来说,可靠性、性能和时延方面的改善会对 AI 体验有更直观的影响。因为在自己的设备上运行生成式 AI,不会有大量排队等待和高时延,甚至在没有网络连接的情况下,我们也能正常运行生成式 AI 应用。
最后,我们的查询和个人信息也会被保留在终端上,AI 还会根据我们本地存储的表情、喜好和个性进行定制,进行用户画像,随着时间推移进行学习和演进,从而提供更个性化的服务。这一切都是基于不牺牲隐私的前提下实现的。
整体来看,不论是生成式 AI 规模化发展本身对计算架构提出的要求,还是混合 AI 可以带来的诸多优势特性,混合 AI 的发展,已经成为看得见的未来。高通押宝的混合 AI,已经成为后续 AI 产业发展的重要趋势之一。
背靠数十亿终端,从技术到生态赋能
高通让混合 AI 走入现实
既然认定了混合 AI 的未来,打造足够出色的混合 AI 架构就成为了高通的核心目标之一。真正实现终端和云端的高效配合,实现不同工作负载的合理分配,并不是一件容易的事。
根据高通技术白皮书中的实验数据,目前搭载高通芯片的终端产品,已经可以在终端侧实现比较多种的生成式 AI 功能,而这些功能背后的AI大模型参数规模在 10 亿到 100 亿之间。
▲数量可观的生成式AI模型可从云端分流到终端上运行,来源:高通
正如前文所说,Stable Diffusion 等参数超过 10 亿的模型已经能够在手机上运行,且性能和精确度达到与云端处理类似的水平。
面向未来更多生成式 AI 应用和功能,高通已经在 AI 相关硬件、软件、生态等方面储备了诸多产品和技术,对于混合 AI 架构,高通已经提前布局。
首先在硬件方面,芯片层的 AI 运算处理能力是必要条件,目前高通 AI 引擎是高通在硬件领域的杀手锏之一。
根据官方实验数据,搭载高通 AI 引擎的智能手机,其能效与竞品相比大约有 2 倍左右的优势,以更低功耗提供过硬的终端侧 AI 性能是高通 AI 引擎的一大强项。
▲第二代骁龙8的AI能效与竞品相比较,来源:高通
具体来看,高通 AI 引擎采用了异构计算架构,其包括 Hexagon 处理器、Adreno GPU 和 Kryo CPU,这三个模块都对终端侧运行AI应用进行了针对性优化。
其中 Hexagon 处理器使用了专用的供电系统,可以按照工作负载适配功率,从而提升系统能效比。值得一提的是,Hexagon 处理器支持微切片推理和 INT4 硬件加速,可以在 AI 处理方面实现更高性能、更低的能耗和内存占用。
目前生成式 AI 领域大量应用到 Transformer 模型,Hexagon 处理器可以对 Transformer 进行加速,提升生成式 AI 中一些关键机制的推理速度,根据高通实验数据,在使用 MobileBERT 的特定用例中,AI 性能可以提升 4.35 倍。
虽然在很多人的印象中,高通是一家移动芯片公司,但实际上高通在软件算法方面的积累不容小觑,针对生成式 AI 浪潮,高通在软件技术方面做了不少准备。
高通 AI 软件栈,可以说是高通所有相关 AI 软件产品的“集大成”方案,OEM 厂商们和开发者都可以基于高通 AI 软件栈创建、优化和部署 AI 应用,从而充分利用高通 AI 引擎的性能。
▲高通AI软件栈,来源:高通
同时,AI 开发者只需要创建一次 AI 模型,就可以实现跨不同产品的部署。
此外,高通 AI 软件栈支持 TensorFlow、PyTorch、ONNX 和 Keras 等主流 AI 框架以及 TensorFlowLite、TensorFlow Lite Micro 和 ONNX Runtime 等 runtime。
高通 AI 软件栈集成了推理软件开发包(SDK),比如面向 Android、Linux 和 Windows 不同版本的高通神经网络处理 SDK,高通开发者库和服务也支持最新编程语言、虚拟平台和编译器。
值得一提的是,高通 AI 软件栈一直专注于AI模型效率研究,从而提升 AI 模型运行的能效和性能,这对于生成式 AI 的应用和扩展是至关重要的。
高通通过量化、压缩、条件计算、神经网络架构搜索和编译,在不牺牲太多精度的前提下对 AI 模型进行了缩减。在量化方面,高通将 FP32 模型量化压缩到 INT4 模型,实现了 64 倍内存和计算能效提升。
在生成式 AI 领域,像常见的 GPT、Bloom 以及 LLaMA 这样基于 Transformer 的大语言模型通常会受到内存的限制,而在量化到 8 位或 4 位权重后,这些模型往往能够在运行效率方面获得比较明显的提升。
根据高通实验数据,借助量化感知训练以及更加深入的量化研究,不少生成式 AI 模型可以量化至 INT4 模型,与 INT8 相比,性能提升约为 90%,能效提升在 60% 左右。
除了量化压缩,编译器也是高通 AI 软件栈中的核心组件之一,它的作用也是让 AI 模型高性能、低功耗的运行。
AI 编译器将输入的神经网络转化为可以在目标硬件上运行的代码,同时针对时延、性能和功耗进行优化。
在硬件、软件技术和产品之外,高通在全球化规模以及生态建设方面的优势也成为其推动混合 AI 规模化扩展的关键动力。
目前搭载高通 AI 引擎产品出货量超过 20 亿个,根据市研机构 Counterpoint 数据统计,搭载骁龙和高通平台的已上市用户终端数量规模在数十亿台,并且每年有数亿新终端进入市场。
市研机构 TechInsights 预测,未来高通会以超过 40% 的市场份额保持 AI 智能手机处理器出货量第一,远超苹果公司 25% 的份额以及联发科 24% 的份额。
此外,搭载骁龙平台的已发布 XR 终端已经超过 65 款,其中 Meta、PICO 等头部厂商的旗舰产品均采用的是高通芯片。
可以看到,高通的 AI 能力已经深入数十亿边缘终端设备,形成跨智能手机、汽车、XR、PC、笔记本电脑以及企业级 AI 等现有市场和新兴领域的终端 AI 生态系统。
凭借在软硬件技术实力、全球化规模和生态系统赋能方面的优势,高通正加速让混合 AI 成为现实。
深耕 AI 十五年,提前布局生成式 AI 解密高通的技术底蕴
能够把握住生成式 AI 的浪潮,精准利用优势产品和技术切入赛道,对于每家科技公司来说都不是一件容易的事,对于高通来说同样如此。
正如技术的发展不是一蹴而就、灵光乍现,高通今天的成绩背后,是十余年在 AI 领域的深耕和积累,甚至在生成式 AI 领域,高通已提前多年进行了前瞻性探索。
从 2007 年高通骁龙平台搭载首个 Hexagon 处理器至今,高通深耕 AI 研发已超过 15 年。
▲高通近15年来AI研究重要节点,来源:高通
2015 年,骁龙 820 集成了首个专门面向移动平台的高通 AI 引擎,支持图像、音频和传感器的运算。三年后,骁龙 855 中的 Hexagon 处理器首次加入了张量加速器,其 AI 运算性能及能效比有了显著提升。
2019 年,骁龙 865 开始扩展终端侧AI用例,包含 AI 图片、AI 视频、AI 语音和始终在线的传感器中枢。
实际上,多年来高通一直在推动终端侧 AI 技术的迭代,让感知、推理和行为等核心能力在终端上落地。
除了在终端侧的 AI 研究探索,在学术界,多年来高通的重要 AI 研究论文也在影响着行业,推动高能效 AI 的研究和发展。
▲高通AI研究主要涉及领域,来源:高通
从高通历年发布的 AI 研究论文来看,高通在计算机视觉、无线和射频传感、能源效率、机器学习、音视频和语言处理、数据压缩模型生成、个性化与联邦学习、强化学习、AI 编译器和算法等 AI 前沿基础理论研究领域均有不少研究成果发布。
这些研究在生成式 AI 浪潮中都发挥着重要作用。
值得一提的是,就在最近的 2023 年 CVPR 上,高通再次展示了几项重要研究,包括生成式 AI 在手机端的本地化运行、使用大型语言模型进行健身训练、XR 领域的三维重建等等。
前文中提到的安卓手机本地运行 Stable Diffusion 的演示也成为今年 CVPR 接受的研究之一,此外,高通在 CVPR 上还展示了在安卓手机上完全本地化运行一个 15 亿参数的图像到图像模型——ControlNet。
▲在手机上本地化运行15亿参数的图像到图像模型ControlNet,来源:高通
令人惊讶的是,ControlNet 在高通平台手机上生成图片的速度已经可以达到 12 秒左右,这表明手机本地运行 AI 大模型已经具备了很高的可用性。在这项演示背后,高通 AI 模型增效工具包、高通 AI 软件栈和高通 AI 引擎均发挥了关键作用。
此外,在今年的 CVPR 上高通还展示了全球首个在手机上进行的 1080p 神经网络视频编码。
高通研发的神经编解码器可以根据特定的视频需求进行定制,可以在通用 AI 硬件上运行。根据实际演示视频,在搭载高通芯片的智能手机上,神经编解码器进行视频解码的速度已经达到了 35FPS 左右。
▲在手机上进行的1080p神经网络视频编码,来源:高通
除了在最近的 CVPR 上展示的 AI 研究成果,近年来高通在前沿算法和模型开发领域一直持续迭代自己的技术。
比如面向动作识别领域,传统深度学习模型会逐帧、逐层地处理视频序列,这种计算密集型、高时延、低能效的处理方式显然不适应当下的生成式 AI 任务。
为此高通研发了 FrameExit 模型,该模型具备自主学习能力,针对较简单视频,它可以处理更少帧,而针对较复杂视频,它会处理更多帧,通过这种动态处理方式,模型的性能得以提高,能耗也有所降低。
另外,高通在移动终端上演示了其最新的量化技术和创新的编译器栈。在常用动作识别基准测试平台上,相较于其他方法,高通方案的计算量和平均时延可减少五倍。
此外,高通利用 INT4 模型在终端侧实现了全球首个实时超级分辨率任务处理,与 INT8 相比,INT4 模型的性能和能效提高了1.5倍到2倍。
值得一提的是,多年来,高通AI研究团队也一直在探索生成式 AI。
高通在生成式 AI 领域的研究可追溯到生成式对抗网络(GAN)和变分自编码器(VAE)。
高通利用 VAE 技术创建了更好的视频和语音编解码器,将模型规模控制在 1 亿参数以下,此外,高通将生成式 AI 理念延伸到无线领域来替代信道模型,研发出了更高效的通信系统。
对于如何将生成式 AI 模型用作通用代理来构建计算架构并使用语言来描述相关任务和行为、如何通过增加感知输入提升设备与环境的交互能力等议题,高通均进行了相关研究并取得了一定成果。
可以说,十五年来高通在 AI 领域的深厚积累,已经成为今天他们发力生成式 AI、推进混合 AI 发展的关键技术底蕴。
生成式 AI 席卷全球百业千行
高通为这场“进化”按下加速键
望向不远的将来,随着生成式 AI 技术的快速迭代发展,未来性能强大的生成式 AI 模型会变得更小,与此同时,终端设备的处理能力不断提升。
生成式 AI 融入各类智能终端设备,将成为重要趋势之一,云端与终端相结合的“混合 AI”,也将会成为 A I落地的重要形式之一。
毫无疑问,生成式AI会驱动新一轮内容生成、搜索和生产力相关应用的发展,席卷智能手机、笔记本电脑和 PC、汽车、XR 以及物联网等几乎所有终端品类。
智能手机将成为真正的数字助手,变得知你懂你,能够高效地提供精准的AI服务;笔记本电脑和PC将借助生成式AI是现实生产力的“质变式”升级;XR领域的3D内容创作和沉浸式体验也将迎来革新,AI渲染工具将让创作者生成3D物体和场景,并最终创造出完整的虚拟世界。
▲生成式AI模型面向XR领域赋能对话式AI和渲染工具,来源:高通
作为底层技术和生态构建者的高通,正成为产业中不可或缺的一环。AI 的应用正在迎来一次“进化”,而高通正在为这次革命按下加速键。
结语:生成式 AI 颠覆千行百业
混合 AI 成推动普及的钥匙
今天,生成式 AI 正在颠覆传统的搜索、内容创作和推荐系统的方法,对各行各业产生深刻影响,并在实用性、生产力和娱乐性方面给不少应用带来实质性提升,几乎所有科技公司,都会卷入生成式 AI 的浪潮。
在这样的大趋势下,生成式 AI 会成为主流体验,而云端和终端将协同工作的混合 AI 将成为这种体验的底层保障。百亿甚至千亿规模参数大模型落地终端,也将在不久的将来成为现实。
目前高通在技术、生态以及全球规模化方面的优势相对明显,这也让高通成为生成式 AI 落地终端这股浪潮中的核心产业参与者之一。
未来生成式 AI 会给我们生活带来哪些变革,高通又将通过怎样的技术和产品影响产业,我们拭目以待。
扫码关注公众号
获取更多技术资讯