HelloKitty • 2025-08-14 15:09
354
本文由 硅星人Pro 撰写/授权提供,转载请注明原出处。
以下文章来源于:硅星人Pro
作者:Yoky
8 月 5 日,阿里巴巴通义千问团队今天正式开源了 Qwen-Image 文生图模型,该模型采用 20B 参数的 MMDiT 主干、7B 参数的 VLM 文本编码器和 127M 参数的 VAE 架构,专门针对中文复杂排版与高精度图像编辑进行优化。
新模型一出,开发者们一边惊叹“海报自由终于实现了”,一边也开始疑惑:“开源了 Qwen-Image,是不是和万相系列模型功能重复了?”
实际上,在 Qwen-Image 的技术报告中,Qwen 团队明确阐述了与 Wan 系列的差异定位。Qwen-Image 专门针对图像中的文字渲染进行了特定优化,尤其擅长海报设计等需要精确文本表现的场景,而 Wan 系列则采用更全面均衡的技术路线,重点覆盖视频生成和编辑能力。
更有趣的是,这次发布让不少人意识到,除了广为人知的 Qwen 系列,阿里竟然还有如此庞大的模型家族。据统计,阿里迄今已开源 200 余款模型,覆盖文本、视觉、语音、视频、3D、代码等全模态领域,参数规模从 0.5B 到 110B 不等。
这些模型并非各自为政,而是体现了清晰的分工架构。Qwen 团队作为核心力量,不仅包含语言模型的各个版本,还推出了专门的推理模型;图像和视频模型主要由 Wan 团队负责;而类似于 OpenAI DeepResearch 功能的 WebSearch 模型则来自 AlibabaLab。
那么除了已经广受关注的 Qwen 系列,阿里还有哪些值得开发者关注的开源珍品?让我们来逐一盘点。
Wan 万相系列
通义万相(Wan)同样是阿里通义实验室研发的视觉生成模型,专门负责视觉内容生成任务。该系列模型覆盖文生图、图生图、文生视频、图生视频、首尾帧生视频等多种生成能力,主要应用场景包括影视创作、动画设计、广告设计等领域。
2024 年 2 月,通义万相视频生成模型正式开源,成为业界首个开源的大规模视频生成模型,这一举措直接降低了企业和开发者进入视频生成领域的门槛。开源后的表现也相当亮眼——迅速登顶Hugging Face模型热榜和模型空间榜两大榜单,成为当时全球开源社区最受欢迎的大模型。
Wan 系列的开源历程可以追溯到 2024 年 2 月,当时通义万相视频生成模型正式开源,成为业界首批开源的视频生成模型之一。此后该系列保持了较快的迭代节奏,目前在 HuggingFace 中开源了 20 款模型,覆盖各个参数和类型。
所有开源版本均采用 Apache 2.0 协议,开发者可以在 GitHub、HuggingFace 和魔搭社区等平台获取完整的推理代码和模型权重。根据公开数据,截至目前 Wan 系列模型总下载量已超过 350 万次,GitHub 项目获得超过 13k 星标。
从刚刚发布的 Qwen-Image 技术报告来看,阿里在 AI 模型布局上展现了更加清晰的分工策略。虽然同属通义大家族,但 Qwen-Image 与通义万相 Wan 系列走的是完全不同的技术路线。
Qwen-Image 的核心亮点在于“复杂文本渲染”能力,特别是对中文文字的精准处理。从技术架构上看,它采用了 20B 参数的 MMDiT 主干、7B 参数的 VLM 文本编码器和 127M 参数的 VAE,并设计了专门的 MSRoPE(多模态可扩展旋转位置编码)来处理图像和文本的联合位置信息。这种设计让模型能够在生成的图像中准确渲染多行文本、段落级语义和精细细节。
相比之下,通义万相 Wan 系列定位为“视频为中心”的视觉生成基座,采用时空统一的扩散 Transformer 框架,同时覆盖文生图、文生视频、图生视频等八类任务,产品矩阵从 1.3B 到 27B 参数规模不等。虽然 Wan 也具备文生图能力,但其重心明显在视频生成和编辑上。
从实际应用角度看,两个系列形成了很好的互补关系。Qwen-Image 更适合需要精确文字渲染的场景,比如海报设计、文档生成、多语言内容创作等,特别是涉及中文复杂排版的专业应用。而Wan系列则更适合视频内容创作、动画制作、影视后期等需要时序一致性的场景。
值得注意的是,虽然都属于通义大家族,但 Qwen-Image 由通义千问团队开发,而通义万相 Wan 则由独立的通义万相实验室主导。该团队专注于视觉生成技术。从产品策略来看,Wan系列采用了相对激进的开源策略,不仅开源模型权重,还提供完整的推理代码,这在一定程度上降低了企业和开发者使用视频生成技术的门槛。
与阿里内部的其他模型相比,Wan 系列专门负责视觉生成领域,与主要处理文本和多模态理解的 Qwen 系列形成了功能上的互补。
Alibaba-NLP 团队的 Web 系
如果说通义万相 Wan 系列还算是备受关注的明星模型,那么 WebSailor 系列简直可以称为“沧海遗珠”。
WebSailor 的定位直指 OpenAI 的 DeepResearch 功能,专门解决复杂网络检索和推理任务。与传统的搜索引擎或简单问答系统不同,WebSailor 面对的是那些需要跨多个网页收集线索、进行多步推理才能解答的高难度问题。
比如“找一首与南美某首都密切相关的乐曲,其歌词作者在 21 世纪初获颁当地荣誉称号,其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?”这类问题不仅考验AI的信息检索能力,更考验其逻辑推理和信息整合能力。
在今年 4 月 OpenAI 发布的 BrowseComp 评测集上,WebSailor 交出了令人惊艳的成绩单。这个包含 1266 个高难度问题的评测集被业界公认为最具挑战性的网络智能体基准之一,而 WebSailor 不仅在开源模型中实现了断层领先,甚至超越了多个闭源模型,仅次于 OpenAI 的 DeepResearch。
WebSailor 的硬实力,来源于它背后的团队:Alibaba-NLP。它并不隶属于通义,研究力量主要分布在达摩院语言技术实验室和通义实验室两条线,前者专注于低资源多语言理解与生成、AliceMind 系列模型等基础研究,后者则由孙常龙带领的NLP应用算法团队主导,专注于大模型应用落地,包括 RAG、Agent 等前沿领域。
这两大实验室在学术界同样表现不俗,近三年在 ACL/EMNLP/AAAI 等顶级会议累计发表论文 250 余篇,在 ACL 2023 获得杰出论文奖 2 次,在 SemEval 22/23 连续获得最佳论文奖。这种深厚的学术底蕴为 WebSailor 等应用型模型提供了坚实的理论基础。
目前,Alibaba-NLP 已经发布了 48 款开源模型(比 Wan 还要多),包括 WebWalker、WebDancer 和 WebSailor 三个检索和推理智能体,并全部斩获 SOTA 成绩,形成了完整的网络智能体产品矩阵。
其他零散的模型
除了已经比较成体系的模型系列以外,还有一些单个的模型,比如来自通义 Lab 的 ThinkSound,它并不属于 Qwen 系列,而是一个音频模型,它是一个“带脑子”的音频生成模型——它先像人类音效师一样“想清楚”画面里该有什么声音,再一次性合成高保真、零错位的空间音频。
ThinkSound 首次把 Chain-of-Thought 引入声音生成:先用多模态大语言模型逐帧推理“画面里发生了什么、该有什么声音、音量方位如何”,再交给统一的扩散网络一次性合成 48 kHz、立体声、带空间定位的高保真波形,真正做到“看懂画面再配音”。模型支持 Any2Audio——视频、纯文本、音频片段或任意混合输入均可输出同步音轨;也支持对象级交互编辑,用户点画面里的猫或输入“让雨声大一点”即可局部重生成。
技术栈上,ThinkSound 提供 1.3 B/724 M/533 M 三个量级,全部 Apache 2.0 协议,单张 RTX 4090 就能给 720 P 视频实时配音。官方在 VGGSound、MovieGen Audio Bench 等公开基准上领先现有方案 15 % 以上,并发布了 2531.8 小时的 AudioCoT 训练集,含人工校验的“事件-声源-物理属性-时序”四元组标注,覆盖动物、机械、城市、自然等 1000 + 场景。
另外还有一些更加垂直的模型,比如AMAP-ML团队推出的地图模型。AMAP-ML 是高德地图 AI 中台面向“空间智能”打造的开源模型与工具链,2025 年 7 月在 GitHub 一次性放出 14 个仓库。核心目标是把高德 20 年积累的路网、街景、交通、POI、定位数据,蒸馏成可即插即用的空间大模型。
目前公开的三条主线:RealQA 用多模态大模型给图像质量与美感打分,FLUX-Text 支持 512×512 起的高保真场景文字编辑,海报、路牌一键改字;UniVG-R1 则是推理引导的视觉定位模型,一句话即可在复杂场景中精准框出目标。
底层还提供时空向量底座,把道路、建筑、实时车流全部向量化,封装成 RESTful API,汽车、机器人、AR 眼镜均可调用。官方已与多家车企座舱、低空飞行器完成落地,实现“AMAP-AI Inside”。整站 Apache 2.0 协议,单卡 4090 即可跑通,让任何开发者都能在自己的硬件里拥有“高德级”空间感知能力。
盘点完阿里的 AI 模型家族,最令人印象深刻的并非某个单一模型的性能突破,而是其坚定不移的开源策略。从 Qwen 系列到 Wan 系列,再到相对低调的 WebSailor,几乎所有核心技术都选择了完全开源,不同于一些公司仅开源部分能力或附加诸多限制条件,阿里各个技术团队都在践行真正的开源准则。
这种“真开源”的战略,似乎已经贯彻到了整个阿里巴巴,在 Meta 逐步放弃 Llama 系列模型的当下,阿里成了全球范围内,最拥护开源战略的巨头公司。
扫码关注公众号
获取更多技术资讯