零一万物最新发声：不涉及套壳、抄袭，权威榜单排名直追GPT-4

HelloKitty • 2023-12-13 17:33

扫一扫在手机阅读、分享本文

2887

本文由 DoNews 撰写/授权提供，转载请注明原出处。

文章来源于：DoNews

作者：李信马

编辑：杨博丞

时隔近一个月之后，零一万物再次发声。

此前，由李开复创办的 AI 独角兽零一万物，在 11 月 6 日正式发布了首款开源中英双语大模型——Yi。

不过在原阿里技术副总裁、深度学习框架 Caffe 发明者贾扬清暗指某国内大厂新模型套壳 LLaMA 架构后，零一万物受到波及，陷入了“套壳”风波。LLaMA 是 Meta 创建的大语言模型，在今年 7 月发布并完全开源。曾有开发者表示，除了两个张量被重命名外，Yi 完全使用了 LLaMA 的架构。

面对质疑，在 11 月 15 日，零一万物官微发布了《零一万物对 Yi-34B 训练过程的说明》，其中提到“大模型持续发展与寻求突破口的核心点不仅在于架构，而是在于训练得到的参数”。零一万物在训练模型过程中，沿用了 GPT/LLaMA 的基本架构，得以快速起步，对开发者也更友好。Yi-34B 和 Yi-6B 模型则是零一万物从 0 开始训练的，并做了大量原创性的优化和突破工作。

至于沿用 LLaMA 部分推理代码经实验更名后的疏忽，原始出发点是为了充分测试模型，执行对比实验，对部分推理参数进行了重新命名，并非为了刻意隐瞒。

图片来源：零一万物

今日，零一万物对 DoNews 表示，公司内部经过几个周的国际国内法律研判，已经确认完全不涉及套壳、抄袭，并给出了进一步的澄清。

Eric Hartford 就是本次风波的起点之一，在 Yi-34B 开源发布后，他向官方发出邮件：“感谢你们提供了一个优秀的模型。Yi 模型使用了与 LLaMA 模型完全相同的架构，只是将两个张量改了名字。由于围绕 LLaMA 架构有很多投资和工具，保持张量名称的一致性是有价值的。”

之后，零一万物接受了 Eric 建议，很快在各开源平台重新提交模型及代码，完成了开源社区的版本更新。虽然依旧在国内引起了风波，但 Eric 却自发且不遗余力为 Yi 辩护，并在 X（twitter）上写道：“他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物，已经发表在论文中，任何人都可以自由使用，这丝毫不减损 Yi 团队的成就。他们从零开始使用自己创建的数据集训练 Yi，对开源领域的贡献是值得赞扬的。”

图片来源：X

值得一提的是，选择在一个月后再次发声，还有一个原因是，近期零一万物在多个榜单上凭实力 “扬眉吐气”。

11 月 24 日，Yi-34B-Chat 微调模型开源上线，在斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 中，Yi-34B-Chat 以 94.08% 的胜率，超越 LLaMA2 Chat 70B、Claude 2、ChatGPT，成为经由 Alpaca 官方认证的，全球仅次 GPT-4 英语能力的大语言模型。

AlpacaEval Leaderboard排行榜（发布于2023年12月7日）图片来源：零一万物

在加州大学伯克利分校主导的 LMSYS ORG 排行榜中，Yi-34B-Chat 也以 1102 的Elo评分，晋升最新开源 SOTA 开源模型之列，性能表现追平GPT-3.5。而且，伯克利 LMSYS ORG 排行榜采用的是接近用户体感的“聊天机器人竞技场”特殊测评模式，让众多大语言模型在评测平台随机进行比试，通过众筹真实用户来进行线上实时盲测和匿名投票。LMSYS ORG 在 12 月 8 日官宣 11 月份总排行时评价：“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5”。

LMSYS ORG榜单（发布于2023年12月8日）
图片来源：零一万物

在中文能力方面，11 月底发布的《SuperCLUE 中文大模型基准评测报告 2023》中，Yi-34B Chat 迅速晋升到“卓越领导者”象限，在“SuperCLUE 大模型对战胜率” 这项关键指标上，Yi-34B-Chat 取得 31.82% 的胜率，仅次于 GPT4-Turbo。

中文SuperCLUE排行榜（发布于2023年11月28日）
图片来源：零一万物

目前，Yi 模型在 Hugging Face 社区下载量为 16.8 万，魔搭社区下载量 1.2 万。在 GitHub 获得超过 4900 个 Stars。多家知名公司和机构也推出了基于Yi模型基座的微调模型，比如猎豹旗下的猎户星空公司推出的 OrionStar-Yi-34B-Chat 模型，南方科技大学和粤港澳大湾区数字经济研究院认知计算与自然语言研究中心联合发布的 SUS-Chat-34B 等，AMD 和 Hugging Face 合作的 GPU 加速大模型的实验中，也选择了 Yi-6B 作为范例项目。

知名技术写作者苏洋表示，在他观察的近期 Hugging Face 榜单中，前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型，原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个，“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”

随着新成就的不断取得，和更多开发者与权威机构的认可，外界对零一万物的质疑，想必也会逐渐平息。除了表现出的硬实力外，也期待，零一万物能在应用落地方面，创造出更多的价值。

微信图片_20231212170554.png