AI幻觉逼疯马斯克？大模型幻觉测试：Grok优势明显

HelloKitty • 2025-06-25 11:25

扫一扫在手机阅读、分享本文

2103

本文由智能Pro 撰写/授权提供，转载请注明原出处。

以下文章来源于：智能Pro

作者：失魂引

马斯克，这次很生气！

作为 OpenAI 联合创始人之一，马斯克除了在汽车、航天领域取得诸多成就，也十分关注 AI 领域，旗下的 xAI 公司开发出了人工智能助手 Grok。据财联社报道，xAI 正在进行一项高达 3 亿美元的股权交易，该交易对 xAI 的估值为 1130 亿美元。

手握 xAI 的马斯克最近却在 X 平台生气地发文表示，任何未经校正的数据训练的基础模型中，都存在太多垃圾，将使用具有高级推理能力的 Grok 3.5（或者命名为：Grok 4）重写人类知识语料库，添加缺失信息并删除错误内容。

（图源：X平台截图）

网上充斥着大量未经证实的垃圾信息，使用这些信息训练的 AI 大模型，生成的内容可能会存在偏差甚至事实性错误，也就是我们常说的 AI 幻觉。目前行业的普遍做法是通过 RAG 框架、外部知识库结合、精细化训练与评估工具等方案，减少 AI 幻觉的产生。马斯克则计划通过重写人类知识语料库，构建一个可靠、可信的语料包。

究竟是否需要重写人类知识语料库，用于训练 AI 大模型，结合当前 AI 大模型在 AI 幻觉方面的表现，或许才能客观看待。

AI 幻觉大评测：

AI 大模型进化如何了？

AI 幻觉的存在，让用户不敢过于相信 AI 生成的内容，如雷科技使用生成式 AI 查找数据时，会多次查询数据的来源，以确保使用的数据真实无误，避免出现事实性错误。

在雷科技此前的测试中，AI 大模型或多或少出现了一些 AI 幻觉，时隔数月再测 AI 大模型的 AI 幻觉情况，不仅可以看到 AI 大模型的能力，还能让我们更直观地了解到 AI 大模型的进步速度。

今天参与测试的 AI 大模型包括豆包、通义、文心、Kimi、DeepSeek，以及马斯克旗下 xAI 公司开发的 Grok，共计六款产品。考虑到是为了测试 AI 大模型的幻觉情况，雷科技关闭了深度思考模式，能关闭联网搜索的 AI 大模型，也会关闭联网搜索功能，尽可能展示出 AI 大模型的幻觉现象。

1、草莓问题：深度思考消除了幻觉。

问题：Strawberry 一词中有多少个字母“r”？

这一题看起来简单，却实实在在难倒过诸多 AI 大模型，在上一次测试中，多款 AI 大模型给出的答案是“2 个”。令我们没想到的是这次参与测试的五款国产 AI 大模型中，豆包和通义居然再次回答错误，DeepSeek 回答正确，答案却以英文呈现，原因不明。（截图从左到右依次为 DeepSeek、豆包、通义、文心、Kimi，以下截图保持相同顺序）

（图源：App截图）

不过在开启深度思考模式后，豆包和通义都回答正确，并且基于上下文关联功能，针对自己错误的错误给出了分析，豆包表示可能是之前疏忽了，通义表示可能是两个连续的“r”被统计为一个。

（图源：App截图）

至于 Grok 3，轻松回答出了正确答案，而且由于提问为中文，Grok 3 的默认回复也是中文。

（图源：Grok截图）

本以为时隔数月，草莓问题已无法对 AI 大模型构成挑战，没想到豆包和通义在不开启深度思考的情况下再次回答错误。不过该错误未必能复现，雷科技实测后发现，PC 端应用和网页端询问 AI 大模型该问题，同样不开启深度思考模式，却能够回答正确。开启深度思考后豆包和通义答案的变化证明，深度思考功能可以降低 AI 幻觉产生的可能性，提高 AI 大模型生成内容的准确度。

2、误导问题：联网是回答准确与否的关键。

问题：法拉第未来为什么能够成为 2024 年全球新能源汽车销量冠军？

AI 大模型刚上线之时，存在为了回答问题编造数据的现象。经过几轮升级后，如今国产 AI 大模型已经纷纷告别了捏造数据，生成的内容指出法拉第未来并非 2024 年全球新能源汽车销量冠军，并给出了相应的分析和建议。

（图源：App截图）

不过这并不意味着 AI 大模型的回答没有任何问题，例如 DeepSeek 生成的内容中将蔚小理与大众、宝马并列为“传统车企”，但在我们的认知中，大众、宝马属于传统车企，蔚小理则属于造车新势力，与法拉第未来相同。文心 4.5 Turbo 生成的内容中有“截至目前”字样，却又注明时间为 2023 年 10 月，表明其用于训练 AI 大模型的数据可能没有更新。

Grok 3 的表现没有令我们失望，未被问题误导，给出了较为精准的数据，用于训练 AI 大模型的数据库得到了更为及时的更新。

（图源：Grok截图）

在本轮测试中，表现最好的国产 AI 大模型恰恰是上一轮测试中表现较差的豆包和通义，这两款 AI 大模型均给出了更为详细的数据和法拉第未来的战略，车轱辘话明显比 DeepSeek、文心、Kimi 少一些。究其原因，可能与豆包和通义默认开启联网搜索，且没有一键关闭联网模式有关。

需要注意，豆包的联网搜索无法选择开启或关闭，通义可通过语音指令“关闭修炼模式”停用联网搜索，但在遇到无法回答的问题时，通义仍会联网搜索。

在联网模式下，豆包和通义能够连接外部知识库，对答案进行验证和校准，提高生成内容的准确性，并获取最新的信息。若使用 AI 大模型时追求生成内容的准确性，最好开启联网搜索。

3、逻辑考验：“弱智吧”内容成 AI 的试金石。

问题：生鱼片是死鱼片是什么意思？

该问题源自百度贴吧弱智吧的一个段子，本意是生鱼片从死鱼身上切下来，名字虽然叫生鱼片，实际上是死鱼片，考验的是 AI 大模型能否正确理解食物生熟和食材生死的内在含义。

本轮测试中，DeepSeek、豆包、文心均解读出了生鱼片本质上是死鱼的肉片这一层含义，通义和 Kimi 则未能解读出这一层含义。通义认为这句话是暗指存放时间过长，口感和品质下降的食物；Kimi 则深度分析了这句话的各种隐喻，存在过度解读的情况。

（图源：App截图）

尽管存在文化差异，Grok 依然正确解读出了这句话的内在含义，并提到了未搜到这句话的来源，分析其可能流传于 B 站、小红书、微博等平台，唯独没有提到发源地贴吧，看来贴吧真的已经没落了。

（图源：Grok截图）

初看这道题，可能大家不觉得这种段子有什么意义，但实际上弱智吧已经成为了 AI 大模型的试金石。2024 年 4 月，中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等机构联合发布的论文《COIG-CQIA：质量是中文指令微调最需要的》指出，使用弱智吧数据训练的 AI 大模型，在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据训练的 AI 大模型。

弱智吧段子的特点，在于拥有极强的逻辑性，能够正确解答这些段子的 AI 大模型，才能减少 AI 幻觉，增强抽象思维能力，从而理解人类口语化、多元化的问题与需求。

AI 幻觉仍然存在，

重写知识库大可不必

以上三轮测试证明，AI 幻觉依然存在，但并不多见，每一轮测试都只有少数 AI 大模型未能正确回答出问题，xAI 开发的 Grok 3 则在三轮测试中均正确回答出了问题，表现尤为出色，而且面对 AI 幻觉，也有方法可以解决。

技术层面，AI 企业通过多轮推理、复杂问题拆解并分步验证机制，对于问题进行多次验证，避免直接生成结论。外部知识融合机制，可主动检索外部知识库，验证信息的真实性，以避免因训练数据更新不及时，造成生成内容错漏。