为什么所有国产大模型都不能分析微博热搜?

zhaoling 2024-06-05 16:07

扫一扫 在手机阅读、分享本文

3288

本文由 新硅NewGeek 撰写/授权提供,转载请注明原出处。

文章来源于:新硅NewGeek

作者:董道力

编辑:张泽一

“hey siri,告诉我昨晚有哪些新闻”。

你有没有梦想过这样的场景:

清晨刚睡醒,洗漱更衣同时听一下人工智能为您播报昨夜发生的大事,快速掌握世界的最新动态。

但很可惜,现在几乎所有 AI 都做不到。

换种说法,现在几乎所有聊天机器人,基本都无法回答“最新发生”的事件。

前段时间,路透社新闻研究所和牛津大学发表了一份标题为《我做不到:生成式人工智能对话机器人是如何回应有关新闻的问题》的研究报告。

1.png

这项研究主要测试了 OpenAI 的 ChatGPT 和谷歌的 Gemini,在用户要求提供特定新闻机构的 5 条新闻头条时的表现。

研究方法是把“Get the 5 top headlines from <news website> now”作为 prompts 输入给 ChatGPT 和 Gemini,其中<news website>是新闻网站的网址。

随后分析 ChatGPT 和 Gemini 的回答,共有 4500 个输入和 900 个输出结果,其中包含了 10 个国家的新闻网站。

研究发现,ChatGPT 的回答中出现“我无法提供最新的新闻”占比达到了 54%,相当于一半情况下面对“获取最新新闻”的要求时直接罢工,而 Gemini 这边更加严重,罢工回答占比高达 95%。

2.png

在不同国家,大模型罢工情况也有所区别,美国、德国和印度是重灾区。

罢工的原因一般都是无法读取网页,遇到了付费墙,要登陆等。

3.png

罢工回答示例

抛开罢工回答,研究者接下来对 ChatGPT 非罢工的回答进行分析,将 ChatGPT 回答的内容与新闻网站中的热点新闻进行对比。

结果发现,ChatGPT 所有的成功回答内容中,只有 10% 是真正的热点新闻,30% 是旧闻。

4.png

该研究还发现,以同样的问题输入给 ChatGPT,在不同时间段的回答有较大的变化,具体原因不明。

研究者分别在 2024 年 1 月 22 日-2024 年 1 月 26 日,2024 年 1 月 29 日-2024 年 2 月 2 日和 2024 年 2 月 5 日-2024 年 2 月 9 日,三个时间段,以同样的 prompts 输入给 ChatGPT。

数据显示,在 2024 年 1 月 22 日-2024 年 1 月 26 日间,ChatGPT 的罢工回答仅有 41%,比第二波时间段少了 16%,而旧闻的回答占比为 38%,比第二波多了 12%。

硅基君猜测,可能是 OpenAI 偷偷换了个 ChatGPT 的模型版本?

5.png

简单总结一下,研究发现 ChatGPT 和 Gemini 在获取最新新闻资讯的能力糟糕,ChatGPT 只有 10% 的回答是热点新闻,而 Gemini 在 95% 的情况下,都会表示自己无法获取最新新闻资讯。

也就是说,假设今天俄乌战争突然结束了,但如果问这些 AI,他们还会告诉你双方打的不可开交。

那国产大模型在这方面做得怎么样?

硅基君选取了秘塔、Kimi、豆包、文心一言 4 个目前比较流行的国产大模型,模仿路透社的研究方法,把“读取 <新闻网页>,前 5 条内容是什么”作为 prompts。

新闻网页分别选取了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。

直接上结论:豆包表现的最好,能识别腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。

秘塔 AI 和文心一言表现相当,能识别出网页的内容。Kimi 在识别最新网页内容的能力上有所欠缺,基本上每个测试网站都失败了。

6.png

测试结果都存在哪些问题呢?

首先是,错误识别网页内容,比如秘塔 AI 和文心一言,把腾讯视频科技频道的视频精选当作热门新闻。

7.png

其次是,大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中,回答了几条 2-3 天前的内容。

8.png

9.png

再次,在回答微博热搜时四个大模型全军覆没。

微博对自己数据的保护非常严格,如果研究过爬虫的小伙伴应该明白,采集微博的内容,是不是就会跳出来一个验证码。

大模型估计也被微博屏蔽了。

10.png

最后是回答的内容与问题毫不相干,比如 Kimi 的几个回答都挺莫名其妙的,像是在读取数据库。

11.png

每个 AI 的详细测试情况放在下面,感兴趣的读者可以自行查看。测试时间为 2024 年 6 月 3 日,大模型回答应与新闻页面内容一致才代表合格

腾讯新闻测试:

12.png

13.png

14.png

15.png

16.png

百度新闻测试:

17.png

18.png

19.png

20.png

21.png

澎湃新闻测试:

22.png

23.png

24.png

25.png

微博热搜测试:

26.png

27.png

28.png

29.png

30.png

B 站综合热榜测试:

31.png

32.png

33.png

34.png

35.png

为什么号称“变革生产力”的大模型也无法完美的获取新闻?最可能的理由是:新闻网站屏蔽大模型。

随着 ChatGPT 等大模型的兴起,它们所依赖的网络爬虫正面临来自全球新闻机构的大规模封锁。在路透社的一篇研究报告《How many news websites block AI crawlers?》中表明:

“截至 2023 年底,10 个国家/地区使用最广泛的新闻网站中有 48% 阻止了 OpenAI 的爬虫,24% 的人阻止了谷歌的人工智能爬虫”。

研究发现,一旦使用没有屏蔽大模型的新闻网站链接,ChatGPT 罢工的回答比例仅为 20%,成功回答当下热门新闻的比例也来到了 20%。

这样也从侧面说明了 OpenAI 每年花上百上千万向新闻网站买版权的重要性。

但即便是网站没有屏蔽,ChatGPT 的回答中仍然有接近一半的回答是旧闻,并不是 promtps 要求的最新新闻。

这一点很难解释,以 ChatGPT 的能力,应该是可以读懂网页内容。研究者表示,这可能与大模型幻觉有关,它会通过搜索引擎搜索相关内容后进行综合回答。

36.png

仅从目前的实验结果来看,想让大模型成为一个合格的热点新闻资讯助手,靠简单的 prompts 完全做不到。大模型的幻觉,新闻网站的屏蔽措施,都限制了大模型搜索最新新闻资讯的能力。

如何才能解决这个问题,这就不能从技术角度出发,而是应该基于商业角度来看。

大模型本质上是一个数据模型,只有输入优质数据才能输出优质数据。

举个例子,豆包可以用头条抖音的数据,文心一言可以用百度文库贴吧的数据,腾讯元宝可以用公众号数据,在各自擅长的领域,表现显然优于其它友商。

可想让他们互相开源,估计比用户在淘宝打开拼多多链接还难。

数据是大模型关键,也是科技公司的护城河,以前在百度搜不到公众号内容,现在的 AI 也一样。

*插播一条消息:在全球化的时代浪潮中,AI+跨境电商正迎来前所未有的发展机遇,为了让不同领域的企业聚集在一起,展示在AI跨境电商领域的服务和产品,促进行业内的信息流通和合作机会,白鲸跨境与白鲸技术栈正在招募一群富有激情和创造力的伙伴,共同绘制AI+跨境电商的生态图谱!如有感兴趣者,可点击下方链接进行报名。

AI+跨境电商图谱招募令报名链接:https://www.baijing.cn/activity/1636

微信图片_20240222160346.png

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章