为了让AI替你上班,我们实测了两款爆火的长文本AI工具

HelloKitty 2023-10-31 17:42

扫一扫 在手机阅读、分享本文

4951

本文由 头号AI玩家 撰写/授权提供,转载请注明原出处。

文章来源于:头号AI玩家

作者:石濑

编辑:卷毛

AI 的“记忆力”越来越好了!

过去,如果你把一份长文本粘贴到 ChatGPT 对话框,或者忍不住和它多聊了两句,它会告诉你“文本过长,请开个对话框重新聊。”

1.png

如今只需把文件传给 AI,就能在几分钟之内完成多个长文本的总结、检索和提取。

2.png

或者直接丢一个网址链接,让 AI 模仿你最喜欢的原神角色,轻松实现超长多轮对话聊天。

3.gif

以上两款长文本 AI 工具,一个是出自国外 Anthropic 公司的 Claude;另一个则是国内 MoonshotAI 公司的 KimiChat。

虽然远隔重洋,但两家初创公司不约而同地把赌注押在了大模型的长文本能力上,近期又都动作不断,Anthropic 先后从亚马逊、谷歌等巨头手中拿到了巨额融资,旗下被誉为“ChatGPT 最强竞品”的 Claude2 上线全球 95 个国家和地区;

而之前一直很低调的 MoonshotAI,10 月初上线了首个智能助手产品 KimiChat,称把大模型上下文输入长度提升到了 20 万汉字。

目前,Claude2 可以通过官方测试网站或 Poe 免费体验(每天有一定额度),KimiChat 也开放了内测通道,申请拿到权限后即可使用。

4.png

长文本能力加持下的 AI 工具,实际应用优势在哪里?都是主打“长文本”,Claude2 和 KimiChat 谁更好用?“头号 AI 玩家”拿到 KimiChat 的内测资格,第一时间对两家产品测评了一番。

看不完的报告论文,AI 为你“量子速读”

大家最为熟悉的免费版 ChatGPT,即 ChatGPT3.5 处理长文本一般需要写“咒语”引导并分段上传。

即便付费使用的 GPT4,处理上下文 token 最多也才 32K,而 Claude2 直接扩展到了 100K(约 7.5 万个单词),翻了三倍不止。

多的三倍文本量能用来做什么?

不止内容创作者,像律师、分析师、咨询师、市场营销员等职业在日常工作中也都离不开大量报告、文件、论文的整理。

5.png

比如,39 页的全英文资料总结,放在以前只能写 prompt 一段一段投喂 AI,还要面临 ChatGPT 随时“失忆”的风险。现在直接上传文件到 Claude2,或是 KimiChat,简单输入需求就能让 AI 替你工作。

6.png

MoonshotAI 称,KimiChat 实际使用效果能够支持约 20 万汉字的上下文,2.5 倍于 Anthropic 公司的 Claude-100k(实测约 8 万字)。

考虑到实际工作中报告动不动就上百页,我们继续提提难度,让 Claude 和 KimiChat 一起分析下贵州茅台 2022 年 127 页的财务报告。

7.png

从营业总收入到财报最重要的三张表,Claude 不到 1 分钟都整理总结了出来。不过与报告对比,数据上有一些明显的错误。

KimiChat 则在一开始上传文件时有些波折,会提示“内容超过对话长度”或“无法解析文件”,最后通过多次尝试才成功上传了文件。

8.png

但相比 Claude,KimiChat 的财务分析报告更完整,没有额外“调教”下的排版表现也更好。

9.png

跨文本分析、整理发票、数据分析…多文档打开 AI 工具新玩法

不止单文件分析,两款长本文 AI 工具的超能力还体现在多文档处理。

Claude2 目前支持同时上传 5 个文件,每个文件不超过 10MB,格式包括 pdf、txt、csv 等;而 KimiChat 可最多上传 50 个文件,每个文件 100MB,支持 pdf、doc、xlsx、ppt、txt 等格式。

10.png

于是,我上传了两份共计 136 页的中文文档,要求 Claude2 和 KimiChat 分析每个文档的核心主题和观点,以及它们之间的联系。

11.png

整个体验非常丝滑,Claude2 和 KimiChat 很快总结好了两份文档的核心主题,对比原报告内容都没有太大出入。

另外,跨文本分析能力也足够让人惊喜,它们都从异同点着手,把文档之间的联系捋得明明白白。

KimiChat 的官方演示里还有一个有趣的多文本玩法:把出差发票拖进 KimiChat,快速整理需要的信息。

12.gif

对此,仅支持上传 5 个文件的 Claude2 只能望尘莫及了。

除了上传数量限制外,Claude2 支持的格式丰富度也不及 KimiChat。例如,在 KimiChat 中,你还可以把 Excel 表格拖进对话框,让它提取相关数据,做数据分析。

13.png

Claude2 vs KimiChat,谁的中文更厉害?

除了长文本的实际应用优势,作为国内用户,也许你还关心的一个问题是:KimiChat 作为国产大模型在中文能力上能否吊打 Claude2?

作为开胃前菜,先给国外来的 AI 一点小小的中文震撼。

请合理断句,并解释以下这句话中每个“粉碎”的词性:“用粉碎机粉碎粉碎机粉碎机会被粉碎机粉碎吗?”

14.png

Claude2 表现得很礼貌,面对不太熟悉的语言,小心翼翼地询问自己有没有答对。相比之下,KimiChat 更显自信。

15.png

但 Claude2 和 KimiChat 对每个“粉碎”的词性分析都不完整,且回答有错误。

语法分析上没法分出胜负,不妨再看看双方写作能力如何。

先让它们仿写下《百年孤独》的开头。

原句为:“许多年之后,面对行刑队,奥雷良诺·布恩地亚上校将会回想起,他父亲带他去见识冰块的那个遥远的下午。”

16.png

“李明”“马力”“小蓝”……不得不说,Claude2 取名还挺有梗,深深怀疑是不是训练模型时用了太多“李明”写给外国友人的信。

KimiChat 则出现了 Bug,重复生成了五次原文,像极了 AI 被罚抄课文(狗头)。

17.png

多次尝试上传文件无果后,我发了《三体》百度百科的链接给 KimiChat,让它模仿《三体》第二部的主要情节,写一篇 500 字以内的短篇科幻小说。

17.png

为了方便对比,Claude2 也收到了一样的要求。需要补充的是,百度百科链接 Claude2“拒收”了,换了英文版的维基百科链接才让 Claude2 顺利生成内容。

19.png

品读下来,不论是背景设定,如外星人的“思维控制技术”,还是主要情节“心灵迷宫”计划,KimiChat 生成的短篇科幻故事都更吸引我一些。

几轮实测下来,明显感受到随着长文本能力的提升,AI 的“记忆力”有了显著提高。处理更长的文本不仅让 AI 更加靠谱,也提升了用户体验,解决了之前使用 ChatGPT 的“字数焦虑”。

总的来说,长文本能力的提升不仅让 AI 工具在日常工作流中更好用,还能更好地辅助人类进行跨领域、跨学科主题发散思考。这也就不难理解为什么国内外两家大模型初创公司都选择先卷“长文本”。

另一方面,虽然两家公司都主打“长文本”,但实测下来 Claude2 在用户交互上体验更流畅,KimiChat 近期才开放内测,所以在上传文件、生成内容时偶尔会出 Bug。

但瑕不掩瑜的是,KimiChat 作为国产大模型,对国内用户来说足够友好,使用方便,无需魔法。

此外,KimiChat 在处理长文本、跨文本分析等硬实力上并不输 Claude2。而且 KimiChat 在支持上传的文档数量和格式方面提供了更多的可能性,让用户有更多探索的空间。

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章