HelloKitty • 2023-10-31 17:42
4951
本文由 头号AI玩家 撰写/授权提供,转载请注明原出处。
文章来源于:头号AI玩家
作者:石濑
编辑:卷毛
AI 的“记忆力”越来越好了!
过去,如果你把一份长文本粘贴到 ChatGPT 对话框,或者忍不住和它多聊了两句,它会告诉你“文本过长,请开个对话框重新聊。”
如今只需把文件传给 AI,就能在几分钟之内完成多个长文本的总结、检索和提取。
或者直接丢一个网址链接,让 AI 模仿你最喜欢的原神角色,轻松实现超长多轮对话聊天。
以上两款长文本 AI 工具,一个是出自国外 Anthropic 公司的 Claude;另一个则是国内 MoonshotAI 公司的 KimiChat。
虽然远隔重洋,但两家初创公司不约而同地把赌注押在了大模型的长文本能力上,近期又都动作不断,Anthropic 先后从亚马逊、谷歌等巨头手中拿到了巨额融资,旗下被誉为“ChatGPT 最强竞品”的 Claude2 上线全球 95 个国家和地区;
而之前一直很低调的 MoonshotAI,10 月初上线了首个智能助手产品 KimiChat,称把大模型上下文输入长度提升到了 20 万汉字。
目前,Claude2 可以通过官方测试网站或 Poe 免费体验(每天有一定额度),KimiChat 也开放了内测通道,申请拿到权限后即可使用。
长文本能力加持下的 AI 工具,实际应用优势在哪里?都是主打“长文本”,Claude2 和 KimiChat 谁更好用?“头号 AI 玩家”拿到 KimiChat 的内测资格,第一时间对两家产品测评了一番。
看不完的报告论文,AI 为你“量子速读”
大家最为熟悉的免费版 ChatGPT,即 ChatGPT3.5 处理长文本一般需要写“咒语”引导并分段上传。
即便付费使用的 GPT4,处理上下文 token 最多也才 32K,而 Claude2 直接扩展到了 100K(约 7.5 万个单词),翻了三倍不止。
多的三倍文本量能用来做什么?
不止内容创作者,像律师、分析师、咨询师、市场营销员等职业在日常工作中也都离不开大量报告、文件、论文的整理。
比如,39 页的全英文资料总结,放在以前只能写 prompt 一段一段投喂 AI,还要面临 ChatGPT 随时“失忆”的风险。现在直接上传文件到 Claude2,或是 KimiChat,简单输入需求就能让 AI 替你工作。
MoonshotAI 称,KimiChat 实际使用效果能够支持约 20 万汉字的上下文,2.5 倍于 Anthropic 公司的 Claude-100k(实测约 8 万字)。
考虑到实际工作中报告动不动就上百页,我们继续提提难度,让 Claude 和 KimiChat 一起分析下贵州茅台 2022 年 127 页的财务报告。
从营业总收入到财报最重要的三张表,Claude 不到 1 分钟都整理总结了出来。不过与报告对比,数据上有一些明显的错误。
KimiChat 则在一开始上传文件时有些波折,会提示“内容超过对话长度”或“无法解析文件”,最后通过多次尝试才成功上传了文件。
但相比 Claude,KimiChat 的财务分析报告更完整,没有额外“调教”下的排版表现也更好。
跨文本分析、整理发票、数据分析…多文档打开 AI 工具新玩法
不止单文件分析,两款长本文 AI 工具的超能力还体现在多文档处理。
Claude2 目前支持同时上传 5 个文件,每个文件不超过 10MB,格式包括 pdf、txt、csv 等;而 KimiChat 可最多上传 50 个文件,每个文件 100MB,支持 pdf、doc、xlsx、ppt、txt 等格式。
于是,我上传了两份共计 136 页的中文文档,要求 Claude2 和 KimiChat 分析每个文档的核心主题和观点,以及它们之间的联系。
整个体验非常丝滑,Claude2 和 KimiChat 很快总结好了两份文档的核心主题,对比原报告内容都没有太大出入。
另外,跨文本分析能力也足够让人惊喜,它们都从异同点着手,把文档之间的联系捋得明明白白。
KimiChat 的官方演示里还有一个有趣的多文本玩法:把出差发票拖进 KimiChat,快速整理需要的信息。
对此,仅支持上传 5 个文件的 Claude2 只能望尘莫及了。
除了上传数量限制外,Claude2 支持的格式丰富度也不及 KimiChat。例如,在 KimiChat 中,你还可以把 Excel 表格拖进对话框,让它提取相关数据,做数据分析。
Claude2 vs KimiChat,谁的中文更厉害?
除了长文本的实际应用优势,作为国内用户,也许你还关心的一个问题是:KimiChat 作为国产大模型在中文能力上能否吊打 Claude2?
作为开胃前菜,先给国外来的 AI 一点小小的中文震撼。
请合理断句,并解释以下这句话中每个“粉碎”的词性:“用粉碎机粉碎粉碎机粉碎机会被粉碎机粉碎吗?”
Claude2 表现得很礼貌,面对不太熟悉的语言,小心翼翼地询问自己有没有答对。相比之下,KimiChat 更显自信。
但 Claude2 和 KimiChat 对每个“粉碎”的词性分析都不完整,且回答有错误。
语法分析上没法分出胜负,不妨再看看双方写作能力如何。
先让它们仿写下《百年孤独》的开头。
原句为:“许多年之后,面对行刑队,奥雷良诺·布恩地亚上校将会回想起,他父亲带他去见识冰块的那个遥远的下午。”
“李明”“马力”“小蓝”……不得不说,Claude2 取名还挺有梗,深深怀疑是不是训练模型时用了太多“李明”写给外国友人的信。
KimiChat 则出现了 Bug,重复生成了五次原文,像极了 AI 被罚抄课文(狗头)。
多次尝试上传文件无果后,我发了《三体》百度百科的链接给 KimiChat,让它模仿《三体》第二部的主要情节,写一篇 500 字以内的短篇科幻小说。
为了方便对比,Claude2 也收到了一样的要求。需要补充的是,百度百科链接 Claude2“拒收”了,换了英文版的维基百科链接才让 Claude2 顺利生成内容。
品读下来,不论是背景设定,如外星人的“思维控制技术”,还是主要情节“心灵迷宫”计划,KimiChat 生成的短篇科幻故事都更吸引我一些。
几轮实测下来,明显感受到随着长文本能力的提升,AI 的“记忆力”有了显著提高。处理更长的文本不仅让 AI 更加靠谱,也提升了用户体验,解决了之前使用 ChatGPT 的“字数焦虑”。
总的来说,长文本能力的提升不仅让 AI 工具在日常工作流中更好用,还能更好地辅助人类进行跨领域、跨学科主题发散思考。这也就不难理解为什么国内外两家大模型初创公司都选择先卷“长文本”。
另一方面,虽然两家公司都主打“长文本”,但实测下来 Claude2 在用户交互上体验更流畅,KimiChat 近期才开放内测,所以在上传文件、生成内容时偶尔会出 Bug。
但瑕不掩瑜的是,KimiChat 作为国产大模型,对国内用户来说足够友好,使用方便,无需魔法。
此外,KimiChat 在处理长文本、跨文本分析等硬实力上并不输 Claude2。而且 KimiChat 在支持上传的文档数量和格式方面提供了更多的可能性,让用户有更多探索的空间。
扫码关注公众号
获取更多技术资讯