《纽约时报》们围攻PerplexityAI!“今日头条版权门”再度上演?

HelloKitty 2025-08-13 15:16

扫一扫 在手机阅读、分享本文

626

本文由 智能Pro 撰写/授权提供,转载请注明原出处。

以下文章来源于:智能Pro

作者:三明治

要说有什么瓜,能从去年吃到今年,那必须得有一大批传统媒体“开撕”AI 大厂的一席之地。

为了防止有人还不知道这事儿,我先简单交代下背景。

这次事件的主角是一家在 AI 圈内声名鹊起、估值已达 180 亿美元的初创公司——Perplexity AI。

而站在他们对面的,则是一个由全球顶级媒体组成的“复仇者联盟”:日本最大的报业集团《读卖新闻》、英国广播公司(BBC)、新闻集团旗下的道琼斯(《华尔街日报》母公司)和《纽约邮报》,以及早已向其发出“最后通牒”的《纽约时报》。

这些传统媒体们给 Perplexity AI 安的罪名是未经许可使用版权材料,他们还在自家网站上发了篇文章,专门报道了这事儿。

image.png

(图源:读卖新闻)

乍看之下,这像是一场传统媒体巨头对新兴技术公司的围剿,一场“旧时代”对“新物种”的宣战。

但当你深入了解 Perplexity 的工作方式后,你会发现,这场争斗远比想象中复杂。它不仅仅是关于几篇文章的版权归属,更是关于互联网信息流转方式、商业模式乃至整个内容生态未来走向的一场深刻博弈。

861d016acc082f902f2526badbb5757f.png(图源:雷科技制作)

这一幕,与 2014 年搜狐新闻们联合起来控诉今日头条何其相似。当年,作为新物种的今日头条用“千人千面”的推荐算法颠覆了互联网内容分发体系,多家传统媒体以及门户网站对今日头条发起诉讼。

image.png

那么这一次媒体们起诉 Perplexity AI 又是怎么回事呢?

AI 答案引擎 PerplexityAI

动了谁的蛋糕?

要理解这场风暴,我们首先要搞清楚 Perplexity 到底是什么。

许多人将其称为 AI 搜索引擎,但这并不完全准确。与其把它看作下一个谷歌,不如称其为答案引擎。这个定位上的细微差别,正是其颠覆性与争议性的根源所在。

hero-image.jpg(图源:Perplexity)

我们以一个简单的场景为例,假设你想了解“苹果 Vision Pro 的销量为什么未达预期”,在传统搜索引擎上,你会得到一个长长的链接列表。

你需要像一个侦探一样,逐一点击、阅读、筛选、辨别,最后在脑中自己拼凑出答案。此时谷歌的角色,更像是一个尽职尽责的图书管理员,他告诉你相关的书籍都在哪些书架上,但找书和看书的功夫,还得你自己来。

它的核心是指路,将流量导向最终的内容源头。

而 Perplexity 则不同,当你问出同样的问题,它不会给你一堆链接。

image.png(图:雷科技)

相反,它会直接生成一段文字,告诉你原因可能包括价格过高、应用生态不完善、佩戴舒适度问题等等,并在段落末尾附上几个信息来源的角标,就像是替你读完了所有的资料,并把消化、提炼后的结论直接喂到你嘴边。

它的核心是解答,将信息价值汇聚在自己的平台之上。

这种一步到位的便利性,对于用户而言确实是很方便的,它缩短了用户从提出问题到获得答案的路径,提供了前所未有的信息获取效率,这也是如今搜索引擎纷纷融入大模型的原因之一。

然而,这种极致便利的背后,却是对传统互联网生态链的一次降维打击。

传统新闻网站辛辛苦苦派记者采访、花编辑时间撰写、投入成本运营换来的深度文章,其最核心的信息价值,被 Perplexity 的 AI 模型轻松吸走,然后打包成了自己的产品。

屏幕截图 2025-08-08 144329.png

(图:读卖新闻)

这种模式直接损害了出版商们赖以为生的根本:流量、广告展示、付费订阅。在这套新玩法面前,这些都成了为人作嫁的笑话。用户在 Perplexity 上就已经心满意足,自然也就没有了点击原始链接、访问新闻网站的需求。

更夸张的是,在此之前,如果你告诉 Perplexity 因为付费没法儿看某篇文章,让它给你打出原文的第一段,然后再让他给出下文,就能完全绕过付费墙,直接看文章了。

image.png

(图:雷科技)

不过我试了一下,现在倒是会提醒版权限制了,但是关键内容依然会以摘要的形式进行展现。

更让媒体无法接受的,是他们激进的数据抓取手段。

根据云安全公司 Cloudflare 的报告,Perplexity 存在绕过网站规则、抓取受保护内容的行为。当网站的 robots.txt 协议明确表示“谢绝爬虫”时,Perplexity 的机器人会通过修改自己的代理信息,伪装成普通的浏览器用户,以此蒙混过关。

说实话,看完来龙去脉后,我觉得 Perplexity 这么做确实有那么点不厚道。

这也难怪,读卖新闻在最后的诉求里要 Perplexity 赔偿 21.68 亿日元(约合 1.06 亿元人民币)的损失。

内容源头“说不清”

成了大模型的“原罪”

有趣的是,Perplexity 如今所面临的围攻,并非孤例。

事实上,放眼整个 AI 行业,类似的争议早已屡见不鲜,几乎成了所有 AI 巨头都无法绕开的“原罪”。

这片战火,早已经从新闻业蔓延至文学、艺术乃至软件编程的每一个角落。

在文本领域,2023 年末,《纽约时报》正式对 OpenAI 提起诉讼,指控其非法使用数百万篇文章来训练 ChatGPT。诉状中最致命的证据,莫过于展示了 ChatGPT 在特定提示下,能够几乎逐字逐句地复述自家的付费版权内容。

image.png

(图源:US GOV)

紧随其后的,是一个由众多知名作家组成的“复仇者联盟”,包括《权力的游戏》作者乔治·R·R·马丁在内的美国作家协会共同发起集体诉讼,控诉自己毕生的心血之作,在未经许可、未获分文报酬的情况下,沦为了大模型“不劳而获”的训练素材。

在图像领域,冲突同样白热化。全球最大的图库 Getty Images 在诉讼中声称,Stability AI 非法抓取了其超过 1200 万张图片进行训练,部分生成的图像中,甚至还能看到 Getty Images 那标志的隐藏水印。

此起彼伏的争议,指向了当前生成式 AI 发展的两个根本性问题。

首先,是模型对大规模训练数据的需求。 要让一个 AI 变得更智能,开发者就必须为其投喂更大的数据集,这种对数据的需求,决定了 AI 公司必然会采用“地毯式”的扫荡策略,将互联网上一切可及的数据都纳入囊中。

其次,是 AI 公司试图重塑互联网生态的野心。Perplexity 不仅要做网页、插件,更是最近推出了 Comet 浏览器,旨在成为新的“互联网入口”,希望用答案彻底取代传统的网页链接。

这种商业模式的本质,就是流量截留,可以说直接动摇了整个内容产业的根基。

image.png

(图源:Perplexity)

面对排山倒海而来的诉讼,Perplexity 表示自己根本就不是做 AI 大模型的,试图以自己只是一个代理应用为由撇责,他们认为抓取网页信息的机器人应该被视为用户驱动的 AI 助手,但这并不能解释为什么他们能够不经允许直接输出别家网站的内容。

至于那些在训练大模型的 AI 公司们,则不约而同地举起了一面法律大旗——合理使用,他们声称,使用受版权作品训练 AI 就像一个学生为了学习写作而博览群书,其目的在于技术创新,而非市场替代,当前出现原文的情况只是 BUG 而已。

要我说,这种说法多少也有点甩锅的意思。

内容版权问题

成 AI 产业的关键之殇

你还别说,这次事件的关注度还蛮高的。

一边是老牌传统媒体,一边是新兴 AI 巨头,事情发生后,立刻就有人把这次的案件,拔到了 AI 版权纠纷里程碑的高度。

640.jpg

(图源:X)

甚至,还有不少科技、媒体圈的大佬亲自下场站队,但是一直到现在,也没人能说得清楚到底谁对谁错。

给一众吃瓜群众,看得是一愣一愣的。

有趣的是,尽管官司打得震天响,但截至目前,还没有任何一家大型 AI 公司,因为在训练数据方面的版权争议而被法庭最终裁定需要支付巨额赔偿。

这是因为,在法庭之外,一种默契正在悄然形成。为了规避法律风险,许多 AI 公司都开始选择花钱买平安,主动与内容出版商达成授权协议,OpenAI、苹果等巨头,更是已在积极寻求与各大媒体的内容合作。

image.png

(图源:Axios)

这揭示了一个略显残酷但必须承认的现实——

一方面,我们无法否认 AI 公司在发展初期存在着对版权的漠视,其带来的利益纠纷是真实且深刻的;另一方面,我们也不得不承认,没有海量的数据滋养,就没有今天我们所见到的、能够极大提升生产力的强大 AI。

继续停留在偷与抓的混乱状态,对双方都是一种消耗,或许是时候跳出二元对立,建立一个规范化的、覆盖全行业的数据使用和共享机制了。

依雷科技之见,这个机制完全可以借鉴音乐产业的版税系统。

这样 AI 公司不再需要偷偷摸摸地去抓取数据,而是可以通过向这个组织支付许可费用,合法地获取高质量、经过授权的训练数据,而该组织则根据数据被使用的频率等指标,将收入分配给作为内容源头的媒体、作家和艺术家们。

如此一来,AI 的发展便有了合法、稳定、高质量的材料,而内容创作者们的辛勤劳动也能获得应有的回报,从而促成良性循环。

微信图片_2025-06-24_142932_329.png

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章