HelloKitty • 2025-08-13 15:16
626
本文由 智能Pro 撰写/授权提供,转载请注明原出处。
以下文章来源于:智能Pro
作者:三明治
要说有什么瓜,能从去年吃到今年,那必须得有一大批传统媒体“开撕”AI 大厂的一席之地。
为了防止有人还不知道这事儿,我先简单交代下背景。
这次事件的主角是一家在 AI 圈内声名鹊起、估值已达 180 亿美元的初创公司——Perplexity AI。
而站在他们对面的,则是一个由全球顶级媒体组成的“复仇者联盟”:日本最大的报业集团《读卖新闻》、英国广播公司(BBC)、新闻集团旗下的道琼斯(《华尔街日报》母公司)和《纽约邮报》,以及早已向其发出“最后通牒”的《纽约时报》。
这些传统媒体们给 Perplexity AI 安的罪名是未经许可使用版权材料,他们还在自家网站上发了篇文章,专门报道了这事儿。
(图源:读卖新闻)
乍看之下,这像是一场传统媒体巨头对新兴技术公司的围剿,一场“旧时代”对“新物种”的宣战。
(图源:雷科技制作)
这一幕,与 2014 年搜狐新闻们联合起来控诉今日头条何其相似。当年,作为新物种的今日头条用“千人千面”的推荐算法颠覆了互联网内容分发体系,多家传统媒体以及门户网站对今日头条发起诉讼。
AI 答案引擎 PerplexityAI
动了谁的蛋糕?
(图源:Perplexity)
你需要像一个侦探一样,逐一点击、阅读、筛选、辨别,最后在脑中自己拼凑出答案。此时谷歌的角色,更像是一个尽职尽责的图书管理员,他告诉你相关的书籍都在哪些书架上,但找书和看书的功夫,还得你自己来。
(图:雷科技)
传统新闻网站辛辛苦苦派记者采访、花编辑时间撰写、投入成本运营换来的深度文章,其最核心的信息价值,被 Perplexity 的 AI 模型轻松吸走,然后打包成了自己的产品。
(图:读卖新闻)
(图:雷科技)
不过我试了一下,现在倒是会提醒版权限制了,但是关键内容依然会以摘要的形式进行展现。
更让媒体无法接受的,是他们激进的数据抓取手段。
这也难怪,读卖新闻在最后的诉求里要 Perplexity 赔偿 21.68 亿日元(约合 1.06 亿元人民币)的损失。
内容源头“说不清”
成了大模型的“原罪”
有趣的是,Perplexity 如今所面临的围攻,并非孤例。
事实上,放眼整个 AI 行业,类似的争议早已屡见不鲜,几乎成了所有 AI 巨头都无法绕开的“原罪”。
这片战火,早已经从新闻业蔓延至文学、艺术乃至软件编程的每一个角落。
在文本领域,2023 年末,《纽约时报》正式对 OpenAI 提起诉讼,指控其非法使用数百万篇文章来训练 ChatGPT。诉状中最致命的证据,莫过于展示了 ChatGPT 在特定提示下,能够几乎逐字逐句地复述自家的付费版权内容。
(图源:US GOV)
紧随其后的,是一个由众多知名作家组成的“复仇者联盟”,包括《权力的游戏》作者乔治·R·R·马丁在内的美国作家协会共同发起集体诉讼,控诉自己毕生的心血之作,在未经许可、未获分文报酬的情况下,沦为了大模型“不劳而获”的训练素材。
在图像领域,冲突同样白热化。全球最大的图库 Getty Images 在诉讼中声称,Stability AI 非法抓取了其超过 1200 万张图片进行训练,部分生成的图像中,甚至还能看到 Getty Images 那标志的隐藏水印。
此起彼伏的争议,指向了当前生成式 AI 发展的两个根本性问题。
首先,是模型对大规模训练数据的需求。 要让一个 AI 变得更智能,开发者就必须为其投喂更大的数据集,这种对数据的需求,决定了 AI 公司必然会采用“地毯式”的扫荡策略,将互联网上一切可及的数据都纳入囊中。
其次,是 AI 公司试图重塑互联网生态的野心。Perplexity 不仅要做网页、插件,更是最近推出了 Comet 浏览器,旨在成为新的“互联网入口”,希望用答案彻底取代传统的网页链接。
这种商业模式的本质,就是流量截留,可以说直接动摇了整个内容产业的根基。
(图源:Perplexity)
面对排山倒海而来的诉讼,Perplexity 表示自己根本就不是做 AI 大模型的,试图以自己只是一个代理应用为由撇责,他们认为抓取网页信息的机器人应该被视为用户驱动的 AI 助手,但这并不能解释为什么他们能够不经允许直接输出别家网站的内容。
至于那些在训练大模型的 AI 公司们,则不约而同地举起了一面法律大旗——合理使用,他们声称,使用受版权作品训练 AI 就像一个学生为了学习写作而博览群书,其目的在于技术创新,而非市场替代,当前出现原文的情况只是 BUG 而已。
要我说,这种说法多少也有点甩锅的意思。
内容版权问题
成 AI 产业的关键之殇
你还别说,这次事件的关注度还蛮高的。
一边是老牌传统媒体,一边是新兴 AI 巨头,事情发生后,立刻就有人把这次的案件,拔到了 AI 版权纠纷里程碑的高度。
(图源:X)
给一众吃瓜群众,看得是一愣一愣的。
有趣的是,尽管官司打得震天响,但截至目前,还没有任何一家大型 AI 公司,因为在训练数据方面的版权争议而被法庭最终裁定需要支付巨额赔偿。
这是因为,在法庭之外,一种默契正在悄然形成。为了规避法律风险,许多 AI 公司都开始选择花钱买平安,主动与内容出版商达成授权协议,OpenAI、苹果等巨头,更是已在积极寻求与各大媒体的内容合作。
扫码关注公众号
获取更多技术资讯