AI眼镜，等待自己的iPhone时刻

HelloKitty • 2025-10-29 14:24

扫一扫在手机阅读、分享本文

207

本文由慢放撰写/授权提供，转载请注明原出处。

以下文章来源于：慢放

作者：慢放

编辑：刘涵

封面图：豆包AI生成

现在，基本上可以把 2025 年称作「智能眼镜年」了。

苹果前几天在官网低调发布了升级硬件的 VisionPro，vivo 在两个月前的 8 月高调发布了对标它的「vivoVision探索版」；Meta9 月发布了首款带显示屏的智能眼镜 MetaRay-BanDisplay，小米则在更早的 6 月带来了 1999 的「年轻人第一副智能眼镜」；还有早已深耕多年的雷鸟，Rokid；刚刚入场的魅族；跃跃欲试的百度、阿里等等。

从1月至今，累计有 20 多家厂商或正式官宣或被传出要涉足智能眼镜行业。IDC 预测，2025 年全年，全球智能眼镜市场出货量预计将达到 1451.8 万台，同比增长 42.5%。中国市场预计总出货量将达到 290.7 万台，同比增长 121.1%。

厂商悉数下场，大幕已经拉开，但这个市场因何而起？有哪些技术流派？以及最重要的——智能眼镜，何时迎来自己的「iPhone时刻」？

「早产儿」谷歌

很多科技数码产品，都是从科幻作品开始的——智能眼镜亦是如此。

在《终结者》里，T-800 机器人的机械眼能瞬间扫描、分析眼前的一切，并实时显示出来；在《少数派报告》里，阿汤哥能用手势在空气中调取图标，操作电脑。这种将数字信息与现实世界无缝叠加的能力，就是科幻作家为智能眼镜描绘的最初的、也是最迷人的蓝图——所见皆可操作，所见皆可数字化。

第一个试图将这个科幻梦想带到现实的，是谷歌。

2012 年，谷歌眼镜（GoogleGlass）横空出世。在一支短视频中，谷歌为用户描绘了一个非常科幻的「智能眼镜的一天」：

用户戴上之后，通过一块小小的棱镜，一切信息全都呈现在眼前：看向天空，天气预报自动浮现；路边发现一幅歌手海报，旁边即浮现演唱会信息；跟着导航箭头，在书店里找到想要的书；朋友发来的短信，不仅自动弹出还能语音回复；站在楼顶，实时为女友直播绝美的夕阳……

任谁看完都要感叹一句「未来已来」。然而，理想很丰满，现实……那都不叫骨感，那干脆就是骨灰。

现实是，当时谷歌的技术根本不足以实现这部宣传片中提到的 99% 以上的功能——它其实就只是一个能拍照的玻璃小屏罢了。无论是芯片、电池还是显示技术，在 2012 年都远未成熟。售价高达 1500 美元，续航却只有可怜的几个小时，而且——从颜值的角度来说，这玩意属实也是太丑了。

2022 年，前谷歌研发人员 WarrenCraddock 撰文表示，当时谷歌眼镜的工程师在测试时整天「问眼镜一些类似埃菲尔铁塔有多高之类的问题，或者就是给桌上的盆栽拍照」。研发团队甚至自己都「不知道它有什么用」。

更致命的，是这款产品在社会伦理上引发的恐慌。

一个戴着谷歌眼镜的人走进酒吧，他是在看酒单，还是在偷拍你？很快，一个充满贬义的新词诞生了——「Glasshole」（眼镜混蛋）。用来描述那些戴着谷歌眼镜瞎晃的人。它精准地概括了公众对这种穿戴设备的普遍反感：它打破了人与人之间关于隐私的默契，带来了强烈的不安全感和被冒犯感。

最终，在技术和伦理的双重困境下，谷歌眼镜不了了之。时至今日，它依然是智能眼镜乃至整个科技创新圈的知名反面典型。

尽管如此，谷歌眼镜确实点燃了智能眼镜行业的第一把火。它的高关注度验证了市场需求，它所踩过的坑也被其他同行拿来认真学习。十几年后，随着技术成熟，一些后续者开始陆续出现。

那么，这次，厂商们会怎么做？

音频、摄像头与 MR

尽管都被冠以「智能眼镜」之名，但2025年当下的在售眼镜产品，差异可能比智能手机和功能机还大。这背后，是三条截然不同的技术路线。

首先就是「音频派」。

早在 2019 年，亚马逊就发布过一款名为 EchoFrames 的「音频智能眼镜」。眼镜尾部有扬声器，前端有麦克风，说是智能眼镜，不如说是「戴在脸上的开放式耳机」。但亚马逊表示，智能不是白叫的：用户可以用它连接手机，和亚马逊 Alexa 智能语音助手对话，查天气，定日程，问问题，操纵家里的智能设备；等等。手机来了通知，也能直接读给用户听。

之后的几年，Bose、雷柏、华为，小米等厂商也相继下场，开发了各自的音频眼镜产品，功能总体上大同小异：听音乐，打电话，连接各自手机的智能语音助手，最多再加点类似感应头部动作的颈椎保护功能。因为功能简单，价格也可以很低，例如小米的「MIJIA 智能音频眼镜悦享版」就来到了最低 469 的价位。

从好的方面来看，音频智能眼镜完美规避了重量和隐私两大难题。大部分这类产品不到30g，几乎和原配眼镜没啥差别，用户长期佩戴的压力不大；物理上也没有偷拍的可能；但这也正是它的短板：无论怎么包装「智能」功能，说到底，它也只是个形态新颖的耳机罢了。

光听显然不够，因此更主流，或者说更「智能」的方案，是第二个流派：「摄像头派」——尾部有扬声器，前端有摄像头，不仅能听，还能「看」的智能眼镜。

这个领域，Meta 是无可争议的老大。2023 年 10 月，Meta 发布首款 MetaRay-Ban 眼镜，最初并不被外界看好，但 Meta 将主打功能定位在「AI 语音交互」和「影像记录生活」两大领域，并通过和雷朋合作，提升了眼镜的颜值。解决了谷歌眼镜当年面临过的「有什么用」和「戴着丑」的两大痛点。

两年时间 200 万副的销量，证明了确实有相当一部分人有「脸上长摄像头」的需求。据国盛证券报告，2025 年 Q1 全球 AI 智能眼镜销量约为 60 万台，而其中 MetaRay-Ban 的单品销量就达到52.5万台。可以说，今年很多下场的厂商，如小米、魅族、阿里等，走的也正是 Meta 开创的这个路线。

「摄像头派」是目前将 AI 能力与现实结合最紧密的路线，对于 Vlogger，它是无与伦比的第一视角记录工具。对于普通用户，它则是一个强大的「外置大脑」。看不懂外文菜单？拍一下，实时翻译。路边看到不认识的植物？看一眼，百科信息立刻通过耳机告诉你……当然，谷歌眼镜面临的「偷拍」困境，「摄像头派」们一样绕不过去。Meta 和小米的产品都有拍摄时闪光的设置，提醒周围的人「此人正在摄像」，但这个提醒有多大作用，只能说……比没有好。

最后就是「MR 派」——或者说「空间计算派」。

这无疑是最野心勃勃的一派。它不仅要「看」世界，更要「创造」和「融合」一个新世界，实现真正的增强现实（AR）或混合现实（MR）。这也是唯一有望颠覆手机的路线，因为它从根本上改变了信息的维度。在工业、医疗等专业领域，可能会展现出惊人的生产力。

但还是那句话，理想丰满，现实骨感。「融合派」的劣势，几乎都源于当前技术与物理定律的矛盾。苹果 VisionPro 超过 600 克的重量和不到 2 小时的续航就是典型。vivoVision 将重量压到 398 克，但这依然远未达到普通眼镜的水平。

也有厂商尝试在眼镜中植入显示器。Meta 在 9 月发布了采用彩色光波导显示功能的 MetaRay-BanDisplay 智能眼镜。它右眼镜片有一块邮票大小的显示区域，支持显示音乐播放器、相机取景预览、实时字幕翻译等内容。整体上更接近于「增强信息提示」的智能眼镜，而非完全的混合现实设备。效果……只能说未来可期，毕竟连小扎自己在发布会上都翻车了。

AI 眼镜会迎来

自己的「iPhone 时刻」吗？

智能眼镜显然已经够多了，下一个问题则是：它什么时候会从大号玩具「飞入寻常百姓家」？换句话说，智能眼镜会迎来自己的「iPhone 时刻」吗？

上文提到的 WarrenCraddock 在文章中，提到了谷歌眼镜的失败的另一个原因，是开发团队沉迷于为眼镜寻找某一款「杀手级应用」。无独有偶，2023 年苹果 VisionPro 刚上市时，也有媒体频频提及「杀手级应用」，寄希望于某一款 app，能让智能眼镜彻底走向大众。

这个想法，或许有点偏。事实上，历史上那些「改变世界」的数码产品，他们靠的都不是某一两个打动人的功能，而是为自己的用户打造了一个「场景」。

比如索尼的 Walkman 随身听，它的成功，源于索尼对这款产品的定位。Walkman 没有扬声器，随机附赠耳机，体积只有磁带盒大小。这所有的设计，都围绕一个核心的「场景」：音乐出街。Walkman 不是第一个「移动音乐播放设备」，但他确实史上第一次创造了「随身携带的、私密的、个性化的声场」。它满足了人类在公共空间中构建「自我小世界」的心理需求。

上市七个月，索尼就卖出了 14 万台 Walkman，截止到 2010 年停产为止，所有型号的磁带式 Walkman 累计卖出 2.2 亿台。而如果把 CD，MiniDisc 等衍生型号的 Walkman 设备也算上的话，总销量达到了惊人的4亿台。

这，就是场景的力量。

还有 iPhone，2007 年的初代 iPhone 的确是革命性的，但它真正封神，是在 2008 年 AppStore 上线之后，让它从一个「能流畅上网的漂亮手机」，变成了一个「数字应用分发站」。它让开发者能够非常轻松地对用户收费，它让用户可以像便利店买水一样，便捷地在手机上购买应用程序。是数以百万计的应用，才真正定义了 iPhone。

2008 年第三季度，iPhone 全球销量 72 万台。在推出 AppStore 之后的第四季度，直接暴涨到 689 万台。2008 年一整年，苹果卖出了 1163 万台 iPhone，2009 年，这个数字是 2073 万，之后的几年，iPhone 的销量都保持着不低于 70% 的增长率。

这其实也符合当下的市场表现：综合来看，2025 年的智能眼镜市场，呈现一种微妙的悖论：厂商们争相给自己贴上「智能」的标签，但用户真正付费购买的原因，却并不是因为虚无缥缈的「AI 大模型」，而是实打实的场景：有人想不戴耳机听歌；有人需要解放双手拍照，有人想随时随地随手录音，等等。

那么，适合智能眼镜的场景，会是什么？

结语

传播学大师麦克卢汉曾提出：「媒介即信息」。意思是，传播媒介本身对人的影响，要超过媒介传达的信息本身。比如，在电影出现之前，人们看到的画面是连续的；在电影出现之后，随着「剪辑」的诞生，人们很自然地接受了画面可以是跳跃的，割裂的。

所以，这可能才是智能眼镜的最终场景：重塑人类接收信息的方式，并因此而改变世界。

在文字、广播的时代，信息是一维的，只有单纯语言，声音的输入；

后来，电视、电影出现，信息变成了二维。人们可以同时接收画面，声音，语言和文字。智能手机延续了二维信息传递，让它更加个人化，多元化——但依然没有突破二维。

而现在，智能眼镜有可能让我们迎来三维信息时代：信息从面前的屏幕中，走到了你我每个人的身边。从此之后，每个用户都会拥有一个只属于自己的「世界」。当你导航时，不再是低头看手机箭头，而是抬头「看到」一条金色光带在真实道路上为你引航；当你与朋友视频通话，不再是盯着小屏幕，而是「看到」他的影像就坐在你对面的沙发上。

只有当智能眼镜能够真正无缝、自然、低成本地提供这种三维信息体验时，它或许才能完成从「极客玩具」到「大众基础设施」的终极迁移，迎来自己的「iPhone 时刻」。眼下的所有 AI 眼镜，距离完美回答这个问题，都还有很长的路要走。但，齿轮已经开始转动了。

唯一的问题是，谁会是那个天选之子？而我们，又是否真的准备好，去迎接一个「所见即可得」的未来了呢？

微信图片_2025-06-24_142932_329.png