HelloKitty • 2025-10-29 14:24
207
本文由 慢放 撰写/授权提供,转载请注明原出处。
以下文章来源于:慢放
作者:慢放
编辑:刘涵
封面图:豆包AI生成
现在,基本上可以把 2025 年称作「智能眼镜年」了。
苹果前几天在官网低调发布了升级硬件的 VisionPro,vivo 在两个月前的 8 月高调发布了对标它的「vivoVision探索版」;Meta9 月发布了首款带显示屏的智能眼镜 MetaRay-BanDisplay,小米则在更早的 6 月带来了 1999 的「年轻人第一副智能眼镜」;还有早已深耕多年的雷鸟,Rokid;刚刚入场的魅族;跃跃欲试的百度、阿里等等。
从1月至今,累计有 20 多家厂商或正式官宣或被传出要涉足智能眼镜行业。IDC 预测,2025 年全年,全球智能眼镜市场出货量预计将达到 1451.8 万台,同比增长 42.5%。中国市场预计总出货量将达到 290.7 万台,同比增长 121.1%。
厂商悉数下场,大幕已经拉开,但这个市场因何而起?有哪些技术流派?以及最重要的——智能眼镜,何时迎来自己的「iPhone时刻」?
「早产儿」谷歌
很多科技数码产品,都是从科幻作品开始的——智能眼镜亦是如此。
在《终结者》里,T-800 机器人的机械眼能瞬间扫描、分析眼前的一切,并实时显示出来;在《少数派报告》里,阿汤哥能用手势在空气中调取图标,操作电脑。这种将数字信息与现实世界无缝叠加的能力,就是科幻作家为智能眼镜描绘的最初的、也是最迷人的蓝图——所见皆可操作,所见皆可数字化。
第一个试图将这个科幻梦想带到现实的,是谷歌。
2012 年,谷歌眼镜(GoogleGlass)横空出世。在一支短视频中,谷歌为用户描绘了一个非常科幻的「智能眼镜的一天」:
用户戴上之后,通过一块小小的棱镜,一切信息全都呈现在眼前:看向天空,天气预报自动浮现;路边发现一幅歌手海报,旁边即浮现演唱会信息;跟着导航箭头,在书店里找到想要的书;朋友发来的短信,不仅自动弹出还能语音回复;站在楼顶,实时为女友直播绝美的夕阳……
任谁看完都要感叹一句「未来已来」。然而,理想很丰满,现实……那都不叫骨感,那干脆就是骨灰。
现实是,当时谷歌的技术根本不足以实现这部宣传片中提到的 99% 以上的功能——它其实就只是一个能拍照的玻璃小屏罢了。无论是芯片、电池还是显示技术,在 2012 年都远未成熟。售价高达 1500 美元,续航却只有可怜的几个小时,而且——从颜值的角度来说,这玩意属实也是太丑了。
2022 年,前谷歌研发人员 WarrenCraddock 撰文表示,当时谷歌眼镜的工程师在测试时整天「问眼镜一些类似埃菲尔铁塔有多高之类的问题,或者就是给桌上的盆栽拍照」。研发团队甚至自己都「不知道它有什么用」。
更致命的,是这款产品在社会伦理上引发的恐慌。
一个戴着谷歌眼镜的人走进酒吧,他是在看酒单,还是在偷拍你?很快,一个充满贬义的新词诞生了——「Glasshole」(眼镜混蛋)。用来描述那些戴着谷歌眼镜瞎晃的人。它精准地概括了公众对这种穿戴设备的普遍反感:它打破了人与人之间关于隐私的默契,带来了强烈的不安全感和被冒犯感。
最终,在技术和伦理的双重困境下,谷歌眼镜不了了之。时至今日,它依然是智能眼镜乃至整个科技创新圈的知名反面典型。
尽管如此,谷歌眼镜确实点燃了智能眼镜行业的第一把火。它的高关注度验证了市场需求,它所踩过的坑也被其他同行拿来认真学习。十几年后,随着技术成熟,一些后续者开始陆续出现。
那么,这次,厂商们会怎么做?
音频、摄像头与 MR
尽管都被冠以「智能眼镜」之名,但2025年当下的在售眼镜产品,差异可能比智能手机和功能机还大。这背后,是三条截然不同的技术路线。
首先就是「音频派」。
早在 2019 年,亚马逊就发布过一款名为 EchoFrames 的「音频智能眼镜」。眼镜尾部有扬声器,前端有麦克风,说是智能眼镜,不如说是「戴在脸上的开放式耳机」。但亚马逊表示,智能不是白叫的:用户可以用它连接手机,和亚马逊 Alexa 智能语音助手对话,查天气,定日程,问问题,操纵家里的智能设备;等等。手机来了通知,也能直接读给用户听。
之后的几年,Bose、雷柏、华为,小米等厂商也相继下场,开发了各自的音频眼镜产品,功能总体上大同小异:听音乐,打电话,连接各自手机的智能语音助手,最多再加点类似感应头部动作的颈椎保护功能。因为功能简单,价格也可以很低,例如小米的「MIJIA 智能音频眼镜悦享版」就来到了最低 469 的价位。
从好的方面来看,音频智能眼镜完美规避了重量和隐私两大难题。大部分这类产品不到30g,几乎和原配眼镜没啥差别,用户长期佩戴的压力不大;物理上也没有偷拍的可能;但这也正是它的短板:无论怎么包装「智能」功能,说到底,它也只是个形态新颖的耳机罢了。
光听显然不够,因此更主流,或者说更「智能」的方案,是第二个流派:「摄像头派」——尾部有扬声器,前端有摄像头,不仅能听,还能「看」的智能眼镜。
这个领域,Meta 是无可争议的老大。2023 年 10 月,Meta 发布首款 MetaRay-Ban 眼镜,最初并不被外界看好,但 Meta 将主打功能定位在「AI 语音交互」和「影像记录生活」两大领域,并通过和雷朋合作,提升了眼镜的颜值。解决了谷歌眼镜当年面临过的「有什么用」和「戴着丑」的两大痛点。
两年时间 200 万副的销量,证明了确实有相当一部分人有「脸上长摄像头」的需求。据国盛证券报告,2025 年 Q1 全球 AI 智能眼镜销量约为 60 万台,而其中 MetaRay-Ban 的单品销量就达到52.5万台。可以说,今年很多下场的厂商,如小米、魅族、阿里等,走的也正是 Meta 开创的这个路线。
「摄像头派」是目前将 AI 能力与现实结合最紧密的路线,对于 Vlogger,它是无与伦比的第一视角记录工具。对于普通用户,它则是一个强大的「外置大脑」。看不懂外文菜单?拍一下,实时翻译。路边看到不认识的植物?看一眼,百科信息立刻通过耳机告诉你……当然,谷歌眼镜面临的「偷拍」困境,「摄像头派」们一样绕不过去。Meta 和小米的产品都有拍摄时闪光的设置,提醒周围的人「此人正在摄像」,但这个提醒有多大作用,只能说……比没有好。
最后就是「MR 派」——或者说「空间计算派」。
这无疑是最野心勃勃的一派。它不仅要「看」世界,更要「创造」和「融合」一个新世界,实现真正的增强现实(AR)或混合现实(MR)。这也是唯一有望颠覆手机的路线,因为它从根本上改变了信息的维度。在工业、医疗等专业领域,可能会展现出惊人的生产力。
但还是那句话,理想丰满,现实骨感。「融合派」的劣势,几乎都源于当前技术与物理定律的矛盾。苹果 VisionPro 超过 600 克的重量和不到 2 小时的续航就是典型。vivoVision 将重量压到 398 克,但这依然远未达到普通眼镜的水平。
也有厂商尝试在眼镜中植入显示器。Meta 在 9 月发布了采用彩色光波导显示功能的 MetaRay-BanDisplay 智能眼镜。它右眼镜片有一块邮票大小的显示区域,支持显示音乐播放器、相机取景预览、实时字幕翻译等内容。整体上更接近于「增强信息提示」的智能眼镜,而非完全的混合现实设备。效果……只能说未来可期,毕竟连小扎自己在发布会上都翻车了。
AI 眼镜会迎来
自己的「iPhone 时刻」吗?
智能眼镜显然已经够多了,下一个问题则是:它什么时候会从大号玩具「飞入寻常百姓家」?换句话说,智能眼镜会迎来自己的「iPhone 时刻」吗?
上文提到的 WarrenCraddock 在文章中,提到了谷歌眼镜的失败的另一个原因,是开发团队沉迷于为眼镜寻找某一款「杀手级应用」。无独有偶,2023 年苹果 VisionPro 刚上市时,也有媒体频频提及「杀手级应用」,寄希望于某一款 app,能让智能眼镜彻底走向大众。
这个想法,或许有点偏。事实上,历史上那些「改变世界」的数码产品,他们靠的都不是某一两个打动人的功能,而是为自己的用户打造了一个「场景」。
比如索尼的 Walkman 随身听,它的成功,源于索尼对这款产品的定位。Walkman 没有扬声器,随机附赠耳机,体积只有磁带盒大小。这所有的设计,都围绕一个核心的「场景」:音乐出街。Walkman 不是第一个「移动音乐播放设备」,但他确实史上第一次创造了「随身携带的、私密的、个性化的声场」。它满足了人类在公共空间中构建「自我小世界」的心理需求。
上市七个月,索尼就卖出了 14 万台 Walkman,截止到 2010 年停产为止,所有型号的磁带式 Walkman 累计卖出 2.2 亿台。而如果把 CD,MiniDisc 等衍生型号的 Walkman 设备也算上的话,总销量达到了惊人的4亿台。
这,就是场景的力量。
还有 iPhone,2007 年的初代 iPhone 的确是革命性的,但它真正封神,是在 2008 年 AppStore 上线之后,让它从一个「能流畅上网的漂亮手机」,变成了一个「数字应用分发站」。它让开发者能够非常轻松地对用户收费,它让用户可以像便利店买水一样,便捷地在手机上购买应用程序。是数以百万计的应用,才真正定义了 iPhone。
2008 年第三季度,iPhone 全球销量 72 万台。在推出 AppStore 之后的第四季度,直接暴涨到 689 万台。2008 年一整年,苹果卖出了 1163 万台 iPhone,2009 年,这个数字是 2073 万,之后的几年,iPhone 的销量都保持着不低于 70% 的增长率。
这其实也符合当下的市场表现:综合来看,2025 年的智能眼镜市场,呈现一种微妙的悖论:厂商们争相给自己贴上「智能」的标签,但用户真正付费购买的原因,却并不是因为虚无缥缈的「AI 大模型」,而是实打实的场景:有人想不戴耳机听歌;有人需要解放双手拍照,有人想随时随地随手录音,等等。
那么,适合智能眼镜的场景,会是什么?
结语
传播学大师麦克卢汉曾提出:「媒介即信息」。意思是,传播媒介本身对人的影响,要超过媒介传达的信息本身。比如,在电影出现之前,人们看到的画面是连续的;在电影出现之后,随着「剪辑」的诞生,人们很自然地接受了画面可以是跳跃的,割裂的。
所以,这可能才是智能眼镜的最终场景:重塑人类接收信息的方式,并因此而改变世界。
在文字、广播的时代,信息是一维的,只有单纯语言,声音的输入;
后来,电视、电影出现,信息变成了二维。人们可以同时接收画面,声音,语言和文字。智能手机延续了二维信息传递,让它更加个人化,多元化——但依然没有突破二维。
而现在,智能眼镜有可能让我们迎来三维信息时代:信息从面前的屏幕中,走到了你我每个人的身边。从此之后,每个用户都会拥有一个只属于自己的「世界」。当你导航时,不再是低头看手机箭头,而是抬头「看到」一条金色光带在真实道路上为你引航;当你与朋友视频通话,不再是盯着小屏幕,而是「看到」他的影像就坐在你对面的沙发上。
只有当智能眼镜能够真正无缝、自然、低成本地提供这种三维信息体验时,它或许才能完成从「极客玩具」到「大众基础设施」的终极迁移,迎来自己的「iPhone 时刻」。眼下的所有 AI 眼镜,距离完美回答这个问题,都还有很长的路要走。但,齿轮已经开始转动了。
唯一的问题是,谁会是那个天选之子?而我们,又是否真的准备好,去迎接一个「所见即可得」的未来了呢?


扫码关注公众号
获取更多技术资讯