2024年15大神奇时刻,谁在改变世界?丨年度盘点

HelloKitty 2024-12-27 16:26

扫一扫 在手机阅读、分享本文

425

本文由 AI鲸选社 撰写/授权提供,转载请注明原出处。

文章来源于:AI鲸选社

作者:鲸哥

2024 年拍马而过,2023 年 ChatGPT 带给行业的震撼至今还没完全消散,2024 年又发生了哪些颠覆性事件,会在未来深刻影响每个行业,每个人?

鲸哥结合行业观察家 John Rush 的内容,做了一定程度的编辑,和大家共享颠覆时刻。

Optimus 第二代发布

具身智能时代来袭

特斯拉的机器人 Optimus 第二代在年中亮相,目前已经能利用端到端神经网络执行基本工厂任务,包括对 4680 型电池单体精确地分类并插入托盘,并且走路速度大幅提升,较去年 12 月时速度提高 30% 以上,目前约为 0.6 米/秒。

灵巧手是特斯拉二代 Optimus 最引人注目地方。特斯拉 Optimus 工程师 Milan Kovac 将最新展示的灵巧手称为“里程碑式的成就”。与上一代产品相比,该新手/前臂拥有双倍的自由度(手上有 22 个自由度,手腕/前臂上有 3 个自由度)。而人类的手通常被认为具有 27 个自由度,手部自由度越高,越能做出更加复杂和精细的动作。

大脑和本体的两项颠覆性进展,意味着马斯克的机器人梦想顺利。即计划从 2024 年底开始小批量试产 Optimus 机器人,预计 2025 年全年生产数千至一万台,远期覆盖全球 100 亿台。

1.png

台积电试产 2nm 工艺

苹果将首发尝鲜

据供应链消息,台积电在新竹县宝山工厂进行了 2nm 工艺的试产工作,其良品率达到了 60%,超过台积电内部预期。

据了解,在 2nm 工艺节点上,台积电的准备可谓全面,在晶体管架构上,台积电要在 2nm 工艺上采用全新的 GAA(Gate-All-Around)晶体管架构,不同于传统的 FinFET 架构,这种技术能够在性能和功耗上实现显著提升。

根据台积电的数据,与 3nm 制程相比,2nm 制程性能将提高 10%~15%,在相同性能下,其功耗降低 30%,目前台积电 2nm 还在试产的初始阶段,需要一些时间才能正式量产,目前仍按照计划进行。

可以预见的是,苹果将会是台积电 2nm 制程初期的主要客户,毕竟 2nm 制程成本要更加昂贵,消息称台积电 2nm 芯片成本是 4nm 的两倍,每片晶圆的价格高达 30000 美元,只有在高端市场获得一席之地的苹果才能负担高昂的成本。

按照计划,台积电会在 2025 年下半年进行 2nm 的大规模量产工作,按照量产进度,iPhone 17 系列无缘 2nm,iPhone 18 Pro 系列则会首发台积电 2nm 芯片。

台积电董事长魏哲家表示,未来五年内台积电有望实现连续、健康的增长,客户对于 2nm 的询问多于 3nm,看起来更受客户的欢迎,2nm 不但能复制 3nm 的成功,甚至有超越的势头。

Google VEO-2 超越 Sora

人人皆可制作电影

今年 5 月,Google 在 I/O 大会上发布了对标 OpenAI Sora 的视频生成模型——Veo,它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟。

时隔 7 个月,在 OpenAI 官宣Sora正式可用之际,Google 发布下一代视频生成模型 Veo 2 与之抗衡。Veo 2 不仅提升了视觉真实感,还可以创建分辨率高达 4k(4096 x 2160 像素)的两分钟以上的视频——这一分辨率是 OpenAI Sora 的 4 倍,持续时间更是其 6 倍以上。

Google 表示,Veo 2 能够理解现实世界的物理现象与规律,并生成各种主题和风格的高质量“更清晰”的视频。这对于 AI 视频生成模型而言是一项重大突破,因为即使是 OpenAI Sora,有时候也难以理解物理现象。

Veo 2 还掌握了电影艺术独特的语言:用户可以指定一个类型、选择镜头、建议电影效果,Veo 2 就能生成满足要求的视频,分辨率最高可达 4K,时长延展至数分钟。

SpaceX 星舰第五次试飞

成功上演“筷子夹火箭”

北京时间 10 月 13 日晚上 20 点,SpaceX 星舰第五次试飞,成功上演“筷子夹火箭”,即通过塔架上的两根巨型机械臂,精准地捕捉并稳住正在返回地面的超重型火箭助推器。

2.png

传统的海上平台着陆后,火箭需要运输、检查和重新部署,整个过程耗时费力,通过“筷子夹火箭”,火箭回收和重新部署的速度大幅提升。

火箭回收成功后,SpaceX 只需要对火箭进行简单的检查和维护,而不必像以前一样更换着陆腿等关键部件。此外,由于取消了海上平台和着陆腿,这种新回收方式降低了火箭的总成本,同时也减少了由于海上天气等不可控因素导致的回收失败风险。

筷子夹火箭”回收技术还意味着火箭可以不再依赖特定的海上平台,而是能够在任何有配备机械臂的塔架上进行回收。这使得火箭的发射和回收变得更加灵活,不再受到地理条件的限制,进而为未来星际任务的快速部署创造了条件。

随着这一技术的成功,SpaceX 离其星际殖民的目标又迈进了一步。通过大规模降低发射成本、提高回收效率,星舰项目将使得载人火星任务成为现实。

Meta 推出首款 AI 眼镜 Orion

正面挑战 Vision Pro

扎克伯格推出了首款 AR 眼镜 Orion。据 Meta 介绍,每副眼镜的生产成本大约 1 万美元(约 7 万人民币),这可能也是史上最贵 AR 眼镜。

3.png

Orion 为分体式设计,采用波导方案设计,拥有厚重黑色边框,重 98g。该 AR 眼镜能与 Meta 自研的肌电手环相适配,拥有手部跟踪、眼部跟踪、头部追踪等多种交互方式。

从演示视频上来看,用户戴上 Orion 可以刷网页、看短剧,甚至玩一些简单的 3D 游戏。当然,你也可以在 Orion 上听音乐、接视频电话。不过,现阶段的 Orion 眼镜仅用作演示和内部开发套件,大约仅生产 1000 副,并不对外正式开售。

这次 Meta 官方几乎没有提任何有关 Orion 的参数信息,芯片、光学、续航均未涉及。小扎只是拉来一众好友体验这款 AR 眼镜,为其站台。英伟达 CEO 黄仁勋在体验这款 AR 眼镜时,直言:“显示很棒,追踪很棒,色彩也很不错。”

Neuralink 让盲人重见光明,

让瘫痪者用大脑控制电脑

脑机接口(BMI)领域在过去一个世纪取得了显著进展,从 1924 年引入脑电图(EEG)到 2021 年猴子用大脑玩乒乓球游戏,再到今年 Neuralink 的 N1 植入体成功植入多人,并让他们在家中使用。

4.png

N1 植入体为四肢瘫痪患者带来了突破,它能将运动皮层的神经信号转换为数字指令,让用户通过思想控制光标、打字、发送信息、创作艺术和音乐,最终实现生活上的巨大改变。

Neuralink 临床试验的首位参与者 Noland Arbaugh,现在可以用思想玩电子游戏、直播和使用笔记本电脑。另一位参与者 Alex 则使用 CAD 软件设计复杂的 3D 物体,这些案例不再是孤立的,而是开启了全球范围内为数百万人恢复独立性的革命序章。

Noland Arbaugh 的用户反馈充分体现了这项技术的意义:“Neuralink 帮助我重新连接了世界、朋友和家人。我可以再次独立做事,无需家人随时随地的帮助。” 他还提到,“我可以在床上使用(Neuralink),其他的辅助技术需要有人帮忙或坐起来,而坐姿会给我身体和精神带来压力,导致褥疮或痉挛。它可以让我按照自己的节奏生活。”他认为,Neuralink 应该能给很多人带来希望。

Oura Ring 4 热销

智能戒指的成熟之作

从诞生之日起,可穿戴设备就和健康监测功能密不可分,从最早 Jawbone Up、Fitbit 到后来的小米手环、Apple Watch,在AI时代出现之前,几乎每一款可穿戴设备都将健康监测当作其核心卖点。

智能戒指,作为智能穿戴设备中的新秀正在快速崛起。与智能手表、智能手环相比,智能戒指体积更小、“存在感”也更小。凭借这种独一无二的“无感”特性,智能戒指的应用场景远比智能手环、智能手表要丰富得多。

10 月份,Oura 发布了新一代智能戒指 Oura Ring 4。Oura Ring 4 能够监测用户的睡眠质量、身体活动、压力水平,甚至心率、皮肤温度和血氧饱和度等身体指标,帮助用户准确追踪、提升睡眠质量,就像是一个“指上睡眠研究所”。

与上一代相比,新发布 Oura Ring 4 跟前三代最大的不同是有AI的加持。其中,Oura Advisor 是 Oura 为用户准备的生成式AI聊天机器人。用户可以询问自己的某些健康指标,它会基于 APP 中所收集到的数据以及专业健康知识给出回答,为用户提供个性化的保健建议。

目前,Oura 完成了 D 轮融资,由血糖设备公司 Dexcom 领投 7500 万美元。融资完成后,Oura 估值超过了 50 亿美金,比 2022 年的估值(26 亿美金)高出近 1 倍。高估值背后是 Oura 出色的商业化表现。根据前段时间公布的数据,Oura 的智能戒指已经销售了 250 多万枚,今年的销量额将翻一番,达到5亿美金。而且,根据 CEO Tom Hale 的说法,Oura 的利润率远高于传统硬件制造商,甚至接近软件公司。

Cursor 成编程领域的 GPT

人人皆可编程

Cursor 是一款集成了人工智能(AI)技术的代码编辑器,旨在提升开发者的编程效率和代码质量。作为 Visual Studio Code 的一个分支,Cursor 兼容多种插件和设置,提供了智能代码补全、代码生成、代码重构等功能。

智能代码补全:Cursor 通过 AI 技术,根据上下文为开发者提供精准的代码补全建议,支持多种编程语言,如 Python、JavaScript、Java 等。

代码生成与重构:开发者可以使用自然语言描述需求,Cursor 会自动生成相应的代码片段,并提供代码优化和重构建议,提升代码质量。

AI 聊天功能:Cursor 内置了 AI 聊天功能,开发者可以在编码过程中与 AI 助手互动,获取代码解释、调试建议等支持。

多文件编辑:Cursor 允许同时编辑多个文件,适用于复杂项目的开发需求。

使用体验:Cursor 的界面与 Visual Studio Code 相似,用户可以无缝衔接使用。其AI功能能够显著提高编码效率,减少重复性工作。此外,Cursor 支持多种 AI 模型,如 GPT-4、Claude 3.5 等,用户可以根据需求选择合适的模型进行辅助编程。

Suno AI 颠覆音乐创作,

人人皆可创作音乐

Suno 成立于 2022 年,Suno 提供 AI 音乐生成工具,用户可以通过简单的文本提示创作出多种音乐风格的高质量音乐和语音。联合创始人包括 Mikey Shulman、Keenan Freyberg、Georg Kucsko 和 Martin Camacho。

5.png

截至 2024 年 5 月,Suno 用户已经超过了 1000 万,Suno 年经常性收入(ARR)接近 3000 万美金,并且每月的增长都还高达 20%。

目前,该公司的总融资 1250 万美元,估值 5 亿美元,注册⽤户达到 1200 万⽤户。投资⽅有 Founder Collective、Nat Friedman、Daniel Gross、Lightspeed Venture Partners。

苹果发布 Visual Intelligence

AI 实时分析用户周边环境

苹果公司给搭载了「相机控制」按钮的 iPhone 16 系列机型开发了全新的 Visual Intelligence 视觉智能功能。这一功能可以帮助用户进行识物,获取关于物品的更多信息,还可以提供相应的购买渠道。用户也可以直接调用 ChatGPT 对取景框中的物品进行描述。

此外,对于建筑物一类的对象,Visual Intelligence 可以告诉你它的地理位置;对于餐厅等地点,它甚至可以为用户提供营业时间和菜单等相关信息。在我们日常出行和生活越来越便利的今天,Visual Intelligence 智能视觉的终极目标,就是要成为用户的智能「机械眼」,让用户通过苹果 AI 观察世界,进一步降低获取相关信息的成本,提高便利性和效率。

Google 面临被颠覆风险

ChatGPT Search 入局搜索

OpenAI 12 天活动的第 8 天,OpenAI 产品负责人 Kevin 宣布,活动的重点是 ChatGPT Search。这次 OpenAI 主要对 ChatGPT Search 进行了功能优化和更新,主要包括:

OpenAI 根据过去几个月的用户反馈,让搜索速度变得更快,尤其移动设备上的表现更好,还新增了一些地图体验等。

当用户激活高级语音模式时,他们现在可以通过语音查询进行搜索,ChatGPT 语音助手将以用户选择的声音进行响应。

ChatGPT 将自动确定用户问题是否需要来自网络的最新信息。

更重要的是,ChatGPT Search 现在已面向全球所有已登录的免费用户开放。据外媒报道,ChatGPT 的周活跃用户数目前超过 2 亿,是一年前的两倍。这意味着现在数亿人可以使用 ChatGPT 进行搜索。“谷歌可能会比它迄今为止面临的任何竞争对手更能感受到这一点。”有网友表示。

OpenAI 还为用户提供了将 ChatGPT 搜索设为浏览器默认搜索引擎的便利选项。

而 Perplexity AI 是一家成立于2022年的人工智能搜索引擎公司,总部位于美国旧金山。其创始团队包括前 OpenAI 研究科学家 Aravind Srinivas 等人。Perplexity AI 致力于通过结合大型语言模型(LLM)和实时网络搜索,为用户提供准确、可信赖的答案,并在回复中附上信息来源链接。

Perplexity AI 的月活跃用户已超过 1500 万,主要通过订阅和计划中的广告收入实现商业化。

大模型加持"Her"

AI 语音助手更拟人

ChatGPT 用户现在可以在启用高级语音模式(Advanced Voice Mode)后,通过语音进行搜索。用户也可以询问最新的旅游目的地信息、最新的天气预报,甚至是活动建议等。ChatGPT 的语音助手提供 10 种预设语音风格,它将会采用用户选择的语音风格进行回复。

高级语音模式在去年发布的 GPT-4o 中已经预览过,但当时只有音频模式是实时的。现在,用户可以使用手机摄像头与 ChatGPT 聊天,大模型将会 “看到 ”你所看到的一切,包括你的手机屏幕。

进行实时视频通话功能的演示时,OpenAI 的首席产品官 Kevin Weil 首先牵头测试了一番 ChatGPT 的“记忆”能力。在 OpenAI 的团队成员依次与 ChatGPT 视频打过招呼并有了一定的认识后,Weil要求它回忆各位成员的特征并说出相应的姓名。

接下来, Weil 又和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡:通过将摄像机对准动作,AVM 展示了它对咖啡机原理的理解,并引导提问者完成咖啡的整个冲泡过程。并且,在整个演示过程中,ChatGPT Advanced Voice 保持了自然而亲切的声音,还调整了它的语气,甚至像人类一样大笑。Siri智障时代应该要过去了。

Google 发超导量子芯片 Willow

量子计算决定性的技术突破

12 月 10 日,谷歌重磅推出全新的量子芯片——Willow(共 105 个量子比特),在 AI 圈掀起了海啸级巨震。在一个标准基准计算任务,Willow 用时不到 5 分钟(300 秒)神速完成。而如今,世界上最快超算 Frontier 要完成同样任务,则需要 10 亿亿亿年,也就是 10,000,000,000,000,000,000,000,000年。这一天文般的数字,远远超过了宇宙的年龄(138 亿年)!

Willow 不仅仅是速度的胜利,更取得了量子计算领域决定性的技术突破——随着量子比特数量的增加,这款芯片的误差也呈指数级下降。这种精度提升的速率超出了一个关键阈值。这意味着,曾困扰量子计算近 30 年的纠错问题,终于迎来曙光。

特斯拉发布 FSD V13.2

全自动驾驶时代来临

特斯拉官方最新消息,12 月 1 日已经向美国地区全系车主推送了 FSD V13.2。

这次 FSD V13.2 更新,最大的亮点莫过于实现了复杂场景的“车位到车位”。

所谓的“车位到车位”,简单来说就是上车即可开启智驾,全程智能驾驶,到达目的地车位。除了行驶过程中可能需要接管之外,这样的体验已经和人们想象中的“自动驾驶”非常类似,因为它已经将用户开车的全场景都覆盖。

也因此,实现“车位到车位”功能通常被视为高级别自动驾驶技术的标志,接近L3自动驾驶水平。

目前,国内新势力智驾的“车位到车位”,由于在地库、封闭停车场场景时没有导航信息,需要由用户先跑“图”。有车企要求车主把地库所有路线都跑一遍,给地库建一次全面、清晰的地图后,才可以使用“从车位到车位”。

相对比之下,此版 FSD 的惊艳之处就体现出来了:从任意停车位自主启动,自主挂档。这已经是类人的驾驶逻辑了——车辆可以看情况出发,看情况停车,核心在于“看情况”。

AI 发了人类历史上第一个红包

能像人类一样操作计算机

11 月 29 日,智谱 AI 的 Open Day 上,气氛达到顶峰的一刻,无疑是智谱 CEO 张鹏举起手机,对 AI 说:帮我在智谱开放日的群聊里发个两万的红包,数量为一百个,名字为"AI 给你发的第一个红包"。而后,AI 迅速调用微信,并且打开发开红包功能,成功发布。

6.png

AutoGLM 支持的 App 包括抖音、微博、京东、拼多多等 App,而且更重要的是,可以完成跨 App、跨端操作。举个例子,在现场 demo 里,智谱清言插件自动完成了“搜索芒果 tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。全程没有人的干预。在另一个采购火锅食材的例子中,AutoGLM 自主执行了 54 步操作,并且中间并未被打断。在多步、循环任务中,AutoGLM 的速度表现也超过人手动操作。

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章