秘密研发，“威胁人类”，一个代号就引发全网恐慌？OpenAI的Q*到底是啥？

HelloKitty • 2023-11-28 14:04

扫一扫在手机阅读、分享本文

1691

本文由 GenAI新世界撰写/授权提供，转载请注明原出处。

文章来源于：GenAI新世界

作者：苗正

让我们先把 OpenAI 管理层内部的极地大乱斗放在一边，聊一聊这家公司最新的传言——Q*。OpenAI 在 11 月 22 号的时候给员工发了一封内部信，承认了 Q*，并将这个项目描述为“超越人类的自主系统”。着实让人感觉到有一丝丝可怕。

虽然 OpenAI 官方没有放出任何有关 Q* 的消息，但是我们还是有能力浅浅了解。

首先第一步，我们要认识 Q* 的读法，官方正式名称叫做 Q-Star，翻译过来就是 Q 星。对，你没看错，即便深度学习中，区块之间是通过乘积来求解的，但是在 Q* 里，“*”并不是乘的意思，而是“星号”。“Q”这个字母在强化学习中表示一个动作的期望奖励。

在人工智能领域里，但凡跟大写 Q 沾边的，本质都是 Q 学习。Q 学习以现在的评判标准可以算是强化学习的一种，指的是在训练的过程中，以记录训练历史奖励值的方式，告诉智能体下一步怎么样选才能跟历史最高奖励值相同。但请注意，历史最大奖励值并不代表模型的最大奖励值，有可能是，也有很大可能不是，甚至还有可能八竿子打不着。换句话说，Q 学习和智能体就像是一支球队的分析师和教练之间的关系。教练负责指导球队，分析师则用来辅佐教练。

在强化学习的过程中，智能体输出的决策是要反馈到环境中才能得到奖励值。而 Q 学习因为只记录奖励值，因此它不需要对环境进行建模，相当于“结果好，一切就好”。

不过这样看下来，好像 Q 学习还不如现在人工智能，尤其是大模型常用的深度学习模型。像现在这种动不动几十亿几百亿这么多参数下，Q 学习不仅对模型没什么帮助，反倒还增加了复杂性，从而降低了鲁棒性。

别急，其实这是因为上述 Q 学习背后的思路本身只是一个诞生于 1989 年的基本概念。

DeepMind 在 2013 年的时候曾经通过改进 Q 学习，推出过一个算法叫做深度 Q 学习，其最鲜明的特点就是使用经历回放，从过去多个结果中进行采样，再使用 Q 学习，进而达到提高模型的稳定性，降低模型因为某一次结果导致训练方向过于发散。

然而实话实说，这个概念一直没有走红也是有原因的，而从实际意义来看，深度 Q 学习此前在学界看来最大的作用就是开发出了 DQN。

DQN 是指深度 Q 网络，诞生于深度 Q 学习。DQN 的思路和 Q 学习是一模一样的，但是在求得 Q 学习中最大奖励值的过程，是用神经网络来实现的。这一下子就 fashion 了起来。

DQN 同一时间只会生成一个节点。与此同时，DQN 会生成一个优先级队列，然后再把剩下的节点和动作的元祖存到优先级队列里。显而易见，一个节点肯定不够用，如果全程就一个节点那最后求解的答案一定错得离谱。当节点和动作元祖从队列中移出来的时候，就会根据这个动作应用到已经生成的那个节点得出来的关联性进而生成一个新节点，以此类推。

稍微懂点人工智能发展史的人会觉得越看越眼熟，这不就是高配版弗洛伊德求边长？

现代计算机中，处理器所使用的核心原理就是弗洛伊德算法，通过与历史最优值比对，求得两点之间最短的路径。内存的作用就是将计算以优先级的方式存储，每当处理器完成一次计算后，内存再把下一条计算扔给处理器。

DQN 本质没什么区别。

这基本就是 Q 的意思，那么*又是指什么呢？

从诸多的业内人士分析来看，*很有可能指代的是 A* 算法。

这是一种启发式算法。先不着急讲启发式算法是什么，我来讲个笑话：

A 问 B 说“快速求出 1928749189571*1982379176 的乘积”，B 立马就回答 A 说：“32”。这个 A 听了就很纳闷，这么大的两个数相乘，不可能答案是两位数。B 反问 A：“你就说快不快？”。

看起来离谱，但启发式算法也是同理。

它的本质就是估算，在效率和正解之间只能选择一个。要不然就非常讲究效率，可有时候会出错；要不然就非常讲究正确性，可耗时有时候会很长。A* 算法则是先通过启发式算法估算一个大概其的值，当然这个值很有可能极其偏离正解。估算完成后就会开始循环遍历，如果怎么都没办法求解那就重新估值，直到开始出现解。如此反复，最终得出最佳解。

虽然能得到最佳解，然而 A* 就是上文提到的第二种，答案对，耗时比较长。放在实验室环境还好，这种算法要是放在个人设备上，有可能会导致内存溢出，产生系统问题，比如蓝屏。

因此这样的局限性使得过往 A* 算法往往应用于一些不太复杂的模型，最典型的就是网络游戏中角色寻路。一些大型游戏中，角色在寻路开始的那一刹那出现卡顿，就是因为 A* 算法。

综合来看，目前人工智能圈的共识是，OpenAI 内部信中提到的 Q* 算法，大抵是 Q 学习和 A 两者的取长补短，即节省算力、节省内存，并得到最佳解——因为它总不可能是又多花费算力，又浪费内存，最后还得不到最佳解吧！那不成累傻小子了吗！

而且，就像 OpenAI 把基础模型这件事最终做成了一样，它同样早已存在，甚至也一度被人们冷落，直到 OpenAI 用具体的创新的方法把它的潜力重新发掘出来。今天人们自然有理由相信在 Q 和 A 这两个早就存在的算法思路里，OpenAI 能故技重施再次创造奇迹——当然，对于这奇迹可能对人类带来的危害也因为最近 OpenAI 的闹剧而让更多人忧心忡忡。

所以，回到这个算法，Q* 最有可能的样子是，利用 Q 学习快速找到接近最优解的估值，再利用 A* 算法在小范围内求解，省去了大量没有意义的计算过程，以此达到快速求得最佳解的效果。但是 OpenAI 具体要怎么做，还得等公开论文（如果能等到的话）。

Q* 的出现其实说明了一个问题，人工智能头部公司意识到当下人工智能发展中求解的过程比求解更有意义。因为现在只追求答案的正确性不再能满足人们对人工智能的需求。比如 OpenCompass 上，即便是平均分数差 10 分、20 分，但是如果从理解的准确率上看，最好的模型和最差的模型也没有很大的差距。

在人们的猜测和恐慌中，一个关于 Q* 的说法是，Q* 可以解决非常高级的数学问题。萨里以人为本人工智能研究所所长安德鲁·罗戈斯基表示“我们知道现有的人工智能已被证明能够进行本科水平的数学运算，但无法处理更高级的数学问题。但是 Q* 极有可能用来解决高难度的数学问题。”说不定等到 Q* 出来的那一天，还可以考考它哥德巴赫猜想。而数学被认为是人类智慧的最大结晶之一，因此 Q* 只是一个代号就引发了全网的恐慌。

而且 Q* 背后还被与 OpenAI 的那个使命相联系——那就是对通用人工智能（AGI），甚至是超级智能的探索。OpenAI 将 AGI 定义为在最具经济价值的任务中超越人类的自主系统，Q* 就是 OpenAI 迈向的 AGI 的一步。

目前 OpenAI 对于 Q* 和内部信泄露事件没有对外发表任何置评，可我却喜忧参半。对 Q* 拥有强大能力表示开心，人工智能领域发展将会更进一步。同时也比较担心 Q* 噱头大于实际，最后真到发布的那一天测试结果也就那么回事，让我被哐哐打脸。