OpenAI o1模子议论团队对话红杉好意思国结伴东谈主：o1系列迄今未被充分斥地的维度，天花板比许多东谈主想象的要高得多

　　转自：有新Newin

　　行运的是，作为 OpenAI o1 模子议论团队三位中枢时期东谈主员 Noam Brown（OpenAI 议论科学家，专注于 AI 推理和强化学习）、Hunter Lightman（OpenAI 高档工程师，主要议论 AI 在复杂问题上的推理才调）以及 Ilge Akkaya（OpenAI 议论员，特殊怜惜 AI 在数学和逻辑推理方面的应用）也在近日与红杉好意思国结伴东谈主 Sonya Huang 以及 Pat Grady 伸开了一场对谈。

　　Noam Brown 强调，o1 模子的一个中枢冲破在于延长推理时代带来的才调擢升。通过增多推理时代，模子在处理复杂问题时施展出了自觉的回溯和自我修正才调，这使得它在像数独和复杂逻辑等问题上施展尤为出色。通过这种“延时推理”，o1 能更有用地叮嘱高难度任务。

　　Hunter Lightman 认为，o1 模子不仅通过推理时代膨胀了 AI 的才调，还为畴昔AI的发伸开辟了新的标的。与之前依赖数据和诡计才调膨胀的AI模子比拟，o1 的推理时代膨胀代表了一种全新的维度。这种样式有望在畴昔的模子版块（如 o2 和 o3 ）中进一步膨胀 AI 才调。

　　Noam Brown 和 Hunter Lightman 承认，尽管 o1 在推理任务中施展出色，但它并非在整个任务上齐优于其他 AI 模子。尤其在非 STEM 范围，模子的施展还有很大的修订空间。

　　以下为此次对话的主要内容，enjoy~

　　Sonya Huang：

　　o1 是 OpenAI 初次在推理时代诡计上的要紧尝试。咱们很期待和团队筹商推理、念念维链、推理时代缩放定律等话题。

　　Ilge、Hunter、 Noam ，感谢你们的到来，并道喜你们将 o1 推向公众。我想先问一下，你们从一启动就确信这个技俩会到手吗？

　　Noam Brown：

　　我认为咱们从一启动就信赖这一标的有后劲，但试验走到今天的旅途并不闪现。你望望 o1 ，这并不是今夜之间的效果。试验上，这背后有多年议论，而其中好多议论并莫得取得成效。

　　我认为 OpenAI 的率领层一直笃信这一标的必须有散伙，并景象在早期碰到报复的情况下延续投资，这最终得到了申报。

　　Hunter Lightman：

　　我一启动莫得像 Noam 那样有热烈的信心。我还是花了很长时代议论言语模子，试图让它们学会作念数学和其他推理任务。议论的过程老是有起有落，有时有用果，有时莫得。

　　但当咱们发现这一标的启动收效时，我阅历了一个“啊哈”的时刻，那时我读了一些模子生成的输出，它们以不同的样式处理问题处理。这就是我信心确立的时刻。

　　我认为 OpenAI 举座上收受了一种相称实证、数据驱动的样式，当数据启动向你展示趋势况且变得专诚念念时，咱们就会跟班这些踪影。而这亦然我信心确立的时刻。

　　Sonya Huang：

　　Ilge，你还是在 OpenAI 使命了很长时代，五年半了。你怎样看？你从一启动就信赖这个方法会到手吗？

　　Ilge Akkaya：

　　不，我加入后曾几次判断特地。我一启动以为机器东谈主时期是通向 AGI 的谈路，是以我最初加入了机器东谈主团队，认为 AGI 会出咫尺具身智能中。但是，事情并莫得按预期发展。

　　在我使命的这段时代， Chat GPT 的出现无疑是个范式逶迤。咱们能够向全寰宇展示一个通用接口，我很喜跃咱们咫尺有了一条可能的新的前进旅途来推动这一推理范式。但对我来说，长时代里，这条旅途并不判辨。

　　Pat Grady：

　　我知谈你们出于很好的根由，弗成公开过多的细节，但你们能否大致先容一下它的使命旨趣？

　　Ilge Akkaya：

　　o1 模子系列使用了强化学习，能够进行推理，或者你也可以称之为“念念考”。它与咱们曩昔使用的大型言语模子有本色上的不同。

　　咱们还是看到它在好多不同的推理范围中齐施展出雅致的泛化才调，咱们也在最近展示了这小数。是以咱们对这个新模子眷属带来的范式逶迤感到相称焕发。

　　Pat Grady：

　　对于那些不太熟谙现时言语模子时期的东谈主来说，什么是推理？你能否简要界说一下推理，并解释为什么它很紧迫？

　　Noam Brown：

　　一个粗放的通晓是，推理是针对那些念念考更长时代有判辨公道的问题的才调。你知谈，东谈主类有经典的系统 1 和系统 2念念维。

　　系统 1 是自动化的、直观式的反馈，系统 2 则是较慢的、更有进程驱动的反馈。对于某些任务，延长念念考时代并不会带来更多公道。

　　比如，要是我问你“不丹的齐门是那里？”，你可以花两年的时代念念考，但这不会提高你的正确率。趁机说一句，不丹的齐门是什么？其实我也不知谈。不外，如实有一些问题，通过延长念念考时代可以带来更高的准确性。

　　一个经典的例子是数独，你可以表面上尝试多样解法，况且正确解法相称容易识别。因此，惟有有弥漫的时代，你最终会找到正确谜底。

　　好多 AI 范围的议论者对推理有不同的界说，我不主张这是惟一的界说。每个东谈主齐有我方的主张，但我认为推理是那些通过研讨更多选项和念念考更长时代可以获益的问题。

　　你可以把它通晓为一个生成-考证的差距问题：生成一个正确的解法很难，但识别正确解法却相对粗放。

　　我认为整个问题齐在这个光谱上，比如数独这种考证比生成容易的问题，以及考证和生成相通禁止的问题，比如不丹的齐门叫什么。

　　Sonya Huang：

　　我想问一下对于 AlphaGo 和 Noam 的配景，你以前在扑克和其他游戏方面的议论有多猛进程与 o1 的使命筹商？它们之间有哪些相似和不同之处？

　　Noam Brown：

　　我认为 o1 的一大亮点是它如确凿念念考时代增多的情况下施展更好。要是回归曩昔的许多 AI 冲破， AlphaGo 是一个经典的例子。

　　它的一个显耀特色是会花很长时代在每步碾儿动前念念考，可能需要 30 秒来决定下一步。要是让它短暂作念出决策，它其实比不上顶级的东谈主类选手。因此，它的施展很猛进程上依赖于这些额外的念念考时代。

　　问题在于，这种额外的念念考时代是依靠蒙特卡洛树搜索（MCTS）进行的，这是一种特定的推理方法，适用于围棋，但在我早期议论的扑克游戏中却行欠亨。因此，尽管神经积攒部分（系统 1 的部分）是通用的，但那时存在的推理方法仍然是特定范围的。

　　o1 的另一大亮点是它的推理样式相称通用，适用于许多不同的范围。咱们还是看到了用户使用它的多样样式，也考证了这小数。

　　Hunter Lightman：

　　言语模子一直诱导我的地点是，它们的接口相称通用，可以适合多样问题。此次咱们感到焕发的是，咱们认为咱们有一种方法，可以在这种通用接口上作念强化学习，并期待看到畴昔的可能性。

　　Pat Grady：

　　你提到生成和考证之间的差距，这在不同问题上有所不同。那么在推理过程中，这种差距的处理方法是否是一致的，或者在不同的情况下有不同的方法？

　　Hunter Lightman：

　　此次发布让我焕发的地点之一是， o1 能够交到那么多东谈主手里，咱们可以看到它在哪些问题上施展好，哪些问题上施展差。这是 OpenAI 的中枢策略之一，咱们通过迭代式的时期部署，不雅察寰宇怎样与它互动，并不断修订咱们的议论。

　　Pat Grady：

　　在推特上，有什么用户使用 o1 的样式让你感到不测吗？

　　Ilge Akkaya：

　　让我相称焕发的一件事是，我看到好多医师和议论东谈主员把这个模子行为头脑风暴的合作伙伴。他们在癌症议论范围使命多年，正在与模子筹商一些对于基因发现和基因疗法的想法。

　　天然模子无法自行进行议论，但它可以成为东谈主类的雅致合营伙伴，匡助推动科学议论的最初。

　　Sonya Huang：

　　Noam ，我记起你曾发推说，深度强化学习（Deep RL）还是走出了“落空低谷”。你能留心解释一下你的风趣吗？

　　Noam Brown：

　　我合计这一切可以纪念到 Atari 游戏，DeepMind 在 Atari 上的深度强化学习（ DRL ）散伙也曾相称热点。我那时正在攻读博士学位，约莫在2015到2019年之间， DRL 无疑是最热点的议论范围。

　　在某些方面，如实取得了大批议论效果，但也忽略了一些问题。其中一个被疏远的方面就是运用海量数据（维权）进行磨练的力量，比如 GPT 的磨练样式。在某种进程上，这相称令东谈主讶异。

　　望望 AlphaGo ，它无疑是深度强化学习范围的要紧设立之一。尽管其中有RL（强化学习）步调，但更紧迫的是， AlphaGo 在这之前还进行了基于东谈主类数据的学习，这才是让 AlphaGo 真确升起的原因。

　　然后，议论界逐渐出现了一种不雅点，认为不依赖东谈主类数据、从零启动学习才是“贞洁”的标的。

　　这也导致了 AlphaZero 的出现，尽管它的施展比 AlphaGo 更好，但这个过程的逶迤疏远了像 GPT 这样的大限制数据磨练的后劲，除了 OpenAI 除外，很少有东谈主怜惜这个标的。

　　OpenAI 在初期看到了这个标的的一些初步效果，并有决心加倍干预。是以， DRL 如实阅历了一段岑岭期，随后跟着 GPT-3 等大模子的到手， DRL 的热度有所下跌，许多东谈主对它失去了信心。不外，跟着 o1 的出现，咱们看到了 DRL 在与其他元素结合时仍然具有强劲的后劲。

　　Sonya Huang：

　　我认为好多 DRL 的效果是在相对明确的设定下产生的。游戏中的 o1 是初次在更深广的、无界环境中使用 DRL 的案例之一吗？这样通晓对吗？

　　Noam Brown：

　　是的，我合计这是一个很好的不雅点。许多 DRL 的亮点效果如实相称酷，但它们的适用范围也相称短促。天然咱们如实看到了一些终点有用且通用的 DRL 效果，但莫得什么可以与 GPT-4 的影响力比拟。因此，我认为在新的范式下， DRL 畴昔将达到近似的影响力水平。

　　Sonya Huang：

　　我还记起 AlphaGo 的比赛散伙，尤其是在一些锦标赛中的第 37 手，阿谁动作畏怯了整个东谈主。

　　你在 o1 的议论中是否见到过近似的时刻，模子给出了一个让整个东谈主不测的谜底，但试验上是对的，甚而比东谈主类的想法更好？你们是否有过那样的时刻，照旧认为可能要比及 o2 或 o3 ？

　　Hunter Lightman：

　　我想起了一个例子，咱们在为IOI（海外信息学奥林匹克竞赛）作念准备时，把模子干预到处理问题的过程中。有一个问题， o1 握意要用一种奇怪的方法去处理，具体细节我不太闪现，我的共事们，他们更擅长竞赛编程，试图弄闪现为什么模子会这样作念。

　　我认为这并不是“天才之作”的那种时刻，而是模子不知谈正确的处理方法，于是反复尝试，直到找到另一个处理有想象。它如实处理了问题，只是用了一个看起来很奇怪的方法。我记起这是一个风趣风趣的例子，在编程竞赛的散伙中，模子如实以一种不同于东谈主类的样式念念考问题。

　　Ilge Akkaya：

　　我看到模子处理了一些几何问题，它的念念考样式让我感到很讶异。比如，你让模子诡计一个球体上的点，然后盘考某个事件发生的概率，模子会说：“让咱们先来想象这个场景，舍弃这些点，然后从这个角度念念考。”

　　这种用言语进行可视化的样式的确让我吃惊，就像我作为东谈主类会作念的那样，而看到 o1 也能作念到这小数，的确让我感到不测。

　　Sonya Huang：

　　相称风趣风趣。这不仅是东谈主类可以通晓的，还能膨胀咱们对问题的念念考样式，而不单是是某种难以通晓的机器言语。这的确相称诱导东谈主。

　　Hunter Lightman：

　　是的，我如实认为 o1 的散伙中最酷的小数是，它的念念维链是可以被东谈主类解释的，这使咱们能够通晓模子的念念维过程。

　　Pat Grady：

　　在议论过程中有莫得出现那种“啊哈”的时刻？Hunter，你提到一启动你并不确信这个标的会到手，有莫得某个时刻让你骤然意志到：“天啊，这个标的的确有用！”

　　Hunter Lightman：

　　我在 OpenAI 还是使命了约莫两年半的时代，大部分时代齐在发奋让模子更好地处理数学问题。咱们为此作念了好多使命，构建了多样定制系统。

　　在 o1 的议论过程中，有一次咱们磨练了一个新模子，应用了一些造就和修改，散伙它在数学评估中的得分比咱们之前整个的尝试齐高，甚而杰出了咱们想象的定制系统。

　　咱们稽察了念念维链的变化，发现它们施展出了不同的特征。特殊是当模子犯错时，它会说：“等等，这别离，我需要退一步，从头找出正确的标的。”咱们称这种行动为“回退”（backtracking）。

　　我还是恭候很长时代想看到模子能够回退的例子，当我看到这个得分和念念维链时，我意志到这的确有后劲，我需要更新我的主张。这就是我信心确立的时刻。

　　Noam Brown：

　　我合计对我来说亦然近似的故事。大要是在并吞时代，我加入时的想法是，像Chat GPT这样的模子并莫得真确“念念考”才作出回话，它的反馈相称快速。

　　而在 AI 范围的游戏中，能够花更多时代念念考可以获取更好的散伙。是以我一直在念念考，怎样将这小数引入到言语模子中。

　　这听起来粗放，但试验上怎样扫尾是个挑战。咱们筹商了好多怎样让模子领有反念念才调，如安在犯错时回退或尝试不同的方法。

　　最终，咱们决定尝试一个基本的有想象，就是让 AI 念念考更长时代。散伙咱们发现，一朝 AI 能有更多的念念考时代，它险些是自觉地发展出这些才调，包括回退和自我修正。

　　这些齐是咱们想让模子扫尾的，而咫尺通过这样一个粗放且可膨胀的样式就扫尾了。

　　Noam Brown：

　　这对我来说是一个重要时刻，那时我意志到咱们可以进一步推动这个标的，而且标的相称明确。

　　Hunter Lightman：

　　我一直在通晓 Noam 对“推理诡计”（conviction compute）的信心有多强劲。我记起他刚加入时，咱们的好多一双一双话齐围绕着测试时诡计的力量伸开。

　　在技俩进行的多个阶段， Noam 齐会说：“为什么不让模子念念考更长时代？”然后咱们就这样作念了，散伙模子施展得更好。他看着咱们时的热情有点可笑，仿佛在说：“为什么咱们之前没这样作念？”

　　Sonya Huang：

　　咱们在你们的邮件中提神到， o1 在 STEM 范围施展得相称好，判辨优于你们之前的模子。对此有莫得一个大致的解释？为什么会这样？

　　Noam Brown：

　　我之前提到过，有些任务，比如推理任务，考证一个谜底比生成一个谜底要容易。STEM范围的问题频频属于难以推理的问题类型。是以这就是咱们看到 o1 在STEM学科施展更好的一个紧迫原因。

　　Sonya Huang：

　　判辨。我想补充一个问题，咱们在你们发布的议论论文中看到， o1 通过了你们的议论工程师口试，而且通过率终点高。对此你怎样看？这是否意味着畴昔 OpenAI 会雇佣 o1 来代替东谈主类工程师？

　　Hunter Lightman：

　　我认为咱们还莫得达到阿谁水平。我合计还有更多使命要作念。

　　Sonya Huang：

　　不外要达到 100% 照旧很难的，对吧？

　　Hunter Lightman：

　　也许咱们需要更好的口试方法。但至少在我看来， o1 还是比之前的模子更像一个编程伙伴。我认为它还是在咱们的代码库中提交了几次代码变更。

　　从某种风趣上讲，它如实像一个软件工程师，因为软件工程亦然一个受益于长时代推理的STEM范围。

　　我认为现时模子在进行推理时只念念考了几分钟，但要是咱们延续膨胀这个趋势，让 o1 念念考更长时代，它可能会完成更多近似的任务。

　　Noam Brown：

　　你可以知谈咱们扫尾了 AGI 的那一天就是当咱们下架整个招聘信息，而公司景况要么相称好，要么相称差的时候。

　　Sonya Huang：

　　你认为要让 o1 在东谈主文体科上施展出色需要作念些什么？你认为推理、逻辑和STEM范围的上风会跟着推理时代的膨胀天然延迟到东谈主文体科吗？照旧说会有其他要素？

　　Noam Brown：

　　如你所说，咱们发布了模子，也很深嗜它擅长什么、不擅长什么，用户会用它来作念什么。我认为模子的原始智能和它在试验任务中的有用性之间仍然存在差距。

　　在某些方面它相称有用，但在更多方面它可以更有用。我认为咱们还有好多迭代的空间，来解锁这种更深广的通用性。

　　Pat Grady：

　　那么我很深嗜， OpenAI 里面有没关联于模子才调与试验应用需求之间差距的玄学？你们是否有一个明确的念念考过程来决定哪些使命应该由模子完成，哪些使命应留给围绕API的生态系统来处理？

　　Noam Brown：

　　在我加入之前，我就据说 OpenAI 相称专注于 AGI ，而我那时对这小数还有些怀疑。基本上，我刚启动使命的第一天，公司召开了一次全员会议，Sam站在大家眼前，明确默示 AGI 是咱们的首要目标。

　　因此，最明确的谜底就是 AGI 是咱们的终极目标，莫得某个单一的应用是咱们的优先事项，除了是否能够使用 AGI 。

　　Pat Grady：

　　你们对 AGI 有明确的界说吗？

　　Noam Brown：

　　每个东谈主齐有我方的界说，对吧？这亦然为什么这个问题很风趣风趣。

　　Hunter Lightman：

　　我不知谈我是否有一个明确的界说。我只是合计这可能与 AI 系统能够完成的经济上有价值的使命比例关联。

　　我认为在畴昔几年内，这个比例会连忙高潮。我不笃定具体会怎样发展，但这可能是那种“当你感受到时你就知谈”的情况。

　　咱们可能会不断调养法式，直到有一天咱们与这些 AI 共事全部使命，而它们完成了咱们咫尺作念的许多使命，而咱们则在作念不同的使命。整个这个词使命生态系统齐会发生变化。

　　Pat Grady：

　　你的一位共事曾很好地抒发了推理在通往 AGI 的过程中紧迫性。他的卤莽是：任何使命齐可能碰到遮掩，而匡助你克服这些遮掩的恰是你的推理才调。

　　我认为这是一个可以的结合，讲解了推理为何紧迫以及与 AGI 目标的关系。你们认为这是通晓推理为何紧迫的最好样式吗？照旧有其他的框架可以匡助咱们通晓推理？

　　Hunter Lightman：

　　我认为这是一个有待阐发的问题。因为在斥地这些 AI 系统和模子的过程中，咱们看到了它们的多样施展和不及。

　　咱们在斥地、评估这些系统时学到了好多新东西，并试图了解它们的才调。举例，一些预见的事情是策略贪图、头脑风暴等。

　　Pat Grady：

　　要是要让 AI 像优秀的产物司理一样好，它需要大批的创意和对用户需求的知悉。这算是推理吗？照旧说这是一种与推理不同的创造力，需要以不同的样式处理？

　　当你启动将这些想象逶迤为行动时，你还需要进行策略贪图，研讨怎样推动组织达成目标，这算是推理吗？

　　Hunter Lightman：

　　也许部分是推理，但也许部分是其他东西。最终，咱们可能会合计这些齐是推理，或者咱们会发明一个新词，形色需要收受的新步调。

　　Ilge Akkaya：

　　我不笃定咱们能将这个推理问题鼓吹到什么进程。每当我念念考这个深广的推理问题时，数学范围的例子老是很有匡助。

　　咱们花了好多时代阅读模子在解数学问题时的念念维过程。你能看到，当它碰到遮掩时，它会反璧去，尝试另一个方法。

　　这种念念维过程让我合计，也许它能施行到数学除外的范围，这给了我一些但愿。天然我不知谈最终谜底是什么，但但愿如斯吧。

　　Hunter Lightman：

　　让我感到困惑的是， o1 还是在数学上比我更是非了，但它在软件工程上却不如我。是以这里存在某种不匹配。

　　Pat Grady：

　　看来还有好多使命要作念。

　　Hunter Lightman：

　　是的，还有一些事情要作念。要是我的整个这个词使命只是解Amy问题和参加高中数学竞赛，我可能早就闲隙了。但咫尺我仍然有使命可作念。

　　Pat Grady：

　　既然你提到了“念念维链”，即不雅察背后的推理过程。我有个问题，也许你们无法回答，但就当是风趣风趣的筹商吧。

　　在你们发布 o1 的博客中，你们解释了为什么要荫藏“念念维链”，并说部分原因是出于竞争研讨。我深嗜，这是否是一个有争议的决定？因为我可以想象，这种决定很有逻辑，但也可以想象你们可能选拔公开它。能否谈谈这是一个有争议的决定吗？

　　Noam Brown：

　　我不认为这是有争议的。与不共享前沿模子的权重出于近似的原因，共享模子的念念维过程也存在好多风险。我认为这是一个近似的决策。

　　Sonya Huang：

　　能弗成给新手解释一下，什么是“念念维链”？可以举个例子吗？

　　Ilge Akkaya：

　　举例，要是有东谈主问你处理一个积分问题，大多数东谈主会需要一张纸和一支笔，然后一步步推导出从复杂方程到最终谜底的过程。

　　这个过程可能会得到一个谜底，比如1，但怎样得出这个谜底？这就是数学范围中的“念念维链”。

　　Sonya Huang：

　　让咱们谈谈畴昔的旅途，推理时代的膨胀定律。在你们发布的议论中，这是我认为最紧迫的图表。这似乎是一个具有深入风趣的散伙，近似于预磨练中的膨胀定律。你答允这种主张吗？这对范围的影响会是什么？

　　Noam Brown：

　　我认为它如实具有深入风趣。在咱们准备发布 o1 时，我一直在想东谈主们是否会贯通到它的紧迫性。天然咱们提到了这小数，但这是个比较好意思妙的点。

　　我的确很讶异和感恩，看到这样多东谈主办解了这小数的风趣。一直以来，东谈主们对 AI 可能碰到瓶颈或停滞的担忧好多，尤其是预磨练变得越来越奋发，还关联于是否有弥漫数据的问题。

　　o1 ，特殊是 o1 Preview，传达的主要信息并不是它今天的才调，而是它对畴昔的风趣。咱们能够在膨胀中发现一个迄今未被充分斥地的维度，我认为这是一个要紧冲破，这意味着天花板比许多东谈主想象的要高得多。

　　Sonya Huang：

　　要是让模子念念考数小时、数月甚而数年，会发生什么？

　　Hunter Lightman：

　　咱们还莫得让 o1 运行那么久，是以还不知谈。

　　Pat Grady：

　　咫尺有个后台任务在运行吗？可能正在念念考怎样处理寰宇和平问题。

　　Hunter Lightman：

　　有一个近似的故事叫《终末的问题》，讲的是一个巨大的诡计机 AI 被问到怎样逆转熵，它回答：“我需要更长的时代念念考。”

　　故事接着求教了，10年后，它还在念念考，100 年后，1000 年后，甚而一万年后，它还在念念考。

　　Ilge Akkaya：

　　“咫尺还莫得弥漫的信息来提供专诚念念的谜底。”近似于这样。

　　Sonya Huang：

　　你对畴昔有猜想吗？你觉适合模子的推理时代越来越长，它的才略极限会达到什么进程？咫尺我看到的申报是，它的智商约莫是 120，那它会无尽提高吗？

　　Hunter Lightman：

　　一个紧迫的点是，120智商只是某个测试中的分数，并不料味着它在整个范围齐有120的推理才调。

　　试验上，咱们也谈到，它在某些方面的施展不如 40 分，比如在创造性写稿等方面。是以，推测这个模子的才调是很复杂的。

　　Noam Brown：

　　这是一个紧迫的点。咱们驳斥这些基准测试时，强调了GPQA，这是一个博士生会碰到的问题集中，频频由博士生来解答，但 AI 咫尺在这个基准测试中杰出了好多博士生。

　　这并不料味着它在整个方面齐比博士生灵巧。博士生和东谈主类能够作念好多 AI 无法作念到的事情。是以咱们在看这些测试散伙时，应该通晓它只是测量了某些特定的才调，频频是东谈主类才略的代理，但对 AI 来说，风趣有所不同。

　　Hunter Lightman：

　　也许可以这样说，我但愿看到的是，当咱们让模子在它还是擅长的范围念念考更长时代时，它会变得更好。

　　我的一个“推特时刻”是看到我以前的数学教授发推，他对 o1 印象深刻，因为他给了它一个之前从未被 AI 解过的讲解注解，而它果然完成了。

　　这让我嗅觉咱们正处于某个风趣风趣的逶迤点，模子有望成为一个有用的数学议论器具。要是它能够匡助完成一些小的引理和讲解注解，那将是一个真确的冲破。我但愿通过让它念念考更长时代，咱们能够在这方面取得更大的进展。

　　要瞻望它在现时不擅长的范围会怎样施展，这对我来说很难。咱们怎样让它在这些方面变得更好？畴昔会怎样发展？

　　但是咱们可以以它咫尺擅长的范围为基础，假定要是咱们让它在这些范围念念考更久，它将成为数学议论的好助手、软件工程的好帮衬。这样咱们就可以启动瞻望畴昔的发展标的。

　　Pat Grady：

　　对于膨胀的瓶颈问题。对于预磨练来说，很判辨你需要大批的诡计才调、大批的数据，这些齐需要大批的资金。是以很容易通晓预磨练在膨胀方面的瓶颈。那么，推理时代的膨胀会有什么抵制呢？

　　Noam Brown：

　　当 GPT-2和 GPT-3 发布时，很判辨惟有干预更多的数据和GPU，它们的性能就会显耀擢升。

　　但即便如斯，从 GPT-2到 GPT-3 再到 GPT-4 之间照旧花了好几年的时代。这不单是是一个粗放的想法，还有好多使命要作念，才能把它膨胀到一个相称大的限制。

　　我认为这里也靠近近似的挑战，天然这个想法很粗放，但要真确膨胀它，需要干预大批的使命。是以我认为这是挑战所在。

　　Hunter Lightman：

　　是的，我认为对于那些学术配景较强的议论东谈主员来说，加入 OpenAI 后可能会发现令东谈主讶异的事情之一是，好多问题最终并不是议论问题，而是工程问题。

　　构建大限制系统、磨练大限制系统，以及运行那些早已发明的算法，或者前所未有的系统，齐曲直常禁止的。这需要大批费事的工程使命，才能让这些东西膨胀起来。

　　Ilge Akkaya：

　　此外，咱们还需要知谈该在什么法式上测试模子。咱们如实有法式的评估基准，但可能还有一些咱们尚未测试到的范围。是以咱们也在寻找这些范围，在这些地点咱们可以干预更多的诡计资源，获取更好的测试散伙。

　　Sonya Huang：

　　我一直很难通晓的是，当你给模子提供接近无尽的诡计资源时，会发生什么。作为一个东谈主类，即即是 Terrence Tao 这样的大脑天才，也会受到生理抵制。

　　而你可以无尽增多推理时代的诡计资源。这是否意味着，整个的数学定理最终齐可以通过这种方法解出来？或者你认为会有某种极限？

　　Hunter Lightman：

　　无尽诡计资源是很大的诡计才调。

　　Sonya Huang：

　　接近无尽。

　　Hunter Lightman：

　　这让我想起了Asimov的故事，要是你让它念念考一万年，也许能处理某些问题。但说真话，咱们还不知谈这种膨胀对于处理真确难的数学定理意味着什么。可能的确需要让它念念考一千年，才能处理一些未解的中枢数学问题。

　　Noam Brown：

　　是的，我的风趣是，要是你让它念念考弥漫长的时代，表面上你可以把一切神志化，像Lean那样，把整个可能的讲解注解齐遍历一遍，最终你会发现定理。

　　Hunter Lightman：

　　咱们还是有算法可以处理任何数学问题，也许这就是你要说的。

　　Noam Brown：

　　是的，惟有有无尽的时代，你可以作念好多事情。天然，跟着时代的延长，申报会逐渐递减，但的确可以取得一些进展。

　　Sonya Huang：

　　相称公正。你认为对于 o1 最大的污蔑是什么？

　　Noam Brown：

　　我合计一个大污蔑是，当技俩称号“草莓”（strawberry）线路时，东谈主们以为这是因为积攒崇高传的一个问题：“草莓有些许小时？”其实并不是这样。

　　当咱们看到这个问题时，咱们还很系念是不是有里面信息线路。但据咱们所知，这只是个随机，咱们的技俩名字偶合叫“草莓”，而阿谁问题也恰好流行起来了。

　　Hunter Lightman：

　　据我所知，之是以叫“草莓”，只是因为那时有东谈主需要想个代号，而屋里有个东谈主正好在吃一盒草莓，事情就这样定了。

　　Pat Grady：

　　比拟之下，这个名字比“休斯顿”要更容易让东谈主办想。

　　Noam Brown：

　　我合计我对它被通晓得这样好感到印象深刻。咱们在发布时如实不笃定大家会怎样收受。里面有过很大的争论：东谈主们会不会失望，因为它并弗成在整个方面齐更好？照旧他们会对它惊东谈主的数学施展感到印象深刻？

　　咱们真确想传达的并不是这个模子咫尺的才调，而是它畴昔的发展标的。我不笃定大家是否能通晓这小数，但似乎好多东谈主如实领路了，是以我对此相称舒畅。

　　Sonya Huang：

　　对于 o1 ，你合计有莫得什么品评是合理的？

　　Hunter Lightman：

　　毫无疑问，它并弗成在整个方面施展得更好。它是一个有点乖癖的模子，好多东谈主在互联网上发现了不同的教导样式来更好地使用它。

　　仍然有好多歪邪的边际案例，我很期待看到生态系统怎样基于咱们的平台斥地出更智能的产物和应用。

　　Hunter Lightman：

　　我合计咱们还处于相称早期的阶段。有点像一年前东谈主们启动真确搞闪现怎样使用 GPT-4 偏激言语模子步调，进而使得软件工程器具变得更智能。我但愿咱们会看到近似的进展，东谈主们会基于 o1 进行编削。

　　Pat Grady：

　　说到这小数，有一件咱们还没筹商的事情，就是 o1 Mini。我听到好多东谈主对 o1 Mini相称焕发，因为大家普遍对小模子感兴味。

　　要是你能够保留推理才调并提真金不怕火部分寰宇常识，那么这是一件相称可以的事情。我很深嗜，你们对 o1 Mini和它代表的标的有多焕发？

　　Ilge Akkaya：

　　这个模子相称令东谈主焕发。对咱们议论东谈主员来说，要是模子运行得快，它的用途就更深广。是以咱们也很心爱它。它们有不同的用途。

　　咱们很喜跃有一个更低廉、更快的版块，还有一个更重、更慢的版块。它们在不同的场景中齐相称有用。是以，咱们对取得的这种均衡感到相称焕发。

　　Hunter Lightman：

　　我心爱这种表述，这强调了进展的紧迫性。o1 Mini让咱们能够更快地迭代，但愿对巨大的用户生态系统来说，它也能让他们更快地迭代。是以它至少在这小数上曲直常有用且令东谈主焕发的产物。

　　Sonya Huang：

　　对于那些在 AI 范围创业的创举东谈主们来说，他们应该怎样研讨何时使用 GPT-4 ，何时使用 o1 ？是否需要他们从事 STEM、编程、数学筹商的使命才能使用 o1 ？他们应该怎样念念考这个问题？

　　Hunter Lightman：

　　我但愿他们能帮咱们找到谜底。

　　Noam Brown：

　　咱们发布 o1 Preview的动机之一是想望望东谈主们最终会用它作念什么，怎样使用它。事实上，咱们还筹商过是否值得发布 o1 Preview。

　　但最终发布的原因之一就是为了让大家尽早战争到它，望望它在什么场景下最有用，在哪些场景下不太安妥，以及怎样修订它以称心用户的需求。

　　Sonya Huang：

　　你合计东谈主们咫尺最容易低估 o1 的是什么？

　　Hunter Lightman：

　　我合计这讲解注解了咱们给模子定名的才调有所擢升，至少咱们没叫它“ GPT-4 ．5 念念维模式”。

　　Sonya Huang：

　　不外，我合计“草莓”这个名字挺可儿的。

　　Pat Grady：

　　我合计“念念维模式”也挺专诚念念。你们对 o2 或 o3 最焕发的是什么？

　　Ilge Akkaya：

　　咱们还莫得达到没想法的地步，是以我很期待接下来的进展。咱们会延续议论，最期待的是获取反馈。作为议论东谈主员，咱们判辨在我方擅长的范围有一定的偏见，但通过产物的使用，咱们将收到来自各个不同范围的反馈。也许咱们会发现一些超出咱们想象的范围值得深入鼓吹。

海量资讯、精确解读，尽在新浪财经APP

包袱剪辑：刘亮堂

上一篇：澳新银行：日本央即将在12月加息并逐渐使策略盛大化下一篇：剑桥大学王后学院院长El-Erian在非农作事证实发布后陶冶好意思联储：通胀莫得腐化

今日焦点

让建站和SEO变得简单