ai换脸 Open AI发布新一代模子01

霸凌拳交

热点资讯

肛交哭华恒生物董事长郭恒华：生物制造期许无穷恒久走在行业前沿

163性爱网 2024年11月7日北京京丰岳各庄农副居品批发阛阓价钱行情

163性爱网四柱八字看流年姻緣、桃花、結婚

163性爱网黑山古城藏着穿越之门

推特文爱极兔速递-W11月5日斥资226.56万港元回购36.6万股

亚州色

你的位置：霸凌拳交 > 亚州色 >

ai换脸 Open AI发布新一代模子01

文 | 王智远ai换脸

凌晨 1 点，我还在追剧。

这时，一又友发来一条音书说：Open AI 发布了新模子，你在电脑上碰庆幸能用吗？哎，年老，皆要休眠了，这要强制开机，让我起来加班码字啊。

带着敬爱，盛开 PC 端 ChatGPT 一看，居然，多出两个模子，辞别是 ChatGPT 01-mini 和 01-preview。

这是什么东东？奈何叫这个名字？这个模子有什么脾气？奈何还有两个版块呢？价位如何？难说念是此前被传的「草莓」作念出来了？

带着狐疑，熬夜看完官方文档，把内容回来共享给你。

为什么叫 01 呢？官方说：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this， we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能，翻译出来即是：

成人游戏在线玩

这个模子在复杂推理任务上是一个要紧的越过，代表了东说念主工智能智商的一个新水平；因此，咱们决定再走时转编号，把这一系列模子定名为 OpenAI 01。

袄，底本因为这个模子终点猛烈，能作念许多复杂的事情，OpenAI 以为这是一个新的来源，是以把编号再行设为 1，运转一个新的系列。

那么，它为什么会有两个版块呢？官方说：

o1 mini 版是个简化的版块。它在速率、体积和资本方面皆作念了优化。

这个版块在处理数学、编程推理任务时进展可以，迥殊合适需要快速处理问题的相貌；因为它体积小，资本也低，是以，若是你想快速得到谜底，那么 o1 mini 版可能更合适你。

相对 01 preview 版，是竣工版块。

比拟擅长搞定复杂的问题，比如，岂论是科学问题、数学题照旧编程，它皆能处理得终点好；天然，若是你遭遇的问题要庸俗的学问或者深远的领路，那么这个版块更合适你，因为它的推明智商终点深广。

我不信，于是，让国产大模子 Kimi Chat 给我想了一个逻辑数学逻辑题，如下：

假定我有一个农场，内部有鸡和兔子。有一天，我数了数农场里动物的头和脚，发现悉数有 35 个头和 94 只脚。讨教，农场里各有若干只鸡和兔子？

preview 版委果很强。除了告诉我有 23 只鸡，和 12 只兔子外，还给出了尺度，整个这个词下来，也就不到 2 秒。天然，这种测试用来勉强 Chat 细目是无压力的，若是你有时候，也可以带入使命中的问题，我方体验下。

总的来说，两个版块的主要区别是它们处理任务的智商、速率和资本；o1 mini 版在速率、资本上有上风；preview 版更合适推理。

不外，骨子体验下来，没以为有什么各异，也许我本人要它作念的事情，比拟肤浅。

体验完后，仔细一想，这和 GPT-4o、GPT-4omini 有啥区别呢？非要搞出四个模子吗？加上 GPT-4，我电脑上如故有五个模子了。

查了下官方文档，有一篇著述叫《用法学硕士学习推理》（Learning to Reason with LLMs）详备先容了一切。

他们是这样说的：

在对 OpenAI 的两个 AI 模子—— o1-preview 和 GPT-4o 的骨子使用偏好测试中，东说念主类评估者在不知情的情况下，比拟了两个模子对复杂问题的回话。

着力表示，在需要大皆推理的任务上，比如数据分析、编程和数学问题，大众更可爱 o1-preview。因为 o1-preview 经过特殊的强化学习考验，是以，在搞定这类问题时，推明智商更强，更高效。

可是，在天然话语处理任务上，o1-preview 的进展不如 GPT-4o。这是因为它的考验重心在推理和搞定问题的策略上，而不是在话语的通顺度或文本生成的各类性上。

这诠释，天然 o1-preview 在某些规模很出色，但它并不合适整个类型的任务，尤其是那些专注于天然话语处理的场景。

底本如斯ai换脸。

我又看了看 o1-preview 和 o1 mini 版合适哪些东说念主。官方说，若是你在处理科学、编码、数学等规模的复杂问题，这些增强的推明智商可能迥殊灵验。

比如：

医疗盘考东说念主员可以用 o1 来标注细胞测序数据；物理学家可以生成量子光学所需的复杂数学公式；各个规模的开拓者皆可以用 o1 来构建和实行多步的使命过程。

是以，若是你作念科学、敲代码、编程、数学方面的使命，用它再好不外了。

那么，o1-preview 和 o1 mini 到底作念了哪些测试呢？

领先，为了表示 o1 模子在推理方面比 GPT-4o 有多大编削，他们在不同的东说念主体检查和机器学习基准上测试了它。

比如：

在 2024 年的 AIME 数学锻练中，GPT-4o 平均只搞定了 12% 的题目；而 o1 模子单次测试的平均解题率达到了 74%。若是算上 64 次测试的平均得分，能达到 83%；再行从 1000 个样本中名次，平均得分致使可以达到 93%。

这个收成不仅让它插足了全好意思前 500 名，还突出了参加好意思国数学奥林匹克的分数线。

他们还用一个叫作念 GPQA 钻石的长途来测试 o1。这个测试波及化学、物理和生物学的专科学问。

他们请了一些领有博士学位的人人走动话这些问题，着力发现，o1 模子的进展突出了东说念主类人人，成为第一个在这个测试中赢得这样收成的模子。

这并不虞味着 o1 在整个方面皆比博士更猛烈，而是诠释它在搞定某些专科问题上更为熟习。

天然，在其他一些机器学习的测试中，他们也作念了大皆测试；它在 MMMU 的视觉感知测试中得了 78.2 分，成为第一个能和东说念主类人人竞争的模子；况且，在 57 个 MMLU 子测试中的 54 个方法上，它的进展皆优于 GPT-4o。

我敬爱地搜索了一下，什么是 MMLU？肤浅讲，MMLU 像一场大型的详细锻练，参加锻练的不是东说念主类，而是东说念主工智能模子。

总之，这些测试最终论断是：

OpenAI 的 o1 模子在全球编程比赛 Codeforces 中名次第 89 位，在好意思国数学奥林匹克（AIME）的阅历赛中，插足了全好意思前 500 名。

在物理、生物学和化学问题的测试中，它的进展致使突出了博士水平。

因此，o1-preview 和 o1 mini 在搞定高难度的推理和专科问题上进展更出色；而 GPT-4o 更合适处理日常的任务。

是以，这样强的推明智商奈何达成的？重要有四个方面：

领先，o1 模子用了一种"自我对弈强化学习"（Self-play RL）的步调；这是一种通过模拟环境和自我顽抗来普及模子性能的技巧。

这种步调中，模子在莫得外部兼并，通过不断尝试和相当来学习策略和优化决议。

遐想一下：

它就像在和我方棋战，一边玩一边学；过程中，无须别东说念主教，我方试试、出错、再试，徐徐就学会了如何作念决议和搞定问题。

其次，o1 还师法了东说念主类的"慢念念考"（Slow Thinking）；这种念念考要时候、勤苦和逻辑三者聚拢，就像咱们在锻练时仔细念念考一个长途相似。

通过三念念尔后行方式，o1 先分析问题，然后把它隔断，再推理，再搞定；这让它在科学、编程或数学上更精确，更出色。

天然，这一步离不开念念维链。

念念维链的推理，还用一种私有的步调来监控模子。若是这些念念维链是可读的，研发东说念主员就能"读懂"模子的念念考过程。

这关于监测模子是否能主管用户活动终点有匡助，可是，为了让模子能解放地抒发念念考，他们不在模子中加入任何与策略、用户偏好干系的硬性规定。

因此，这个模子整合了安全策略和东说念主类价值不雅，过在模子的谜底中重现念念维链中的灵验主义，让用户迤逦了解模子的念念考过程。

还有极少，念念维链加入了鲁棒性（Robustness）测试。所谓鲁棒性指一个系统、模子或者建立在濒临各式不测情况、干预或者变化时，仍然能够平日使命，辞谢易出问题。

比如：

一辆汽车，岂论在高温、低温、下雨照旧悠扬的路面上，皆能平日行驶，这诠释它的鲁棒性很好；在 AI 规模，鲁棒性指软件、模子在濒临不同的数据输入、相当，致使坏心膺惩时，仍然能保捏安然和准确。

是以，鲁棒性强调的是在各式复杂、多变的环境下，仍然能保捏可靠和安然的性能。

除以上两点，o1 在考验时还用上了数据飞轮（Data Flywheel）；它的正确谜底会被用来再考验它我方，匡助它变得更机灵。

天然，为营救这些复杂的念念考任务，o1 还用上了一些迥殊优化的算法、架构。这些技巧让它更快、更准确地搞定问题，提高了它的合座智商。

总之，o1 模子考验存眷五个维度：

一，自我对弈强化学习、二，师法东说念主类慢念念考、三，拆解了念念维链的过程；四，在念念维链中加入了鲁棒性测试；五，数据飞轮再强化。

看完官网文档，说白了，我以为他们让 AI 更像东说念主了。

再深广的东西，不买卖化细目不行。那么，o1 模子的资本和使用逼迫有哪些呢？

o1-preview 的价钱是：

每处理一百万个输入要花 15 好意思元，每处理一百万个输出则是 60 好意思元；这诠释，若是你用这个版块，输入和输出的处理用度会比拟高。

顾惜啊。这是什么观点？举个例子：

若是你每天和这个模子聊天 100 次，每次输入 1000 个单词，那么一天的用度是 75 好意思分乘以 100 次，等于 75 好意思元。按照当今汇率，75 好意思元唐突等于 540 东说念主民币。

这样看来，使用这个模子的资本相等于每天花 540 块钱。若是你每天皆这样使用，一个月下来的破耗就终点可不雅了，堪比请一个人人了。

而 o1-mini 的价钱低廉一些。

每一百万个输入只需 3 好意思元，每一百万个输出 12 好意思元。但这个低廉版在功能上可能会有些逼迫；若是你是 ChatGPT Plus 或 Team 的用户，就可以优先尝试 o1 模子的功能。

对开拓者来说，条目就严格多了，惟一支付了 1000 好意思元的五级开拓者才调用这个模子，况且每分钟只可调用 20 次。

至于 API 的调用逼迫，o1-preview 每周只可调用 30 次，o1-mini 每周可以调用 50 次。这种逼迫是按周来算的，不是按小时或分钟。

功能方面，咫尺的 o1 模子还不行营救整个的功能，比如领路图片、生成图片、讲解代码、网页搜索等。是以，用户当今只可用它来进行基本的对话。

官方还说：

天然当今 o1 模子资本较高，使用也有限，但跟着技巧发展和 OpenAI 的不断编削，瞻望将来会有更多用户能使用到这个模子，资本也可能会镌汰。

不管岂肯说，AI 越来越像东说念主相似"三念念尔后行"了，至于这个模子，谁会付费呢？谁又能为它支付 1000 好意思金呢？随机，惟一大公司、盘考机构、有特定需求的专科东说念主士才调承担得起。

那到时候，真就成了费钱请了一个「AI 人人」，是以，AI 会替代人人吗？

回来

越来越像东说念主的模子。

谁也猜不到，当年的 o1-preview（mini）会发展成什么样，至少，它细目不会是个普通的 GPT。

它会发展成具身智能吗？有这个可能。跟着技巧不断越过ai换脸，o1-preview（mini）很唐突率会改变一些行业的运作方式。

友情链接：