杏宇新闻

杏宇平台:四位大模型创业者聊 AGI、Scaling Law 和价格战

作者：admin 来源：杏宇时间：2024-06-16 19:13:50 点击：次

[文章前言]：杏宇平台: 谈论了一整年的 AGI 和大模型，但什么是 AGI？大模型是实现 AGI 的必需基座吗？Scaling Law 仍会继续有效吗？中国排名前列的四家大模型创业公司给出了自己的答案。在 6 月

杏宇平台:

谈论了一整年的 AGI 和大模型，但什么是 AGI？大模型是实现 AGI 的必需基座吗？Scaling Law 仍会继续有效吗？

中国排名前列的四家大模型创业公司给出了自己的答案。在 6 月 14 日举办的北京智源大会上，智源研究院院长王仲远提出了这些问题，百川智能 CEO 王小川、智谱 AI CEO 张鹏、月之暗面 CEO 杨植麟、面壁智能 CEO 李大海展开了同台讨论。前三位代表了中国最受关注的大模型厂商，后一位则是端侧大模型的新贵。

关于 AGI 的定义，每个人的看法不一。但他们认可 Scaling Law 是目前实现 AGI 的有效方式——不过这一定律的内涵和要求也在发生变化。比如杨植麟认为，Scale 的数据和方式会是一个关键问题；王小川认为，除此之外还需要更多范式，比如融入「自我思考性」系统；而张鹏和李大海都赞同除参数量之外，数据质量、训练方法等也尤为重要。

谈及前不久行业热议的价格战问题，他们都认同降价、以及由此带来的大模型普及这一趋势，不过每个人观点也各有不同。

比如杨植麟认为，未来训练成本将低于推理成本、并低于获客成本，而当 AI 在人类工作流中占比过半，今天 To B 的商业模式可能转变；王小川认为，价格战让更多企业打消了自己做模型的念头，减少了社会资源的浪费；而张鹏和李大海观点也较为接近，那就是要在成本降低、和模型厂商健康经营之间取得一个平衡。

这是四家大模型厂商罕见的同台交流，以下是这场对谈的精华，经极客公园整理后发布：

北京智源大会上，智源研究院院长王仲远与四位大模型创业者对谈｜图片来源：智源研究院

01 谈 AGI：Scaling Law 是目前的有效实现路径，但还不够

王仲远：大模型会是 AGI 的一个基座吗？还是说它只是一个数据的压缩，可能对产业界非常有价值，但并不一定能够通往 AGI？

杨植麟：我们比较相信大模型还是这里面的第一性原理，通过不断提升模型的规模，它确实本质上是一个压缩、但这个压缩确实是可以产生智能。所以随着不断地规模化这个模型，不断地做更好的压缩，它能产生越来越多的智能。

当然在这个过程中也会有很多挑战，比如最大的挑战就是有些数据可能并没有那么多，或者说假设你最后要做出来一个可能比人类更好的 AI、那可能就根本不存在这样的数据，因为现在所有的数据可能都是人产生的。所以我觉得可能最大的问题是怎么去解决比较稀缺、甚至可能不存在的数据问题。

但是我觉得规模化定律、或者说大模型本身，可能没有太本质上的问题。

王小川：我觉得基石这个词是没有问题的。今天大家已经看到了 Scaling Law 带来的提升，但是我想说，它只是在逼近 AGI，但是光靠 Scaling Law 我理解是不够的。所以如果从第一性上讲，可能需要有范式的一个改变。今天大家忽略了一件事情，那就是语言放到大模型的体系里面、语言变成了数学。

我们接下来往前走，除了规模以外的话，符号跟这种连接的融合，我觉得这是中间的一件事情。那么再往前走，还会有更多东西必须有范式改变，比如今天大模型是靠数据驱动一种学习系统来做压缩，但是反而像之前类似像 Alphago 那样能够自我思考性的系统，也会有这样一个作用。

所以我的结论来讲的话，我们是到了 AGI 的时代，通过有足够多的科学家进来、更多的资源进来，我们能够走向 AGI。但是光是以现在我们看到的 Scaling Law，是走不到 AGI 的。

张鹏：首先同意小川说的，大模型是肯定是基石，那至于是不是之一，这是另外一个问题。

这个问题其实也涉及到说，你怎么来定义 AGI。站在我们现在的角度来说，我是觉得做人工智能的这波人还挺实用主义的。所谓的实用主义就是说，咱不看广告，看疗效。这东西它能不能解决问题？能不能真的在我们每个人心中定义的 AGI 路径上推进一步？大模型到目前为止还是很有效的在推进这件事情、Scaling Law 也在有效往前推进。

那至于说它是不是能够帮助我们推到那个顶峰上去？我们现在也找不到这个很确切的一个答案。但至少我们相信它在这个阶段还是有效的，所以我认为它肯定是基石，至少是基石之一。

李大海：我个人是数学专业毕业的，所以我可能会比较严谨的去表达。我认为大模型一定是通往 AGI 这个方向上，当前所有技术里面能走得最远的。但它能不能够直接到达，我觉得现在还有很多未知的因素。

我想提一个可能大家没有提到的点，我觉得现在的大模型作为知识压缩，主要是在处理人的大脑的「系统一」的工作。而它作为慢思考去做各种各样的推理、做搜索组合来完成任务的「系统二」的能力，可能未来要通过 agent 的技术外部化、或者把它内化为自己的能力去完成。这个是行业里面大家需要去探索的。

王仲远：确实是一个非常有意思的问题，我们总在讨论 AGI，但似乎好像连 AGI 的定义大家都没有广泛的共识。在各位的心里，到底什么叫 AGI？

杨植麟：首先我觉得 AGI 的定义是重要的，但它不一定需要被非常精确的、量化的定义，它可能是一个定性的、感性的东西。因为它最重要的一个作用是，在技术的节奏非常快的情况下，如果我们能知道 AGI 是什么样的，其实可以更好的去准备这个事情。

其次在短期内，可能是需要一些目标的量化。传统图灵测试可能到现在已经不完全适用了，现在 AI 通过了图灵测试，但还有很多事情是人可以做得非常好、AI 基本没法做的。所以量化不是一个很容易的问题。你可能需要对评估的维度去做很多拆分，比如说知识能力、推理能力和创造能力，可能评估的方式会完全不一样。

这也是现在大家在关注的问题，是非常重要的。

王小川：我提到现在是 AGI 元年，是因为我们掌握了 Scaling Law，同时我们掌握了把语言变成数学的能力，这是重大的起点。大家以前都在讲图片识别很厉害、无人驾驶也很厉害，我调侃说狗也可以自己导航、狗也会看图片，但是狗不会语言，语言代表了我们认知世界的一个大的范式。

什么是 AGI，确实在全球里面很难有完整的共识。我觉得我们得把它从一个空间换到另一个空间来做判断，在我心中，接近 AGI 的定义是看它能不能造医生。为什么？之前我们在谈 AGI 的时候，一种是把它当成工具在看，一种是把它跟人差异化看，我是拿人的一个职业来跟它做比较。

医生在所有职业里是一个智力密度相对最高的职业，既需要多模态，也需要少幻觉，有效记忆，比如看 70 万字的病例，也要有推理的能力，也要有查文献的能力等等。如果你认为医生比 AGI 低，那医生都造不了，咱们就别谈 AGI 了。如果你觉得医生比 AGI 还高，而医生只是造人的种类中的一种，我觉得医生跟 AGI 基本是可以画等号的。

数学上有一个题目是自然数和偶数哪个多，大家第一反应是偶数比自然数少，因为偶数是自然数的一个子集。但数据上它们是一样多的，因为每一个自然数乘以 2 就是一个偶数，它们是可以映射的。今天我是把大模型的能力都映射到医生身上，你拿这个做标准，能造医生就是 AGI。

李大海：我会尝试从经济学的角度来去定义 AGI。从经济学的角度讲，如果我们去执行任何一个任务，它的边际成本都为零，这就是我们理想中的 AGI 了。为什么我认为大模型能够走得最远？就是我相信大模型能够把边际成本一直往下降，可能会逼近于零。

去年我们看到行业做大模型落地的时候，很多场景还需要做微调，边际成本很高。但我们相信随着模型能力的提升，慢慢从微调到只需要做 prompt engineering、慢慢连 prompt engineering 都不需要，直接就问你到底有什么需求。通过这种方式，我相信未来的门槛、成本会越来越低，低到接近于 0 的时候，我觉得 AGI 基本上就到来了。

我额外还想补充一个观点，其实大模型的智能密度也是个非常重要的事情。当有一天我们达到 AGI 的时候，我们还要把大模型小型化，如果我用一个 10 万亿参数的模型能做到 AGI，那我能不能把这个参数降到 1 万亿、1 千亿？这是我觉得需要去突破的事情。

张鹏：与其说严格的定义，我更愿意相信 AGI 可能是我们的一种信念、一个符号，它的内涵外延是在不断的变化的。如果你能把一件事情说得非常量化、非常清晰，那这件事情也就那样了，估计天花板在哪大家都能看得到了。现在没有人能把这些说清楚，那反过头来讲是一件好事，说明它还有很多未知的空间等待我们去探索。

当前我们的目标是，让机器像人一样去思考，这只是第一步。当然机器的能力远不止这个水平，我们期待它可以超越人的能力，也就是所谓 super intelligence。在这个过程中，我们会不断更新迭代 AGI 的内涵和外延。

王仲远：大家反复在提 Scaling Law，你们还会特别的坚信吗？它会继续在未来的这些年发挥作用吗？

杨植麟：Scaling Law 没有本质的问题。我认为接下来（scale）3 到 4 个数量级，这是非常确定的一个事情。但更重要的问题是，你怎么能够很高效地去 scale？你应该 scale 什么东西？

如果还是像现在搞一堆 Web text（网页文本）去 scale，可能就不一定是对的方向，因为这里面可能就会遇到很多的挑战，比如推理能力不一定能够在这个过程中解决。如果你沿着现在的方法去做，上限是很明显的。

Scaling Law 本质上是说，只要有更多的算力，数据模型参数变大，就能持续产生更多的智能。这里面其实并没有定义你的模型是什么样的，比如要多少个模态？中间的数据是什么样的？数据是生成出来的，还是说可以用 Web text？也没有规定你的这个 loss function（损失函数）是什么样的，就不一定是 next token prediction（下一个词预测）。

所以我觉得 Scaling Law 是会持续演进的一个第一性原理，只是在这个过程中，scale 的方法会发生很大的变化。包括杨立昆一直在讲的世界模型，本质上现在的大语言模型是世界模型的一个特例。你只是说先把里面一部分给做了，但是还要持续扩充训练的方式。

王小川：我觉得 Scaling Law，到目前没有看到边界的持续发挥。我们看到美国 Elon Musk，号称要买 30 万片 B200 来做，美国确实在这方面的认真程度、投入程度是会远高于中国的。我们在 Scaling Law 之外，一定要去寻找泛市场的一个新的转化。

我认为不管是从战略上、还是从信仰上，我们在 Scaling Law 之外应该都有一个范式的变化，就不只是简单去 predict 下一个 token 、压缩这种模式。只有走出这样一个体系，才有机会走向 AGI、才有机会跟最前沿的技术产生较量的能力。

张鹏：到目前为止，我们还没有看到 Scaling Law 会失效的预兆。未来相当一段时间之内，它仍然会有效，当然这个所谓的会有效也是一个动态的概念，它所包含的内涵会不断地演进。Scaling Law 早期关注的是简单的模型参数量规模，现在已经慢慢扩展到，参数量很重要、数据量也很重要、数据质量也很重要。

关于 GPT4.5 和 GPT5 为什么一直没有发布，我觉得里面的因素会非常非常多。但就我们自己来说，我们会不断遵循 Scaling Law 往前进。举个例子，我们开始做「悟道」的时候就讨论过一个方案，就是到底是做一个稠密的单体模型、还是做一个 MOE 架构的稀疏多体模型？这就是我们追寻 scaling law 的不同路径。

但是发展到今天这个地步，这里面维度已经非常非常多，你可以在很多方面去做这件事，但反过来看，它的难度和复杂度又上升了。所以我理解想要实现 GPT 5，或者我们自己下一代的模型，这里边技术要探索的东西还是非常非常多的。

李大海：我认为 Scaling Law 是非常重要的。Scaling Law 其实是一个经验公式，是整个行业对于大模型这样一个复杂系统观察以后的一个经验总结，这个经验总结会随着我们模型训练工作过程中做的实验越来越多、认知越来越清晰，会有更加细的颗粒度的认知。

比如我们发现除了前面这些维度之外，在模型训练中的训练方法对于 Scaling Law、对于智能的影响也是比较显著的。那这个显著的影响在我们固定住参数规模以后，其实会变得非常重要。现在大家觉得参数规模能够不断地往上 scale，它是低垂的果实，只要扩就可以。但是一旦参数固定了，要让端侧的芯片去支撑这个规模的模型、做到足够好的智能，那么数据的质量、训练的方法这些都变得非常重要。

02 谈行业：价格战有利于大模型的普及，但需要更健康的方式

王仲远：最近其实也关注到一个非常热门的新闻，Stanford 的团队抄袭了面壁的 MiniCPM，你怎么看这个事？

李大海：我们也没有想到会以这种方式出圈。我要澄清一下，这是海外个别学生的个人行为，它不代表任何更大的、比如斯坦福这个学校的行为。这个事件发生了以后，像斯坦福的系主任、以及一些西方同行都表达了非常正的观点。

这些学生宣称这个模型的多模态能力是跟 GPT 4 v 和 Gemini Pro 对标，但是参数只有后者的 1%，并且还只需要 500 美金就可以训练出来。那前两项是真的，我们的模型真的是有这样的能力，但是 500 美金是训不出来的，还是要花很多的钱。

因为这个事件，我们会更加坚定的相信开源的力量。因为其实这不是我们自己发现的，而是靠我们开源热心的参与者发现的，他们会在里面贡献需求、贡献反馈，这些都是开源生态非常重要的组成部分。

王仲远：百川也把自己的百川 1、百川 2 都对外开源了，你们当时训也花了不少钱，当时把模型对外开源的考量是什么？

王小川：我觉得第一是市场有这样的需求，我们大概是去年 6 月开的第一版、9 月开了第二版，当时国内对大模型属于一种大家热情惶恐、也需要快速入场的状态。

当时美国既有大的闭源生态、也有 llama 这样的开源生态，所以我们想做这件事。我们是把自己最好的模型开源的这么一个厂商，得到了市场的很多认可，也给了我们很好的 credits，这对我们是挺大的鼓舞。不管是后面人才的储备、资本的这种关注，也算是给行业交了一个投名状。

另一方面，我们也看到模型会快速的进步。所以在当时开源是不是把「底裤」拿出去了、就没有竞争力了？我觉得不会的。今天我们最好的模型，可能在明天就是一个不够好的模型了。所以从商业竞争上，我们其实也没什么大的损失。

今天有很多公司也在做各种开源，我觉得大家共同在做这样的一个贡献，也希望这个生态能够越做越好。

王仲远：随着大模型的发展，AI 安全问题也被不断的讨论，我们大模型的产业界怎么去看 AI 安全问题？它是一个当下最急迫的问题吗？

杨植麟：我认为 AI 安全非常重要，虽然它可能不是当前最紧迫的问题，但我们需要提前准备。随着模型的发展，根据 Scaling Law，每隔几个月、算力提升 10 倍，智能水平也会随之提高。

在这个过程中，我觉得有两个重要方面。首先，模型可能会因用户的恶意意图而被利用，导致一些不应发生的事情。例如，现在有研究在做 prompt injection，防止用户在提示中注入不恰当的意图。

其次，模型本身是否会有自己的动机？这与训练方式有关，能否在模型的底层注入 AI 宪法以框定其行为，无论用户指示什么或模型自身的想法是什么，它都不会违背这一宪法。我认为这是非常重要的。

王小川：我想提三点关于 AI 安全的事情：

首先是意识形态安全。作为一个中国的大模型，我们的意识形态需要与国家价值观和意识形态保持一致，这是我们必须做到的底线。

第二个是空谈的、比较远的安全问题。有人担心模型是否会毁灭人类，进而掌握世界。我不认为会发生这种事情。去年底我写了一封公开信，讲到 AGI 应该帮助我们繁荣和延续人类文明，而不是将 AI 作为机器，当作工具和奴隶。从文明的标准来看的话，第二层的安全带有理想的色彩。

第三个安全是比较现实的。现在让 AI 去做个医生都是好难的事，如果连医疗都搞不定、能力如此之弱，那就不用担心 AI 颠覆人类的问题。所以近期 AI 还没碰到今天人类文明安全的边界，当前我们还是努力把它的能力提上去。

张鹏：我们一直非常关注 AI 安全问题。前不久，我们还跟全球 15 家与 AI 相关的企业一起，签署了一份关于前沿人工智能安全的承诺。所谓负责任的 AI 这件事，它比安全要更大一点。就是我们需要确保技术真正帮助人类、社会和地球，而不是去作恶。

人的两面性很难说，你们保证没有人去拿这个事情去作恶，但现实社会中已经有人在做这些事情。防守总是比破坏难。讨论安全的意义并不是说，我们现在能拿出多么安全的技术方法或者管理规定，约束大家不要去做这件事情。而是在于说增强大家的了解、形成统一的认识。把问题摆到桌面上来，那总有解决的办法。

李大海：我认为当前阶段的 AI 安全主要集中在基础安全和内容安全这两个方向。现阶段的大模型本质上是只读的，模型训练好后，权重是固定的，推理不会影响权重，你的权重是在线下再去持续的阶段性训练的。

有一天当我们把模型部署到机器人或其他终端设备上，它能够动态地更新自己的权重之后，安全问题会变成一个非常非常重要的问题。

王仲远：你们怎么看近期大模型的价格战？它是更有利于大模型的普及，还是并不利于企业的发展？

杨植麟：这是一个非常好的问题。如果我们把时间线拉得足够长，最终还是会回归到价值本身。我有三个判断：

第一，如果我们去看算力的投入，未来我我们投入在推理上的算力，在未来某个时间点之后，将显著超过训练所需的算力。这将标志着你的价值开始释放，前期用于训练的成本将被很大程度覆盖。

第二，从 C 端的角度来看，推理成本将显著低于获客成本。可能从商业本质上来讲，它可能不会跟之前的各种商业模式有非常本质的区别。

第三，今天 AI 在整个人的工作流程中的占比还很低，大约只有 1%，也就是说人做的事情要多于 AI 做的事情。我觉得在某个时间点，当 AI 承担的工作量逐渐超过人做的事情时，新的商业模式将会产生。它可能就不是今天在 B 端去做 API 的价格战，而是一个普惠的 AI、同时是根据它产生的价值来进行分成的商业模式。

我觉得这三个因素将是改变商业模式本身、或者 ROI 的重要趋势。

王小川：我认为当前的价格战对中国发展大模型是非常有利的，我积极看待这种现象。首先需要区分价格战对单个公司的影响和对整个市场的影响。价格战是一种市场行为，具有竞争导向，它至少带来两个好处。

第一，更多公司和个人能使用大模型。以前很多企业不懂这个，但现在就像一场普及运动，很多公司可以免费或者便宜的使用大模型，吸引了更多企业和个人参与，这是对整个市场的第一个好处。

第二，它减少了浪费。以前大家对大模型感到恐慌的时候，我就观察到很多企业但凡有点技术能力，都说我自己要训有大模型。明明它该是大模型的使用方，但都想转型成为大模型的供给方，其实带来很多的人才、资金和社会资源的浪费。价格战让很多企业开始清醒了，我干嘛非得做？我的竞争优势在什么地方？浪费会减少很多。

之前没有价格战的时候，中国可能真的是上百、上千个大模型在训练，那现在有了明确的市场分层，这种竞争力就能起来。

张鹏：我基本赞同这个观点，之前还有人来问我们是不是价格战的发起者，我说这是子虚乌有。我们一直秉持的理念是，通过技术和创新大幅降低使用成本，从而推动技术普及，让更多人享受其收益。

我们长期以来提供的价格在行业内一直处于极低水平，这是因为我们的技术确实能够做到这一点，能把中间的成本空间释放出来，当做大家的收益，帮助大家把 ROI 算出大于 1 的数字来。

当然这个事情从宏观角度来讲，肯定是说有利于整个中国的大模型产业，有更多人来使用。就像我们说的，大模型会变成像水电一样的基础设施，非常便宜且随时可用，企业不用再为高投入和回报问题而纠结。对企业来讲，会是一个很好的发展态势。

这也是我们一直在坚持做的事情。最近 20 号我们发布的新模型，真的把成本压低到我们都不好意思报价的程度。以前报价可能是一千 token 几分钱，就没有比这个更小的单位了，那怎么办呢？现在变成每百万 token 几分钱，已经到了这样的一个地步了。

我觉得这事对整体是有好处，但也要注意不要去过多的关注和宣扬这件事情。商业上，它肯定是牺牲企业的短期的利益，亏本做买卖，这不是一个正常的商业逻辑。它肯定是只能持续很短的时间，真正还得回归到最终的用户价值、生产力价值上。

李大海：我们做端侧，就是看到了端侧快速落地的潜力。最近有一个机构的调研显示，全国 10 亿用户的手机端算力相当于 100 万片 H100。这是一个非常夸张的数字，如果这些手机算力能够被好好利用起来，我们很多的应用就可以落地了。

现在到未来，我们都需要端侧模型和云侧模型的良好协同。端侧有独特优势，比如隐私性好和更可靠，但云侧的模型能力更强。所以怎么有效地协同端侧和云侧模型，是我们与其他模型公司共同需要解决的问题。

我也同意前面提到的观点，我认为当前的价格战多少带有一些营销成分。但是我相信未来价格会比现在更低，同时大家也能获得利润，这才是健康的方式，并且这才能真的能让千行百业的应用往下落地。

*头图来源：智源研究院

本文来自微信公众号“极客公园”（ID：geekpark），作者：幸芙，编辑：郑玄，杏宇经授权发布。

　　以上就是小编为大家介绍的杏宇平台:四位大模型创业者聊 AGI、Scaling Law 和价格战的全部内容，如果大家还对相关的内容感兴趣，请持续关注山东杏宇环保设备有限公司

　　本文标题：杏宇平台:四位大模型创业者聊 AGI、Scaling Law 和价格战　　地址：http://www.guangda-graphite.com/news/hangye/1001.html

以下相关文章是否符合您的胃口

杏宇平台:四位大模型创业者聊 AGI、Scaling Law 和价格战

01

谈 AGI：Scaling Law 是目前的有效实现路径，但还不够

02

谈行业：价格战有利于大模型的普及，但需要更健康的方式

联系方式

二维码