我应该在家等待 ChatGPT-o1 吗?

大型语言模型在新闻领域中根深蒂固,使我们能够改变大量任务的方法,并引发一场新的技术革命。然而,目前法学专注于使用特定技术和基础设施解决方案提供法学硕士即服务的公司。这使得爱好者们可以用小型、开放式的模型来构建自己的本地数字助理。这些模型似乎将落后于它们的前辈。 然而,这开启了一个有趣的猜测领域——与本地消费者 GPU 上的先进云解决方案竞争的模型架构是什么?我一直在寻找有关该主题的文章,并想分享结果并进行一些推测。 使用消费级 GPU 的限制和注意事项 处理单个 LLM 请求时,主要限制是视频内存量及其带宽。现代模型使用了视频卡大约三分之一的潜在计算能力。此外,适合内存并充分利用其内存带宽的模型仍然会每秒产生比人们可以阅读或收听的更多的令牌。此类模型每秒能够生成约 50-200 个令牌,而人们同时阅读 7 个令牌并最多收听 4 个令牌。

硕士的主要进展发生在那些

因此,您可以写下人本地使用: 允许模型适合 GPU 内存甚至一小部分的参数数量。 对于复杂查询,文本生成的平均速度应与用户阅读文本的速度相对应。 该模型在处理请求时必须利用所有 GPU 能力。 这里有必要注意优化工业解决方案和本地解决方案之间的主要差异,因为服务在其他条件下解决相同的问题: 由于服务器 GPU 的用途不同,它们可以拥有更多的内存和带宽。 一台服务器上可以安装多个服务器GPU,以扩展内存容量和带宽。集群还有进一步扩展的 电话号码库 可能性。 某些技术(例如批处理)通过并行运行多个查询来优化内存吞吐量。 从这些优化方法可以看出,服务可能对所使用的模型有其他要求。这极大地影响了开发人员对模型架构的选择。因此,根据缩放的经验法则,对于大多数LLM公司来说,为了达到最好的质量,训练不适合用户GPU的模型会更有利可图。

电话号码库

该模型的愿望清单以供私

现在,您可以看到架构演变为小型本地 LLM 的共生体,这些本地 LLM 具有有限的功能,针对 NPU 进行了优化,LLM 服务可以充分利用并行查询处理和消费者无法使用的硬件。我们可以得出结论,在自己的显卡上拥有自己的 AGI 是一个白日梦。 不适合阅读的文本 在这种背景下,来自 OpenAI 公司的消息听起来非常 什么是客座帖子?其用途是什么? 有趣,发布了新的 o1-preview 和 o1-mini 模型系列,这些模型在 Habré 上已经有很好的介绍,它提出了通过在文本生成过程中扩展计算资源的新方向。 OpenAI 的解决方  案虽然是封闭的,但具有易于理解的组件:新模型独白中生成大量文本,然后将其压缩以供用户阅读。在这里您可以描述这个想法在 OpenAI 之外的发展简史。 这种方法始于提示工程师的经验,他们发现,如果在请求中告诉模型如何思考问题,并主动提出明确写出所有操作,那么模型将更好地解决问题。

利用计算能力从模型的内部

从字面上看,允许模型使储中间步骤的存储器,这表明了 B2C传真 这种方法的有效性。后来,出现了人们自己使用内心独白和草稿的解释,但这些例子并不总是出现在训练数据中。 此后,通过提示引发的一连串推理作为一种方法获得了认可,并开始获得修改: 该方法不仅可以顺序生成推理,还可以并行生成推理,随后选择最有希望的推理。 一种自我批评和模型本身评估答案质量的方法。令人惊讶的是,对于法学硕士来说,推理测试比推理生成更自然。 正如研究人员和爱好者随后发现的那样,提示对于模型来说并不是直接必要的;仔细查看后续令牌的输出概率就足够了。这些概率足以确定模型不确定其答案,并尝试再次生成推理,希望下一次尝试会得到更好的结果。 当然,在调整过程中,提示中可以出现并可以生成正确推理的所有内容都可以硬连接到模型本身中: 使用提示,指导模型逐步推理,快速手动检查推理,并使用结果集进行进一步训练。

用自己的语音作为草稿并作为存

以同样的方式,收集好的和坏的推理示例,并基于它们训练批评模型(直接偏好优化),并在其帮助下调整生成的模型。 如进行调整,那么像 OpenAI 这样的大公司可以在其中添加人工审核,评估推理过程中的每一步。 来自大型实验室的更多可用文章分散在不同的方向,但使用相同的组件进行操作 – 生成推理链,通过答案的正确性构建用于评估链质量的模型,构建用于评估各个步骤的质量的模型,使用这些用于选择训练数据和使用期间的模型。实施例1、2、3、4。​​​​​ 现在回到问题——这是否给当地的LLM爱好者带来希望?很可能是的。虽然目前只有 OpenAI 可以拥有这样的模型,但我们可以预期类似的调优方法将来会应用于具有开放权重的模型。此外,o1 发布的先例很大程度上改变了业界看待小型模型及其用途的方式。因此,安德烈·卡帕蒂(Andrei Karpati)在接受采访时表示,也许我们应该预期语言模型中“百科全书式”功能的重要性会下降,因为在这些模型解决的任务中,大多数与它们硬连线的互联网知识显然是多余的。

 

我们可以期待模型拥有 1-80 亿个参数,能够进行合理的人类推理,但可以从其他来源获取更多信息。 关于缩小的大模型 很难不猜测 ChatGPT-o1 模型的参数数量,但仍然值得提出一个问题 – 如果这种口径的模型的权重突然提供给社区,什么方法可以让它适合进入定制 GPU?答案并不多——量化和蒸馏。 模型量化是通过降低单个参数的精度来减小最初存储 FP32 或 FP16 精度参数的模型的大小。这种技术并不新鲜;量化的 GGUF 文件已经成为分发模型供个人使用的标准格式。随着准确性的损失,模型也会损失质量,但社区愿意尝试选择初始模型的大小及其压缩程度来解决个别问题。因此,如果前沿模型出现在公共领域,其不太准确的类似物将立即出现。最主要的是初始模型的尺寸合理。到目前为止,像 llama 3 405B 这样的型号还不是普通发烧友可以使用的,不仅适用于 GPU,还适用于大多数消费机器的 CPU。

果我们谈论的是通过批评者模型

一位模型可以称为精度有限的模型的极限情况。微软去年初引入了单位LLM的概念,证明此类模型只需要一系列值(-1,0,1)即可运行。不幸的是,不可能通过量化来构建这样的模型;它必须首先针对三元系统进行训练。而且,这样的模型只需将参数数量增加十倍,即使用相同的内存量,就可以达到与经典 LLM 相同的质量。主要的赢家再次是那些拥有专门硬件的人,因此对最近发布的二进制 LLM库的期望应该保持极其适度。 使大型模型民主化的另一种方法是蒸馏,在这种方法中,小型模型不是根据原始数据进行训练,而是根据更强大的教师模型的输出预测(logits)进行训练。此类数据是比训练原始模型的文本更丰富的信息源。蒸馏模型的一个例子是Llama 3.2 的 1B 和 3B 版本,它们很容易使用。 蒸馏和量化为上一节中描述的封闭训练方法提供了希望,有机会以开放尺度的形式接触爱好者并适用于消费类硬件。 替代架构 前面列出的所有方法主要影响模型训练、训练数据和推理优化的细微差别,但不会改变经典的 GPT 架构本身。因此,考虑哪些改变可以使架构适应局部推理的特征是很有趣的。 在这里,我们必须立即指出,许多替代架构现在实际上处于僵局。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注