Do We Truly Need So Many Samples?

来源: arXiv | Multi-LLM Repeated Sampling

摘要 (Abstract)

这篇论文提出了一种简单、有效且成本效率高的策略来提高大语言模型(LLM)的性能，通过扩展测试时间计算。我们的策略建立在重复采样然后投票的框架之上，并引入了两个新颖的转折：(i)整合多个模型，包括较弱的模型，以利用它们互补的优势，这些优势可能源于不同的训练数据和范式；(ii)使用一致性作为信号来动态切换模型。理论分析强调了我们的策略的效率和性能优势。在六个数据集上的广泛实验表明，我们的策略不仅超越了自我一致性和最先进的多智能体辩论方法，而且显著降低了推理成本。此外，ModelSwitch只需要少数可比较的LLM即可实现最佳性能，并且可以扩展到验证方法，展示了在生成-验证范式中利用多个LLM的潜力。

1. 引言 (Introduction)

扩展一直是推动大语言模型(LLM)近期快速进展的主要动力。虽然扩展训练时间计算[1]似乎已经达到了平台期，但扩展推理时间计算仍然是一个有前途的替代方案[2]。一个新兴方向是基于生成-验证范式来扩展推理时间计算。通过用相同的问题查询LLM多次，生成多个样本（或候选答案），然后验证这些样本来提供最终答案。在各种LLM和基准测试上的研究一致表明，简单扩展生成的样本数量可以显著提高正确答案的覆盖率[3]。

然而，我们真的需要这么多样本吗？扩展重复采样无疑是计算密集型的，浮点运算(FLOPs)的消耗随采样次数线性增加[6]。此外，在用户体验方面，重复采样往往导致在提供最终答案之前有显著的延迟，而且没有人喜欢等待AI的响应太久。因此，提高采样效率至关重要，迫切需要能够在最小化所需样本数量的同时提供正确最终答案的方法。

2. 核心方法 (Core Method)

与最近主要关注验证侧的努力[8,9,10]——大量的结果或过程奖励模型[8,9,10]和自动验证器[11,12]——正交的是，在本文中我们专注于生成侧，并探索利用多个LLM来提高采样效率的潜力。

采用多个LLM进行生成，可以实现模型之间的有效互补能力
在不同语料库上训练并使用不同范式的LLM在同一基准测试上表现出多样化的能力——甚至两个通用LLM可能在不同类型的问题上表现出色[15,16]
我们通过构建一个简单的重复采样然后投票的策略来测试我们的论点，遵循奥卡姆剃刀原则

3. ModelSwitch 方法

该方法引入了两个新颖的转折：

(i) 整合多个模型，甚至是较弱的模型，以产生更多样化的样本
(ii) 使用一致性作为信号来切换模型并节省计算

其基本原理基于我们的经验观察：在各种类型的LLM和数据集上，其生成答案的准确性与其生成答案的一致性呈正相关。当一个模型生成混乱的答案时，它作为一个信号来切换模型。如果切换后的模型生成一致的答案，则获得正确答案的可能性更高。

← 返回列表