LLM连均匀分布都采不好,还怎么当Agent?

作者:互联网

2026-04-16

AI快讯

让Gemini系列模型生成一道选择题,要求随机安排正确答案的位置(A/B/C/D四个选项)。结果呢?模型表现出对"C"选项的强烈偏好,远非均匀分布。 这个看似简单的任务,暴露了当前大语言模型一个被严重低估的根本缺陷:它们无法可靠地从指定的概率分布中进行随机采样。

图片

[Figure 1: LLM在生成选择题时严重偏向"C"而非均匀采样]论文对Gemini-2.5-Flash、Gemini-2.5-Pro、Gemini-3.0-Pro进行测试,要求生成选择题并随机放置正确答案,结果显示模型对"C"位置存在显著偏好。

这篇来自Google DeepMind和新加坡国立大学的工作,系统性地揭示了这一问题:LLM输出的随机性只是一种"幻觉"——它们看起来在随机行动,实际上受训练数据偏差驱动,而非遵循目标分布。

为什么Agent必须会"掷骰子"

当LLM被部署为与环境交互的agent时,它不仅需要推断最优策略,还需要按照策略进行随机行动。此前研究发现LLM在多臂老虎机、Tic-Tac-Toe等任务中缺乏探索能力,即便推理正确也无法执行,这被称为"knowing-doing gap"。论文提出,这一差距的一个潜在根源在于:即使模型知道正确的策略,按该策略进行随机采样对LLM来说本身就是非平凡的。 因为LLM的采样机制作用于token层面的词表概率,而非语义动作空间——例如"向左走"和"向右走"共享相同的首token,连续分布(如高斯分布)的映射就更加困难。

全面的失败:多模型、多分布、多方法

论文在Gemini(包括2.5-Flash、2.5-Pro、3.0-Pro)和Qwen3(包括8B、32B等多个尺寸)等多个模型族上进行了系统实验,测试了均匀离散分布、均匀连续分布和高斯分布三类场景。每次独立调用LLM生成一个样本,重复N=1024次后统计经验分布。

图片

[Figure 2: 多种目标分布下LLM独立采样的经验分布] 左侧为Qwen3-8B,右侧为Gemini-2.5-Pro。结果显示LLM在离散分布中偏好特定数字(如7、42),在连续分布中偏好特定区间,无法逼近目标分布。

图片

[Table 1: 拟合优度检验的p值] 对均匀离散{0,...,9}、均匀连续[0,1]、高斯N(0,1)三种分布,四个模型(Qwen3-8B/32B、Gemini-2.5-Pro/3.0-Pro)的p值几乎全部小于1e-42,远低于0.05的显著性阈值,量化确认了采样失败。

关键发现是:使用更大或更先进的模型(如Qwen3-32B、Gemini-3.0-Pro)并不能修复这一问题。 论文还发现偏差不仅是语义层面的(比如偏好数字42和7),还存在位置偏差——当提示中随机集合的排列顺序改变时,模型的偏好也会随之改变。

调参也救不了

论文对解码参数进行了详细消融实验,包括temperature从0.0到2.0、top-p从0.1到1.0、top-k从10到10000等。结果是:p值在所有配置下始终接近零,即使将temperature提升到极高值(2.5至10.0),虽然经验分布看起来稍微接近目标,但p值仍显著小于0.05,且模型开始出现严重的解析错误。

图片

[Figure 4: 不同temperature下的采样分布] 论文展示Qwen3-8B和Qwen3-14B在不同temperature设置下的采样结果,发现模型在不同温度下倾向于陷入相似的失败模式,如对数字7和5的偏好。

论文还测试了关闭思维链(chain-of-thought)的效果。结果表明,即便去除冗长的推理过程,LLM仍然无法可靠采样,某些情况下偏差反而被放大。

序列采样和批量采样:各有各的问题

受伪随机数生成器(PRNG, Pseudo-Random Number Generator, 伪随机数生成器)有状态性的启发,论文探索了将历史样本放入上下文的序列采样方法。携带全部历史的序列采样在均匀分布上表现尚可,但引入了明显的时间偏差——自相关分析显示模型倾向于"排斥"当前状态,即偏好跳到不同的值。

图片

[Figure 5: 四种采样方式的自相关函数对比] 独立采样、全历史序列采样、末位历史序列采样、批量采样的自相关分析。全历史方式虽表现较好,但前几个lag呈负相关,显示排斥效应;末位历史方式则展现强烈的周期性模式。

批量采样(一次生成1024个数)在均匀分布上偶尔可行,但引入了严重的周期性重复模式,且模型难以精确生成指定数量的随机数。

真正有效的方案:分布转换

论文最重要的正面发现来自分布转换实验。方法很简单:不让LLM自己"生成"随机数,而是向其提供一个从均匀分布[0,1]中预采样的随机数,让模型通过确定性算法将其转换到目标分布。

图片

[Figure 9: LLM可靠地将均匀分布转换为多种目标分布] 从左到右展示了Qwen3-30B-A3B转换到均匀离散分布、Qwen3-32B转换到非均匀离散分布、Qwen3-14B转换到高斯分布、Gemini-3.0-Pro转换到高斯混合模型的结果,均与理论曲线吻合。

图片

[Table 3: 不同Qwen3模型尺寸的分布转换拟合优度检验] 论文在Qwen3的0.6B到32B六个尺寸上测试。对均匀离散分布,4B及以上模型达到p>0.05;对高斯分布,8B及以上模型达到p>0.05,展现出随模型规模增长的涌现特性。

LLM在这一任务中的推理过程完全是确定性的:对离散分布使用分桶算法,对高斯分布使用逆变换采样。这说明失败的根源不在于LLM不理解目标分布,而在于它们无法将内部概率估计映射到随机输出上。

模拟PRNG:能力与局限

论文还测试了让LLM在不使用工具的情况下,通过思维链模拟PRNG算法。对均匀分布,Qwen3-4B及以上模型的模拟准确率超过92%(如Qwen3-8B达到97.5%)。但对高斯分布,由于需要两次随机数生成,第二次时状态值已经很大,LLM在大数乘法上频繁出错,准确率大幅下降。

图片

[Table 2: LLM模拟PRNG算法的准确率]Qwen3-8B在均匀离散和均匀连续分布上分别达到97.5%97.8%的准确率,而Qwen3-1.7B仅约20%。

X说

论文的结论直指要害:当前LLM的随机行为是训练数据偏差驱动的"随机性幻觉",而非受控的概率采样。分布转换虽然有效,但每次采样都需要昂贵的推理计算,对需要频繁采样的agent系统来说代价过高。论文认为,一个务实的解决方案是为LLM提供一个有状态的外部采样器,在调用之间追踪状态。这种有状态工具的概念,可能对采样之外的其他agent流程同样有价值。

原文标题:The Illusion of Stochasticity in LLMs

原文链接:​​https://arxiv.org/abs/2604.06543​​

本文转载自​​​​​​​AI帝国​​​​​​​,作者:无影寺​

相关标签:

LLM Agent 多模型

相关推荐