LLM连均匀分布都采不好，还怎么当Agent？-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

LLM连均匀分布都采不好，还怎么当Agent？

作者：互联网

2026-04-16

AI快讯

让Gemini系列模型生成一道选择题，要求随机安排正确答案的位置（A/B/C/D四个选项）。结果呢？模型表现出对"C"选项的强烈偏好，远非均匀分布。这个看似简单的任务，暴露了当前大语言模型一个被严重低估的根本缺陷：它们无法可靠地从指定的概率分布中进行随机采样。

图片

[Figure 1: LLM在生成选择题时严重偏向"C"而非均匀采样]论文对Gemini-2.5-Flash、Gemini-2.5-Pro、Gemini-3.0-Pro进行测试，要求生成选择题并随机放置正确答案，结果显示模型对"C"位置存在显著偏好。

这篇来自Google DeepMind和新加坡国立大学的工作，系统性地揭示了这一问题：LLM输出的随机性只是一种"幻觉"——它们看起来在随机行动，实际上受训练数据偏差驱动，而非遵循目标分布。

为什么Agent必须会"掷骰子"

当LLM被部署为与环境交互的agent时，它不仅需要推断最优策略，还需要按照策略进行随机行动。此前研究发现LLM在多臂老虎机、Tic-Tac-Toe等任务中缺乏探索能力，即便推理正确也无法执行，这被称为"knowing-doing gap"。论文提出，这一差距的一个潜在根源在于：即使模型知道正确的策略，按该策略进行随机采样对LLM来说本身就是非平凡的。 因为LLM的采样机制作用于token层面的词表概率，而非语义动作空间——例如"向左走"和"向右走"共享相同的首token，连续分布（如高斯分布）的映射就更加困难。

全面的失败：多模型、多分布、多方法

论文在Gemini（包括2.5-Flash、2.5-Pro、3.0-Pro）和Qwen3（包括8B、32B等多个尺寸）等多个模型族上进行了系统实验，测试了均匀离散分布、均匀连续分布和高斯分布三类场景。每次独立调用LLM生成一个样本，重复N=1024次后统计经验分布。

图片

[Figure 2: 多种目标分布下LLM独立采样的经验分布] 左侧为Qwen3-8B，右侧为Gemini-2.5-Pro。结果显示LLM在离散分布中偏好特定数字（如7、42），在连续分布中偏好特定区间，无法逼近目标分布。

图片

[Table 1: 拟合优度检验的p值] 对均匀离散{0,...,9}、均匀连续[0,1]、高斯N(0,1)三种分布，四个模型（Qwen3-8B/32B、Gemini-2.5-Pro/3.0-Pro）的p值几乎全部小于1e-42，远低于0.05的显著性阈值，量化确认了采样失败。

关键发现是：使用更大或更先进的模型（如Qwen3-32B、Gemini-3.0-Pro）并不能修复这一问题。 论文还发现偏差不仅是语义层面的（比如偏好数字42和7），还存在位置偏差——当提示中随机集合的排列顺序改变时，模型的偏好也会随之改变。

调参也救不了

论文对解码参数进行了详细消融实验，包括temperature从0.0到2.0、top-p从0.1到1.0、top-k从10到10000等。结果是：p值在所有配置下始终接近零，即使将temperature提升到极高值（2.5至10.0），虽然经验分布看起来稍微接近目标，但p值仍显著小于0.05，且模型开始出现严重的解析错误。

图片

[Figure 4: 不同temperature下的采样分布] 论文展示Qwen3-8B和Qwen3-14B在不同temperature设置下的采样结果，发现模型在不同温度下倾向于陷入相似的失败模式，如对数字7和5的偏好。

论文还测试了关闭思维链（chain-of-thought）的效果。结果表明，即便去除冗长的推理过程，LLM仍然无法可靠采样，某些情况下偏差反而被放大。

序列采样和批量采样：各有各的问题

受伪随机数生成器(PRNG, Pseudo-Random Number Generator, 伪随机数生成器)有状态性的启发，论文探索了将历史样本放入上下文的序列采样方法。携带全部历史的序列采样在均匀分布上表现尚可，但引入了明显的时间偏差——自相关分析显示模型倾向于"排斥"当前状态，即偏好跳到不同的值。

图片

[Figure 5: 四种采样方式的自相关函数对比] 独立采样、全历史序列采样、末位历史序列采样、批量采样的自相关分析。全历史方式虽表现较好，但前几个lag呈负相关，显示排斥效应；末位历史方式则展现强烈的周期性模式。

批量采样（一次生成1024个数）在均匀分布上偶尔可行，但引入了严重的周期性重复模式，且模型难以精确生成指定数量的随机数。

真正有效的方案：分布转换

论文最重要的正面发现来自分布转换实验。方法很简单：不让LLM自己"生成"随机数，而是向其提供一个从均匀分布[0,1]中预采样的随机数，让模型通过确定性算法将其转换到目标分布。

图片

[Figure 9: LLM可靠地将均匀分布转换为多种目标分布] 从左到右展示了Qwen3-30B-A3B转换到均匀离散分布、Qwen3-32B转换到非均匀离散分布、Qwen3-14B转换到高斯分布、Gemini-3.0-Pro转换到高斯混合模型的结果，均与理论曲线吻合。

图片

[Table 3: 不同Qwen3模型尺寸的分布转换拟合优度检验] 论文在Qwen3的0.6B到32B六个尺寸上测试。对均匀离散分布，4B及以上模型达到p>0.05；对高斯分布，8B及以上模型达到p>0.05，展现出随模型规模增长的涌现特性。

LLM在这一任务中的推理过程完全是确定性的：对离散分布使用分桶算法，对高斯分布使用逆变换采样。这说明失败的根源不在于LLM不理解目标分布，而在于它们无法将内部概率估计映射到随机输出上。

模拟PRNG：能力与局限

论文还测试了让LLM在不使用工具的情况下，通过思维链模拟PRNG算法。对均匀分布，Qwen3-4B及以上模型的模拟准确率超过92%（如Qwen3-8B达到97.5%）。但对高斯分布，由于需要两次随机数生成，第二次时状态值已经很大，LLM在大数乘法上频繁出错，准确率大幅下降。

图片

[Table 2: LLM模拟PRNG算法的准确率]Qwen3-8B在均匀离散和均匀连续分布上分别达到97.5%和97.8%的准确率，而Qwen3-1.7B仅约20%。

X说

论文的结论直指要害：当前LLM的随机行为是训练数据偏差驱动的"随机性幻觉"，而非受控的概率采样。分布转换虽然有效，但每次采样都需要昂贵的推理计算，对需要频繁采样的agent系统来说代价过高。论文认为，一个务实的解决方案是为LLM提供一个有状态的外部采样器，在调用之间追踪状态。这种有状态工具的概念，可能对采样之外的其他agent流程同样有价值。

原文标题：The Illusion of Stochasticity in LLMs

原文链接：https://arxiv.org/abs/2604.06543

本文转载自AI帝国，作者：无影寺