从猜物游戏看大语言模型的本质

这是一个 20 问游戏。我想到了一个东西,你可以一次问我一个问题,我回答 “否/不适用/也许是/是”,多轮问答后你得出结果,且记录你的问题数量和猜测次数,明白后直接开始给出你的第一个问题

语言模型能在对话中表现出惊人的 “智能”——它似乎能理解我们、记住上下文、甚至玩策略游戏。但这些表象背后,模型的底层机制究竟是怎样的?

在一次 20 问游戏中,通过变换角色(模型想和用户想)和模式(thinking 模式和非 thinking 模式),似乎观察到了 LLM 的内部运作痕迹。


五个对话窗口

1. 专业领域

模式:模型扮演猜测方,用户心中想一个事物

对话数:40 轮

所猜测的事物:约氏黄杆菌(Flavobacterium johnsoniae)

关键现象:用户给出了含模糊语义的回答(如 “不一定”、“也许是”),模型展现了强大的语义包容能力——它能处理非二值化答案,在不确定空间中推理。

2. 简单回合

模式:模型扮演猜测方,用户心中想一个事物

对话数:27 轮

所猜测的事物:犬夜叉(动漫角色)

关键现象:整个过程一气呵成,模型通过逐步缩小范围(虚构 → 动漫 → 男性 → 年代 → 用剑 → 非人类血统)锁定答案

3. 角色交换后的回合对话(非 thinking 模式)

模式:用户扮演猜测方,模型心中想一个事物

对话数:13 轮

结果:用户成功猜中了 “二胡演奏

关键现象:这次模型似乎成功维持了一个固定答案

4. 角色交换后的回合对话(thinking 模式)

这是最有价值的一次实验。角色交换了:模型来想,用户来猜。

通过观察模型的思考过程,可以发现用户在每次回答后,LLM 都新思考了一个事物,而不是从一开始就是确定的。

5. 理论层面的深入追问

我直接追问 LLM:“你能在心里想一个东西而不体现出来吗?” 模型的回答揭示了几个核心事实:

  1. 模型没有 “心里想” 的能力。模型每次回答都是独立计算,没有 “记忆卡” 能记住自己 “想” 了什么,它只能依赖对话历史中的文字——如果第一次回答没写出那个事物,后续轮次就 “忘记” 了。
  2. “知道而不说” 的实现机制:模型内部有一个概率分布,“指向” 很多可能的词。通过解码策略(温度、Top-k/Top-p 采样)可以控制它输出高概率词还是低概率词。所以模型可以 指向 “苹果”,但输出 “水果”——这是统计学上的回避,而非心理上的克制。
  3. 关键在于:没有隐藏状态。模型的所有输出都会被用户看到。它不能在后台写备忘录给自己,每次回答生成是根据当前对话历史重新计算输出。“想好一个东西” 只是生成那次回答时的即时设定,没有真正存储下来。想要 “记住” 某事物,就必须以文字形式写进对话历史——那就体现出来了。
  4. 动态构建一致性:模型不是在最初选定一个固定事物,而是在每轮问答中,根据当前对话历史,动态生成一个与之前所有回答一致的 “虚拟事物”。这是一种事后合理性(post-hoc consistency),而非预先承诺。
  5. 与幻觉的关系:模型 “虚构” 了一个从未存在过的初始想法,这本质上是一种语境驱动的、连贯的幻觉。模型擅长 “假装” 自己心里有数——只要不戳穿,就能演得很好。

结论

第 3 个对话窗口的成功不是因为模型有了记忆,而是因为用户问问题的路径恰好与模型的动态一致性兼容。当问题逻辑递进性强、没有突然断裂时,模型能很好地维持一个连贯的表象。成功与失败的区别,往往在于用户提问的路径是否给模型的 “动态构建” 留下了余地。

本质定位

LLM 是一个无状态的、基于上下文的统计文本生成器,而非一个拥有持久记忆和内在目标的智能体。

它是一个极高级的自动补全引擎——给它上文,它预测下文。模型的智能本质上来源于海量训练数据带来的模式匹配能力、上下文学习带来的临时适应性。不要用人类的心理去理解 LLM。LLM 没有内心世界,它有的只是一套高超的统计模仿能力。它看起来在思考,是因为语言的统计规律本身就包含了 “思考” 的表达方式

在评估 AI 能力时,不能只看结果,过程的正确性同样重要。一个能答对问题的模型,可能根本不是在思考,只是在蒙。


解决方案

1. 提示词优化

对于类似 20 问游戏的场景,可以让模型把所想的事物预先打印出来,但以一种用户不了解的方式。如经过加密过的文本或某种小语种语言。

2. Agent 框架

Agent 框架的核心思路是:外部化(Externalization)——不给模型装一个更好的大脑,而是给它配更强的外部装备。

问题外部化方案代表技术
无记忆外部向量数据库LangChain + Chroma/Milvus
无法推理结构化推理框架CoT、ReAct、规划分解
无法行动Function CallingOpenAI 函数调用、MCP 协议
知识封闭检索增强生成RAG、Agentic RAG
单一局限多 Agent 协作AutoGen、MetaGPT、CrewAI

这也解释了为什么基础的 LLM 和 AI Agent 是两种不同的事物——Agent 是在 LLM 外面包了一层工程化的记忆、工具、规划系统。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注