计算受限观测者视角下的信息度量新范式 - 卡内基梅隆

1. 范式转移：从无限算力假设到计算受限现实

在万亿参数模型（Trillion-parameter scaling）时代，AI 研究正经历从模型驱动（Model-centric）向数据驱动（Data-centric）的根本性转型。然而，我们赖以生存的理论基石——基于香农（Shannon）与柯尔莫哥洛夫（Kolmogorov）的经典信息论——在处理现代预训练现象时已显露颓势。这些理论核心假设观测者拥有无限的计算能力，忽略了从原始字节中提取“有用信息”的工程成本。

我们正处于香农范式的边缘。在无限算力视角下，π 的每一位数字都不包含新信息，加密数据与其背后的明文在信息量上等效。但在现实的计算受限环境中，提取信息的计算开销（Compute cost）决定了信息的实际价值。为了实现计算最优的数据策应（Compute-optimal data curation），我们必须引入“计算受限观测者”视角。本报告将通过 Epiplexity（认识复杂度）这一核心指标，重新定义信息的本质：信息不仅是数据本身的静态属性，更是观测者算力与数据交互后，将其**内部化为结构化不变性（Internalizing structural invariants）**的结果。

2. 传统理论的局限性：信息论的三大理论悖论

传统框架在解释现代 AI 涌现现象时，存在三个由于忽略计算约束而产生的核心悖论：

悖论一：确定性变换的信息增益

经典信息论受制于数据处理不等式（DPI），认为任何确定性变换都无法增加信息量。

现实矛盾： AlphaZero 仅依靠简单的确定性游戏规则（极低 K 复杂度），通过大规模自博弈产生的模型权重（数 MB 的结构化信息）却能获得超越人类的洞见。
架构师评论： DPI 假设观测者能瞬间看透所有计算路径。在现实中，算力正是产生新信息的必要条件。计算过程本身就在为受限观测者创造“新”的、可利用的结构。

悖论二：因子化顺序的独立性

传统理论认为 H(X,Y) = H(Y,X)，即观测顺序不影响总信息量。

数学修正：根据 Theorem 13，如果存在单向置换（One-way permutation） f 使得 Y = f(X)，则对受限观测者而言： H_{Poly}(X|Y) + H_{Poly}(Y) > H_{Poly}(Y|X) + H_{Poly}(X) + \omega(\log n)
工程意义：这在数学上证明了“时间之箭”的影响。LLM 学习正向文本序列的效率远高于反向序列，是因为反向预测涉及更复杂的逆向推导，即计算上的“单向性”。

悖论三：似然建模的分布匹配

传统观点认为最大似然估计（MLE）仅仅是匹配数据生成器的分布。

现实矛盾：在复杂系统（如康威生命游戏）中，模型通过计算约束学习到的“滑翔机”等高层抽象，比生成器的底层规则更复杂、更具预测价值。
评价：模型不仅仅是模拟器，它在为了预测而强行归纳出生成器本身并未显式包含的复杂逻辑。

3. Epiplexity：结构化信息的度量核心

为了量化受限观测者眼中的价值，我们基于**最小描述长度（MDL）**原则，将总描述长度分离为两个维度：

定义与数学内涵

在计算约束 T 下，最优程序 P^* 最小化模型长度与预测损失之和。我们定义： MDL_T(X) = ST(X) + HT(X) 其中，ST(X) 即为 Epiplexity，代表模型程序 P^* 的比特长度 |P^*|；HT(X) 为时间受限熵，代表给定模型后剩余的随机性。

结构化信息 vs. 随机信息

指标	名称	描述	典型场景
ST (Epiplexity)	结构化信息	必须内化到权重中的规律。	逻辑推理、语法、物理定律。
HT (Entropy)	随机信息	受限算力下无法预测的噪声。	加密流、传感器噪声。

关键定理（Theorem 9）：对于伪随机数生成器（CSPRNG），在受限观测者眼中，其 ST \approx 0（无提取结构），而 HT 接近极大值（不可区分于噪声）。这揭示了加密数据对模型学习而言是零价值的。

4. 测量程序：基于损失曲线的实操指南

在工程中，我们通过神经网络的训练行为来量化这两个指标。

方法一：前序编码（Prequential Coding）

原理：估算为损失曲线下方超出最终稳定损失（Final Loss）的部分的积分面积。
可视化：在 Loss-Step 图中，最终达到的 Baseline 以下的面积为 Entropy (HT)（灰色区域），代表数据本原的随机性；而曲线下降所包围的 Baseline 以上区域为 Epiplexity (ST)（绿色区域）。

方法二：再序编码（Requential Coding）

这是更严谨的度量方式，基于“教师-学生”框架。

数学表达： |P_{req}| \approx \sum KL(P^t_i || P^s_i)。
评价：再序编码通过衡量学生模型吸收教师知识时的累积 KL 散度，能够精确过滤掉训练数据本身的熵噪声。这种方法对采样点不敏感，允许我们仅为模型结构付费，而非为数据随机性付费，是目前最高级的工程度量手段。

5. 深入探索：归纳、涌现与合成数据的价值

归纳缝隙（Induction Gap）

正如 Ilya Sutskever 的“谋杀悬案”隐喻：作者设定凶手（生成）只需简单声明，但读者推断凶手（预测）必须通过证据进行复杂的逻辑归纳。这种从数据生成到数据预测的复杂度跳跃，即为 Induction Gap。

Rule 30 vs. Rule 54： Rule 30 产生的是纯粹的随机性（高 HT, 低 ST）；而 Rule 54 产生了可学习的涌现结构（中 HT, 高 ST），后者才是预训练的黄金数据。

涌现与“U型”复杂度曲线

在康威生命游戏中，受限观测者无法进行暴力模拟，被迫识别“滑翔机”等高层模式。

Looped Transformer 实验：研究发现，对于复杂规则，非循环模型（直接预测）最初拥有较高的 Epiplexity，因为它必须学习复杂的快捷方式（Shortcuts）。然而，当算力跨越阈值，循环模型（暴力模拟底层规则）变得更高效，Epiplexity 反而会骤降。这揭示了结构化信息价值随计算能力提升呈现出的“U型”演化特征。

战略性合成数据

Limited Epiplexity Increase Property 指出：在计算受限世界中，ST(G(Z)) 并不受限于生成程序 |G|。这意味着高质量合成数据（如包含详细思维链的推理过程）能够将隐藏的逻辑显性化，强制模型学习更复杂的内部电路，从而在受限算力下实现能力的飞跃。

6. 战略应用：跨模态预训练与 OOD 泛化

模态效率：VQ Tokenizer 的本质

图像数据中超过 99% 的信息是像素级的随机噪声（高 HT）。

战略建议：使用 VQ 分词器。其本质是通过预先丢弃高 HT 的噪声，从而相对提升数据集的 Epiplexity 占比。这解释了为什么离散化表示能让模型更有效地捕捉语义结构。

自动化数据优化 (ADO)

基于 ADO (Automated Data Optimization) 策略，我们通过测量 Epiplexity 来筛选数据。

核心发现：筛选高 ST 数据能促使模型学习“通用子程序”（如博弈中的局势理解电路）。这些电路在面对分布外（OOD）任务时具有极高的复用率。
数据选择指南：知识工作者应优先选择那些能让模型在训练中经历“顿悟”（即损失曲线持续下降）的高 Epiplexity 数据，而非单纯增加样本量。

7. 结论：通往计算智能的统一信息论

信息不是死板的字节，而是算力对数据的征服率。Epiplexity 为我们提供了一个衡量“结构化信息价值”的统一尺度，解决了经典理论无法解释的 AlphaZero 增益、单向函数学习及涌现现象。

未来愿景：

课程学习自动化：利用 Epiplexity 实时评估数据的“学习回报率”，动态调整训练混合比例。
解决数据墙：通过生产高 ST 的逻辑合成数据，我们将跨越自然语言枯竭的瓶颈，推动 Scaling Laws 向更高维度的结构化智能演进。

Epiplexity

量化并内化“结构化信息”，是解决 AI 扩展律瓶颈、通往 AGI 的唯一理论路径。

参考文献

From Entropy to Epiplexity