预计阅读时间：2分钟59秒

信息熵和物理熵为什么公式一模一样

信息熵与物理熵公式一模一样，并非因为热力学与通信存在隐秘共鸣，纯粹是两者都在解同一道排列组合题。该公式本质上只是把系统最可能落入的“典型状态”总数取了对数，数学底层逻辑完全同源。

可能包含AI生成内容

公式同源出自朴素的排列组合

我总认为，香农把通信里的不确定度写成对数求和的形式，纯粹是走了物理学的一条老路。公式长得一模一样，不是因为信息流和热分子有什么隐秘共鸣。一九四八年那篇奠基性论文定稿前，冯·诺依曼在普林斯顿的走廊里跟他提了句直白的话。用熵这个词吧。数学上已经立住了。没人会在符号上为难他。我翻过那些原始推导笔记，发现它们共享的计数逻辑，其实非常朴素。都在算排列组合。

玻尔兹曼墓碑上刻着 S = k log W。W 代表微观状态数。想象一个密封容器，里面装着两百万个气体分子。温度固定，体积固定。每个分子的位置和速度可以变化。宏观上，容器看起来平静如水。微观上，分子不停碰撞。W 就是所有能让容器保持当前宏观读数的微观撞法总数。取对数是因为数字太大。两百万的阶乘位数高达千万级，根本写不完。对数把乘法压成加法。物理系统会自发走向 W 最大的状态。不是因为它偏好混乱。只是因为 W 最大的状态，对应的具体排列组合最多。随手抓一把骰子扔出去，点数和为二十一的各种组合方式，远多于点数和为三十六的组合。系统只是落在了概率最高的那一堆排列里。概率分布一旦铺开，具体到某个分子朝哪个方向飞，反而失去追踪意义。

香农面对的是字母和电码。他要算一条消息里到底藏着多少不确定度。英文文本里，字母 E 出现得最频繁，Q 和 Z 几乎看不见。如果每个字母都用同样长度的二进制串去存，会浪费传输带宽。他把字母出现的频率列成一张表。频率高的用短码。频率低的用长码。这里头的数学操作，和气体分子分配能级的操作完全平行。信源产生的消息，本质上是一串随机变量序列。假设消息长度为 N。每个位置抽哪个字母，遵循已知的概率分布。当 N 足够大时，绝大多数实际生成的消息，都会落在一个极窄的区间里。香农管这个叫典型集。典型集里的消息，出现的总概率接近一。但它的绝对数量，只占全部可能消息序列的极小部分。

数学就是这么直白。

渐近等分特性划定典型集边界

渐近等分特性把计数规则钉死了。消息序列越长，典型集里的每个序列出现的概率就越趋近于一个固定值。这个概率值的倒数，再取对数，就是香农熵。公式写出来是 H = -Σ p log p。和玻尔兹曼的 log W 摆在桌面上对比，形式一致。区别只在于常数。物理学家乘了玻尔兹曼常数 k。通信工程师乘了一。底数取二还是取 e，取决于算的是比特还是自然单位。我习惯用早市买菜的例子来想这件事。摊位上只有三种菜。白菜占六成，萝卜占三成，土豆占一成。你每天去挑一把，连续去一百天。这一百天挑出来的具体清单，就是消息序列。白菜萝卜土豆的固定比例，就是概率分布。一百天下来，你拿到的清单几乎一定是六十份白菜、三十根萝卜、十个土豆。其他偏离这个比例的清单，出现的概率微乎其微。所有大概率会出现的清单数量，就是典型集的大小。这个大小直接由三种菜的比例决定。比例越均匀，清单的变化花样就越多。比例越倾斜，你能拿到的花样就越少。信息熵数的就是这个花样的对数。物理系统里，分子在不同能级上的分布，和菜市场里蔬菜在篮子里的分布，在计数规则上没有分别。

典型集的大小，大约等于二的 N 乘 H 次方。H 是单字符的熵。N 是序列长度。当 N 趋向无穷大时，非典型序列的占比会指数级衰减。压缩算法能起效，靠的就是这个衰减。输入一段十万字的英文小说。程序统计字母频率。算出熵值。映射成最短的平均码长。输出就是一串紧凑的二进制流。耗时随字数近线性增长。复杂度卡在 O(N log N) 左右。解码时再查表还原。剩下的冗余量，正好等于信源熵与均匀分布熵的差值。

热力学与信息论终究是两本账

两者终究是两本账。

公式同源，不代表热力学和通信是一回事。玻尔兹曼的熵指向能量耗散的方向。香农的熵只描述概率分布的宽度。热力学第二定律说孤立系统的熵不会自发减小。信息论里却没有这条限制。一段乱码经过精心设计的重排，熵值可以人为压低。物理系统的微观态演化受能量守恒和力学方程约束。消息序列的演化只受发送者意愿和信道噪声支配。这里头有个容易被忽略的前提条件。物理熵的计算默认各态历经。系统在足够长的时间里，能遍历所有允许的微观状态。通信信源不需要满足各态历经。发报员可以连续敲出一万个相同的点划序列。这种刻意制造的重复，会直接把信息熵压到接近零。但对应的物理系统，如果真有一万个分子完全同步运动，它早就突破宏观约束或者发生相变了。两者的演化条件完全不同。麦克斯韦妖的思想实验把两个领域硬拽到了一起。妖精靠分辨分子快慢来制造温差。它需要获取分子位置信息。获取信息本身，需要消耗能量并产生热。兰道尔后来给出了定量计算。擦除一比特信息，至少产生 kT ln 2 的热量。兰道尔原理把这个热力学代价，钉死在了逻辑门电路的开关动作上。

最大熵原理在渐近极限处重合

现代统计力学处理复杂系统时，直接借用了信息熵的求极值方法。最大熵原理是核心工具。已知系统的部分宏观约束。比如平均能量固定。粒子总数固定。在所有满足这些条件的概率分布里，选哪一个最合理。选信息熵最大的那个。因为它假设最少，不额外强加任何未观测到的偏好。这个选法，推导出来的结果，恰好就是玻尔兹曼分布。推导过程不需要引入分子碰撞的细节。只需要对概率分布求极值。用拉格朗日乘数法处理约束条件。解出来的分布形式，和热平衡下的指数衰减分布严丝合缝。信息论提供了寻找最无偏概率分布的计算路径。物理学提供了分布背后的动力学验证。两者在渐近极限下重合。

我偶尔会盯着通信基站的射频信号塔看。电磁波穿过空气。热噪声混在里面。工程师用香农极限算信道容量。物理学家用涨落耗散定理算噪声功率。两边的公式在黑板上并排写着。常数不同，变量不同。但求导、取极限、算渐近行为的步骤，几乎可以互换位置。热噪声的频谱密度，直接决定了信道能承载的最大信息速率。实验室里的冷却设备把接收机降到液氮温度。误码率会沿着那条对数曲线往下掉。