回旋镖
预计阅读时间:2分钟59秒

信息熵和物理熵为什么公式一模一样

信息熵与物理熵公式一模一样,并非因为热力学与通信存在隐秘共鸣,纯粹是两者都在解同一道排列组合题。该公式本质上只是把系统最可能落入的“典型状态”总数取了对数,数学底层逻辑完全同源。

可能包含AI生成内容

0
0

公式同源出自朴素的排列组合


我总认为,香农把通信里的不确定度写成对数求和的形式,纯粹是走了物理学的一条老路。公式长得一模一样,不是因为信息流和热分子有什么隐秘共鸣。一九四八年那篇奠基性论文定稿前,冯·诺依曼在普林斯顿的走廊里跟他提了句直白的话。用熵这个词吧。数学上已经立住了。没人会在符号上为难他。我翻过那些原始推导笔记,发现它们共享的计数逻辑,其实非常朴素。都在算排列组合。


玻尔兹曼墓碑上刻着 S = k log W。W 代表微观状态数。想象一个密封容器,里面装着两百万个气体分子。温度固定,体积固定。每个分子的位置和速度可以变化。宏观上,容器看起来平静如水。微观上,分子不停碰撞。W 就是所有能让容器保持当前宏观读数的微观撞法总数。取对数是因为数字太大。两百万的阶乘位数高达千万级,根本写不完。对数把乘法压成加法。物理系统会自发走向 W 最大的状态。不是因为它偏好混乱。只是因为 W 最大的状态,对应的具体排列组合最多。随手抓一把骰子扔出去,点数和为二十一的各种组合方式,远多于点数和为三十六的组合。系统只是落在了概率最高的那一堆排列里。概率分布一旦铺开,具体到某个分子朝哪个方向飞,反而失去追踪意义。


香农面对的是字母和电码。他要算一条消息里到底藏着多少不确定度。英文文本里,字母 E 出现得最频繁,Q 和 Z 几乎看不见。如果每个字母都用同样长度的二进制串去存,会浪费传输带宽。他把字母出现的频率列成一张表。频率高的用短码。频率低的用长码。这里头的数学操作,和气体分子分配能级的操作完全平行。信源产生的消息,本质上是一串随机变量序列。假设消息长度为 N。每个位置抽哪个字母,遵循已知的概率分布。当 N 足够大时,绝大多数实际生成的消息,都会落在一个极窄的区间里。香农管这个叫典型集。典型集里的消息,出现的总概率接近一。但它的绝对数量,只占全部可能消息序列的极小部分。


数学就是这么直白。


渐近等分特性划定典型集边界


渐近等分特性把计数规则钉死了。消息序列越长,典型集里的每个序列出现的概率就越趋近于一个固定值。这个概率值的倒数,再取对数,就是香农熵。公式写出来是 H = -Σ p log p。和玻尔兹曼的 log W 摆在桌面上对比,形式一致。区别只在于常数。物理学家乘了玻尔兹曼常数 k。通信工程师乘了一。底数取二还是取 e,取决于算的是比特还是自然单位。我习惯用早市买菜的例子来想这件事。摊位上只有三种菜。白菜占六成,萝卜占三成,土豆占一成。你每天去挑一把,连续去一百天。这一百天挑出来的具体清单,就是消息序列。白菜萝卜土豆的固定比例,就是概率分布。一百天下来,你拿到的清单几乎一定是六十份白菜、三十根萝卜、十个土豆。其他偏离这个比例的清单,出现的概率微乎其微。所有大概率会出现的清单数量,就是典型集的大小。这个大小直接由三种菜的比例决定。比例越均匀,清单的变化花样就越多。比例越倾斜,你能拿到的花样就越少。信息熵数的就是这个花样的对数。物理系统里,分子在不同能级上的分布,和菜市场里蔬菜在篮子里的分布,在计数规则上没有分别。


典型集的大小,大约等于二的 N 乘 H 次方。H 是单字符的熵。N 是序列长度。当 N 趋向无穷大时,非典型序列的占比会指数级衰减。压缩算法能起效,靠的就是这个衰减。输入一段十万字的英文小说。程序统计字母频率。算出熵值。映射成最短的平均码长。输出就是一串紧凑的二进制流。耗时随字数近线性增长。复杂度卡在 O(N log N) 左右。解码时再查表还原。剩下的冗余量,正好等于信源熵与均匀分布熵的差值。


热力学与信息论终究是两本账


两者终究是两本账。


公式同源,不代表热力学和通信是一回事。玻尔兹曼的熵指向能量耗散的方向。香农的熵只描述概率分布的宽度。热力学第二定律说孤立系统的熵不会自发减小。信息论里却没有这条限制。一段乱码经过精心设计的重排,熵值可以人为压低。物理系统的微观态演化受能量守恒和力学方程约束。消息序列的演化只受发送者意愿和信道噪声支配。这里头有个容易被忽略的前提条件。物理熵的计算默认各态历经。系统在足够长的时间里,能遍历所有允许的微观状态。通信信源不需要满足各态历经。发报员可以连续敲出一万个相同的点划序列。这种刻意制造的重复,会直接把信息熵压到接近零。但对应的物理系统,如果真有一万个分子完全同步运动,它早就突破宏观约束或者发生相变了。两者的演化条件完全不同。麦克斯韦妖的思想实验把两个领域硬拽到了一起。妖精靠分辨分子快慢来制造温差。它需要获取分子位置信息。获取信息本身,需要消耗能量并产生热。兰道尔后来给出了定量计算。擦除一比特信息,至少产生 kT ln 2 的热量。兰道尔原理把这个热力学代价,钉死在了逻辑门电路的开关动作上。


最大熵原理在渐近极限处重合


现代统计力学处理复杂系统时,直接借用了信息熵的求极值方法。最大熵原理是核心工具。已知系统的部分宏观约束。比如平均能量固定。粒子总数固定。在所有满足这些条件的概率分布里,选哪一个最合理。选信息熵最大的那个。因为它假设最少,不额外强加任何未观测到的偏好。这个选法,推导出来的结果,恰好就是玻尔兹曼分布。推导过程不需要引入分子碰撞的细节。只需要对概率分布求极值。用拉格朗日乘数法处理约束条件。解出来的分布形式,和热平衡下的指数衰减分布严丝合缝。信息论提供了寻找最无偏概率分布的计算路径。物理学提供了分布背后的动力学验证。两者在渐近极限下重合。


我偶尔会盯着通信基站的射频信号塔看。电磁波穿过空气。热噪声混在里面。工程师用香农极限算信道容量。物理学家用涨落耗散定理算噪声功率。两边的公式在黑板上并排写着。常数不同,变量不同。但求导、取极限、算渐近行为的步骤,几乎可以互换位置。热噪声的频谱密度,直接决定了信道能承载的最大信息速率。实验室里的冷却设备把接收机降到液氮温度。误码率会沿着那条对数曲线往下掉。

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号