0%

对熵的简单理解

简言之,事情越不确定熵越大

假设有5枚硬币,都是正面,只有一种方式,3个正面2个反面,很多排列方式
他们的熵分别为

1
2
S1 = -1*ln(1)=0
S2 = -1*(0.4*ln0.4+0.6*ln0.6)*5=3.365

熵越大含的信息量越多

比如神经网络分类的结果,
假设有5类,一种是1,0,0,0,0,另一种是0.21,0.36,…
类似上面的计算就可以得出第二种熵更大,它喊得信息也更多,可以用作知识蒸馏中的soft label,学生网络能学到更多信息。

越混乱熵越高,越稳定熵越低