交叉熵代价函数 为什么交叉熵cross-entropy可以用于计算代价?
为什么交叉熵cross-entropy可以用于计算代价?
谢谢邀请。交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式。与二次代价函数相比,它能更有效地促进ANN的训练!
为什么信息熵要定义成-Σp*log(p)?
题主你好。信息熵是有公理化定义的。按照信息论的描述是这样的:
信息量H应当是概率pi(i= l,…, N)的连续函数;
- 如果所有的概率pi相等,即pi=1/N, 那么信息量H应当是N的单调增函数;
- 如果选择是分为相继的两步达到的,那么原先的一步选择的信息量H应等于分步选择的各个信息量Hk(k=1,2)值的加权和。
基于这些基本假定可以证明信息熵的表达式必须是题主所给出的形式。一般教科书都对此都有证明。题主应该可以证明这一点。在后面,小编会验证香农熵公式是满足这三条的。
小编在此说一下第三条。这一条其实和概率论里的全概率公式的含义类似。我们计算一个分为两个步骤才能完成的事件的概率,就是考虑分步选择的每个子事件的概率权重和。将这一条移植到信息量的计算上,就得到了第三条。
下面小编来验证香农熵是满足上述三条假设的。
由于信息熵表达式里只有对数函数和一次函数的乘积,所以连续性是必然成立的。【有一个约定0log0=0。】
单调性:考虑pi=1/N,那么香农熵退化为H=logN,对数的底数一般选为大于1的正实数,所以H必然是N的单调增函数。
现在考虑第三条,不失一般性,我们这里考虑三个可能的结果,概率依次为p1,p2,p3。现在将事件过程分成两步,第一步分为两个结果概率依次为p1,(p2 p3)——第一个结果对应前面的第一个结果,第二个结果分成两个结果对应第二步的两个结果,其概率为p2/(p2 p3),p3/(p2 p3)。很明显,这两个结果对应之前的后面结果。按照香农熵,我们可以一步到位地算出信息量为
H=-p1log(p1)-p2log(p2)-p3log(p3)
根据第三个条件,我们有另一个结果
H"=-p1log(p1)-(p2 p3)log(p2 p3)-p2log(p2)-p3log(p3) p2log(p2 p3) p3log(p2 p3)=H
这就是说明,香农熵是满足第三个条件的。
“熵”什么意思?它的变化有什么意义?
熵,是舶来品,英文entropy,是一个缩合词,其中,en=energy能量,tr=trans超越/越来越,op=open开放,y[后缀]表特性。
故,熵的字面意思:能量越来越开放的特性。通俗的讲:熵是浓度扩散的特性。
其实,古代道家,早就感悟到了熵增原理。其“无极”即是“熵至”。
无极,顾名思义,是没有极性(即最无序)的元气分布。
国学的元气,即西学的以太,即量子场论的真空介质。
熵增加原理:一个封闭系统,其中的高密度物态,总是要辐射能量或自我分解,发散到附近空间,最终形成热平衡。
例如,将墨水滴入一杯清水中,因有浓度扩散效应,墨分子将渗透稀释到所有水分子,成最分散、最均匀、最无序的分布状态。
1000千米大气层内的气体分子,可进入50000千米左右高度真空的地球辐射带,由于浓度扩散效应,或者叫熵增加动力,气体分子会自行分解为等离子态或亚原子,如,自由电子、自由质子,其分布最混乱、其震荡最无序。
光总要红移,水总向低流,水总要蒸发,热总要膨胀,压抑要发泄,劫富可济贫,冷热要均匀。这些都是熵增加的自然行为。
物理新视野,旨在建设性新思维,共同切磋物理/逻辑/双语的疑难问题。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。