从语义信息论看正则化准则

正则化准则就是在误差准则后面加上正则化项——它反映模型标准差越小越好。这意思是你撒网盖住鱼了,但是覆盖面积越小越好。网盖住整个池塘,就等于没网。用Popper理论解释就是逻辑概率越小越好,因为检验更严厉。 永真句不提供信息。

看到这篇文章:   

从贝叶斯角度深入理解正则化 http://blog.csdn.net/zhuxiaodong030/article/details/54408786

初看觉得很有新意。但是仔细思考, 不对啊, 要用样本优化的是似然函数中的参数啊, 怎么能优化先验参数呢?先验参数和样本无关啊!

我的一篇文章讲到这个问题, 摘录如下:


    把真值函数或隶属函数带进贝叶斯公式:

                 (3.5)


其中T(.|X)是隶属函数, T(.)是逻辑概率。

Shannon信息论中,只有统计概率,没有逻辑概率,也没有预测的概率(似然度).下面语义信息测度同时用到这三种概率[6]. yj提供关于xi的信息量就是对数标准似然度:

                                       (3.8)


其中用到贝叶斯定理III,并假设先验似然函数等于先验概率分布P(X).对于无偏估计,真值函数和信息之间的关系如图4所示.


4语义信息量图解.偏差越大,信息越少;逻辑概率越小,信息量越大;错误预测提供负的信息.

Figure4Illustration of semanticinformation measure. The larger the deviation is, the less information thereis; the less the logical probabilitYis, the more information there is; and, a wrong estimation may convey negative information.


这个公式就能反映Popper的思想[23](先验)逻辑概率越小,并能经得起检验(后验逻辑概率越大),信息量就越大;永真句在逻辑上不能被证伪,因而不含有信息.


把式(3.7)中的T(θj|X)代入式(3.8),就得到


                                (3.9)


其中log[1/T(θj)]就是Bar-HillelCarnap定义的语义信息测度[3].上述语义信息测度还考虑了偏差——语义信息量随偏差增大而减小.  

I(xi; θj)求平均,就得到广义Kullback-Leibler (KL)信息:

                    (3.10)


其中对数左边是统计概率P(xi|yj)i=1, 2, …,它们构成样本概率分布P(X|yj),是用以检验θj.

I(X;θj)求平均,就得到广义或语义互信息公式:

        (3.11)



容易证明,在语义贝叶斯预测和样本分布一致时,P(xi|θj)=P(xi|yj) (对于所有i, j)时,上述语义互信息达到其上限,等于Shannon互信息.从式(3.9)(3.11)可见,语义互信息准则和流行的误差加正则化准则是类似的. H(θ|X)就是误差项,H(θ)就是正则化项. I(X; θ)就是负的损失函数.

更多讨论见:http://survivor99.com/lcg/books/GIT/







版权声明:本文为lcguang1955原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。