神经网络准确率计算公式,神经网络的参数计算

神经网络的准确率是怎么计算的？

其实神经网络的准确率的标准是自己定义的。我把你的例子赋予某种意义讲解：1，期望输出[1001]，每个元素代表一个属性是否存在。

像着4个元素分别表示：是否肺炎，是否肝炎，是否肾炎，是否胆炎，1表示是，0表示不是。2，你的神经网络输出必定不可能全部都是输出只有0,1的输出。

绝大部分是像[0.99680.00000.00010.9970]这样的输出，所以只要输出中的某个元素大于一定的值，例如0.7，我们就认为这个元素是1，即是有某种炎。

否则为0，所以你的[0.99680.00000.00010.9970]可以看成是[1,0,0,1],。

3，所以一般神经网络的输出要按一定的标准定义成另一种输出（像上面说的），看调整后的输出和期望输出是否一致，一致的话算正确，不一致算错误。

4，用总量为n的检验样本对网络进行评价，输出调整后的输出，统计错误的个数，记为m。所以检验正确率可以定义为n/m。

谷歌人工智能写作项目：小发猫

神经网络BP模型

一、BP模型概述误差逆传播(ErrorBack-Propagation)神经网络模型简称为BP(Back-Propagation)网络模型A8U神经网络。

PallWerbas博士于1974年在他的博士论文中提出了误差逆传播学习算法。完整提出并被广泛接受误差逆传播学习算法的是以Rumelhart和McCelland为首的科学家小组。

他们在1986年出版“ParallelDistributedProcessing，ExplorationsintheMicrostructureofCognition”(《并行分布信息处理》)一书中，对误差逆传播学习算法进行了详尽的分析与介绍，并对这一算法的潜在能力进行了深入探讨。

BP网络是一种具有3层或3层以上的阶层型神经网络。上、下层之间各神经元实现全连接，即下层的每一个神经元与上层的每一个神经元都实现权连接，而每一层各神经元之间无连接。

网络按有教师示教的方式进行学习，当一对学习模式提供给网络后，神经元的激活值从输入层经各隐含层向输出层传播，在输出层的各神经元获得网络的输入响应。

在这之后，按减小期望输出与实际输出的误差的方向，从输入层经各隐含层逐层修正各连接权，最后回到输入层，故得名“误差逆传播学习算法”。

随着这种误差逆传播修正的不断进行，网络对输入模式响应的正确率也不断提高。

BP网络主要应用于以下几个方面：1)函数逼近：用输入模式与相应的期望输出模式学习一个网络逼近一个函数；2)模式识别：用一个特定的期望输出模式将它与输入模式联系起来；3)分类：把输入模式以所定义的合适方式进行分类；4)数据压缩：减少输出矢量的维数以便于传输或存储。

在人工神经网络的实际应用中，80%～90%的人工神经网络模型采用BP网络或它的变化形式，它也是前向网络的核心部分，体现了人工神经网络最精华的部分。

二、BP模型原理下面以三层BP网络为例，说明学习和应用的原理。

1.数据定义P对学习模式(xp，dp)，p=1，2，…，P；输入模式矩阵X[N][P]=(x1，x2，…，xP)；目标模式矩阵d[M][P]=(d1，d2，…，dP)。

三层BP网络结构输入层神经元节点数S0=N，i=1，2，…，S0；隐含层神经元节点数S1，j=1，2，…，S1；神经元激活函数f1[S1]；权值矩阵W1[S1][S0]；偏差向量b1[S1]。

输出层神经元节点数S2=M，k=1，2，…，S2；神经元激活函数f2[S2]；权值矩阵W2[S2][S1]；偏差向量b2[S2]。

学习参数目标误差ϵ；初始权更新值Δ0；最大权更新值Δmax；权更新值增大倍数η+；权更新值减小倍数η-。

2.误差函数定义对第p个输入模式的误差的计算公式为中国矿产资源评价新技术与评价新模型y2kp为BP网的计算输出。

3.BP网络学习公式推导BP网络学习公式推导的指导思想是，对网络的权值W、偏差b修正，使误差函数沿负梯度方向下降，直到网络输出误差精度达到目标精度要求，学习结束。

各层输出计算公式输入层y0i=xi，i=1，2，…，S0；隐含层中国矿产资源评价新技术与评价新模型y1j=f1(z1j)，j=1，2，…，S1；输出层中国矿产资源评价新技术与评价新模型y2k=f2(z2k)，k=1，2，…，S2。

输出节点的误差公式中国矿产资源评价新技术与评价新模型对输出层节点的梯度公式推导中国矿产资源评价新技术与评价新模型E是多个y2m的函数，但只有一个y2k与wkj有关，各y2m间相互独立。

其中中国矿产资源评价新技术与评价新模型则中国矿产资源评价新技术与评价新模型设输出层节点误差为δ2k=(dk-y2k)·f2′(z2k)，则中国矿产资源评价新技术与评价新模型同理可得中国矿产资源评价新技术与评价新模型对隐含层节点的梯度公式推导中国矿产资源评价新技术与评价新模型E是多个y2k的函数，针对某一个w1ji，对应一个y1j，它与所有的y2k有关。

因此，上式只存在对k的求和，其中中国矿产资源评价新技术与评价新模型则中国矿产资源评价新技术与评价新模型设隐含层节点误差为中国矿产资源评价新技术与评价新模型则中国矿产资源评价新技术与评价新模型同理可得中国矿产资源评价新技术与评价新模型4.采用弹性BP算法(RPROP)计算权值W、偏差b的修正值ΔW，Δb1993年德国MartinRiedmiller和HeinrichBraun在他们的论文“ADirectAdaptiveMethodforFasterBackpropagationLearning：TheRPROPAlgorithm”中，提出ResilientBackpropagation算法——弹性BP算法(RPROP)。

这种方法试图消除梯度的大小对权步的有害影响，因此，只有梯度的符号被认为表示权更新的方向。

权改变的大小仅仅由权专门的“更新值”确定中国矿产资源评价新技术与评价新模型其中表示在模式集的所有模式(批学习)上求和的梯度信息，(t)表示t时刻或第t次学习。

权更新遵循规则：如果导数是正(增加误差)，这个权由它的更新值减少。如果导数是负，更新值增加。中国矿产资源评价新技术与评价新模型RPROP算法是根据局部梯度信息实现权步的直接修改。

对于每个权，我们引入它的各自的更新值，它独自确定权更新值的大小。

这是基于符号相关的自适应过程，它基于在误差函数E上的局部梯度信息，按照以下的学习规则更新中国矿产资源评价新技术与评价新模型其中0＜η-＜1＜η+。

在每个时刻，如果目标函数的梯度改变它的符号，它表示最后的更新太大，更新值应由权更新值减小倍数因子η-得到减少；如果目标函数的梯度保持它的符号，更新值应由权更新值增大倍数因子η+得到增大。

为了减少自由地可调参数的数目，增大倍数因子η+和减小倍数因子η–被设置到固定值η+=1.2，η-=0.5，这两个值在大量的实践中得到了很好的效果。

RPROP算法采用了两个参数：初始权更新值Δ0和最大权更新值Δmax当学习开始时，所有的更新值被设置为初始值Δ0，因为它直接确定了前面权步的大小，它应该按照权自身的初值进行选择，例如，Δ0=0.1(默认设置)。

为了使权不至于变得太大，设置最大权更新值限制Δmax，默认上界设置为Δmax=50.0。在很多实验中，发现通过设置最大权更新值Δmax到相当小的值，例如Δmax=1.0。

我们可能达到误差减小的平滑性能。5.计算修正权值W、偏差b第t次学习，权值W、偏差b的的修正公式W(t)=W(t-1)+ΔW(t)，b(t)=b(t-1)+Δb(t)，其中，t为学习次数。

6.BP网络学习成功结束条件每次学习累积误差平方和中国矿产资源评价新技术与评价新模型每次学习平均误差中国矿产资源评价新技术与评价新模型当平均误差MSE＜ε，BP网络学习成功结束。

7.BP网络应用预测在应用BP网络时，提供网络输入给输入层，应用给定的BP网络及BP网络学习得到的权值W、偏差b，网络输入经过从输入层经各隐含层向输出层的“顺传播”过程，计算出BP网的预测输出。

8.神经元激活函数f线性函数f(x)=x，f′(x)=1，f(x)的输入范围(-∞，+∞)，输出范围(-∞，+∞)。一般用于输出层，可使网络输出任何值。

S型函数S(x)中国矿产资源评价新技术与评价新模型f(x)的输入范围(-∞，+∞)，输出范围(0，1)。f′(x)=f(x)[1-f(x)]，f′(x)的输入范围(-∞，+∞)，输出范围(0，]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(0，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

在用于模式识别时，可用于输出层，产生逼近于0或1的二值输出。双曲正切S型函数中国矿产资源评价新技术与评价新模型f(x)的输入范围(-∞，+∞)，输出范围(-1，1)。

f′(x)=1-f(x)·f(x)，f′(x)的输入范围(-∞，+∞)，输出范围(0，1]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(-1，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

阶梯函数类型1中国矿产资源评价新技术与评价新模型f(x)的输入范围(-∞，+∞)，输出范围{0，1}。f′(x)=0。

类型2中国矿产资源评价新技术与评价新模型f(x)的输入范围(-∞，+∞)，输出范围{-1，1}。f′(x)=0。

斜坡函数类型1中国矿产资源评价新技术与评价新模型f(x)的输入范围(-∞，+∞)，输出范围[0，1]。中国矿产资源评价新技术与评价新模型f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

类型2中国矿产资源评价新技术与评价新模型f(x)的输入范围(-∞，+∞)，输出范围[-1，1]。中国矿产资源评价新技术与评价新模型f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

三、总体算法1.三层BP网络(含输入层，隐含层，输出层)权值W、偏差b初始化总体算法(1)输入参数X[N][P]，S0，S1，f1[S1]，S2，f2[S2]；(2)计算输入模式X[N][P]各个变量的最大值，最小值矩阵Xmax[N]，Xmin[N]；(3)隐含层的权值W1，偏差b1初始化。

情形1：隐含层激活函数f()都是双曲正切S型函数1)计算输入模式X[N][P]的每个变量的范围向量Xrng[N]；2)计算输入模式X的每个变量的范围均值向量Xmid[N]；3)计算W，b的幅度因子Wmag；4)产生[-1，1]之间均匀分布的S0×1维随机数矩阵Rand[S1]；5)产生均值为0，方差为1的正态分布的S1×S0维随机数矩阵Randnr[S1][S0]，随机数范围大致在[-1，1]；6)计算W[S1][S0]，b[S1]；7)计算隐含层的初始化权值W1[S1][S0]；8)计算隐含层的初始化偏差b1[S1]；9))输出W1[S1][S0]，b1[S1]。

情形2：隐含层激活函数f()都是S型函数1)计算输入模式X[N][P]的每个变量的范围向量Xrng[N]；2)计算输入模式X的每个变量的范围均值向量Xmid[N]；3)计算W，b的幅度因子Wmag；4)产生[-1，1]之间均匀分布的S0×1维随机数矩阵Rand[S1]；5)产生均值为0，方差为1的正态分布的S1×S0维随机数矩阵Randnr[S1][S0]，随机数范围大致在[-1，1]；6)计算W[S1][S0]，b[S1]；7)计算隐含层的初始化权值W1[S1][S0]；8)计算隐含层的初始化偏差b1[S1]；9)输出W1[S1][S0]，b1[S1]。

情形3：隐含层激活函数f()为其他函数的情形1)计算输入模式X[N][P]的每个变量的范围向量Xrng[N]；2)计算输入模式X的每个变量的范围均值向量Xmid[N]；3)计算W，b的幅度因子Wmag；4)产生[-1，1]之间均匀分布的S0×1维随机数矩阵Rand[S1]；5)产生均值为0，方差为1的正态分布的S1×S0维随机数矩阵Randnr[S1][S0]，随机数范围大致在[-1，1]；6)计算W[S1][S0]，b[S1]；7)计算隐含层的初始化权值W1[S1][S0]；8)计算隐含层的初始化偏差b1[S1]；9)输出W1[S1][S0]，b1[S1]。

(4)输出层的权值W2，偏差b2初始化1)产生[-1，1]之间均匀分布的S2×S1维随机数矩阵W2[S2][S1]；2)产生[-1，1]之间均匀分布的S2×1维随机数矩阵b2[S2]；3)输出W2[S2][S1]，b2[S2]。

2.应用弹性BP算法(RPROP)学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b总体算法函数：Train3BP_RPROP(S0，X，P，S1，W1，b1，f1，S2，W2，b2，f2，d，TP)(1)输入参数P对模式(xp，dp)，p=1，2，…，P；三层BP网络结构；学习参数。

(2)学习初始化1)；2)各层W，b的梯度值，初始化为零矩阵。

(3)由输入模式X求第一次学习各层输出y0，y1，y2及第一次学习平均误差MSE(4)进入学习循环epoch=1(5)判断每次学习误差是否达到目标误差要求如果MSE＜ϵ，则，跳出epoch循环，转到(12)。

(6)保存第epoch-1次学习产生的各层W，b的梯度值，(7)求第epoch次学习各层W，b的梯度值，1)求各层误差反向传播值δ；2)求第p次各层W，b的梯度值，；3)求p=1，2，…，P次模式产生的W，b的梯度值，的累加。

(8)如果epoch=1，则将第epoch-1次学习的各层W，b的梯度值，设为第epoch次学习产生的各层W，b的梯度值，。

(9)求各层W，b的更新1)求权更新值Δij更新；2)求W，b的权更新值，；3)求第epoch次学习修正后的各层W，b。

(10)用修正后各层W、b，由X求第epoch次学习各层输出y0，y1，y2及第epoch次学习误差MSE(11)epoch=epoch+1，如果epoch≤MAX_EPOCH，转到(5)；否则，转到(12)。

(12)输出处理1)如果MSE＜ε，则学习达到目标误差要求，输出W1，b1，W2，b2。2)如果MSE≥ε，则学习没有达到目标误差要求，再次学习。

(13)结束3.三层BP网络(含输入层，隐含层，输出层)预测总体算法首先应用Train3lBP_RPROP()学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b，然后应用三层BP网络(含输入层，隐含层，输出层)预测。

函数：Simu3lBP()。1)输入参数：P个需预测的输入数据向量xp，p=1，2，…，P；三层BP网络结构；学习得到的各层权值W、偏差b。

2)计算P个需预测的输入数据向量xp(p=1，2，…，P)的网络输出y2[S2][P]，输出预测结果y2[S2][P]。四、总体算法流程图BP网络总体算法流程图见附图2。

五、数据流图BP网数据流图见附图1。

六、实例实例一全国铜矿化探异常数据BP模型分类1.全国铜矿化探异常数据准备在全国铜矿化探数据上用稳健统计学方法选取铜异常下限值33.1，生成全国铜矿化探异常数据。

2.模型数据准备根据全国铜矿化探异常数据，选取7类33个矿点的化探数据作为模型数据。

这7类分别是岩浆岩型铜矿、斑岩型铜矿、矽卡岩型、海相火山型铜矿、陆相火山型铜矿、受变质型铜矿、海相沉积型铜矿，另添加了一类没有铜异常的模型(表8-1)。3.测试数据准备全国化探数据作为测试数据集。

4.BP网络结构隐层数2，输入层到输出层向量维数分别为14，9、5、1。学习率设置为0.9，系统误差1e-5。没有动量项。表8-1模型数据表续表5.计算结果图如图8-2、图8-3。

图8-2图8-3全国铜矿矿床类型BP模型分类示意图实例二全国金矿矿石量品位数据BP模型分类1.模型数据准备根据全国金矿储量品位数据，选取4类34个矿床数据作为模型数据，这4类分别是绿岩型金矿、与中酸性浸入岩有关的热液型金矿、微细浸染型型金矿、火山热液型金矿(表8-2)。

2.测试数据准备模型样本点和部分金矿点金属量、矿石量、品位数据作为测试数据集。3.BP网络结构输入层为三维，隐层1层，隐层为三维，输出层为四维，学习率设置为0.8，系统误差1e-4，迭代次数5000。

表8-2模型数据4.计算结果结果见表8-3、8-4。表8-3训练学习结果表8-4预测结果(部分)续表。

如何理解神经网络里面的反向传播算法

。

反向传播算法（BP算法）主要是用于最常见的一类神经网络，叫多层前向神经网络，本质可以看作是一个generalnonlinearestimator，即输入x_1...x_n输出y，视图找到一个关系y=f(x_1...x_n)（在这里f的实现方式就是神经网络）来近似已知数据。

为了得到f中的未知参数的最优估计值，一般会采用最小化误差的准则，而最通常的做法就是梯度下降，到此为止都没问题，把大家困住了很多年的就是多层神经网络无法得到显式表达的梯度下降算法！

BP算法实际上是一种近似的最优解决方案，背后的原理仍然是梯度下降，但为了解决上述困难，其方案是将多层转变为一层接一层的优化：只优化一层的参数是可以得到显式梯度下降表达式的；而顺序呢必须反过来才能保证可工作——由输出层开始优化前一层的参数，然后优化再前一层……跑一遍下来，那所有的参数都优化过一次了。

但是为什么说是近似最优呢，因为数学上除了很特殊的结构，step-by-step的优化结果并不等于整体优化的结果！不过，好歹现在能工作了，不是吗？

至于怎么再改进（已经很多改进成果了），或者采用其他算法（例如智能优化算法等所谓的全局优化算法，就算是没有BP这个近似梯度下降也只是局部最优的优化算法）那就是新的研究课题了。

对如下BP神经网络，写出它的计算公式（含学习公式），并对其初始权值以及样本x1=1，x

人工神经网络的神经元的计算公式是怎麼计算输入的？

神经网络里面的代价函数是什么意思?

下面是就是神经网络中代价函数J(Θ)J(Θ)的表达式，看起来还是稍微有点复杂。这个表达式到底在计算什么？下面我们先用一个简单的例子来分开一步步计算一下。

J(Θ)=−1m∑i=1m∑k=1K[y(i)klog((hΘ(x(i)))k)+(1−y(i)k)log(1−(hΘ(x(i)))k)]+λ2m∑l=1L−1∑i=1sl∑j=1sl+1(Θ(l)j,i)2J(Θ)=−1m∑i=1m∑k=1K[yk(i)log⁡((hΘ(x(i)))k)+(1−yk(i))log⁡(1−(hΘ(x(i)))k)]+λ2m∑l=1L−1∑i=1sl∑j=1sl+1(Θj,i(l))2有如下神经网络：其中：LslK=神经网络总共包含的层数=第l层的神经元数目=输出层的神经元数，亦即分类的数目L=神经网络总共包含的层数sl=第l层的神经元数目K=输出层的神经元数，亦即分类的数目假设s1=3,s2=2,s3=3s1=3,s2=2,s3=3，则Θ1Θ1的维度为2×42×4，Θ2Θ2的维度为3×33×3。

则有：XT=⎡⎣⎢⎢⎢1x1x2x3⎤⎦⎥⎥⎥,Θ1=[θ110θ120θ111θ121θ112θ122θ113θ123]2×4,Θ2=⎡⎣⎢⎢θ210θ220θ230θ211θ221θ231θ212θ222θ232⎤⎦⎥⎥3×3XT=[1x1x2x3],Θ1=[θ101θ111θ121θ131θ201θ211θ221θ231]2×4,Θ2=[θ102θ112θ122θ202θ212θ222θ302θ312θ322]3×3先回忆一下正向传播的计算公式： z(j)=Θ(j−1)a(j−1)……(1)a(j)=g(z(j)),setting a(j)0=1……(2)hΘ(x)=a(j)=g(z(j))……(3)z(j)=Θ(j−1)a(j−1)……(1)a(j)=g(z(j)),setting a0(j)=1……(2)hΘ(x)=a(j)=g(z(j))……(3)详解戳此处此时我们先忽略regularizedterm ①当m=1时； J(Θ)=−1m∑k=1K[y(i)klog((hΘ(x(i)))k)+(1−y(i)k)log(1−(hΘ(x(i)))k)]J(Θ)=−1m∑k=1K[yk(i)log⁡((hΘ(x(i)))k)+(1−yk(i))log⁡(1−(hΘ(x(i)))k)]1.令a1=XT;⟹z2=Θ1∗a1=[θ110θ120θ111θ121θ112θ122θ113θ123]2×4×⎡⎣⎢⎢⎢1x1x2x3⎤⎦⎥⎥⎥=[θ110+θ111⋅x1+θ112⋅x2+θ113⋅x3θ120+θ121⋅x1+θ122⋅x2+θ123⋅x3]2×11.令a1=XT;⟹z2=Θ1∗a1=[θ101θ111θ121θ131θ201θ211θ221θ231]2×4×[1x1x2x3]=[θ101+θ111⋅x1+θ121⋅x2+θ131⋅x3θ201+θ211⋅x1+θ221⋅x2+θ231⋅x3]2×1=[z21z22],⟹a2=g(z2);=[z12z22],⟹a2=g(z2);2.给a2添加偏置项，并计算a3即hθ(x) 2.给a2添加偏置项，并计算a3即hθ(x); a2=⎡⎣⎢1a21a22⎤⎦⎥;⟹z3=Θ2∗a2=⎡⎣⎢⎢θ210θ220θ230θ211θ221θ231θ212θ222θ232⎤⎦⎥⎥3×3×⎡⎣⎢1a21a22⎤⎦⎥=⎡⎣⎢⎢z31z32z33⎤⎦⎥⎥;a2=[1a12a22];⟹z3=Θ2∗a2=[θ102θ112θ122θ202θ212θ222θ302θ312θ322]3×3×[1a12a22]=[z13z23z33];⟹hθ(x)=a3=g(z3)=⎡⎣⎢⎢g(z31)g(z32)g(z33)⎤⎦⎥⎥=⎡⎣⎢h(x)1h(x)2h(x)3)⎤⎦⎥⟹hθ(x)=a3=g(z3)=[g(z13)g(z23)g(z33)]=[h(x)1h(x)2h(x)3)]此时我们知道，对于每一个example，最终都会输出3个结果，那么这时代价函数所做的就是将这3个输出取对数然后乘以对应的预期期望值y之后，再累加起来。

具体如下：假设 input:XT=⎡⎣⎢⎢⎢1x1x2x3⎤⎦⎥⎥⎥;output:y=⎡⎣⎢100⎤⎦⎥=⎡⎣⎢y1y2y3⎤⎦⎥input:XT=[1x1x2x3];output:y=[100]=[y1y2y3]则有： J(Θ)∗m=[−y1×log(h(x)1)−(1−y1)×log(1−h(x)1)]+[−y2×log(h(x)2)−(1−y2)×log(1−h(x)2)]+[−y3×log(h(x)3)−(1−y3)×log(1−h(x)3)]=[−1×log(h(x)1)−(1−1)×log(1−h(x)1)]+[−0×log(h(x)2)−(1−0)×log(1−h(x)2)]+[−0×log(h(x)3)−(1−0)×log(1−h(x)3)]=−log(h(x)1)−log(1−h(x)2)−log(1−h(x)3)J(Θ)∗m=[−y1×log(h(x)1)−(1−y1)×log(1−h(x)1)]+[−y2×log(h(x)2)−(1−y2)×log(1−h(x)2)]+[−y3×log(h(x)3)−(1−y3)×log(1−h(x)3)]=[−1×log(h(x)1)−(1−1)×log(1−h(x)1)]+[−0×log(h(x)2)−(1−0)×log(1−h(x)2)]+[−0×log(h(x)3)−(1−0)×log(1−h(x)3)]=−log(h(x)1)−log(1−h(x)2)−log(1−h(x)3)在matlab中，矢量化之后的代价函数为： J(Θ)=(1/m)∗(sum(−labelY.∗log(Hθ)−(1−labelY).∗log(1−Hθ)));J(Θ)=(1/m)∗(sum(−labelY.∗log(Hθ)−(1−labelY).∗log(1−Hθ)));②当m>1时；J(Θ)=−1m∑i=1m∑k=1K[y(i)klog((hΘ(x(i)))k)+(1−y(i)k)log(1−(hΘ(x(i)))k)]J(Θ)=−1m∑i=1m∑k=1K[yk(i)log⁡((hΘ(x(i)))k)+(1−yk(i))log⁡(1−(hΘ(x(i)))k)]此时，对于每一个example都会产生一个上面的代价，所以只需要把所有的对于每一个example产生的代价累加起来即可。

再来分解一下：假设，X=⎡⎣⎢⎢111x11x21x31x12x22x32x13x23x33⎤⎦⎥⎥,假设，X=[1x11x21x311x12x22x321x13x23x33],1.令a1=XT;⟹z2=Θ1∗a1=[θ110θ120θ111θ121θ112θ122θ113θ123]2×4×⎡⎣⎢⎢⎢⎢1x11x12x131x21x22x231x31x32x33⎤⎦⎥⎥⎥⎥4×3=1.令a1=XT;⟹z2=Θ1∗a1=[θ101θ111θ121θ131θ201θ211θ221θ231]2×4×[111x11x12x13x21x22x23x31x32x33]4×3=[θ110+θ111⋅x11+θ112⋅x12+θ113⋅x13θ120+θ121⋅x11+θ122⋅x12+θ123⋅x13θ110+θ111⋅x21+θ112⋅x22+θ113⋅x23θ120+θ121⋅x21+θ122⋅x22+θ123⋅x23θ110+θ111⋅x31+θ112⋅x32+θ113⋅x33θ120+θ121⋅x31+θ122⋅x32+θ123⋅x33]2×3[θ101+θ111⋅x11+θ121⋅x21+θ131⋅x31θ101+θ111⋅x12+θ121⋅x22+θ131⋅x32θ101+θ111⋅x13+θ121⋅x23+θ131⋅x33θ201+θ211⋅x11+θ221⋅x21+θ231⋅x31θ201+θ211⋅x12+θ221⋅x22+θ231⋅x32θ201+θ211⋅x13+θ221⋅x23+θ231⋅x33]2×3=[z211z221z212z222z213z223]2×3,⟹a2=g(z2);=[z112z122z132z212z222z232]2×3,⟹a2=g(z2);2.给a2添加偏置项，并计算a3即hθ(x) 2.给a2添加偏置项，并计算a3即hθ(x);a2=⎡⎣⎢1a211a2211a212a2221a213a223⎤⎦⎥3×3;⟹z3=Θ2∗a2=⎡⎣⎢⎢θ210θ220θ230θ211θ221θ231θ212θ222θ232⎤⎦⎥⎥3×3×⎡⎣⎢1a211a2211a212a2221a213a223⎤⎦⎥3×3a2=[111a112a122a132a212a222a232]3×3;⟹z3=Θ2∗a2=[θ102θ112θ122θ202θ212θ222θ302θ312θ322]3×3×[111a112a122a132a212a222a232]3×3⟹hθ(x)=a3=g(z3)=⎡⎣⎢⎢g(z311)g(z321)g(z331)g(z312g(z322g(z332)g(z313))g(z323))g(z333)⎤⎦⎥⎥⟹hθ(x)=a3=g(z3)=[g(z113)g(z123g(z133))g(z213)g(z223g(z233))g(z313)g(z323)g(z333)]=⎡⎣⎢⎢⎢⎢m=1时每个example对应的所有输出；h(x1)1h(x1)2h(x1)3m=2时h(x2)1h(x2)2h(x2)3m=3时；h(x3)1h(x3)2h(x3)3⎤⎦⎥⎥⎥⎥=[m=1时每个example对应的所有输出；m=2时m=3时；h(x1)1h(x2)1h(x3)1h(x1)2h(x2)2h(x3)2h(x1)3h(x2)3h(x3)3]假设 input:X=⎡⎣⎢⎢111x11x21x31x12x22x32x13x23x33⎤⎦⎥⎥；output:y=⎡⎣⎢122⎤⎦⎥=⎡⎣⎢y1y2y3⎤⎦⎥input:X=[1x11x21x311x12x22x321x13x23x33]；output:y=[122]=[y1y2y3]该例子的背景为用神经网络识别手写体，即y1=1表示期望输出为1,y2=y3=2,表示其期望输出为2。

在计算代价函数的时候要将其每一个对应的输出转换为只含有0，1的向量y1=1表示期望输出为1,y2=y3=2,表示其期望输出为2。

在计算代价函数的时候要将其每一个对应的输出转换为只含有0，1的向量则有: y1=⎡⎣⎢100⎤⎦⎥;y2=⎡⎣⎢010⎤⎦⎥;y3=⎡⎣⎢010⎤⎦⎥⟹labelY=⎡⎣⎢⎢⎢m=1100m=2010m=3010⎤⎦⎥⎥⎥y1=[100];y2=[010];y3=[010]⟹labelY=[m=1m=2m=3100011000]对于如何将普通的输出值转换成只含有0,1的向量，戳此处则有（Malab中的矢量化形式）： J(Θ)=(1/m)∗(sum(sum[−labelY.∗log(Hθ)−(1−labelY).∗log(1−Hθ)]));J(Θ)=(1/m)∗(sum(sum[−labelY.∗log(Hθ)−(1−labelY).∗log(1−Hθ)]));加上regularizedterm regular=λ2m∑l=1L−1∑i=1sl∑j=1sl+1(Θ(l)j,i)2;regular=λ2m∑l=1L−1∑i=1sl∑j=1sl+1(Θj,i(l))2;其实regularizedterm就是所有每一层的参数(Θlj,i,j≠0,即除了每一层的第一列偏置项所对应的参数)(Θj,il,j≠0,即除了每一层的第一列偏置项所对应的参数)的平方和相加即可。

具体到本文的例子就是：Θ1=[θ110θ120θ111θ121θ112θ122θ113θ123]2×4,Θ2=⎡⎣⎢⎢θ210θ220θ230θ211θ221θ231θ212θ222θ232⎤⎦⎥⎥3×3Θ1=[θ101θ111θ121θ131θ201θ211θ221θ231]2×4,Θ2=[θ102θ112θ122θ202θ212θ222θ302θ312θ322]3×3regular=(θ111)2+(θ112)2+(θ113)2+(θ121)2+(θ122)2+(θ123)2+(θ211)2+(θ212)2+(θ221)2+(θ222)2+(θ231)2+(θ232)2regular=(θ111)2+(θ121)2+(θ131)2+(θ211)2+(θ221)2+(θ231)2+(θ112)2+(θ122)2+(θ212)2+(θ222)2+(θ312)2+(θ322)2Matlab中矢量化为：s_Theta1=sum(Theta1.^2);%先求所有元素的平方，然后再每一列相加r_Theta1=sum(s_Theta1)-s_Theta1(1,1);%减去第一列的和s_Theta2=sum(Theta2.^2);r_Theta2=sum(s_Theta2)-s_Theta2(1,1);regular=(lambda/(2*m))*(r_Theta1+r_Theta2);。

bp神经网络对输入数据和输出数据有什么要求

p神经网络的输入数据越多越好，输出数据需要反映网络的联想记忆和预测能力。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。

它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。

BP神经网络模型拓扑结构包括输入层（input）、隐层(hidelayer)和输出层(outputlayer)。

BP网络具有高度非线性和较强的泛化能力，但也存在收敛速度慢、迭代步数多、易于陷入局部极小和全局搜索能力差等缺点。

扩展资料：BP算法主要思想是：输入学习样本，使用反向传播算法对网络的权值和偏差进行反复的调整训练，使输出的向量与期望向量尽可能地接近，当网络输出层的误差平方和小于指定的误差时训练完成，保存网络的权值和偏差。

1、初始化，随机给定各连接权及阀值。

2、由给定的输入输出模式对计算隐层、输出层各单元输出3、计算新的连接权及阀值，计算公式如下：4、选取下一个输入模式对返回第2步反复训练直到网络设输出误差达到要求结束训练。

参考资料来源：百度百科-BP神经网络。

BP神经网络动量因子不理解

BP神经网络在批处理训练时会陷入局部最小，也就是说误差能基本不变化其返回的信号对权值调整很小但是总误差能又大于训练结果设定的总误差能条件。

这个时候加入一个动量因子有助于其反馈的误差信号使神经元的权值重新振荡起来。可以参看一些专门介绍神经网络的书籍。

BP神经网络模型各个参数的选取问题

样本变量不需要那么多，因为神经网络的信息存储能力有限，过多的样本会造成一些有用的信息被丢弃。如果样本数量过多，应增加隐层节点数或隐层数目，才能增强学习能力。

一、隐层数一般认为，增加隐层数可以降低网络误差（也有文献认为不一定能有效降低），提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾向。

一般来讲应设计神经网络应优先考虑3层网络（即有1个隐层）。一般地，靠增加隐层节点数来获得较低的误差，其训练效果要比增加隐层数更容易实现。

对于没有隐层的神经网络模型，实际上就是一个线性或非线性（取决于输出层采用线性或非线性转换函数型式）回归模型。

因此，一般认为，应将不含隐层的网络模型归入回归分析中，技术已很成熟，没有必要在神经网络理论中再讨论之。

二、隐层节点数在BP网络中，隐层节点数的选择非常重要，它不仅对建立的神经网络模型的性能影响很大，而且是训练时出现“过拟合”的直接原因，但是目前理论上还没有一种科学的和普遍的确定方法。

目前多数文献中提出的确定隐层节点数的计算公式都是针对训练样本任意多的情况，而且多数是针对最不利的情况，一般工程实践中很难满足，不宜采用。事实上，各种计算公式得到的隐层节点数有时相差几倍甚至上百倍。

为尽可能避免训练时出现“过拟合”现象，保证足够高的网络性能和泛化能力，确定隐层节点数的最基本原则是：在满足精度要求的前提下取尽可能紧凑的结构，即取尽可能少的隐层节点数。

研究表明，隐层节点数不仅与输入/输出层的节点数有关，更与需解决的问题的复杂程度和转换函数的型式以及样本数据的特性等因素有关。

原文链接：https://blog.csdn.net/super339/article/details/126421156