《机器学习：算法视角（原书第2版）》

《机器学习：算法视角（原书第2版）》 —3.3　感知器

网友投稿 779 2022-05-30

3.3　感知器

感知器无非是一个由McCulloch和Pitts的神经元组成的集合，它包含一组输入和一些把输入和神经元连接在一起的权重。网络可以在图3-2中见到，左边以浅灰色阴影表示的是输入节点。这些不是神经元，而是一个示意图，形象地表示了输入是如何提供给网络的，以及输入值的个数（这等于输入向量的维度（元素的数量））。这些几乎总是画成圆形，就像神经元一样，很容易引起混淆，所以我加上了不同深度的阴影。在图中，右边的为神经元，并且可以看到加法的部分（以圆形表示）和阈值的部分。实际上，没有人会把阈值部分分开来画，你只需要记住它是神经元的一部分。

图3-2　感知器网络，包括输入节点集（左），它们与McCulloch和Pitts的神经元通过权重连接

请注意，在感知器中，神经元彼此之间是完全独立的。对任一个神经元来说，别的神经元在做什么与它无关，它所做的只是把输入的每一个元素与相应的权重相乘，然后把所有的乘积相加，再把所得的结果与阈值相比较，以判断是否激活，而无须考虑其他神经元在做什么。甚至连每一个神经元的权重也是彼此独立的，所以它们之间唯一共享的就是输入，每一个神经元都会见到提供给网络的所有的输入。

在图3-2中，输入的个数与神经元的个数相同，但实际情况并不一定是这样，一般地，有m个输入和n个神经元。输入的个数是通过数据决定的，与之类似的还有输出的数量。由于进行的是监督学习，所以我们想要感知器学会复制一个特定的目标，即对于一个给定的输入，得到一个包含激活和不激活的神经元的模式。

在之前研究McCulloch和Pitts的神经元时，权重被标记为wi，i的取值范围是从1到输入的数量。这里，我们还要弄清楚权重是提供给哪个神经元的，所以我们把权重标记为wij，j的取值范围是从1到神经元的数量。所以，w32就是连接输入节点3和神经元2的权重。当我们具体实现神经网络的时候，可以使用二维数组来保存这些权重。

现在，计算神经元是否激活就简单了。我们设置输入节点的值为输入向量的每一个元素，然后对每一个神经元使用方程（3.1）和方程（3.2）。我们可以对每个神经元都进行这样的处理，所得的结果就是一个神经元激活与不激活的模式，看上去就像一个由0和1组成的向量。因此如果有5个神经元，就像图3-2中那样，那么一个典型的输出模式可能是（0，1，0，0，1），这表示第2个神经元和第5个神经元激活了，而其他的都没有。我们把这个模式与目标模式，即已知的由该输入得出的正确结果进行比较，可以鉴别出哪些神经元得到了正确的结果，哪些没有。

对于一个得到正确结果的神经元，我们感到满意，但是任何一个本不应该激活而激活，或是应该激活而没有激活的神经元，则需要进行权重的调整。但困难在于我们并不清楚权重本来应该是什么样的，归根结底，这也是神经网络的重点所在，所以我们想要调整权重使得神经元在下一次能够得到正确的结果。在第3章中，关于这一点我们将讨论更多的细节，现在我们将做一件很简单的事情来证明找到一个这样的解是可能的。

假设我们把一个输入向量提供给网络，其中的一个神经元得到了错误的结果（它的输出与目标不相符）。与那个神经元相连的有m个权重，每一个权重对应一个输入节点。如果我们把结果错误的那个神经元标记为k，那么我们感兴趣的权重就是wik，i的取值从1到m。这样我们就知道了哪些权重是需要调整的，但我们仍然需要弄清楚如何调整这些权重。我们首先需要了解的是，每一个权重是偏大还是偏小。这似乎是显而易见的，如果神经元本不应该激活而激活了，那么某些权重是偏大的，反之如果神经元应该激活而没有激活，则某些权重是偏小的。所以我们计算yk-tk，tk是这个神经元的目标，表示它应该得到的结果，而yk是神经元的输出，表示它已经得到的结果，该表达式是一个可行的误差函数（error function）。如果结果为正，那么该神经元本应该激活但没有激活，所以我们就把权重调大一些，反之也成立。等一下，这里输入向量的元素可能为负，这会改变整个值的符号，所以如果我们想让神经元激活，就需要让权重也为负。为了顺利应付这种情况，我们将通过把这两个值相乘来看应该如何调整权重：Δwik=-(yk-tk)×xi，并且把所得的值与旧的权重相加来得到新的权重。

注意到我们还没有提过改变神经元的阈值的事。为了说明它的重要性，假设有一个特殊的输入0。在这种情况下，如果某一个神经元的结果是错误的，那么即使改变了相应的权重也无济于事（因为任何数与0相乘还是0），因此，需要改变它的阈值。我们将在3.3.2节中讲述一种巧妙的方法。然而，在那之前，先要完成学习规则，即我们需要决定每个权重改变多少。这可以通过把上面的值与一个称为学习速率（learning rate）的参数相乘得到，学习速率通常标记为η。学习速率的值决定了网络学习的快慢。它非常重要，因此需要用一个独立的小节来讲解（下一节），但首先让我们给出权重更新的最终规则：wij←wij-η(yj-tj)·xi(3.3)另一件我们现在需要意识到的事情是，每一个训练样本都要多次提供给网络。第一次的时候可能会得到一些正确的结果和一些错误的结果，下一次的时候希望能有所进步，直到最终，停止进步。计算出整个网络训练的时间可不是一件容易的事情，我们将会在4.3.3节中看到更多的方法，但是现在，我们将预定义最大的循环次数为T。当然，如果网络能够计算到所有正确的输入，那么也会是结束的好时机。

3.3.1　学习速率η

上面的式（3.3）告诉我们如何调整权重，其中的参数η控制着权重调整的幅度。我们可以把它设为1，从而忽略掉它。如果那样做的话，每当出现一个错误的结果，权重将会进行大幅度的调整，这会导致网络不稳定（unstable），从而使权重的改变永远都不能停止。如果把学习速率设置得较小，那么在权重发生较大变化之前，需要更多次地提供输入，从而使网络要花费更多时间去学习。然而，这样将会更加稳定，而且对数据中的噪声（noise，即错误）和不精确的成分具有更好的抵抗力。因此，我们选用一个适中的学习速率，一般为0.1<η<0.4，这取决于我们预计输入中会有多少错误。

机器学习服务机器学习算法

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

779 2022-05-30

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

779 2022-05-30

如何获取之前训练任务的结果？

779 2022-05-30

《机器学习：算法 视角（原书第2版）》 —3.3　感知器

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

如何获取之前训练任务的结果？

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

《机器学习：算法视角（原书第2版）》 —3.3 感知器

微信扫一扫：分享

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

《机器学习：算法视角（原书第2版）》 —3.3　感知器