神经网络基础

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了神经网络基础，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2964字，纯文字阅读大概需要5分钟。

内容图文

神经网络基础

一、生物神经元与神经网络相关的部分

1.每个神经元都是一个多输入单输出的信息处理单元；

2.神经元具有空间整合和时间整合特性；

3.神经元输入分兴奋性输入和抑制性输入两种类型；

4.神经元具有阈值特性。

二、M-P神经元

为什么需要激活函数

从神经元角度：

神经元继续传递信息、产生新连接的概率（超过阈值被激活，但不一定传递）

从数学的角度：

没有激活函数相当于矩阵连乘
多层和一层一样????????????2.只能拟合线性函数
常见激活函数举例
单层感知器
M-P神经元的权值预先设置，无法学习
单层感知器是首个可以学习的人工神经网络

?

非线性激活函数
逻辑非的实现
逻辑与
逻辑或

单层感知器能实现一些简单与非或问题，但是非线性问题呢？（如异或）

单层->多层感知器（可以证明单层感知器无法解决异或问题）

可以将异或问题转化为简单的逻辑电路问题，既可以通过多层感知器来解决这个问题。

Eg.用三层感知器实现同或门
万有逼近定理

如果一个隐层包含足够多的神经元，三层前馈神经网络（输入-隐层-输出）能以任意精度逼近任意预定的连续函数。

为什么线性分类任务组合后可以解决非线性分类任务？

可以理解为第一层感知器做的是空间的变化（运用线性代数相关知识）类似于加入变换后的支持向量机。

?

双隐层感知器逼近非连续函数

当隐层足够宽时，双隐层感知器（输入-隐层1-隐层2-输出）可以逼近任意非连续函数：可以解决任何复杂的分类问题。

?

为何神经网络的层数越多，解决问题的能力越强大？

完成输入->输出空间变换

神经网络学习如何利用矩阵的线性变换加激活函数的非线性变换，将原始输入空间投影到线性可分的空间去分类/回归。

增加节点数：增加维度，即增加线性转换能力。

增加层数：增加激活函数的次数，即增加非线性转换次数。
更宽or更深？

更深更好。
在神经元总数相当的情况下，增加网络深度可以比增加宽度带来更强的网络表示能力：产生更多的线性区域。
深度和宽度对函数复杂度的贡献是不同的，深度的贡献是指数增长的，而宽度的贡献是线性的。

?

多层神经网络的问题：梯度消失？

神经网络的参数学习：误差反向传播

梯度和梯度下降
为什么沿着这个方向可以使函数值下降：利用泰勒公式
对于凸函数只有一个极值点，非凸函数非常依赖初始值的选择。

?

误差反向传播

符合函数的链式求导

三层前馈神经网络的BP算法

关键理解反向传播名字的来历。

深度学习开发框架（pyTorch）

多层神经网络的问题：梯度消失？

增加深度会导致梯度消失，误差无法传播；

多层网络容易陷入局部极值，难以实现。

故：三层神经网络是主流预训练、新激活函数使深度成为可能

?
神经网络的"第二次落"

此时的缺点：
训练困难（梯度消失、局部极值）
参数多，计算力不够
数据不够

支持向量机优点：
全局最优解（凸二次规划）
无需调参
基于支持向量，小样本训练

?

神经网络的"第三次起"
逐层预训练

问题一：局部极小值

问题二：梯度消失

?
不同的初始值会收敛到不同的极值点
经过逐层训练后的相对不会那么发散
经过逐层训练它的训练会更快

两种方式实现

受限玻尔兹曼机（RBM）和自编码器

?

自编码器

自编码器假设输入与输出（target = input），是一种尽可能复现输入信号的神经网络。

将input输入一个encoder编码器，就会得到一个code；加一个decoder解码器，输出信息。

通过调整encoder和decoder的参数，是的重构误差最小

没有额外监督信息：无标签数据误差的来源是直接重构后信号与原输入相比得到

?

自编码器一般是一个多层神经网络（最简单：三层）

训练目标是使输出层与输入层误差最小；

中间隐层是代表输入的特征，可以最大程度上代表原输入信号。

自编码器最初被提出用来降维

堆叠自编码器
将多个自编码器得到的隐层串联；
所有层预训练完成后，进行基于监督学习的全网络微调。

?

受限玻尔兹曼机（RBM）

模型结构
RBM是两层神经网络，包含可见层v（输入层）和隐藏层h
不同层之间全连接，层内无连接->二分图
与感知器不同，RBM没有显式的重构过程：
目的是让隐藏层得到的可见层与原来的可见层分布一致，从而使隐藏层作为可见层输入的特征。
两个方向权重w共享，偏置不同
模型参数：w, c, b

条件概率建模

由贝叶斯公式得到条件概率。

RBM到DBN（深度信念网络）

一个DBN模型由若干个RBM堆叠而成，最后加一个监督层（BP网络）

训练过程由低到高逐层训练：
最底层RBM以原始输入数据训练
将底部RBM抽取的特征作为顶部RBM的输入继续训练
重复这个过程训练尽可能多的RBM层
基于监督信息通过全局优化算法对网络进行微调，使模型收敛

DBN和DBM的区别
DBM没有监督层，是若干个RBM的直接堆叠
无向图模型，每两层间互有反馈。

?

一般玻尔兹曼机（BM）

可见层和隐藏内部节点之间可连接

具有很强大的无监督学习能力能够学习数据中复杂的规则

随机神经网络和递归神经网络的一种

全连接图，复杂度很高
难以准确计算BM所表示的分布
难以抽样得到服从BM所表示分布的随机样本

?

自编码机和受限玻尔兹曼机的区别

结构上：

自编码器编码和解码函数不同：W1，W2

RBM共享权重矩阵W，两个偏置向量

原理上：

自编码器通过非线性变换学习特征，是确定的，特征值可以为任何实数

RBM基于概率分布定义，高层表示为底层特征的条件概率，输出只有两种状态（未激活激活），用二进制0/1表示；

训练优化：

自编码器通过最损失函数L最小化重构输入数据，直接用BP优化求解

RBM基于最大似然，能量函数偏导无法直接计算，基于采样方法进行估计

生成/判别模型：

RBM对联合概率密度建模，是生成式模型；

自编码器直接对条件概率建模，是判别式模型

ReLU更好

?

解决梯度消失问题的方法

?

波尔兹曼机的理论和应用意义

BM和RBM数学上很漂亮，且有统计物理学支撑；

但受结构限制严重，生成式模型效果往往不如判别式模型；

主流的深度学习平台甚至都不支持RBM和预训练

?

理论：
模型结构：网络拓扑结构优化
学习算法：非线性优化过程近似

?

应用：

作为一种概率生成式模型应用到了协同滤波推荐、数据降维、时间序列降维问题。

?

自编码器变种

正则自编码器（Regularized AE）

两个问题

深层网络的局部极小值是非凸的激活函数导致的么？如果是，为什么不用凸激活函数？
深层网络的局部极小值主要是多个隐层符合导致的；
ReLU就是凸激活函数，但多个凸激活函数的符合也不一定是凸的：比如f(x) = exp(-x)
在x>0时凸的，但f(f(x))就是非凸的

?

逐层预训练真的是为了找到更阿红的局部极小值么？

深度网络参数太多，梯度下降在非常高维空间进行，很难得到在所有维度上都是局部最小的局部最小值；

大多数情况参数落在了鞍点处：某些维度上时最低点，某些维度上是最高点->增加扰动很容易跳出鞍点。

原文：https://www.cnblogs.com/lightac/p/12256173.html

内容总结

以上是互联网集市为您收集整理的神经网络基础全部内容，希望文章能够帮你解决神经网络基础所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1133824.html

来源：【匿名】

【上一篇】深度神经网络的初始化不应该只做一次【下一篇】怎样用Python实现两层神经网络和感知器模型

更多 ►

【神经网络基础】教程文章相关的互联网学习教程文章

原文链接序读书期间对于深度学习也有涉及，不过只是皮毛，在这个数据和算法的时代，也需要更加贴近算法。于是从一名工程师角度出发，希望通过几篇文章，将深度学习基础记录下来，同时也是对于自己学习的总结和积累。总体思路是ANN－CNN－DNN，中间想起来有什么忘记的，也会加番。神经网络概述这是一张典型的人工神经网络的图，图中的节点称为神经元，图共分为三层，第一层为输入层，第二层为隐藏层，第三层为输出层。输入层接受外...

第二周、神经网络基础【图】

2.1、二分分类　　在计算机中保存一张图片，需要保存三个独立矩阵，分别对应图片中的红、绿、蓝三个颜色通道。如果输入图片是64x64像素的，就有三个64x64的矩阵，分别对应图片中的红、绿、蓝三种像素的亮度。要把这些像素亮度值（按红、绿、蓝顺序）放进一个特征向量x中，如果图片是64x64的，那么向量x的总维度是nx=64x64x3=12288。 logistic回归是一个用于二分分类的算法。在二分分类问题中...

动手学pytorch-循环神经网络基础【代码】【图】

循环神经网络的构造假设\(\boldsymbol{X}_t \in \mathbb{R}^{n \times d}\)是时间步\(t\)的小批量输入，\(\boldsymbol{H}_t \in \mathbb{R}^{n \times h}\)是该时间步的隐藏变量，则：\[ \boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h). \]其中，\(\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}\)，\(\boldsymbol{W}_{hh} \in \mathbb{R}^{h...

神经网络基础

神经网络基础一、生物神经元与神经网络相关的部分1.每个神经元都是一个多输入单输出的信息处理单元；2.神经元具有空间整合和时间整合特性；3.神经元输入分兴奋性输入和抑制性输入两种类型；4.神经元具有阈值特性。二、M-P神经元为什么需要激活函数从神经元角度：神经元继续传递信息、产生新连接的概率（超过阈值被激活，但不一定传递）从数学的角度：没有激活函数相当于矩阵连乘多层和一层一样????????????2.只能拟合线性函数常见激...

卷积神经网络基础【图】

卷积神经网络基础二维互相关运算二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子，阴影部分分别是输入的第一个计算区域、核数组...

图神经网络基础

图神经网络基础最近在学习GCN，看到很多公式都不太懂，和以前看CNN完全不一样，在这里整理一下一些看到的公式和推导，希望能够帮助理解。首先，为什么要用GCN呢，因为在面对非欧式空间的数据处理时，发现CNN并不能保证平移不变性，因此图网络结构一直被提出用来处理非欧式空间数据；另一方面，CNN的局限性很严重，比如（1）take all pixels into consideration regardless of importance，CNN处理所有的像素点都相同，没有考虑到...

神经网络基础-梯度下降和BP算法

https://blog.csdn.net/weixin_38206214/article/details/81143894 在深度学习的路上，从头开始了解一下各项技术。本人是DL小白，连续记录我自己看的一些东西，大家可以互相交流。本文参考：本文参考吴恩达老师的Coursera深度学习课程，很棒的课，推荐本文默认你已经大致了解深度学习的简单概念，如果需要更简单的例子，可以参考吴恩达老师的入门课程：http://study.163.com/courses-search?keyword=%E5%90%B4%E6%81%A9%E8%BE%BE#...

网络基础 - 相关标签

网络基础网络基础知识

神经网络 - 最热教程

【深度学习】③--神经网络细节与训练注...Python实现BP神经网络实现对公路客运量深度学习原理与框架-神经网络-cifar10分...《转》循环神经网络(RNN, Recurrent Ne...利用自编码神经网络，检测未标记数据集...神经网络中反向传播算法（BP）数据挖掘——回归分析2——简单神经网络...卷积神经网络的详解机器学习算法之神经网络神经网络算法开发总结--网络结构开发

首页 / 神经网络 / 神经网络基础

神经网络基础

内容导读

内容图文

内容总结

内容备注

内容手机端

【神经网络基础】教程文章相关的互联网学习教程文章

一名工程师对于深度学习的理解－神经网络基础ANN【图】

第二周、神经网络基础【图】

动手学pytorch-循环神经网络基础【代码】【图】

神经网络基础

卷积神经网络基础【图】

图神经网络基础

神经网络基础-梯度下降和BP算法

网络基础 - 相关标签

神经网络 - 最新教程

神经网络 - 最热教程