首页 / 神经网络 / Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）

Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3475字，纯文字阅读大概需要5分钟。

内容图文

How to represent part-whole hierarchies in a neural network

21年2月底，深度学习教父Hinton发表了一篇新的论文《How to represent part-whole hierarchies in a neural network》。这是自2017年开展胶囊网络研究以来的第四篇文章，是神经网络领域研究的最前沿，也可以认为是胶囊神经网络的第四版，是一个尚未被实现的系统，称为GLOM。本文探讨此研究所涉及的理论基础，内容结构如下：

介绍胶囊网络
文章对Transformer的改进
对比学习的概念
知识蒸馏的使用
神经场的使用

胶囊神经网络

自2017年以来，Hinton提出了三个版本的胶囊神经网络。首先是基于动态路由的胶囊网络。
Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一） - 文章图片
其计算步骤为：

输入向量的矩阵乘法 ：胶囊接收的输入向量（上图中的u1、u2和u3）来自下层的3个胶囊。这些向量的长度表示对象存在的概率，向量的方向表示对象的一些内部状态。接着将这些向量乘以相应的权重矩阵W。W编码了低层特征（眼睛、嘴巴和鼻子）和高层特征（面部）之间的空间关系和其他重要关系。乘以这些矩阵W后，我们得到的是高层特征的预测位置。例如，û1表示根据检测出的眼睛的位置，面部应该在什么位置，û2表示根据检测出的嘴巴的位置，面部应该在什么位置，û3表示根据检测出的鼻子的位置，面部应该在什么位置。如果这三个低层特征的预测指向的位置和状态与面部的位置和状态相同，那么面部必然存在；
输入向量的标量加权 ：这个步骤和普通神经元的对应步骤很接近，但是普通神经元的权重是通过反向传播学习的，而胶囊则使用“动态路由”，这是一种确定每个胶囊的输出的新方法。一个低层胶囊需要“决定”将它的输出发送给哪个高层胶囊。它将通过调整权重C做出决定，胶囊在传递输出前，先将输出乘以这个权重，高层胶囊接收到来自其他低层胶囊的向量。动态路由算法可以让低层胶囊测量哪个高层胶囊更能接受其输出，并据此自动调整权重，使对应胶囊的权重变高。
加权输入向量之和：这一步骤表示输入的组合，和通常的人工神经网络差不多。
挤压函数——向量到向量的非线性变换：CapsNet的另一大创新是新颖的非线性激活函数，这个函数接受一个向量，然后在不改变方向的前提下，压缩它的长度到1以下，可以解释为胶囊检测的给定特征的概率并且压缩输入向量的标量而不改变其方向。输出向量的长度代表胶囊检测的给定特征的概率。
在2018和2019年，Hinton又推出EM胶囊网络和基于Set Transformer的胶囊网络。虽然在特定任务上胶囊网络的表现不错，但是其本身的缺陷限制了它在其他特定任务上的表现，即需要给part-whole层次结构中的节点预先分配固定数量的神经元。文章提出的GLOM使用了完全不同的架构。

改进的Transformer

Transformer中的Attention机制使用了Q、K、V三个矩阵，即query向量与key向量的转置做内积，再使用Softmax进行输出，结果乘以values向量。而在GLOM中，Hinton使Q = K = V = Embedding 向量，其背后的动机在于，让Embedding向量本身就是query向量与key向量，使得Attention机制倾向于重点关注和自己相似的向量，让相似的向量互相吸收、互相接近，从而达到聚集的效果。

对比学习

Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一） - 文章图片
以Hinton组在2020年发表的SimCLR对比学习模型为例，其主要部分如下：

对给定的输入图片，使用数据增强技术，得到两个相关的图片；
f(·)是一个编码器，获得图片的特征表示；
g(·)是一个映射函数，讲特征表示映射到对比损失空间；
定义损失函数，最小化同类型输入的损失函数，最大化不同类型输入的损失函数；

此处引用 Mohammad Norouzi 对此的精炼描述：

随机抽取一个小批量
给每个例子绘制两个独立的增强函数
使用两种增强机制，为每个示例生成两个互相关联的视图
让相关视图互相吸引，同时排斥其他示例

知识蒸馏

所谓知识蒸馏，即定义一个教师模型、一个学生模型，使用教师模型来诱导学生模型进行训练，实现知识迁移。教师网络的推理性能通常要优于学生网络，且教师网络推理精度越高，越有利于学生网络的学习。在GLOM中，把Top-down神经网络和Bottom-up神经网络作为学生模型，把二者达成一致（Agreement）作为教师模型。

神经场

对于一张图片信息，想要定位代表某个图片块的Embedding的位置，就需要有一个额外的位置输入，例如Transfomer中的position embedding，我们引入神经场（Neural Fields），获取整张图片各个小块的位置信息，即给每个图像块标记坐标信息，从而实现了定位的效果。

内容总结

以上是互联网集市为您收集整理的Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）全部内容，希望文章能够帮你解决Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1043456.html

来源：【匿名】

【上一篇】《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论【下一篇】怎样用Python实现两层神经网络和感知器模型

更多 ►

【Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）】教程文章相关的互联网学习教程文章

Neural Network学习（二）Universal approximator ：前向神经网络

1. 概述　　前面我们已经介绍了最早的神经网络：感知机。感知机一个非常致命的缺点是由于它的线性结构，其只能做线性预测（甚至无法解决回归问题），这也是其在当时广为诟病的一个点。　　虽然感知机无法解决非线性问题，但是其给非线性问题的解决提供了一个思路。感知机的局限来自于其线性结构，如果我们能够给其加入非线性结构，比如先给输入做一个非线性变换，这样其就能拟合非线性问题。那么这就是我们这次要讲的前向神经网络。...

吴恩达《深度学习》-课后测验-第五门课序列模型(Sequence Models)-Week 1: Recurrent Neural Networks(第一周测验：循环神经网络)【图】

Week 1 Quiz: Recurrent Neural Networks(第一周测验：循环神经网络)\1. Suppose your training examples are sentences (sequences of words). Which of the following refers to the jth word in the ith training example?( 假设你的训练样本是句子(单词序列)，下面哪个选项指的是第??个训练样本中的第??个词?)【】 $??^{(??)<??>} $【】 $??^{<??>(??) }$【】 $??^{(??)<??>}$【】 $??^{<??>(??)}$答案【★】 ??(?...

Convolutional Neural Networks卷积神经网络（二）【图】

转自http://blog.csdn.net/zouxy09/article/details/8781543CNNs是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。在CNN中，图像的一小部分（局部感受区域）作为层级结构的最低层的输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移，缩放和旋转不变的观测数据的显著特征，因为图像的局部感受区域允...

Stanford机器学习---第五讲. 神经网络的学习 Neural Networks learning【图】

原文见http://blog.csdn.net/abcjennifer/article/details/7758797，添加了一些自己的理解本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向量机）、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machinelearning中Andrew老师的讲解。（https://class.c...

深度学习笔记（一）卷积神经网络(Convolutional Neural Networks)【图】

一、卷积卷积神经网络(Convolutional Neural Networks)是一种在空间上共享参数的神经网络。使用数层卷积，而不是数层的矩阵相乘。在图像的处理过程中，每一张图片都可以看成一张“薄饼”，其中包括了图片的高度、宽度和深度（即颜色，用RGB表示）。在不改变权重的情况下，把这个上方具有k个输出的小神经网络对应的小块滑遍整个图像，可以得到一个宽度、高度不同，而且深度也不同的新图像。卷积时有很多种填充图像的方法，以下主要介...

Neural Network and DeepLearning (3.2)改进神经网络的学习方法

Overfitting and regularization（过度拟合和规范化）我们的网络在280迭代期后就不再能够推广到测试数据上。所以这不是有用的学习。我们说网络在280迭代期后就过度拟合(overfitting)或过度训练（overtraining）了。我们的网络实际上在学习训练数据集的特例，而不是能够一般的进行识别。我们的网络几乎是在单纯记忆训练集合，而没有对数字本质进行理解并泛化到测试数据集上。一种检测过度拟合的明显方法：跟踪测试数据集合上的准确率...

递归神经网络（Recurrent Neural Networks，RNN）【图】

在深度学习领域，传统的多层感知机（MLP）具有出色的表现，取得了许多成功，它曾在许多不同的任务上——包括手写数字识别和目标分类上创造了记录。甚至到了今天，MLP在解决分类任务上始终都比其他方法要略胜一筹。尽管如此，大多数专家还是会达成共识：MLP可以实现的功能仍然相当有限。究其原因，人类的大脑有着惊人的计算功能，而“分类”任务仅仅是其中很小的一个组成部分。我们不仅能够识别个体案例，更能分析输入信息之间的整体...

《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论【图】

转自 http://blog.csdn.net/xingzhedai/article/details/53144126更多参考：http://blog.csdn.net/mafeiyu80/article/details/51446558http://blog.csdn.net/caimouse/article/details/70225998http://kubicode.me/2017/05/15/Deep%20Learning/Understanding-about-RNN/RNN(Recurrent Neuron Network)是一种对序列数据建模的神经网络。继Bengio提出基于神经网络的概率语言模型并获得成功之后，Mikolov于2010年提出利用RNN建模语言模...

《吴恩达深度学习》学习笔记002_神经网络的编程基础(Basics of Neural Network programming)【图】

http://www.ai-start.com/dl2017/html/lesson1-week2.html神经网络的编程基础(Basics of Neural Network programming) 二分类(Binary Classification) 我们来看看一张图片在计算机中是如何表示的，为了保存一张图片，需要保存三个矩阵，它们分别对应图片中的红、绿、蓝三种颜色通道，如果你的图片大小为64x64像素，那么你就有三个规模为64x64的矩阵，分别对应图片中红、绿、蓝三种像素的强度值。为了便于表示，这里我画了三个很小的...

图神经网络（十）：FASTGCN: FAST LEARNING WITH GRAPH CONVOLUTIONAL NETWORKS VIA IMPORTANCE SAMPLING

一句话概括该论文：这篇论文提出了fastGCN，它的主要思想是将图节点解释为某种概率分布下的独立同分布样本，并将损失和每个卷积层写为关于顶点嵌入函数的积分。然后，通过定义样本损失和样本梯度的蒙特卡洛近似对积分进行评估。 Introduction：研究背景：尽管17年的GCN获得了比较好的结果，但由于GCN在训练时需要知道图的所有数据，因此是Transductive的，而对于现实世界来说，图中的节点是不断变化的，因此一个Indutive的模型是...

图神经网络（六）SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS Introduction【图】

一句话概括该论文：这篇论文提出了利用一阶近似的切比雪夫多项式来替代之前的k阶切比雪夫多项式，解决了原本ChebNet中参数过多的问题，进一步优化了卷积核的选择，论文得出的结论是：本文所做的改进是有效的。前言：前面已经说到了，ChebNet的卷积核参数共享机制是同阶共享同一个参数，不同阶参数不共享。这样的共享方式的物理意义是：因为graph通常本身是具有局部平稳性的，也就是随着邻居阶数的增加，顶点间的相关性递减（距离...

Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）【图】

How to represent part-whole hierarchies in a neural network 21年2月底，深度学习教父Hinton发表了一篇新的论文《How to represent part-whole hierarchies in a neural network》。这是自2017年开展胶囊网络研究以来的第四篇文章，是神经网络领域研究的最前沿，也可以认为是胶囊神经网络的第四版，是一个尚未被实现的系统，称为GLOM。本文探讨此研究所涉及的理论基础，内容结构如下：介绍胶囊网络文章对Transformer的改进对比...

【论文精炼】 | Revisiting the Continuity of Rotation Representations in Neural Networks | 再次探讨神经网络中旋转表示的连续

出自文献：Xiang S, Li H. Revisiting the Continuity of Rotation Representations in Neural Networks[J]. arXiv preprint arXiv:2006.06234, 2020.摘要本文详细分析了欧拉角和单位四元数在神经网络中旋转表示的病态性质。具体说来，我们证明了，对于某些输入，这两种表示会产生完全错误的结果。这种性质源于问题本身的拓扑属性，而非源于网络架构或者训练过程。我们接着证明了，以前提出的 $\mathrm{SO}(3)$ 到高维欧式空间的的...

Tariq Rashid+《Python神经网络编程》中文PDF英文PDF源代码+Make Your Own Neural Network【图】

《Python神经网络编程》揭示神经网络背后的概念，并介绍如何通过Python实现神经网络。下载：https://pan.baidu.com/s/1UTwTGYnxWquxjMueIcaNwQ《Python神经网络编程》中文版PDF+英文版PDF+源代码中文版，255页，带目录和书签，彩色配图，文字可以复制；英文版，207页，带目录和书签，彩色配图，文字可以复制；两版对比学习。配套源代码。作者: [英]塔里克拉希德（Tariq Rashid）原作名: Make Your Own Neural Network译者: ...

[Deep Learning] 神经网络编程基础 (Basics of Neural Network Programming)【图】

在神经网络中，假如有m个训练集，我们想把他们加入训练，第一个想到得就是用一个for循环来遍历训练集，从而开始训练。但是在神经网络中，我们换一个计算方法，这就是前向传播和反向传播。对于逻辑回归，就是找出合适得参数w和b，在二分类中，输出得结果是0或者1，所以我们得假设函数得输出应该在0，1之间。那么线性肯定是不合适的。我们称输出结果在0，1之间的函数为 S 函数（sigmoid 函数）。那么逻辑回归的代价函数又是什么呢？...

神经网络 - 最热教程

【深度学习】③--神经网络细节与训练注...Python实现BP神经网络实现对公路客运量深度学习原理与框架-神经网络-cifar10分...《转》循环神经网络(RNN, Recurrent Ne...利用自编码神经网络，检测未标记数据集...神经网络中反向传播算法（BP）数据挖掘——回归分析2——简单神经网络...卷积神经网络的详解机器学习算法之神经网络神经网络算法开发总结--网络结构开发

首页 / 神经网络 / Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）

Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）

内容导读

内容图文

How to represent part-whole hierarchies in a neural network

胶囊神经网络

改进的Transformer

对比学习

知识蒸馏

神经场

内容总结

内容备注

内容手机端

【Hinton胶囊神经网络新作How to represent part-whole hierarchies in a neural network（一）】教程文章相关的互联网学习教程文章

神经网络 - 最新教程

神经网络 - 最热教程