首页 / 神经网络 / 【忆臻解读】Andrej Karpathy提到的神经网络六大坑

【忆臻解读】Andrej Karpathy提到的神经网络六大坑

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【忆臻解读】Andrej Karpathy提到的神经网络六大坑，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2395字，纯文字阅读大概需要4分钟。

内容图文

最近，李飞飞老师得意门生Andrej Karpathy大神在推特上连发几条twitter，细数了六种神经网络研究中的常见错误。

【忆臻解读】Andrej Karpathy提到的神经网络六大坑 - 文章图片

下面我总结一下我学习过程中遇到下面6条中的4条。

1you didn't try to overfit a single batch first

正确解释@张楠这句话是说在用大数据集训练之前先用小数据集试一下，排除一些明显的错误。

之前的我误解的解释如下：

没有先试过所有训练数据作为一个大batch训练，我们都知道，在训练神经网络的过程中，对于数据会有三个方法处理，一个是min-batch，一个是SGD，一个是Andrej Karpathy提到的所有数据作为一个batch。虽然将所有训练数据作为一个大batch训练能够保证梯度是往正确的方向移动，但是我们绝大部分都是min-batch，然后调节其中的batch-size这个超参数，我个人也没有尝试过将所有训练数据作为一个大batch训练，之后可以试试。（这里额外说一句，batch-size是很重要的超参数，需要仔细调节）

2train(),eval()模式混用

you forgot to toggle train/eval mode for the net

忘了为网络切换训练/评估模式

这个理由主要是针对model 在训练时和评价时不同的 Batch Normalization 和 Dropout 方法模式。

3忘掉设置.zero_grad()

you forgot to .zero_grad()(in pytorch) before .backward()

忘了在.backward()之前.zero_grad()（在pytorch中）

这个错误我真正碰到过,忘记了写.zero_grad()各种nan，导致结果非常差，最后找了一天才找到。大家可以在实在找不到原因的是，打印梯度出来看看，是不是有某些层参数为0，几乎没有学习，有些为nan了，去逐步找原因。

4误传参数

you passed softmaxed ouputs to a loss that expects raw logits
将softmaxed输出传递给损失函数，本来期望是logits值，而不是过了softmax之后的值。

大白话讲就是给函数传进去的参数错啦！！我们在编写代码的时候很容易犯这种错误，因为最后run起来的时候，它不报错啊，哥，不报错，只是结果很差，这很难受啊，我们很难发现错误，第一感觉，我去，idea不work，所以大家效果不好的时候，不要放弃啊，仔细看看有没有常见的bug！！

5BatchNorm的坑

使用BatchNorm时，您没有对线性/ 二维卷积层使用bias = False，或者反过来忘记将其包含在输出层中。这个倒不会让你失败，但它们是虚假的参数

答案来自@陈明jian

如果卷积层后面跟着BatchNormalization的话，卷积层就不需要偏置参数b，只需要w参数。

6误用view操作

以为view()和permute()是一样的事情（不正确地使用view）

答案来自@深度学习修汽车

举例说明：比如要将一个(2, 12)的tensor改为(4, 2, 3)的tensor。这样就不能直接用view而需要多次用permute()来交换axis(转置2D的matrix)来达到目的。

tc.manual_seed(1)
x = tc.randn(2, 12)

print(x)
y = x.permute(1, 0)

print(y)
z = y.view(4, 3, 2)

print(z)
a = z.permute(0, 2, 1)

print(a)

大家可以在留言区踊跃讨论自己在深度学习中遇到的坑，讨论成长最快。

PS：不开赞赏，希望大家看后随手点赞、点广告，支持我们，谢谢大家。

内容总结

以上是互联网集市为您收集整理的【忆臻解读】Andrej Karpathy提到的神经网络六大坑全部内容，希望文章能够帮你解决【忆臻解读】Andrej Karpathy提到的神经网络六大坑所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1028900.html

来源：【匿名】

首页 / 神经网络 / 【忆臻解读】Andrej Karpathy提到的神经网络六大坑

【忆臻解读】Andrej Karpathy提到的神经网络六大坑

内容导读

内容图文

内容总结

内容备注

内容手机端

神经网络 - 最新教程

神经网络 - 最热教程