首页 / 深度学习 / 李宏毅深度学习笔记-logistic

李宏毅深度学习笔记-logistic

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了李宏毅深度学习笔记-logistic，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8337字，纯文字阅读大概需要12分钟。

内容图文

Logistic函数集

技术分享图片

在logistic里，我们要找的是一个后验概率$P_{w,b}(C_1|x)$

$P_{w,b}(C_1|x)\geq 0.5$，output $C_1$
$P_{w,b}(C_1|x)$<0.5，output $C_2$

后验概率由$\sigma(z)$计算，$\large \sigma(z)=\frac{1}{1+exp(-z)}$，$z=w \cdot x+b=\sum\limits_iw_ix_i+b$。

$w$ 是一个向量，每个维度用下标$i$表示。

函数集表示为$\large f_{w,b}(x)=P_{w,b}(C_1|x)$，受$w,b$控制。

技术分享图片

函数里有两组参数，$w$称为权重，$b$称为偏置。

input是$x_1$到$x_I$，乘上$w_1$到$w_I$，再加上b，得到$z$，$\sigma(z)$的图像如上图右下。

技术分享图片

logistic 回归和线性回归做一下比较

logistic 回归是对特征乘权重求和，然后加上偏置，最后用sigmd函数转为0-1作为output
线性回归是对特征乘权重求和，然后加上偏置，output可以是任何值，范围从负无穷到正无穷

损失函数-似然函数

技术分享图片

假设有N笔训练数据，每笔数据要有label。

假设这些数据是从函数$f_{w,b}(x)$定义的后验概率中产生的。

给定一组参数$w，b$ ，就决定了这个后验概率，然后可以计算产生这N笔数据的概率。

产生这N笔数据的概率怎么算？

$x^1$属于$C_1$的概率就是$\large f_{w,b}(x^1)$
$x^3$属于$C_2$的概率就是$\large1- f_{w,b}(x^3)$

其他数据都依次计算概率，定义$L(w,b)$是所有数据的概率乘积，也叫似然函数。

$w^*,b^*$是一组可以最大化$L(w,b)$的参数。

技术分享图片

做一个数学上转换

最大化似然函数$L(w,b)$等同于最小化负对数似然函数$-lnL(w,b)$（取ln不影响大小顺序，乘积取ln变成加法运算，计算简单一点）。如上图最下面所示，由于$x$可以属于两个类，1和0，那么$\large f_{w,b}(x)$表示属于1的概率，$\large 1-f_{w,b}(x)$则表示属于0的概率。

那么$\large ln f_{w,b}(x)$可改写为 $\large \hat y ln f_{w,b}(x)+(1-\hat y)ln(1-f_{w,b}(x))$

当$\hat y =1$时，概率为$\large ln f_{w,b}(x)$
当$\hat y =0$时，概率为$\large 1-ln f_{w,b}(x)$

技术分享图片

根据上面的改写公式，负对数似然函数可改写为

$\large -lnL(w,b)=\sum\limits_n-[\hat y^nlnf_{w,b}(x^n)+(1-\hat y^n)ln(1-f_{w,b}(x^n))]$，等式右边是伯努利分布的交叉熵。

为什么叫做交叉熵，和信息论也没有直接的关系？

假设有两个分布 $\large p,q$ 如上图最下方所示，那么$\large p,q$之间的交叉熵为$\large H(p,q)=-\sum\limits_xp(x)ln(q(x))$，对$x$求和后的公式和上面的公式一致。

交叉熵的含义是两个分布有对接近，越大差别越大，如果是一模一样的分布，交叉熵就为0。

技术分享图片

寻找最好的函数

怎么定义一个函数的好坏？

如果有训练数据，class 1标注为1，class 2 标注为0，把函数的output和target都看作是伯努利分布的话，希望两个分布越接近越好，那么损失函数为伯努利分布$f(x)$和伯努利分布$\hat y$的交叉熵，最小化交叉熵优化参数。

技术分享图片

使用梯度下降求解参数，对$w_i$微分。$\sigma(z)$对$z$的微分为$\sigma(z)(1-\sigma(z))$，可以背下来。

上图右下方是$\sigma(z)$和微分的图像，在头和尾的地方$\sigma(z)$的斜率接近于0，在中间最大。

注意这里的$x_i^n$意思是第$n$个样本的第$i$个特征

技术分享图片

右边项对$w_i$偏微分

技术分享图片

最后得到的微分结果，并更新$w_i$。

$w_i$的更新取决于三件事：

一个是学习率$\eta$，是自己调整的
一个是$x_i$，是来源于训练数据的
第三个是$\large \hat{y}-f_{w,b}(x^n)$，代表$f_{w,b}$的output和target的差距有多大，离目标越远，update的量就应该越大

技术分享图片

逻辑回归和线性回归的梯度更新公式是一样的，不同点在于

逻辑回归的$\hat{y}$是0或者1，而$f_{w,b}(x^n)$介于0到1
线性回归的$\hat y$可是任何实数，而$f_{w,b}(x^n)$也可以是任何实数

为什么logistic回归不能用Square Error？

技术分享图片

假如用Square Error做为损失函数，那么$\large L(f)=\frac{1}{2}\sum\limits_n(f_{w,b}(x^n)-\hat{y}^n)^2$，仍然使用梯度下降求解参数。对$w_i$偏微分得到的式子为$\large 2(f_{w,b}(x)-\hat y)f_{w,b}(x)(1-f_{w,b}(x))x_i$，用这个式子更新参数会有问题。

当第n个样本的$\hat{y}^n=1$时：

如果$f_{w,b}(x^n)=1$，与target一致，说明此时的参数没有问题，且此时的偏微分=0($f_{w,b}(x^n)-\hat{y}=0$)是合理的。
如果$f_{w,b}(x^n)=0$，意味着离target仍然很远，此时的微分=0，但这是不合理的，因为此时需要更新参数，而偏微分=0意味着参数不变

当第n个样本的$\hat{y}^n=0$时：

如果$f_{w,b}(x^n)=1$，意味着离target仍然很远，此时微分=0，这也是不合理的
如果$f_{w,b}(x^n)=0$，与target一致，此时微分=0是，这是合理的

技术分享图片

上图是参数的变化对total loss作图，黑色的是交叉熵，红色的是均方误差

假设两个损失超平面的中心点是我们的目标点，那么此处的微分很小。

如果是交叉熵的损失平面，会发现离目标点越远，微分值越大，那么参数更新速度越快，幅度越大，这个没有问题。
但是选择均方误差的话，会发现距离目标点很远时，微分却非常小，说明参数移动速度很慢，如果随机找一个参数的初始值，一开始就卡住不更新了，就算此时想调整学习率（离目标近设小一点，离目标远设大一点），也不清楚到底是在目标点附近还是在很远的地方（目标点附近的微分也非常小）

判别式模型 VS 生成式模型

技术分享图片

Logistic回归的方法称之为判别式方法，用高斯生成后验概率的方法称之为生成式模型。事实上，在做概率模型时，把高斯模型的协方差设置为共享协方差的话，两个方法的model、function set是一样的，都是$\sigma(w\cdot x+b)$，找不同的$w,b$就可以得到不同的函数。

用Logistic回归可以用梯度下降法直接找出$w,b$。

用高斯模型的话，首先会计算$\mu_1,\mu_2$和$\Sigma^{-1}$，再根据$\mu_1,\mu_2,\Sigma^{-1}$计算$w,b$ 如上图右下方

上图左边和右边找出来的$w,b$会是同一组吗？

其实是不同的，虽然使用的是同样的函数集，但是因为作了不同的假设，导致根据同一组训练集训练出来的参数不同。

Logistic回归对后验概率没有分布假设（但是对target是有假设的，即假设target服从伯努利分布，出现负的概率为1-p，当后验概率>1-p时，判断为正），单纯去求解$w,b$
但是在生成式模型中，对后验概率是有假设的，比如假设服从高斯分布、伯努利分布、朴素贝叶斯等等，根据这些假设找到另外一组$w,b$

这两组$w,b$不会是同一组

一个例子

技术分享图片

哪一组的$w,b$比较好？

如上图，蓝色点是水性宝可梦，红色点是一般的宝可梦。特征只有defense时，生成式模型和判别式模型的边界如上图所示，从这个结果很难看出谁更好。

然后使用7个特征，生成式模型的准确率为73%，判别式模型的准确率为79%，很多文献上，有说判别式模型的效果会比生成式模型的好。

技术分享图片

为什么判别式模型的效果会比生成式模型的好？

假设有一笔训练数据，总共13个样本，每个样本有两个特征，1个样本为class1，其余12个样本为class2，特征取值如上图最上方所示。

现在给一个测试样本，特征都为1，如上图，从人类角度学习，判断为哪一类？一般都觉得是第一类。

技术分享图片

计算先验概率和类条件概率

技术分享图片

估测一个测试数据来自class 1的概率

$P(x|C_1)=P(x_1|C_1)P(x_2|C_1)=1 \times 1$

$P(x|C_2)=P(x_1|C_2)P(x_2|C_2)=\frac{1}{3} \times \frac{1}{3}$

$P(x)=\sum\limits_i P(x,C_i)=P(x,C_1)+P(x,C_2)=P(x|C_1)P(C_1)+P(x|C_2)P(C_2)$

实际做运算，发现$P(C_1|x)$<0.5，那朴素贝叶斯认为这笔数据是来自class 2的，和人类的直觉相反。

你会觉得测试数据里，两个特征都为1，那应该是来自于class 1 才对。可是对朴素贝叶斯来说，它不考虑不同维度之间的关系，对它来说，两个维度是独立产生的，在训练数据里之所以没有这样的数据，是因为样本不够多。

所以生成式模型和判别式模型的区别在于，生成式模型做了一些假设，相当于脑补了一些事情，在训练数据里明明没有观察到特征都是1的数据，朴素贝叶斯还是想象自己看到了。

技术分享图片

那脑补是一件好的事吗？

通常来说不是一件好的事情，因为数据没有告诉你。但是在数据很少的情况下，脑补有时候也会有用。

有时候判别式模型不一样比生成式模型好

判别式模型没有做任何假设，所以效果受数据量影响很大，数据量越多，误差越小。生成式模型受数据量影响小，一个是它有自己的假设，有时候会无视数据。所以数据量小的时候，生成式模型可能效果更好。
可能数据是有噪声的，label本身就有问题，做一些假设可能把数据里有问题的部分忽视掉
在判别式模型里，我们直接假设一个后验概率，然后去找后验概率里的参数。但是在生成式模型里，我们把后验概率拆成了先验概率和类条件概率，这有时候是有帮助的，因为这两项可以来自不同的来源。例如语音识别（事实上，整个语音识别的系统是生成式的，虽然其中的DNN是判别式的，但DNN也只是其中一部分），语音识别还是需要计算先验概率（某一句话被说出来的概率），而计算这个概率不需要某句话被说出来（不需要声音数据），只要去爬很多的文字就可以计算某段文字出现的概率。在类条件概率部分才需要文字和声音的配合。这样先验概率可以计算得更精确，这在语音识别里是很关键的。

多分类模型softmax

技术分享图片

原理和二分类几乎是一模一样的。

现在有三个class $C_1,C_2,C_3$，每一个class 都有一组自己的权重和偏置，$w_1,w_2,w_3$代表三个向量，$b_1,b_2,b_3$代表三个标量，然后input一个$x$，计算$z_1,z_2,z_3$如上图所示，$z_1,z_2,z_3$可以是任何实数（负无穷到正无穷），接下来把$z_1,z_2,z_3$丢进softmax函数。

softmax函数的一个例子：

$\large z_1=3,z_2=1,z_3=1$取exp得到$\large e^{z_1}=20,e^{z_2}=2.7,e^{z_3}=0.05$
$\large e^{z_1},e^{z_2},e^{z_3}$相加得到它们的total sum=22.75
$\large e^{z_1},e^{z_2},e^{z_3}$分别处以total sum ，得到$\large y_1=0.88，y_2=0.12，y_3\approx 0$

经过softmax之后，output被限制在0到1（一定是正的），$y_i$和一定为1，因为处以total sum相当于做了一个规范化。

为什么叫做softmax？

max是取最大值，softmax的意思是对最大值做强化，因为取了exp，大的值和小的值之间的差距会被拉得更开。

softmax的output $y_i$则是第$i$个class的后验概率，例如属于class 1的概率是88%，属于class 2的概率是12%，属于class 3 的概率趋近于0。

为什么取exp，output 为后验概率？

Bishop的教科书，P209-210

如果今天又3个class，3个class都是高斯分布，共享一个协方差矩阵，做一般推导后就是softmax函数。也可以从最大熵原理推出softmax。

技术分享图片

一个input x，分别乘上3组不同的群众，加上3组不同的偏置，得到3个不同的$z$ ，通过softmax函数得到 $\large y_1,y_2,y_3$ 3个类别的后验概率，计算和target $\large \hat{y_1},\hat{y_2},\hat{y_3}$的交叉熵$\large -\sum\limits_{i=1}^3 \hat{y_i}ln (y_i)$。

要计算交叉熵，那么$\large \hat y$也要是一个概率分布：

如果x属于class 1，那么$\hat y = \begin{bmatrix} 1\\0 \\0 \end{bmatrix}$
如果x属于class 2，那么$\hat y = \begin{bmatrix} 0\\1 \\0 \end{bmatrix}$
如果x属于class 3，那么$\hat y = \begin{bmatrix} 0\\0 \\1 \end{bmatrix}$

之前讲过假设class 1=1，class2=2，class3=3会有问题，因为假设了1跟2比较近，2跟3比较近，这样会有问题。但是使用上述向量形式，就没有假设谁跟谁比较近的问题。

交叉熵的式子怎么来的？

也是从最大化似然函数推导出来的。

logistic 回归的限制

技术分享图片

假设现在有4个数据，有两个伯努利特征，把他们画出来是上图右下所示。现在使用logistic回归无法对他们进行正确分类。在logistic回归中，希望两个属于class 1的红色点的概率$\geq $0.5，属于class 2的蓝色点的概率<0.5。

技术分享图片

因为logistic回归在两个class之间的边界就是一条直线，在feature的平面上只能画一条直线，画出的2种情况如上图最下方所示。不管怎么画，都无法完全区分红色点和蓝色点（可以随便画直线）。

如果坚持用logistic 回归，怎么办？

技术分享图片

有一招叫做Feature Transformation，原来$x_1,x_2$ 特征定的不好，可以做转化找一个比较好的feature space，可以让logistic回归进行处理。

把$x_1,x_2$转到另一个space $x_1‘,x_2‘$上（怎么做特征转换是很启发式和临时性的东西，例如用自己喜欢的方式）。例如定义$x_1‘$就是某个点到(0,0)的距离，$x_2‘$是某个点到(1,1)的距离。

例如左下角的红色点$\begin{bmatrix} 0\\0 \end{bmatrix}$，跟$\begin{bmatrix} 0\\0 \end{bmatrix}$的距离为0，跟$\begin{bmatrix} 1\\1 \end{bmatrix}$的距离为$\sqrt{2}$。

$\begin{bmatrix} 0\\0 \end{bmatrix}$经过转换后变为$\begin{bmatrix} 0\\\sqrt{2} \end{bmatrix}$
$\begin{bmatrix} 1\\1 \end{bmatrix}$经过转换后变为$\begin{bmatrix} \sqrt{2}\\0 \end{bmatrix}$
$\begin{bmatrix} 0\\1 \end{bmatrix}$,$\begin{bmatrix} 1\\0 \end{bmatrix}$经过转换后都变为$\begin{bmatrix} 1\\1 \end{bmatrix}$

变换后的数据，对logistic来说可以处理了，麻烦的问题是我们不知道怎么做特征转换是好的，花太多力气做特征转换，就不是机器学习，而是人工智慧了。所以我们会希望让机器自己产生好的transformation。

技术分享图片

怎么让机器自己产生好的transformation？

把多个logistic回归级联起来，假设input是$x_1,x_2$ ，把偏置忽略掉，分别乘以权重相加得到$z_1,z_2$ ，通过两个sigmoid函数得到output $x_1‘,x_2‘$ ，就是新的经过transform之后的特征，在这两个特征平面上，class1和class2可以被一条直线分开，那么只要在$x_1‘,x_2‘$ 后面再接一个logistic回归的model。

前面两个logistic回归做的事情就是特征转换，再由最后一个logistic回归做分类。

技术分享图片

看之前的例子，在$x_1,x_2$平面上有4个点，

可以调整蓝色logistic回归的权重和偏置，让它的后验概率的output $x_1‘$ 颜色像上图右上方一样，因为边界是一条直线，所以output的等高线是直线，颜色代表了等高线大小。左上角的地方，output比较大，右下角的地方，output比较小，此时4个点的$x_1‘$值为0.73，0.27，0.27，0.05，这件事情是可以做到的。

对绿色logistic回归函数来说，也可以调整权重和偏置，让4个点的$x_2‘$值为0.05,0.27,0.27,0.73，logistic回归的边界一定是一条直线，可以有任何的画法，可以左上高，右下低，也可以是右下高，左上低，只要调整参数都是可以做到的。

技术分享图片

有了前面两个logistic回归之后，就可以把input的每一笔数据做特征转换得到另一组特征$x_1‘,x_2‘$ 。

例如左上角这个点，原来在$x_1,x_2$平面上的坐标为(0,1)，在$x_1‘,x_2‘$平面上的坐标为(0.73,0.05)。

右下角红色在$x_1‘,x_2‘$平面上的坐标为(0.05,0.73)。

做了转换后，再用上图右上方红色的logistic回归画一条边界，把蓝色的点和红色的点分开。

技术分享图片

一个logistic回归的input来自于其他logistic回归的output。

一个logistic回归的output也可以是其他logistic回归的input。

我们可以给每个logistic回归一个新名称，叫做神经元，把这些logistic回归串起来的网络就是神经网络。

原文：https://www.cnblogs.com/wry789/p/13093688.html

内容总结

以上是互联网集市为您收集整理的李宏毅深度学习笔记-logistic全部内容，希望文章能够帮你解决李宏毅深度学习笔记-logistic所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1206610.html

来源：【匿名】

【下一篇】关于Nginx的深度学习内容

更多 ►

【李宏毅深度学习笔记-logistic】教程文章相关的互联网学习教程文章

李宏毅深度学习笔记-logistic【图】

Logistic函数集在logistic里，我们要找的是一个后验概率$P_{w,b}(C_1|x)$$P_{w,b}(C_1|x)\geq 0.5$，output $C_1$$P_{w,b}(C_1|x)$<0.5，output $C_2$后验概率由$\sigma(z)$计算，$\large \sigma(z)=\frac{1}{1+exp(-z)}$，$z=w \cdot x+b=\sum\limits_iw_ix_i+b$。$w$ 是一个向量，每个维度用下标$i$表示。函数集表示为$\large f_{w,b}(x)=P_{w,b}(C_1|x)$，受$w,b$控制。函数里有两组参数，$w$称为权重...

深度学习笔记（六）卷积神经网络【图】

1.通常神经认知机包含两类神经元，即承担特征抽取的S-元和抗变形的C-元。S-元中涉及两个重要参数，即感受野与阈值参数，前者确定输入连接的数目，后者则控制对特征子模式的反应程度。在传统的神经认知机中，每个S-元的感光区中由C-元带来的视觉模糊量呈正态分布，也就是说如果眼睛感受到物体是移动的，即已感受到模糊和残影，S-感光区会调整识别模式，这时它不会完整地提取所有的特征给大脑而是只获取一部分关键特征，屏蔽其他的视...

深度学习方法及应用——学习笔记

学习教材是邓力和俞栋写的“深度学习方法及应用”，是一本综述性的书。1、深度学习全称应该是深度结构学习，采用多层的、非线性信息处理方法，大概就是结构比较深的神经网络算法，也是包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个逻辑回归模型；这种分层结构，是比较接近人类大脑的结构的。深度学习算法的实现依赖于三个因素：①算法本身的...

深度学习笔记14-深度学习及其各种迁移应用【图】

1.主要应用 2.各种应用(1)卷积神经网络CNN,主要应用于图像方面典型案例：原文：https://www.cnblogs.com/luckyplj/p/12586244.html

Deep Learning（深度学习）学习笔记整理

http://blog.csdn.net/zouxy09/article/details/8775360一、概述 Artificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之中的一个。尽管计算机技术已经取得了长足的进步。可是到眼下为止。还没有一台电脑能产生“自我”的意识。是的，在人类和大量现成数据的帮助下，电脑能够表现的十分强大。可是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。图灵（图灵，大家都知道...

吴恩达深度学习专项课程3学习笔记/week2/Error analysis【图】

Error analysisCarrying out error analysisError analysis是手动分析算法错误的过程。通过一个例子来说明error analysis的过程。假设你在做猫图像识别的算法，它的错误率高达10%，你希望提高它的表现。你已经有了一些改进的想法，包括：算法把狗的图片错误识别为猫，需要修正；算法把其他一些猫科动物（比如狮子，豹，...）错误识别为猫，需要修正；算法对于比较模糊的图片容易识别错误，需要改进；算法对于加了滤镜的图片容易识...

深度学习笔记（一）卷积神经网络(Convolutional Neural Networks)【图】

一、卷积卷积神经网络(Convolutional Neural Networks)是一种在空间上共享参数的神经网络。使用数层卷积，而不是数层的矩阵相乘。在图像的处理过程中，每一张图片都可以看成一张“薄饼”，其中包括了图片的高度、宽度和深度（即颜色，用RGB表示）。在不改变权重的情况下，把这个上方具有k个输出的小神经网络对应的小块滑遍整个图像，可以得到一个宽度、高度不同，而且深度也不同的新图像。卷积时有很多种填充图像的方法，以下主要介...

神经网络与深度学习笔记（四）：向量化以提高计算速度【代码】

我们在计算模型w的转置乘上x的时候，往往需要把w和x分别进行向量化然后运算，因为这样会使我们的计算机得到结果的时间更快，而且这种方法不管是在CPU还是在GPU上都是成立的，首先我们来看看代码：import numpy as np import time a=np.random.rand(1000000) b=np.random.rand(1000000) toc=time.time() c=np.dot(a,b) tic=time.time() print("向量化之后计算的时间为："+str(1000*(tic-toc))+"ms") c=0 tic=time.time() for i in r...

[学习笔记] CS131 Computer Vision: Foundations and Applications：Lecture 9 深度学习2【代码】【图】

深度学习So far this weekEdge detectionRANSACSIFTK-MeansLinear classifierMean-shiftPCA/EigenfacesImage featuresCurrent ResearchLearning hierarchical representations from dataEnd-to-end learning: raw inputs to predictionscan use a small set of simple tools to solve many problemshas led to rapid progress on many problemsInspired by the brain(very loosely!)Deep learning for different problemsvision ta...

深度学习笔记02-高效计算基础(python)【图】

1.高效计算基础 (1)python的基本语法字符串类型如下图：(2)python的相关工具包 NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用，这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。SciPy 是一个开源的 Py...

吴恩达深度学习学习笔记——C2W3——超参数调试、Batch正则化和程序框架——作业

这里主要梳理一下作业的主要内容和思路，完整作业文件可参考: https://github.com/pandenghuang/Andrew-Ng-Deep-Learning-notes/tree/master/assignments/C2W3 作业完整截图，参考本文结尾：作业完整截图。 TensorFlow Tutorial （Tensorflow教程） Welcome to this weeks programming assignment. Until now, youve always used numpy to build neural networks. Now we will step you through a deep learning framework that ...

程序员深度学习！阿里内部Android笔记火爆IT圈，书籍+视频+学习笔记+技能提升资源库【图】

前言不论是校招还是社招都避免不了各种面试、笔试，如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的，我这个“有章可循”说的意思只是说应对技术面试是可以提前准备，所谓不打无准备的仗就是这个道理，以下为大家，描述了从面试准备到最后的拿到offer提供了非常详细的目录，建议可以从头看是看几遍，如果基础不错的话也可以挑自己需要的章节查看。八大库 1.libavutil 核心工具库，最基础模块之一，其他模块...

Python深度学习笔记08--处理文本数据的常用方法【代码】

6.1 处理文本数据 6.1.1 单词和字符的one-hot编码 (1)单词级的one-hot编码： 1 # 单词级的one-hot编码2 import numpy as np3 4 # 初始数据：每个样本是列表的一个元素(本例中的样本是一个句子，但也可以是一整篇文档)5 samples = [The cat sat on the mat., The dog ate my homework.]6 7 # 构建数据中所有标记的索引8 token_index = {}9 for sample in samples: 10 # 利用split方法对样本进行分词，在实际应用中，还需要从样本...

Python深度学习笔记07--使用Keras建立卷积神经网络【代码】

1 from keras.datasets import mnist2 from keras.utils import to_categorical3 4 #1. 获取数据5 (train_images, train_labels), (test_images, test_labels) = mnist.load_data()6 7 #2. 处理数据8 train_images = train_images.reshape((60000, 28, 28, 1))9 train_images = train_images.astype(float32) / 255 10 11 test_images = test_images.reshape((10000, 28, 28, 1)) 12 test_images = test_images.astype(float32) /...

Python深度学习笔记06--机器学习基础【代码】

4.1 机器学习的四个分支 4.1.1 监督学习含义：给定一组样本，它可以学会将输入数据映射到已知目标。常见监督学习有：分类、回归、序列生成、语法树预测、目标检测、图像分割。 4.1.2 无监督学习含义：是指在没有i目标的情况下寻找输入数据的有趣变换，其目的在于数据可视化、数据压缩、数据去噪或更好地理解数据中的相关性。常见无监督学习有：降维、聚类。 4.1.3 自监督学习含义：是没有人工标注的标签的监督学习，可以看...

学习笔记 - 相关标签

学习笔记模板

深度学习 - 最热教程

【深度学习】③--神经网络细节与训练注...Ubuntu16安装深度学习环境流程基于tensorflow2.x版本python代码实现深...使用RTX3080显卡搭建基于Pycharm+Pytho...Java 深度学习实践 DJL中文系列课程深度学习笔记（三）—— 反向传播[Back...在NLP中深度学习模型何时需要树形结构？Windows系统基于tensorflow+keras+cuda...深度学习原理与框架-神经网络-cifar10分...深度学习模型里super函数的作用和def _...

首页 / 深度学习 / 李宏毅深度学习笔记-logistic

李宏毅深度学习笔记-logistic

内容导读

内容图文

Logistic函数集

损失函数-似然函数

寻找最好的函数

为什么logistic回归不能用Square Error？

判别式模型 VS 生成式模型

一个例子

多分类模型softmax

logistic 回归的限制

内容总结

内容备注

内容手机端

【李宏毅深度学习笔记-logistic】教程文章相关的互联网学习教程文章

学习笔记 - 相关标签

深度学习 - 最新教程

深度学习 - 最热教程