首页 / 算法 / 优化算法之Adam

优化算法之Adam

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了优化算法之Adam，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含9139字，纯文字阅读大概需要14分钟。

内容图文

Adam

机器学习算法中的代价函数通常可以分解成每个样本的代价函数的总和. 训练数据的负条件对数似然可以写成

\[J(\theta)=\mathbb{E}_{x,y \in \hat p_{data}}L(x, y, \theta)=\frac {1} {m} \sum_{i=1}^m L(x^{(i)},y^{(i)},\theta) \]

其中 $L$ 是每个样本的损失 $L(x, y, \theta) = -log(p(y|x;\theta))$.

? 对于这些相加的代价函数, 梯度下降需要计算

\[\nabla_{\theta} J(\theta) = \frac {1} {m} \sum_{i=1}^m \nabla_{\theta} L(x^{(i)},y^{(i)},\theta) \]

Adam 算法使用了动量变量 $v_t$ 和 RMSProp 算法中小批量随机梯度按元素平方的指数加权平移变量 $s_t$, 并在时间步 $0$ 将它们中每个元素初始化为 $0$. 给定超参数 $0 \le \beta_1 < 1$ (算法作者建议设为 $0.9$), 时间步 $t$ 的动量变量 $v_t$ 即小批量随机梯度 $g_t$ 的指数加权移动平均:

\[v_t \leftarrow \beta_1 \cdot v_{t-1} + (1-\beta_1)\cdot \mathcal{g}_t \]

和 RMSProp 算法中一样, 给定超参数 $0 \le \beta_2 < 1$ (算法作者建议设为 $0.999$), 将小批量随机梯度按元素平方后的项 $g_t \odot g_t$ 做指数加权移动平均得到 $s_t$:

\[s_t \leftarrow \beta_2 \cdot s_{t-1} + (1-\beta_2) \cdot g_t \odot g_t \]

由于我们将 $v_0$ 和 $s_0$ 中的元素都初始化为 $0$，在时间步 $t$ 我们得到 $v_t = (1 ? \beta_1) \sum^t_{i=1} \beta_1^{t?i} g_i$ 。将过去各时间步小批量随机梯度的权值相加，得到 $(1 ? \beta_1) \sum^t_{i=1} \beta_1^{t?i} = 1 ? \beta_1^t$ 。需要注意的是，当 $t$ 较小时，过去各时间步小批量随机梯度权值之和会较小。例如，当 $\beta_1 = 0.9$ 时， $v_1 = 0.1g_1$ 。为了消除这样的影响，对于任意时间步 $t$，我们可以将 $v_t$ 再除以 $1 ? \beta_1^t$，从而使过去各时间步小批量随机梯度权值之和为 $1$。这也叫作偏差修正。在 Adam 算法中，我们对变量 $v_t$ 和 $s_t$ 均作偏差修正:

\[\begin{split} & \hat v_t \leftarrow \frac {v_t} {1-\beta_1^t}, \\ & \hat s_t \leftarrow \frac {s_t} {1-\beta_2^t}. \end{split} \]

接下来，Adam 算法使?以上偏差修正后的变量 $\hat v_t$ 和 $\hat s_t$，将模型参数中每个元素的学习率通过按元素运算重新调整:

\[g_t' \leftarrow \frac {\epsilon \hat v_t} {\sqrt{\hat s_t}+\delta}, \]

其中 $\epsilon$ 是学习率， $\delta$ 是为了维持数值稳定性而添加的常数，如 $1e?8$。和 AdaGrad 算法、 RMSProp 算法以及 AdaDelta 算法?样，?标函数?变量中每个元素都分别拥有??的学习率。最后，使? $g_t'$ 迭代?变量：

\[\theta_t \leftarrow \theta_{t-1} - \mathcal{g}_t' \]

测试案例

仍然使用 Logisitic 和 Linear, 不再赘述, 参考 SGD.

实例主要包含三个文件分别是: optimizers.py, nn.py, test.py.

"""
file name: base.py
"""
import numpy as np


class Optimizer(object):
    def __init__(self, lr=0.01, delta=1e-6):
        self.lr = lr
        self.delta = delta


class OptimizerWeights(object):
    def __init__(self, lr=0.01, delta=1e-6):
        self.lr = lr
        self.delta = delta
        self.hyp_t = 1

    def __call__(self, *args, **kwargs):
        return None

    def init_parameters(self, inputs_shape):
        pass


# Module 基类
class Module(object):
    def __init__(self, weight=None, bias=None):
        self.weight = weight
        self.bias = bias
        self.train = True
        self.y_pred = None
        self.y_true = None
        self.loss_diff = np.zeros((1, 1))

        self._loss_pro = 0.
        self._loss_now = 0.
        self._weight_diff = 1.
        self._bias_diff = np.zeros((1, 1))
        self.optimizer_weights_update = None

    def __call__(self, *args, **kwargs):
        inputs_shape = []
        for arg in args:
            inputs_shape.append(arg.shape)
        for _, arg in kwargs:
            inputs_shape.append(arg.shape)

        self.args = args
        self.kwargs = kwargs

        if len(inputs_shape) == 0:
            self.build(inputs_shape)
        elif len(inputs_shape) == 1:
            self.build(inputs_shape[0])
        else:
            self.build(inputs_shape)

        if self.optimizer_weights_update:
            self.optimizer_weights_update.init_parameters(inputs_shape[0])

        if hasattr(self, 'forward'):
            forward = getattr(self, 'forward')
            self.y_pred = forward(*args, **kwargs)
            self.diff_parameters(*args, **kwargs)
        return self.y_pred

    def loss(self, *args, **kwargs):
        return 0.

    def build(self, inputs_shape):
        if len(inputs_shape) == 0:
            pass
        else:
            if self.weight is None:
                self.weight = np.zeros(*inputs_shape[:-1])[:, np.newaxis]
            if self.bias is None:
                self.bias = np.zeros((1, 1))

    def diff_parameters(self, *args, **kwargs) -> None:
        pass

    def backprop(self):
        wb_diff = [np.matmul(self._weight_diff, self.loss_diff), self._bias_diff * self.loss_diff]
        wb_diff = self.optimizer_weights_update(wb_diff)
        self.weight -= wb_diff[0]
        self.bias -= wb_diff[1]
        return True

    def set_optimizer_weights_update(self, weights_update):
        self.optimizer_weights_update = weights_update

    def set_hyp_t(self, hyp_t):
        if self.optimizer_weights_update:
            self.optimizer_weights_update.hyp_t = hyp_t

optimizers.py 文件内容如下:

"""
file name: optimizers.py
"""
import .base import OptimizerWeights, Optimizer


# SGD ...


class AdamWeights(OptimizerWeights):
    def __init__(self, lr=0.01, delta=1e-6, beta1=0.9, beta2=0.999):
        super(AdamWeights, self).__init__(lr=lr, delta=delta)
        self.beta1 = beta1
        self.beta2 = beta2
        self.vector = None
        self.steepest = None

    def __call__(self, wb_diff, hyp_t=None):
        if not hyp_t:
            hyp_t = self.hyp_t
        v_bias_corr, s_bias_corr = self._update_parameters(wb_diff, hyp_t)
        g_adam_diff = [self.lr * v_corr / (np.sqrt(s_corr) + self.delta) for v_corr, s_corr in zip(v_bias_corr, s_bias_corr)]
        return g_adam_diff

    def init_parameters(self, inputs_shape):
        self.vector = [np.zeros((inputs_shape[0], 1)), np.zeros((1, 1))]
        self.steepest = [np.zeros((inputs_shape[0], 1)), np.zeros((1, 1))]
        pass

    def _update_parameters(self, wb_diff, hyp_t):
        self.vector = [self.beta1 * v + (1 - self.beta1) * wb_diff[i] for i, v in enumerate(self.vector)]
        self.steepest = [self.beta1 * s + (1 - self.beta1) * wb_diff[i] ** 2 for i, s in enumerate(self.steepest)]
        v_bias_corr = [v / (1 - self.beta1 ** hyp_t) for v in self.vector]
        s_bias_corr = [s / (1 - self.beta2 ** hyp_t) for s in self.steepest]
        return v_bias_corr, s_bias_corr


class Adam(Optimizer):
    def __init__(self, lr=0.01, delta=1e-6, beta1=0.9, beta2=0.999):
        super(Adam, self).__init__(lr=lr, delta=delta)
        self.beta1 = beta1
        self.beta2 = beta2

    def __call__(self, x, y, model, batch_size=1, epochs=10, threshold=0.01):
        model.set_optimizer_weights_update(AdamWeights(self.lr, self.delta, self.beta1, self.beta2))
        num_record = x.shape[-1]
        if num_record < batch_size:
            batch_size = num_record
        bool_break = False
        for i in range(epochs):
            loss_mean = 0.
            model.set_hyp_t(i + 1)
            for j in range(num_record):
                y_pred = model(x[..., j:j + 1])
                y_true = y[..., j]
                sgd_loss = model.loss(y_pred, y_true)
                if (j + 1) % batch_size == 0:
                    if np.abs(loss_mean) < threshold or loss_mean == np.NAN:
                        bool_break = True
                        break
                    loss_mean = 0.

                loss_mean = (loss_mean * j + sgd_loss) / (j + 1)
                model.backprop()

            if bool_break:
                break
        return model

"""
file name: nn.py
"""
from .base import Module


# Logistic
class Logistic(Module):
    def __init__(self, w=None, b=None):
        super(Logistic, self).__init__(w, b)

    def forward(self, x):
        return 1. / (1. + np.exp(np.matmul(self.weight.T, x) + self.bias))

    def loss(self, y_pred, y_true, delta=1e-16):
        self._loss_pro = self._loss_now
        y_pred = np.minimum(np.maximum(y_pred, delta), 1. - delta)
        self._loss_now = -(y_true * np.log(y_pred) +
                           (1. - y_true) * np.log(1. - y_pred))
        self.loss_diff = -(y_true / y_pred - (1. - y_true) / (1. - y_pred))
        return self._loss_now

    def diff_parameters(self, x):
        g_param_diff = -2. * self.y_pred * (1. - self.y_pred)
        self._weight_diff = g_param_diff * x
        self._bias_diff = g_param_diff
    pass


# Linear
class Linear(Module):
    def __init__(self, w=None, b=None):
        super(Linear, self).__init__(w, b)

    def forward(self, x):
        return np.matmul(self.weight.T, x) + self.bias

    def loss(self, y_pred, y_true):
        self._loss_pro = self._loss_now
        self._loss_now = np.sum((y_pred - y_true) ** 2)
        self.loss_diff = 2. * (y_pred - y_true)
        return self._loss_now

    def diff_parameters(self, x):
        self._weight_diff = x
        self._bias_diff = 1.
    pass

测试文件:

"""
file name: test.py
"""
import numpy as np
import .nn
from .optimizers import SGD, Adam


def Sigmod(x, w, b):
    return 1. / (1. + np.exp(np.matmul(w.T, x) + b))


def Linear(x, w, b):
    return np.matmul(w.T, x) + b


def test_Optimizer_Logistic(x, w, b, Optimizer):
    y_true = Sigmod(x, w, b)
    rand_y = np.random.randn(len(y_true))
    rand_y = 0.01 * rand_y / np.max(np.abs(rand_y))
    y_true = Sigmod(x, w, b) + rand_y > 0.5

    model = nn.Logistic()
    sgd_model = Optimizer(x, y_true, model, batch_size=256,
                          epochs=10000, threshold=.5)
    y_pred = np.float32(Sigmod(x, sgd_model.weight, sgd_model.bias) > 0.5)

    print('error_rate: ', np.sum(np.abs(y_pred - y_true)) / len(y_true))


def test_Optimizer_Linear(x, w, b, Optimizer):
    y_true = Linear(x, w, b)
    rand_y = np.random.randn(len(y_true))
    y_true += 0.01 * rand_y / np.max(np.abs(rand_y))

    model = nn.Linear()
    sgd_model = Optimizer(x, y_true, model, batch_size=256,
                          epochs=10000, threshold=.005)
    y_pred = Linear(x, sgd_model.weight, sgd_model.bias)

    print('MSE: ', np.sum((y_pred - y_true) ** 2) / len(y_true))


def create_optimizer(optimizer='sgd', lr=0.01, delta=1e-6, **kwargs):
    if optimizer == 'adam':
        opt = Adam(lr=lr, delta=delta)
    else:
        opt = SGD(lr=lr, delta=delta)
    return opt


def test_Optimizer(model='logistic', optimizer='sgd'):
    """
    Args:
        model: 'logistic', 'linear'
        optimizer: 'sgd', 'adam'
    """
    w = np.array([1.8, -2.5, 3.1, -2.3, .6, 2.1, -1.1])
    b = 0.1
    # Data
    x = np.random.randn(len(w), 1024)

    if model == 'logistic':
        opt_logistic = create_optimizer('adam', lr=0.0001)
        test_Optimizer_Logistic(x, w, b, opt_logistic)
    elif model == 'linear':
        opt_linear = create_optimizer('adam', lr=0.001)
        test_Optimizer_Linear(x, w, b, opt_linear)


if __name__ == '__main__':
    # fun: logistic linear
    # optimizer: sdg adam
    test_Optimizer('logistic')

内容总结

以上是互联网集市为您收集整理的优化算法之Adam全部内容，希望文章能够帮你解决优化算法之Adam所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/621118.html

来源：【匿名】

【上一篇】排序算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【优化算法之Adam】教程文章相关的互联网学习教程文章

adam优化算法【图】

1.SGD的难处：考虑z=1/20*x2+y2图像，等高线图和负梯度方向：假设从（-7,2）这一点开始进行梯度更新（下降）：learningrate=0.9;x-=0.9*(1/10)*x (1)y-=0.9*2*y (2)把（-7,2）这一点带入（1）和（2）式中，得到一个新的(x,y)，继续带入，可以得到一个x的列表和y的列表，这个列表代表了梯度下降的路线。假设走40步：原文：https://www.cnblogs.com/yibeimingyue/p/11806408.html

深度学习优化算法总结【代码】【图】

大致总结一下学到的各个优化算法。一、梯度下降法函数的梯度表示了函数值增长速度最快的方向，那么与其相反的方向，就可看作函数减少速度最快的方向。在深度学习中，当目标设定为求解目标函数的最小值时，只要朝梯度下降的方向前进，就可以不断逼近最优值。梯度下降主要组成部分：1、待优化函数f(x)2、待优化函数的导数g(x)3、变量x，用于保存优化过程中的参数值4、变量x点处的梯度值：grad5、变量step，沿梯度下降方向前进的步长...

优化算法学习笔记【图】

Machine Learning学习笔记（十四）集成学习（Boosting,Bagging,组合策略）https://blog.csdn.net/weixin_41806692/article/details/82433046Machine Learning学习笔记（十三）随机森林（RandomForest)https://blog.csdn.net/weixin_41806692/article/details/82430034Machine Learning学习笔记（十二）禁忌搜索算法（Tabu Search)https://blog.csdn.net/weixin_41806692/article/details/82414902Machine Learning学习笔记（十一）...

经典优化算法

无约束优化算法假设求解$\min L(\theta)$，$L(\cdot)$光滑直接法两个条件函数是凸函数一阶导数为零等式有闭式解迭代法假设优化问题为$\begin{aligned} \delta_t = \mathop{\arg \min}_{\delta} L(\theta_t+\delta) \end{aligned}$，其中$\theta_t$是参数一阶法对函数$L(\theta_t+\delta)?$做一阶泰勒展开，得到近似式$L(\theta_t+\delta) \approx L(\theta_t) + \nabla L(\theta)^T \delta?$由于该近似式只有在\(\del...

粒子群优化算法【代码】

from sko.PSO import PSO import matplotlib.pyplot as plt‘‘‘ 目标是求目标函数的最小值粒子群优化算法和蚁群算法类似，主要依靠群体之间的联系寻找最优解和最优输入嘴和参数介绍: func：目标函数 ndim: 输入参数的个数 pop：粒子的个数 max_iter：最大迭代次数 lb：输入参数的下限，低于此数值将不再衰减 ub：输入参数的上限，高于此数值将不再增加 w：学习衰减速率,惯性权重，学习的精度将随着...

粒子群优化算法—Matlab【代码】

PSO算法clc; clear ; close ; %% Problem DefinitionCostFunction = @(x) sphere(x); % Cost FunctionnVar = 5; % Dimension of Decision VariablesVarSize = [1,nVar]; % Matrix Size of Decision VariablesVarMin = -10; % Lower Bound of Decision Variables VarMax = 10; % Upper Bound of Decision Variables%% Parameters of PSOMaxIt = 1000; ...

图上最短路（bellman-ford + queue优化算法）【代码】

例题：https://www.luogu.org/problemnew/show/3371 1 #include <cstdio>2 #include<iostream>3 #include<cmath>4 #include<queue>5 #include<vector>6 #include<cstring>7 #include<algorithm>8usingnamespace std;9 vector<int>v[10005], c[10005]; 10constint INF = 2147483647; 11int dis[10005]; 12bool vis[10005]; 13void sssp(int a) //single source shortest path14{ 15for(int i = 0; i < 10005; ++i) dis[i] = INF;...

最短路三大算法及其优化算法大总结【代码】

最短路问题三大算法及其优化算法总结+模板前言这里给了最短路问题中三大算法及其优化后的算法总结和模板，总结一下，以便后续学习。Floyd-Warshall多源最短路，即要求求出图中每两个顶点之间的最短路。虽然Floyed的复杂度是$O(n^3)$，但是4行却简单很多，本质上是动态规划算法。思想：从i号顶点到j号顶点只经过前k号顶点的最短路径。const int inf=0x3f3f3f3f; int Floyd() {//初始化n个顶点 for(i = 1; i <= n; i ++)for(j = 1...

深度学习中的优化问题以及常用优化算法【代码】【图】

3、神经网络优化中的挑战优化是一个很困难的任务，在传统机器学习中一般会很小心的设计目标函数和约束，以使得优化问题是凸的；然而在训练神经网络时，我们遇到的问题大多是非凸，这就给优化带来更大的挑战。 3.1 局部极小值凸优化问题通常可以简化为寻找一个局部极小值点的问题，在凸函数中，任何一个局部极小点都是全局最小点；有些凸函数的底部是一个平坦区域，在这个平坦区域的任一点都是一个可以接受的解。如下图所示：但是...

深度学习（机器学习）优化算法

一、损失函数：机器学习主要工作是模型评估，而损失函数定义了模型的评估指标!! 常见的损失函数有mean_squared_error mean_absolute_error mean_absolute_percentage_error mean_squared_logarithmic_error squared_hinge hinge categorical_hinge logcosh categorical_crossentropy sparse_categorical_crossentropy binary_crossentropy（二元交叉熵） kullback_leibler_divergence poisson cosine_proximity二、机器学习经典优化...

《吴恩达深度学习》学习笔记006_优化算法 (Optimization algorithms)【图】

http://www.ai-start.com/dl2017/html/lesson2-week2.html优化算法 (Optimization algorithms) Mini-batch 梯度下降（Mini-batch gradient descent）理解mini-batch梯度下降法（Understanding mini-batch gradient descent）指数加权平均数（Exponentially weighted averages）理解指数加权平均数（Understanding exponentially weighted averages）数加权平均的偏差修正（Bias correction in exponentially weighted averages）...

深度学习中的优化算法介绍

文章目录BGD/MBGD/SGDMomentumNAGAdagradAdaDelta/RMSPropAdam BGD/MBGD/SGD 梯度下降的公式为: θi+1=θi?η??θiL(θi) \theta_{i+1}=\theta_{i}-\eta \frac{\partial}{\partial \theta_{i}} L(\theta_{i})θi+1?=θi??η?θi???L(θi?) 对某个参数w的梯度下降公式就是上一步的该参数w的值减去学习率乘以损失函数对w的梯度值。损失函数对w的偏导数值就是梯度。需要注意的是梯度下降总是减去梯度。 BGD/MBGD/SGD的区别主要在于损...

吴恩达深度学习笔记（五） —— 优化算法

主要内容：一.Mini-Batch Gradient descent 二.Momentum 四.RMSprop 五.Adam 六.优化算法性能比较一.Mini-Batch Gradient descent 二.Momentum 四.RMSprop 五.Adam 六.优化算法性能比较

才1000万就崩溃JAVA轻松到1亿也不会崩溃，还不带任何优化算法python也是个扶不起的

#!/usr/local/php53/bin/php/*** @params array=rs_array*/#define(MAX,1000);$MAX = 1000;$from = 2;$rs_array= array();echo $MAX."以内的素数...\n";while($from $is_susu=true; foreach($rs_array as $vals){ if ((sqrt($from)+1) % $vals == 0 ){ $is_susu=false;break; } } if($is_susu) { echo $from." "; $rs_array[]=$from; } $from++;}?>

求教导怎么优化算法

只是第1,2次选择。还要再做2次。后面基本一样重复第二次志愿的。100个学生运行数据大概花了6-7秒。求指导怎么可以优化下~~谢谢 if($_POST['cal']) { //--------------------------------------------第一志愿------------------------------------------- $sql = "select * from hos;"; $res = mysql_query($sql)or die(mysql_error()); $info = mysql_fetch_array($res)or die(mysql_error()); //echo $in...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 优化算法之Adam

优化算法之Adam

内容导读

内容图文

Adam

测试案例

内容总结

内容备注

内容手机端

【优化算法之Adam】教程文章相关的互联网学习教程文章

adam优化算法【图】

深度学习优化算法总结【代码】【图】

优化算法学习笔记【图】

经典优化算法

粒子群优化算法【代码】

粒子群优化算法—Matlab【代码】

图上最短路（bellman-ford + queue优化算法）【代码】

最短路三大算法及其优化算法大总结【代码】

深度学习中的优化问题以及常用优化算法【代码】【图】

深度学习（机器学习）优化算法

《吴恩达深度学习》学习笔记006_优化算法 (Optimization algorithms)【图】

深度学习中的优化算法介绍

吴恩达深度学习笔记（五） —— 优化算法

才1000万就崩溃JAVA轻松到1亿也不会崩溃，还不带任何优化算法python也是个扶不起的

求教导怎么优化算法

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程