首页 / 算法 / XGBoost算法分析与案例调参实例

XGBoost算法分析与案例调参实例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了XGBoost算法分析与案例调参实例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3517字，纯文字阅读大概需要6分钟。

内容图文

1 XGBoost原理

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X(Extreme) GBoosted，包括前面说过，两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Hadoop，SGE，MPI）上运行，并且可以解决超过数十亿个样例的问题。XGBoost利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。最终，将这些技术进行结合来做一个端到端的系统以最少的集群系统来扩展到更大的数据集上。Xgboost以CART决策树为子模型，通过Gradient Tree Boosting实现多棵CART树的集成学习，得到最终模型。

2 XGBoost代码实现

import pandas as pd
import matplotlib.pyplot as plt
import xgboost as xgb
import numpy as np
from xgboost import plot_importance

data = pd.read_excel('./final_data_all.xlsx', index_col=u'年份')

# 对行业这一特征使用LabelEncoder编码
from sklearn.preprocessing import LabelEncoder
X_industy = data[['行业']]
le = LabelEncoder()
le = le.fit(X_industy)
label = le.transform(X_industy)
data[['行业']] = label


data = data[['利润总额_3', '利润总额_2', '利润总额_1', '销售净利率_3', '归属母公司股东的权益/负债合计_2', '销售净利率_2', '价值变动净收益/利润总额_1',
             '扣除非经常损益后的净利润/净利润_3', '销售净利率_1', '价值变动净收益/利润总额_3', '总资产周转率_1', '总资产周转率_2', '权益乘数_3',
             '价值变动净收益/利润总额_2', '总资产收益率ROA_3', '产权比率_2', '归属母公司股东的权益/负债合计_3', '经营活动净利润/利润总额_3', '资产负债率_1',
             '营业外收支净额/利润总额_3', '扣除非经常损益后的净利润/净利润_1', '资产负债率_3', '净资产收益率ROE_2', '营业外收支净额/利润总额_2', '总资产收益率ROA_2',
             '经营活动净利润/利润总额_2', '总资产周转率_3', '经营活动净利润/利润总额_1', '资产负债率_2', '权益乘数_2', '总资产收益率ROA_1', '经营活动产生的现金流量净额/负债合计_1',
             '扣除非经常损益后的净利润/净利润_2', '净资产收益率ROE_3', '行业', '净资产收益率ROE_1', '经营活动产生的现金流量净额/负债合计_2', '营业外收支净额/利润总额_1', '产权比率_3',
             '非流动负债/负债合计_1', '非流动资产/总资产_1', '应收账款周转率_3', '产权比率_1', '流动资产周转率_1', '经营活动产生的现金流量净额/负债合计_3', '应收账款周转率_1', '流动比率_2',
             '非流动资产/总资产_3', '固定资产周转率_2', '流动资产周转率_3', '流动比率_3', '销售毛利率_3', '息税摊销前利润/负债合计_3', '非流动负债/负债合计_3', '销售毛利率_2', '固定资产周转率_1',
             '已获利息倍数_3', '归属母公司股东的权益/负债合计_1', '流动负债/负债合计_1', '流动资产/总资产_1', '利润总额']]

data['利润总额'] = (data['利润总额']-data['利润总额'].mean())/(data['利润总额'].std())

from sklearn.preprocessing import MinMaxScaler
# 测试集与训练集的划分2014-2018年为训练集 2019年数据为训练集
split_date = 2016
#　训练集数据　12735条
# !!!注一个重要的点，最大最小化之后有明显变化
train_data = data.loc[data.index < split_date].copy()
X_train_data = train_data.drop(['利润总额'], axis=1)
y_train_data = train_data[['利润总额']]
print(X_train_data.shape)

# 测试集数据 2547条
test_data = data.loc[data.index == split_date].copy()
X_test_data = test_data.drop(['利润总额'], axis=1)
y_test_data = test_data[['利润总额']]
print(X_test_data.shape)


for i in range(0, 10):
    averge_err = 0
    # xgboost模型
    xgb_reg = xgb.XGBRegressor()
    xgb_reg.fit(X_train_data, y_train_data)
    y_pred = xgb_reg.predict(X_test_data)
    averge_err += abs(y_pred.sum() / y_test_data.sum() - 1)


print("相对误差: ", averge_err/10)

内容总结

以上是互联网集市为您收集整理的XGBoost算法分析与案例调参实例全部内容，希望文章能够帮你解决XGBoost算法分析与案例调参实例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/589264.html

来源：【匿名】

【上一篇】数据结构和算法绪论【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【XGBoost算法分析与案例调参实例】教程文章相关的互联网学习教程文章

南邮算法分析与设计实验4 密码算法

南邮算法分析与设计实验4 密码算法实验目的了解现代密码学的基本原理和数论的基础知识，掌握非对称密码体制的著名代表RSA加密算法的工作原理和流程，并设计实现一个简单的密钥系统。实验内容了解加/解密的基本原理和工作过程，用公开密钥对明文进行加密，并用私人密钥对密文进行解密，构造一个简单的 RSA 公开密钥系统。实验原理 1、RSA算法是由麻省理工学院的 Ron Rivest,Adi Shamir 和Len Adleman 于 1977 年研制并于...

广度优先搜索（BFS）思路及算法分析【代码】【图】

1、算法用途：是一种图像搜索演算法。用于遍历图中的节点，有些类似于树的深度优先遍历。这里唯一的问题是，与树不同，图形可能包含循环，因此我们可能会再次来到同一节点。 2、主要思想：主要借助一个队列、一个布尔类型数组、邻接矩阵完成（判断一个点是否查看过，用于避免重复到达同一个点，造成死循环等），先将各点以及各点的关系存入邻接矩阵。再从第一个点开始，将一个点存入队列，然后在邻接表中找到他的相邻点，存入队列，...

数据结构与算法分析

线性表数据元素的排列方式是线性的顺序表：顺序表是在计算机中以数组的形式保存的线性表结构除了头尾，其他的元素依次首尾相连在内存中是一块连续的存储空间，每个元素占用相同的空间，所以顺序表支持随机访问e[i]=e[1]+e[i-1]*length, 1<=i<=n,length是单个元素所占的空间Java数组 Java在定义数组的时候，在堆里面分配一个连续的固定大小的空间，用于存放基本数据类型或者对象的引用。顺序表支持随机存取，所以Java数组用任意下...

JVM之可达性分析算法和引用

1、可达性分析算法　通过一系列称为GC Roots的根对象作为起始节点集，根据引用关系向下搜索，搜索走过的路径叫做引用链，如果某个对象到GC Roots节点集没有任何的引用链也被称为不可达，则证明这个对象不可能再被使用。　可作为GC Roots根节点的：在虚拟机栈（栈帧中的本地变量表）中引用的对象，譬如各个线程被调用的方法堆栈中使用到的参数、局部变量、临时变量等在方法区中类静态属性引用的对象，譬如Java类的引用类型静态变量...

Java中使用TreeMap权重随机算法，以及验证与分析【代码】

权重下随机，就是给定各个值不同的权重，再根据权重的比例随机选出一个值 1/** 2 * Created by Jungle on 2020/2/23.3 *4 * @author JungleZhang5 * @version 1.0.06 * @Description 权重下随机的算法7*/ 8publicclass WeightRandom<K, V extends Number> {9private TreeMap<Double, K> weightMap = new TreeMap<>(); 1011public WeightRandom(@NotNull List<Pair<K, V>> list) { 12// 先排除权重为0的项13 Iterator<Pair<...

《数据结构与算法分析：C语言描述》复习——第六章“排序”——选择排序【代码】

2014.06.17 01:17简介：　　选择排序是一种O(n^2)级别的交换排序算法，属于新手必学算法。描述：　　个人觉得选择排序的代码是所有排序中最直观，最符合人类大脑思维的了。当我第一次有排序的需求时（初中时自学了一点C语言，算是人生第一次写代码），我自己试着写下的代码就是选择排序，当然我上了大学才知道“选择排序”是什么。很显然，直观且容易实现的算法基本都是最鹾的，而不直观且容易实现的算法基本都是最神的。很显然，选...

算法设计与分析(李春保)练习题答案v2

----------------------------------------------------- Page 1 -----------------------------------------------------1.1 第 1 章 ─ 概论 1.1.1 练习题 1. 下列关于算法的说法中正确的有（）。 Ⅰ . 求解某一类问题的算法是唯一的 Ⅱ . 算法必须在有限步操作之后停止 Ⅲ . 算法的每一步操作必须是明确的，不能有歧义或含义模糊 Ⅳ . 算法执行后一...

『嗨威说』算法设计与分析 - 算法第二章上机实践报告（二分查找 / 改写二分搜索算法 / 两个有序序列的中位数）【代码】【图】

本文索引目录：一、PTA实验报告题1 ：二分查找　　1.1　　实践题目　　1.2　　问题描述　　1.3　　算法描述　　1.4　　算法时间及空间复杂度分析二、PTA实验报告题2 ：改写二分搜索算法　　2.1　　实践题目　　2.2　　问题描述　　2.3　　算法描述　　2.4　　算法时间及空间复杂度分析三、PTA实验报告题3 ：两个有序序列的中位数　　3.1　　实践题目　　3.2　　问题描述　　3.3　　算法描述　　3.4　　算法时间及空间复杂度分析...

Pixhawk之姿态控制篇（1）_源码算法分析（超级有料）【图】

数据结构与算法之美专栏学习笔记-复杂度分析【代码】

复杂度分析什么是复杂度分析数据结构和算法解决是“如何让计算机更快时间、更省空间的解决问题”。因此需从执行时间和占用空间两个维度来评估数据结构和算法的性能。分别用时间复杂度和空间复杂度两个概念来描述性能问题，二者统称为复杂度。复杂度描述的是算法执行时间（或占用空间）与数据规模的增长关系。为什么要进行复杂度分析和性能测试相比，复杂度分析有不依赖执行环境、成本低、效率高、易操作、指导性强的特点。掌握复杂...

算法效率分析【图】

希望大家还是在实践当中感受效率，理解效率，写出高质量的代码和算法，仅仅作为参考，不要误导大家。排版尽量舒服吧，尽力了。一般而言分析算法效率的方式有两种，即：时间效率和空间效率。时间效率也称为时间复杂度；空间效率也称为空间复杂度。在计算机技术发展的几十年中，空间资源变得不是非常重要了，因此在一般的算法分析中，讨论的主要是时间复杂度，当然空间复杂度的分析也是如此。在算法分析中，我们不使用时间的标准单位...

寒假 8 （算法分析和递归，一些例子）

数据结构书前两章。附：递归的四个法则base cases；making progress；design rule; compound interest rule 算法里面的大小o不是高阶无穷的意思，就是说当n很大时，a比b小，也就是说，a的增长率小只定义了小，大，相等，严格小，用到的一般只有小有些递归和for循环等价，有些递归不可以改写成for循环算法分析，时间——语句——从最深层处开始计算，函数调用要展开，递归要展开计算任何事情不要超过一次：不要重复。 max sub...

10种排序算法分析【代码】【图】

10种排序算法，分别是直接插入排序，折半插入排序，希尔排序，冒泡排序，快速排序，直接选择排序，树形排序，堆排序，归并排序，基数排序。各有千秋，但依旧有优劣之分，熟悉每一个算法，对于我们的代码优化，也将事半功倍。 1，直接插入排序：基本思想：假设待排的n个记录存放在变量R中，首先将R[1]看做是有序区，将后n - 1个数组元素看作是无序区；然后将无序区的第一个元素R[2]插入到前面有序区的适当位置，从而得到新的有序区R...

3.4 网页分析算法

在搜索引擎中，爬虫爬取了对应的网页之后，会将网页存储到服务器的原始数据库中，之后搜索引擎会对这些网页进行分析并确定各网页的重要性，即会影响用户的检索的排名结果。对于这些重要性的确定及排名结果的确定需要算法来解决，所以先来了解一下算法。搜索引擎的网页分析算法主要分为3类：基于用户行为的网页分析算法、基于网络拓扑的网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。搜索引擎的网页...

Python 实现关联规则分析Apriori算法【代码】【图】

# -*- coding:utf-8 -*-import sysreload(sys) sys.setdefaultencoding("utf8")def load_data_set():data_set = [[‘beer‘, ‘baby diapers‘, ‘shorts‘], [‘baby diapers‘, ‘shorts‘], [‘baby diapers‘, ‘milk‘], [‘beer‘, ‘baby diapers‘, ‘shorts‘], [‘beer‘, ‘milk‘], [‘baby diapers‘, ‘milk‘], [‘beer‘, ‘milk‘], [‘beer‘, ‘baby diapers‘, ‘milk‘, ‘shorts‘], [‘beer‘, ‘baby diap...

首页 / 算法 / XGBoost算法分析与案例调参实例

XGBoost算法分析与案例调参实例

内容导读

内容图文

1 XGBoost原理

2 XGBoost代码实现

内容总结

内容备注

内容手机端

【XGBoost算法分析与案例调参实例】教程文章相关的互联网学习教程文章

算法分析 - 相关标签

实例 - 相关标签

算法 - 最新教程

算法 - 最热教程