首页 / PYTHON / python – Spark中的分组线性回归

python – Spark中的分组线性回归

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Spark中的分组线性回归，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2373字，纯文字阅读大概需要4分钟。

内容图文

我在PySpark工作,我想找到一种方法对数据组进行线性回归.具体给出了这个数据帧

import pandas as pd
pdf = pd.DataFrame({'group_id':[1,1,1,2,2,2,3,3,3,3],
                    'x':[0,1,2,0,1,5,2,3,4,5],
                    'y':[2,1,0,0,0.5,2.5,3,4,5,6]})
df = sqlContext.createDataFrame(pdf)

df.show()
# +--------+-+---+
# |group_id|x|  y|
# +--------+-+---+
# |       1|0|2.0|
# |       1|1|1.0|
# |       1|2|0.0|
# |       2|0|0.0|
# |       2|1|0.5|
# |       2|5|2.5|
# |       3|2|3.0|
# |       3|3|4.0|
# |       3|4|5.0|
# |       3|5|6.0|
# +--------+-+---+

我现在希望能够为每个group_id拟合一个单独的y~ax b模型,并输出一个新的数据帧,其中列a和b以及每个组的行.

例如,对于第1组,我可以这样做：

from sklearn import linear_model
# Regression on group_id = 1
data = df.where(df.group_id == 1).toPandas()
regr = linear_model.LinearRegression()
regr.fit(data.x.values.reshape(len(data),1), data.y.reshape(len(data),1))
a = regr.coef_[0][0]
b = regr.intercept_[0]
print('For group 1, y = {0}*x + {1}'.format(a, b))
# Repeat for group_id=2, group_id=3

但要为每个组执行此操作涉及将数据一个一个地返回给驱动程序,这不利用任何Spark并行性.

解决方法:

这是我找到的解决方案.不是对每组数据执行单独的回归,而是为每个组创建一个具有单独列的稀疏矩阵：

from pyspark.mllib.regression import LabeledPoint, SparseVector

# Label points for regression
def groupid_to_feature(group_id, x, num_groups):
    intercept_id = num_groups + group_id-1
    # Need a vector containing x and a '1' for the intercept term
    return SparseVector(num_groups*2, {group_id-1: x, intercept_id: 1.0})
labelled = df.map(lambda line:LabeledPoint(line[2],
                    groupid_to_feature(line[0], line[1], 3)))
labelled.take(5)
# [LabeledPoint(2.0, (6,[0,3],[0.0,1.0])),
#  LabeledPoint(1.0, (6,[0,3],[1.0,1.0])),
#  LabeledPoint(0.0, (6,[0,3],[2.0,1.0])),
#  LabeledPoint(0.0, (6,[1,4],[0.0,1.0])),
#  LabeledPoint(0.5, (6,[1,4],[1.0,1.0]))]

然后使用Spark的LinearRegressionWithSGD来运行回归：

from pyspark.mllib.regression import LinearRegressionModel, LinearRegressionWithSGD
lrm = LinearRegressionWithSGD.train(labelled, iterations=5000, intercept=False)

此回归的权重包含每个group_id的系数和截距,即

lrm.weights
# DenseVector([-1.0, 0.5, 1.0014, 2.0, 0.0, 0.9946])

或者重塑为DataFrame,为每个组提供a和b：

pd.DataFrame(lrm.weights.reshape(2,3).transpose(), columns=['a','b'], index=[1,2,3])    
#           a              b
# 1 -0.999990   1.999986e+00
# 2  0.500000   5.270592e-11
# 3  1.001398   9.946426e-01

内容总结

以上是互联网集市为您收集整理的python – Spark中的分组线性回归全部内容，希望文章能够帮你解决python – Spark中的分组线性回归所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/826596.html

来源：【匿名】

【上一篇】Python中“x = y = z”赋值的语义[复制]【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – Spark中的分组线性回归】教程文章相关的互联网学习教程文章

机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测【代码】

使用python3 学习了线性回归的api分别使用逻辑斯蒂回归和随机参数估计回归对良恶性肿瘤进行预测我把数据集下载到了本地，可以来我的git下载源代码和数据集:https://github.com/linyi0604/kaggle 1import numpy as np2import pandas as pd3from sklearn.cross_validation import train_test_split4from sklearn.preprocessing import StandardScaler5from sklearn.linear_model import LogisticRegression, SGDClassifier6...

机器学习之线性回归使用Python和tensorflow实现【代码】

导入依赖包 import tensorflow as tf import numpy as np import matplotlib.pylab as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] 生成直线数据并加入噪音画图显示 train_x = np.linspace(-1, 1, 100) # 生成 -1 到 1之间分成100份 # print(train_x) noise = np.random.randn(*train_x.shape) * 0.3 train_y = 2 * train_x + noise # 给每一个点加上噪音 # print(noise) plt.plot(train_x, train...

python如何实现线性回归【图】

Python语言实现线性回归的步骤有：导入所要用到的库，读取数据并进行预处理。分析数据以及建立线性回归模型，并进行模型训练检验模型效果通过使用python语言来实现线性回归是非常方便的，因为它提供了多个现成的库，比如可以使用numpy.linalog.lstsq，pandas.ols以及scipy.stats.linregress等，在本文中将使用sklearn库的linear_model.LinearRegression，它支持任意维度，非常好用。【推荐教程：Python教程】二维直线例：线性方程y...

【python】随机产生20个点用梯度下降法线性回归拟合---BGD+SGD+MBGD【代码】【图】

目录什么是梯度下降法怎么用梯度下降法进行拟合（以BGD为例）其他改进形式梯度下降法（SGD+MBGD）什么是梯度下降法梯度下降算法原理讲解——机器学习原理网上有很多，这个博客比较详细友好怎么用梯度下降法进行拟合（以BGD为例）一道作业题：随机产生20个点，用线性回归拟合，并画出迭代次数与总损失值的关系曲线图和拟合结果图。怎么拟合一道直线呢？先把直线方程设出来，h为预测函数现在需要求解最佳的θ0\theta_0θ0?和...

史上最易懂——一文详解线性回归算法的纯Python实现【代码】【图】

本文作者：黄佳，新加坡埃森哲公司高级顾问，人工智能专家，机器学习和云计算高级工程师，参与过公共事业、医疗、金融等多领域大型项目。著有《零基础学机器学习》，《SAP程序设计》，《SAP高级应用开发》，《SAP业务数据传输指南》。写在前面说到机器学习，大家可能会马上联想到艰深的算法，复杂的公式和高等数学。的确，算法和高等数学确实是机器学习时的基础知识储备。不过，我们也可以用比较浅显易懂的方法介绍一些机器学习相...

python实现吴恩达机器学习线性回归ex.1.2【代码】【图】

python实现吴恩达机器学习线性回归ex.1.2 不多BB，直接上链接：https://blog.csdn.net/scum_JAKE/article/details/108796869 上节讲了一半，一共两个数据集，只讲了前一个，那么数据集中的ex1data2应该怎么做呢？大同小异，先整理下数据信息：数据为房子面积，房间个数，房子价格，共有47组数据。小异直接讲不同的地方，数据归一化，房间数与面积与价格相差实在太多，因此会在预测时候造成一定影响，因此需要将各个数据控制的相...

线性回归，python语法实现【代码】【图】

找了很多资料发现好像大家的线性回归都是用sklearn来实现的，作为一个不会用sklearn的小白，寻找了多篇无果后决定自己用一些比较基础的模块来实现线性回归的梯度下降算法。 import matplotlib.pyplot as plt import numpy as npx_data = np.array([1,2,3,4,5]) y_data = np.array([1,2,3,4,5])a = 0.163 b = np.random.random() k = np.random.random() epochs = 1000设置最简单的y=x函数来进行拟合，设置学习率为0.163，训练次数...

用Python徒手写线性回归【图】

转自：https://mp.weixin.qq.com/s/XVgNP2OJUiOQzrODetYjYQ 对于大多数数据科学家而言，线性回归方法是他们进行统计学建模和预测分析任务的起点。这种方法已经存在了 200 多年，并得到了广泛研究，但仍然是一个积极的研究领域。由于良好的可解释性，线性回归在商业数据上的用途十分广泛。当然，在生物数据、工业数据等领域也不乏关于回归分析的应用。另一方面，Python 已成为数据科学家首选的编程语言，能够应用多种方法利用线性模...

从零开始，用Python徒手写线性回归【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入先放下 Scikit-learn，我们来看一看真正的技术。对于大多数数据科学家而言，线性回归方法是他们进行统计学建模和预测分析任务的起点。这种方法已经存在了 200 多年，并得到了广泛研究，但仍然是一个积极的研...

线性回归算法 - python实现【代码】【图】

本文用python实现线性回归算法 # -*- coding: utf-8 -*- """ Created on Fri Oct 11 19:25:11 2019 """from sklearn import datasets, linear_model # 引用 sklearn库，主要为了使用其中的线性回归模块# 创建数据集，把数据写入到numpy数组 import numpy as np # 引用numpy库，主要用来做科学计算 import matplotlib.pyplot as plt # 引用matplotlib库，主要用来画图 data = np.array([[152,51],[156,53],[160,54],[164,55],[16...

Python机器学习课程：线性回归算法【代码】【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理最基本的机器学习算法必须是具有单个变量的线性回归算法。如今，可用的高级机器学习算法，库和技术如此之多，以至于线性回归似乎并不重要。但是，学习基础知识总是一个好主意。这样，您将非常清楚地理解这些概念。在本文中，我将逐步解释线性回归算法。 ? 想法和公式线性回归使用非常基本的预测思想。公式如下： Y = C + BX 我...

python线性回归【图】

一.理论基础 1.回归公式　　对于单元的线性回归，我们有：f(x) = kx + b 的方程(k代表权重，b代表截距）。　　对于多元线性回归，我们有：　　　　　或者为了简化，干脆将b视为k0x0,，其中k0为1，于是我们就有：　　　２.损失函数 3.误差衡量 MSE,RMSE,MAE越接近于0越好，R方越接近于1越好。 MSE平均平方误差(mean squared error) 　　　 RMSE，是MSE的开根号　　 MAE平均绝对值误差(mean absolute error) 　　　Ｒ方　...

python --- Boston房价 --- 一元线性回归【代码】

import pandas as pd import numpy as np from sklearn import datasets import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression#把数据转化成pandas的形式，在列尾加上房价PRICE boston_dataset=datasets.load_boston() data=pd.DataFrame(boston_dataset.data) data.columns=boston_dataset.feature_names data['PRICE']=boston_dataset.target # print(data.columns)# 取出房间数和房价并转化成矩...

线性回归 python小样例【代码】

线性回归　　　　优点：结果易于理解，计算上不复杂　　　　缺点：对非线性的数据拟合不好　　　　适用数据类型：数值型和标称型数据　　　　horse=0.0015*annualSalary-0.99*hoursListeningToPulicRadio　　　　这就是所谓的回归方程，其中的0.0015和-0.99称作回归系数，　　　　求这些回归系数的过程就是回归。一旦有了这些回归系数，再给定输入，做预测就非常容易了　　　　具体的做法就是用回归系数乘以输入值，再将结果全部加...

线性回归（python实现）

#数据集 $$D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$$ 其中：$\x_i=(x_i1;x_i2;...,x_id)$　每个数据d个属性 #单属性，二分类分类面：$\f(x) = omiga*x + b$ 最小二乘法求omiga、b 优化函数：$$\min sum_{i = 1}^m (f(x_i) - y_i)^2$$

首页 / PYTHON / python – Spark中的分组线性回归

python – Spark中的分组线性回归

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Spark中的分组线性回归】教程文章相关的互联网学习教程文章

机器学习之路：python线性回归分类器进行良恶性肿瘤分类预测【代码】

机器学习之线性回归使用Python和tensorflow实现【代码】

python如何实现线性回归【图】

【python】随机产生20个点用梯度下降法线性回归拟合---BGD+SGD+MBGD【代码】【图】

史上最易懂——一文详解线性回归算法的纯Python实现【代码】【图】

python实现吴恩达机器学习线性回归ex.1.2【代码】【图】

线性回归，python语法实现【代码】【图】

用Python徒手写线性回归【图】

从零开始，用Python徒手写线性回归【代码】【图】

线性回归算法 - python实现【代码】【图】

Python机器学习课程：线性回归算法【代码】【图】

python线性回归【图】

python --- Boston房价 --- 一元线性回归【代码】

线性回归 python小样例【代码】

线性回归（python实现）

PYTHON - 相关标签

线性回归 - 相关标签

分组 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程