首页 / HADOOP / Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8525字，纯文字阅读大概需要13分钟。

内容图文

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类

朴素贝叶斯是一种经典的分类方法，其原理在高中或大学的概率论部分学习了很多了，下面开始介绍在Spark环境下使用MLlib来使用Naive Bayes来对网站性质进行分类判断。

第一步：导入库函数

import sys
from time import time
import pandas as pd
import matplotlib.pyplot as plt
from pyspark import SparkConf, SparkContext
from pyspark.mllib.classification import NaiveBayes
from pyspark.mllib.regression import LabeledPoint
import numpy as np
from pyspark.mllib.evaluation import BinaryClassificationMetrics
from pyspark.mllib.feature import StandardScaler

第二步：数据准备

def get_mapping(rdd, idx):
return rdd.map(lambda fields: fields[idx]).distinct().zipWithIndex().collectAsMap()

def extract_label(record):
label=(record[-1])
return float(label)

def extract_features(field,categoriesMap,featureEnd):
categoryIdx = categoriesMap[field[3]]
categoryFeatures = np.zeros(len(categoriesMap))
categoryFeatures[categoryIdx] = 1
numericalFeatures=[convert_float(field) for field in field[4: featureEnd]]
return np.concatenate(( categoryFeatures, numericalFeatures))

def convert_float(x):
ret=(0 if x=="?" else float(x))
return(0 if ret<0 else ret)

def PrepareData(sc):
print("Data loading...")
rawDataWithHeader = sc.textFile(Path+"data/train.tsv")
header = rawDataWithHeader.first()
rawData = rawDataWithHeader.filter(lambda x:x !=header)
rData=rawData.map(lambda x: x.replace("\"", ""))
lines = rData.map(lambda x: x.split("\t"))
print("The number of data" + str(lines.count()))
print("Before normalization:")
categoriesMap = lines.map(lambda fields: fields[3]). \
distinct().zipWithIndex().collectAsMap()
labelRDD = lines.map(lambda r: extract_label(r))
featureRDD = lines.map(lambda r: extract_features(r,categoriesMap,len(r) - 1))
for i in featureRDD.first():
print (str(i)+","),
print( "After normalization:" )
stdScaler = StandardScaler(withMean=False, withStd=True).fit(featureRDD)
ScalerFeatureRDD=stdScaler.transform(featureRDD)
for i in ScalerFeatureRDD.first():
print (str(i)+","),

labelpoint=labelRDD.zip(ScalerFeatureRDD)
labelpointRDD=labelpoint.map(lambda r: LabeledPoint(r[0], r[1]))

(trainData, validationData, testData) = labelpointRDD.randomSplit([8, 1, 1])
print("trainData:" + str(trainData.count()) +
"validationData:" + str(validationData.count()) +
"testData:" + str(testData.count()))
return (trainData, validationData, testData, categoriesMap)

第三步：对模型进行训练

def PredictData(sc,model,categoriesMap):
print("Data loading...")
rawDataWithHeader = sc.textFile(Path+"data/test.tsv")
header = rawDataWithHeader.first()
rawData = rawDataWithHeader.filter(lambda x:x !=header)
rData=rawData.map(lambda x: x.replace("\"", ""))
lines = rData.map(lambda x: x.split("\t"))
print("The number of data" + str(lines.count()))
dataRDD = lines.map(lambda r: ( r[0] ,
extract_features(r,categoriesMap,len(r) )))
DescDict = {
0: "ephemeral",
1: "evergreen"
}
for data in dataRDD.take(10):
predictResult = model.predict(data[1])
print ("Web:" +str(data[0])+"\n" +\
"Predict:"+ str(predictResult)+ \
"Illustration:"+DescDict[predictResult] +"\n")

第四步：对模型进行评估（NB模型只需要调节一个参数lambda）

def evaluateModel(model, validationData):
score = model.predict(validationData.map(lambda p: p.features))
score = score.map(lambda score : float(score))
Labels = validationData.map(lambda p: p.label)
Labels = Labels.map(lambda Labels : float(Labels))
scoreAndLabels=score.zip(Labels)
metrics = BinaryClassificationMetrics(scoreAndLabels)
AUC=metrics.areaUnderROC
return(AUC)

def trainEvaluateModel(trainData,validationData,lambdaParam):
startTime = time()
model = NaiveBayes.train(trainData, lambdaParam)
AUC = evaluateModel(model, validationData)
duration = time() - startTime
print(" lambda="+str( lambdaParam) +\
" time="+str(duration) + \
" AUC = " + str(AUC) )
return (AUC,duration, lambdaParam,model)

def evalParameter(trainData, validationData, evalparm,
lambdaParamList):
metrics = [trainEvaluateModel(trainData, validationData,regParam )
for regParam in lambdaParamList]
evalparm="lambdaParam"
IndexList=lambdaParamList
df = pd.DataFrame(metrics,index=IndexList,
columns=['AUC', 'duration',' lambdaParam','model'])
showchart(df,evalparm,'AUC','duration',0.5,0.7 )

def showchart(df,evalparm ,barData,lineData,yMin,yMax):
ax = df[barData].plot(kind='bar', title =evalparm,figsize=(10,6),legend=True, fontsize=12)
ax.set_xlabel(evalparm,fontsize=12)
ax.set_ylim([yMin,yMax])
ax.set_ylabel(barData,fontsize=12)
ax2 = ax.twinx()
ax2.plot(df[[lineData ]].values, linestyle='-', marker='o', linewidth=2.0,color='r')
plt.show()

def evalAllParameter(training_RDD, validation_RDD, lambdaParamList):
metrics = [trainEvaluateModel(trainData, validationData, lambdaParam )
for lambdaParam in lambdaParamList ]
Smetrics = sorted(metrics, key=lambda k: k[0], reverse=True)
bestParameter=Smetrics[0]

print("lambdaParam:" + str(bestParameter[2]) +
"AUC = " + str(bestParameter[0]))
return bestParameter[3]

def parametersEval(trainData, validationData):
print("For evaluating lambdaParam")
evalParameter(trainData, validationData,"lambdaParam",
lambdaParamList=[1.0, 3.0, 5.0, 15.0, 25.0,30.0,35.0,40.0,45.0,50.0,60.0])

第五步：Spark相关设置

def SetLogger( sc ):
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)

def SetPath(sc):
global Path
if sc.master[0:5]=="local" :
Path="file:/home/jorlinlee/pythonsparkexample/PythonProject/"
else:
Path="hdfs://master:9000/user/jorlinlee/"

def CreateSparkContext():
sparkConf = SparkConf() \
.setAppName("NB") \
.set("spark.ui.showConsoleProgress", "false")
sc = SparkContext(conf = sparkConf)
print ("master="+sc.master)
SetLogger(sc)
SetPath(sc)
return (sc)

sc.stop()

第六步：运行主程序

if __name__ == "__main__":
print("NB")
sc=CreateSparkContext()
print("Preparing")
(trainData, validationData, testData, categoriesMap) =PrepareData(sc)
trainData.persist(); validationData.persist(); testData.persist()
print("Evaluating")
(AUC,duration, lambdaParam,model)= \
trainEvaluateModel(trainData, validationData, 60.0)
if (len(sys.argv) == 2) and (sys.argv[1]=="-e"):
parametersEval(trainData, validationData)
elif (len(sys.argv) == 2) and (sys.argv[1]=="-a"):
print("Best parameter")
model=evalAllParameter(trainData, validationData,
[1.0, 3.0, 5.0, 15.0, 25.0,30.0,35.0,40.0,45.0,50.0,60.0])
print("Test")
auc = evaluateModel(model, testData)
print("AUC:" + str(auc))
print("Predict")
PredictData(sc, model, categoriesMap)

结果：

Web:http://www.lynnskitchenadventures.com/2009/04/homemade-enchilada-sauce.html
Predict:1.0Illustration:evergreen

Web:http://lolpics.se/18552-stun-grenade-ar
Predict:1.0Illustration:evergreen

Web:http://www.xcelerationfitness.com/treadmills.html
Predict:1.0Illustration:evergreen

Web:http://www.bloomberg.com/news/2012-02-06/syria-s-assad-deploys-tactics-of-father-to-crush-revolt-threatening-reign.html
Predict:1.0Illustration:evergreen

Web:http://www.wired.com/gadgetlab/2011/12/stem-turns-lemons-and-limes-into-juicy-atomizers/
Predict:1.0Illustration:evergreen

Web:http://www.latimes.com/health/boostershots/la-heb-fat-tax-denmark-20111013,0,2603132.story
Predict:1.0Illustration:evergreen

Web:http://www.howlifeworks.com/a/a?AG_ID=1186&cid=7340ci
Predict:1.0Illustration:evergreen

Web:http://romancingthestoveblog.wordpress.com/2010/01/13/sweet-potato-ravioli-with-lemon-sage-brown-butter-sauce/
Predict:1.0Illustration:evergreen

Web:http://www.funniez.net/Funny-Pictures/turn-men-down.html
Predict:1.0Illustration:evergreen

Web:http://youfellasleepwatchingadvd.com/
Predict:1.0Illustration:evergreen

内容总结

以上是互联网集市为您收集整理的Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类全部内容，希望文章能够帮你解决Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/635700.html

来源：【匿名】

【上一篇】Python+Spark2.0+hadoop学习笔记——Python Spark MLlib逻辑斯蒂回归二分类【下一篇】php能用hadoop吗

更多 ►

【Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类】教程文章相关的互联网学习教程文章

Hadoop学习笔记（一）—hadoop2.5.2+zookeeper3.6.4+centosx64+vmware11环境搭建【代码】【图】

前言大数据实在是太热，一直对新技术充满着向往，其实hadoop也不是新技术，已经好几年了。打算学习，一下hadoop整个生态圈的内容。这篇文章介绍一下环境搭建，自己搭环境摸索了好几天连着，终于搭建完成，记录一下。并share一下，如果哪天你也需要，大家一起共勉。在这希望...

Hadoop学习笔记(3)——分布式环境搭建【图】

Hadoop学习笔记(3) ——分布式环境搭建前面，我们已经在单机上把Hadoop运行起来了，但我们知道Hadoop支持分布式的，而它的优点就是在分布上突出的，所以我们得搭个环境模拟一下。在这里，我们采用这样的策略来模拟环境，我们使用3台ubuntu机器，1台为作主机(master)，另外2台作为从机(slaver)。同时，这台主机，我们就用第一章中搭建好的环境来。我们采用与第一章中相似的步骤来操作: 运行环境搭建在前面，我们知道，运行hadoo...

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

NameNodeHttpServer启动源码剖析，这一部分主要按以下步骤进行：　　一、源码调用分析　　二、伪代码调用流程梳理　　三、http server服务流程图解第一步，源码调用分析　　前一篇文章已经锁定到了NameNode.java类文件，搜索找到main()，可以看到代码只有寥寥几行，再筛除掉一些参数校验以及try-catch逻辑代码，　　剩下的核心的代码甚至只有两行，如下： 1publicstaticvoid main(String argv[]) throws Exception {2if (DFSUtil.p...

Hadoop学习笔记—17.Hive框架学习【图】

一、Hive：一个牛逼的数据仓库1.1 神马是Hive？　　Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer...

Hadoop 学习笔记1【图】

1. Hadoop 最出名的是 MapReduce和 HDFS，不过也有很多其他有用的子项目。技术栈如下： Core 一系列分布式文件系统和通用I/O的组件和接口（序列化、Java RPC和持久化数据结构）Avro 一种提供高效、跨语言RPC的数据序列系统，持久化数据存储。MapReduce 分布式数据处理模式和执行环境，运行于大型商用机集群。HDFS 分布式文件系统，运行于大型商用机集群。Pig 一种数据流语言和运行环境，用以检索非常大的数据集。...

Hadoop学习笔记之Hadoop伪分布式环境搭建

搭建为伪分布式Hadoop环境1、宿主机（Windows）与客户机（安装在虚拟机中的Linux）网络连接。a) Host-only 宿主机与客户机单独组网；好处：网络隔离；坏处：虚拟机和其他服务器之间不能通讯；b) Bridge 桥接宿主机与客户机在同一个局域网中。好处：窦在同一个局域网，可以互相访问；坏处：不完全。2、Hadoop的为分布式安装步骤a) 设置静态IP在centos下左面上右上角图标右键修改；重启网卡service network restart;验证：执行命令i...

Hadoop学习笔记（三）——zookeeper的一致性协议：ZAB

ZAB：ZooKeeper的Atomic Broadcast协议，能够保证发给各副本的消息顺序相同。Zookeeper使用了一种称为Zab（ZookeeperAtomic Broadcast）的协议作为其一致性复制的核心，其特点为高吞吐量、低延迟、健壮、简单，但不过分要求其扩展性。 Zookeeper的实现是有Client、Server构成，Server端提供了一个一致性复制、存储服务，Client端会提供一些具体的语义，比如分布式锁、选举算法、分布式互斥等。从存储内容来说，Server端更多的是存储...

hadoop学习笔记

map函数执行结束后，map输出的<k, v>一共有4个，分别是<hello, 1><you, 1>,<hello, 1>,<me, 1>分区，默认只有一个分区排序 <hello, 1>,<hello, 1>,<me, 1><you, 1>分组把相同key的value放到一个集合中 <hello, {1,1}><me, {1}><you, {1}>，每一组调用一次reduce函数归约（可选）map任务输出的临时结果存放在linux磁盘上。原文：http://my.oschina.net/sniperLi/blog/364008

hadoop1.0.3学习笔记【代码】【图】

回到目录最近要从网上抓取数据下来，然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录安装hadoop1.0.3HDFSwordcountmapreduce去重mapreduce算平均分mapreduce排序安装hadoop1.0.3 1 ubuntu中安装hadoop 1.0.32 ------------伪分布式安装-------------3 1.安装ssh4 sudo apt-get install openssh-server5 如果出现E:Could not open lock file /var/lib/dpkg/lock6 可能是前...

hadoop学习笔记2---hadoop的三种运行模式

1、单机模式安装简单，在一台机器上运行服务，几乎不用做任何配置，但仅限于调试用途。没有分布式文件系统，直接读写本地操作系统的文件系统。2、伪分布式模式在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondary namenode等进程，模拟分布式运行的各个节点。配置已经很接近完全分布式。3、完全分布式模式正常的Hadoop集群，由多个各司其职的节点构成。原文：http://blog.51cto.com/xiaoxiaozhou/2128670

Hadoop学习笔记0002——HDFS文件操作

Hadoop学习笔记0002——HDFS文件操作说明：Hadoop之HDFS文件操作常有两种方式，命令行方式和JavaAPI方式。方式一：命令行方式Hadoop文件操作命令形式为：hadoop fs -cmd <args>说明：cmd是具体的文件操作命令，<args>是一组数目可变的参数。Hadoop最常用的文件操作命令，包括添加文件和目录、获取文件、删除文件等。 1 添加文件和目录HDFS有一个默认工作目录/usr/$USER，其中$USER是你的登录用户名，作者的用户名是root。该目录不...

hadoop-sqoop学习笔记

======导入====sqoop import --connect jdbc:mysql://20.12.20.165:3306/luo0907 --username root --password 12345 --table aa01 --fields-terminated-by ‘\t‘ -m 1 --hive-importsqoop import --connect jdbc:mysql://20.12.20.165:3306/luo0907 --username root --password 12345 --table aa01 --fields-terminated-by ‘\t‘ -m 1 --hive-import --hive-overwrite --create-hive-table --hive-table luo0908.aa01 --delete-t...

第126讲：Hadoop集群管理之Datanode目录元数据结构详解学习笔记

第126讲：Hadoop集群管理之Datanode目录元数据结构详解学习笔记namenode是管理hdfs文件系统的元数据datanode是负责当前节点上的数据的管理，具体目录内容是在初始阶段自动创建的。在用hdfs dfs namenode format时并没有对datanode进行format。在datanode中目录是按文件信息存储的。datanode存在于具体节点上的hadoop-2.6.0/dfs/data/current中。datanode的VERSION内容与namenode的VERSION内容相似。storageID：在namenode与datanod...

Spark学习笔记-hadoop命令【代码】

进入 $HADOOP/bin一.文件操作文件操作类似于正常的linux操作前面加上“hdfs dfs -”前缀也可以写成hadoop而不用hdfs,但终端中显示Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.1.创建目录：(注意文件夹需一级一级创建)hdfs dfs -mkdir /userhdfs dfs -mkdir /user/comhdfs dfs -mkdir /user/com/evor2.删除文件目录hdfs dfs -rm -r /user/com/evor （-rmr也可以）删除文件夹...

C# Hadoop学习笔记（七）—C#的云计算框架借鉴（下）【图】

转自：http://blog.csdn.net/black0707/article/details/12853049 在上篇里，我们主要讨论了，这个系统怎样处理大数据的“读”操作，当然还有一些细节没有讲述。下篇，我们将主要讲述，“写”操作是如何被处理的。我们都知道，如果只有“读”，那几乎是不用做任何数据同步的，也不会有并发安全问题，之所以，会产生这样那样的问题，会导致缓存和数据库的数据不一致，其实根源就在于“写”操作的存在。下面，让我们看一看，当系统需...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类】教程文章相关的互联网学习教程文章

Hadoop学习笔记（一）—hadoop2.5.2+zookeeper3.6.4+centosx64+vmware11环境搭建【代码】【图】

Hadoop学习笔记(3)——分布式环境搭建【图】

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

Hadoop学习笔记—17.Hive框架学习【图】

Hadoop 学习笔记1【图】

Hadoop学习笔记之Hadoop伪分布式环境搭建

Hadoop学习笔记（三）——zookeeper的一致性协议：ZAB

hadoop学习笔记

hadoop1.0.3学习笔记【代码】【图】

hadoop学习笔记2---hadoop的三种运行模式

Hadoop学习笔记0002——HDFS文件操作

hadoop-sqoop学习笔记

第126讲：Hadoop集群管理之Datanode目录元数据结构详解学习笔记

Spark学习笔记-hadoop命令【代码】

C# Hadoop学习笔记（七）—C#的云计算框架借鉴（下）【图】

PYTHON - 相关标签

HADOOP - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程