首页 / MYSQL / sparkrdd转dataframe写入mysql的实例讲解

sparkrdd转dataframe写入mysql的实例讲解

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了sparkrdd转dataframe写入mysql的实例讲解，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3670字，纯文字阅读大概需要6分钟。

内容图文

dataframe是在spark1.3.0中推出的新的api，这让spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，据说计算性能更还快了两倍。spark在离线批处理或者实时计算中都可以将rdd转成dataframe进而通过简单的sql命令对数据进行操作，对于熟悉sql的人来说在转换和过滤过程很方便，甚至可以有更高层次的应用，比如在实时这一块，传入kafka的topic名称和sql语句，后台读取自己配置好的内容字段反射成一个class并利用出入的sql对实时数据进行计算，这种情况下不会spark streaming的人也都可以方便的享受到实时计算带来的好处。　　　

下面的示例为读取本地文件成rdd并隐式转换成dataframe对数据进行查询，最后以追加的形式写入mysql表的过程,scala代码示例如下

import java.sql.Timestamp
import org.apache.spark.sql.{SaveMode, SQLContext}
import org.apache.spark.{SparkContext, SparkConf}
object DataFrameSql {
 case class memberbase(data_date:Long,memberid:String,createtime:Timestamp,sp:Int)extends Serializable{
 override def toString: String="%d\t%s\t%s\t%d".format(data_date,memberid,createtime,sp)
 }
 def main(args:Array[String]): Unit ={
 val conf = new SparkConf()
 conf.setMaster("local[2]")
// ----------------------
 //参数 spark.sql.autoBroadcastJoinThreshold 设置某个表是否应该做broadcast，默认10M，设置为-1表示禁用
 //spark.sql.codegen 是否预编译sql成java字节码，长时间或频繁的sql有优化效果
 // spark.sql.inMemoryColumnarStorage.batchSize 一次处理的row数量，小心oom
 //spark.sql.inMemoryColumnarStorage.compressed 设置内存中的列存储是否需要压缩
// ----------------------
 conf.set("spark.sql.shuffle.partitions","20") //默认partition是200个
 conf.setAppName("dataframe test")
 val sc = new SparkContext(conf)
 val sqc = new SQLContext(sc)
 val ac = sc.accumulator(0,"fail nums")
 val file = sc.textFile("src\\main\\resources\\000000_0")
 val log = file.map(lines => lines.split(" ")).filter(line =>
  if (line.length != 4) { //做一个简单的过滤
  ac.add(1)
  false
  } else true)
  .map(line => memberbase(line(0).toLong, line(1),Timestamp.valueOf(line(2)), line(3).toInt))
 // 方法一、利用隐式转换
 import sqc.implicits._
 val dftemp = log.toDF() // 转换
 /*
  方法二、利用createDataFrame方法,内部利用反射获取字段及其类型
  val dftemp = sqc.createDataFrame(log)
  */
 val df = dftemp.registerTempTable("memberbaseinfo")
 /*val sqlcommand ="select date_format(createtime,'yyyy-MM')as mm,count(1) as nums " +
  "from memberbaseinfo group by date_format(createtime,'yyyy-MM') " +
  "order by nums desc,mm asc "*/
 val sqlcommand="select * from memberbaseinfo"
 val sel = sqc.sql(sqlcommand)
 val prop = new java.util.Properties
 prop.setProperty("user","etl")
 prop.setProperty("password","xxx")
 // 调用DataFrameWriter将数据写入mysql
 val dataResult = sqc.sql(sqlcommand).write.mode(SaveMode.Append).jdbc("jdbc:mysql://localhost:3306/test","t_spark_dataframe_test",prop) // 表可以不存在
 println(ac.name.get+" "+ac.value)
 sc.stop()
 }
}

上面代码textFile中的示例数据如下，数据来自hive，字段信息分别为分区号、用户id、注册时间、第三方号

20160309 45386477 2012-06-12 20:13:15 901438
20160309 45390977 2012-06-12 22:38:06 901036
20160309 45446677 2012-06-14 21:57:39 901438
20160309 45464977 2012-06-15 13:42:55 901438
20160309 45572377 2012-06-18 14:55:03 902606
20160309 45620577 2012-06-20 00:21:09 902606
20160309 45628377 2012-06-20 10:48:05 901181
20160309 45628877 2012-06-20 11:10:15 902606
20160309 45667777 2012-06-21 18:58:34 902524
20160309 45680177 2012-06-22 01:49:55 
20160309 45687077 2012-06-22 11:23:22 902607

这里注意字段类型映射，即case class类到dataframe映射，从官网的截图如下

sparkrdd转dataframe写入mysql的实例讲解 - 文章图片

更多明细可以查看官方文档 Spark SQL and DataFrame Guide

以上这篇spark rdd转dataframe 写入mysql的实例讲解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

spark: RDD与DataFrame之间的相互转换方法
Java和scala实现 Spark RDD转换成DataFrame的两种方法小结

内容总结

以上是互联网集市为您收集整理的sparkrdd转dataframe写入mysql的实例讲解全部内容，希望文章能够帮你解决sparkrdd转dataframe写入mysql的实例讲解所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/582186.html

来源：【匿名】

【上一篇】MySQL数据库主机127.0.0.1与localhost区别【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【sparkrdd转dataframe写入mysql的实例讲解】教程文章相关的互联网学习教程文章

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题【代码】【图】

org.apache.spark.sql.DataFrame import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveMode, DataFrame} import scala.collection.mutable.ArrayBuffer import org.apache.spark.sql.hive.HiveContext import java.sql.DriverManager import java.sql.Connection val sqlContext = new HiveContext(sc) val mySQLUrl = "jdbc:mysql://10.180.211.100:3306/appcocdb?user=appcoc&password=A...

将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy【代码】

print? import pandas as pd from sqlalchemy import create_engine ##将数据写入mysql的数据库，但需要先通过sqlalchemy.create_engine建立连接,且字符编码设置为utf8，否则有些latin字符不能处理 yconnect = create_engine(‘mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8‘) pd.io.sql.to_sql(thedataframe,‘tablename‘, yconnect, schema=‘databasename‘, if_exists=‘append‘) i...

Spark:将DataFrame写入Mysql【代码】

mysql的信息我保存在了外部的配置文件，这样方便后续的配置添加。1 //配置文件示例： 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.properties 3 #mysql数据库配置 4 mysql.driver=com.mysql.jdbc.Driver 5 mysql.url=jdbc:mysql://127.0.0.1:3306/database1?useSSL=false&autoReconnect=true&failOverReadOnly=false&rewriteBatchedStatements=true 6 mysql.username=user 7 mysql.password=1234562.需要的jar依赖（sbt版本，maven的...

Spark操作dataFrame进行写入mysql，自定义sql的方式【代码】【图】

现在项目中需要通过对spark对原始数据进行计算，然后将计算结果写入到mysql中，但是在写入的时候有个限制：1、mysql中的目标表事先已经存在，并且当中存在主键，自增长的键id2、在进行将dataFrame写入表的时候，id字段不允许手动写入，因为其实自增长的要求：1、写入数据库的时候，需要指定字段写入，也就是说，只指定部分字段写入2、在写入数据库的时候，对于操作主键相同的记录要实现更新操作，非插入操作分析：spark本身提供了...

编程实现利用 DataFrame 读写 MySQL 的数据【图】

import java.util.Properties 2 import org.apache.spark.sql.types._ 3 import org.apache.spark.sql.Row 4 import org.apache.spark.SparkConf 5 import org.apache.spark.SparkContext 6 import org.apache.spark.sql.SQLContext 7 object TestMySQL { 8 def main(args: Array[String]) { 9 val conf = new SparkConf() 10 conf.setMaster("local") 11 .setAppName("TestMySQL") //设置运行方式...

SparkSQL和DataFrame的学习总结

1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前，核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源，包1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前，核心的新...

sparkrdd转dataframe写入mysql的实例讲解【图】

python pandas dataframe 实现mysql group_contact功能【代码】【图】

dict_ = { stu:[a,b,a,b,c], fav:[fa,fb,faa,fbb,fc] } df_ = pd.DataFrame(dict_)print(df_)#输出内容: # 通过 groupby apply 加lambda实现group_contact print(df_.groupby(stu).apply(lambda x: ,.join(x.fav))) 当然这样也可以实现: print(df_.groupby(stu).apply(lambda x: list(x.fav)))或则: print(df_.groupby(stu).agg({fav : lambda x: , .join(x)}))

如何正确将python的DataFrame格式数据导入到mysql数据库【代码】

如何正确将DataFrame格式数据导入到mysql数据库读取数据库的操作和将数据写入到数据库还是有点不一样的将DataFrame格式数据导入到mysql数据库，采用create_engine（）方法： from sqlalchemy import create_engine # create_engine('mysql+pymysql://用户名:密码@主机/库名?charset=utf8') engine = create_engine('mysql+pymysql://root:wx123456@localhost/testwuxian?charset=utf8') #将数据写入sql pd.io.sql.to_sql(table_c...

python – 将Pandas DataFrame写入MySQL数据库【代码】

我正在尝试使用以下代码将pandas数据帧写入MySQL数据库.import pandas as pd import numpy as np from pandas.io import sql import MySQLdbdf = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8]]).Tdb = MySQLdb.connect("192.168.56.101","nilani","123","test") cursor = db.cursor()cursor.execute(...

编程实现利用 DataFrame 读写 MySQL 的数据【代码】

package scalaimport java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sql.Row import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext object TestMySQL {def main(args: Array[String]) {val conf = new SparkConf()conf.setMaster("local") .setAppName("scalawordcount") //设置运行方式为本地 val sc = new SparkConte...

首页 / MYSQL / sparkrdd转dataframe写入mysql的实例讲解

sparkrdd转dataframe写入mysql的实例讲解

内容导读

内容图文

您可能感兴趣的文章:

内容总结

内容备注

内容手机端

【sparkrdd转dataframe写入mysql的实例讲解】教程文章相关的互联网学习教程文章

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题【代码】【图】

将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy【代码】

Spark:将DataFrame写入Mysql【代码】

Spark操作dataFrame进行写入mysql，自定义sql的方式【代码】【图】

编程实现利用 DataFrame 读写 MySQL 的数据【图】

SparkSQL和DataFrame的学习总结

sparkrdd转dataframe写入mysql的实例讲解【图】

python pandas dataframe 实现mysql group_contact功能【代码】【图】

如何正确将python的DataFrame格式数据导入到mysql数据库【代码】

python – 将Pandas DataFrame写入MySQL数据库【代码】

编程实现利用 DataFrame 读写 MySQL 的数据【代码】

MYSQL - 相关标签

实例 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程