首页 / SCALA / 小记--------sparksql和DataFrame的小小案例java、scala版本

小记--------sparksql和DataFrame的小小案例java、scala版本

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了小记--------sparksql和DataFrame的小小案例java、scala版本，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3085字，纯文字阅读大概需要5分钟。

内容图文

/** * 创建dataframe */ public class DataFrameCreate { public static void main (String[] args){ SparkConf conf = new SparkConf() .setAppName("DataFrameCreate") .setMaster("local"); JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new SQLContext(sc); sqlContext.read().json("hdfs://spark1:9000/test.json").show(); } } //=======================分隔符====================================== package cn.spark.study.sql; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SQLContext; /** * dataframe常用操作 */ public class DataFrameOperation { public static void main(String [] args){ // 创建DataFrame SparkConf conf = new SparkConf() .setAppName("DataFrameCreate"); JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new SQLContext(sc); // 创建出来的DataFrame完全可以理解为一张表 Dataset<Row> json = sqlContext.read().json("hdfs://spark1:9000/students.json"); //打印dataframe ；select * from 表名 json.show(); //打印dataframe的元数据信息（schema） json.printSchema(); //查询某一列的数据 json.select("name").show(); //查询多列 name ，age 并对所有的age列的结果值加1 json.select(json.col("name") , json.col("age").plus(1)).show(); //对某一列的值进行过滤；eg:只展示age字段值大于18的数据 json.select(json.col("age").gt(18)).show(); //根据某一列进行分组，并聚合；eg：通过age分组，并求出每组的个数 json.groupBy("age").count().show(); } }

Scala版本

package cn.spark.study.sql
 
 
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
 
 
/**
  * 创建 dataframe
  */
object DataFrameCreateScala {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("dataFramecreate")
      .setAppName("local")
 
 
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
 
 
    sqlContext.read.json("hdfs://spark1/test.json").show()
  }
}
 
===================================分隔符========================================
package cn.spark.study.sql
 
 
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
 
 
/**
  * dataframe的常用操作
  */
object DataframeOperation {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("dataframeOperation")
      .setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val df = sqlContext.read.json("hdfs://spark1:9000/text.json")
 
 
    //打印dataframe
    df.show()
    //打印dataframe的schema
    df.printSchema()
    //查询某一列的数据
    df.select("name").show()
    //查询多列数据并进行计算；eg：查询name，age列，并对age列的值+1
    df.select(df("name") , df("age")+1).show()
    //查询某列并对其过滤；eg：查询age列并且值大于18
    df.select(df("age").gt(18)).show()
    df.select(df("age")>18).show()
    //对某一列进行分组，并对分组后的结果进行求个数
    df.groupBy(df("age")).count().show()
  }
}

小记--------sparksql和DataFrame的小小案例java、scala版本

标签：构建组织 nbsp tap api 聚合 frame 数据文件关系

本文系统来源：https://www.cnblogs.com/yzqyxq/p/12054371.html

内容总结

以上是互联网集市为您收集整理的小记--------sparksql和DataFrame的小小案例java、scala版本全部内容，希望文章能够帮你解决小记--------sparksql和DataFrame的小小案例java、scala版本所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/516634.html

来源：【匿名】

【上一篇】【Scala】Scala使用JDBC连接Mysql/权限问题【下一篇】php中is_scalar如何判断变量是否是一个标量

更多 ►

【小记--------sparksql和DataFrame的小小案例java、scala版本】教程文章相关的互联网学习教程文章

scala spark and dataframe example【代码】

承接上篇pyspark，这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计，kafka stream实时计算要说一下，版本特别重要，一个是spark版本（<2, 2.0, >2.0），一个是scala版本（主要是<2.11和2.11），注意匹配pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http...