sparkSQL

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了sparkSQL，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1860字，纯文字阅读大概需要3分钟。

内容图文

1.spark SQL简介

官网：http://spark.apache.org/

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程对象，叫DataFrame，并且作为分布式SQL查询引擎的作用

2.为什么要学习spark SQL

2.1 我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性

2.2 MapReduce这种计算模型效率慢，代码繁碎，很多开发者都习惯使用sql，所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快，而且Spark SQL也支持从Hive中读取数据

3.spark SQL特点

sparkSQL - 文章图片

3.1 集成 3.2 同意的访问方式 3.3hive集成 3.4标准连接

4.DataFrame的概念

（1）DataFram是组成命名列的数据集，它在概念上等同于关系数据库中的表，，但在底层具有更丰富的优化

（2）DataFrame可以从各种来源构建，列如：结构化数据文件， hive中的表，外部数据库或现有RDD

（3）DataFrame API支持的语言有Scala，Java，Python和R

sparkSQL - 文章图片

（4）从上图可以看出，DataFrame多了数据的结构信息，即schema（创建DataFrame的一种方式，后边详细介绍），RDD是分布式的 Java对象的集合

（5）DataFrame是分布式的Row对象的集合，DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化

 val row = lines.map ( _.split ( "," )).map ( tp => Row (  tp ( 0 ).toInt, tp ( 1 ), tp ( 2 ), tp ( 3 ), tp ( 4 ).toDouble, tp ( 5 ).toDouble, tp ( 6 ).toInt ))

 val frame: DataFrame = unit.map(tp=>{
      val splits=tp.split(" ")
      val id=splits(0).toInt
      val name=splits(1)
      val age=splits(2).toInt
      val result=splits(3).toInt
      (id,name,age,result)
    }).toDF("id","name","age","address")

5.DataSet的概念

（1）Dataset是数据的分布式集合，Dataset是在Spark 1.6中添加的一个新接口，是DataFrame之上更高一级的抽象

（2）Dataset提供了RDD的优点（强类型化，使用强大的lambda函数的能力）以及Spark SQL优化后的执行引擎的优点

（3）一个Dataset 可以从JVM对象构造，然后使用函数转换（map， flatMap，filter等）去操作

（4）Dataset API 支持Scala和Java， Python不支持Dataset API

内容总结

以上是互联网集市为您收集整理的sparkSQL全部内容，希望文章能够帮你解决sparkSQL所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/905494.html

来源：【匿名】

【上一篇】sql语句创建表和新增表字段【下一篇】关于IE的RegExp.exec的问题

更多 ►

【sparkSQL】教程文章相关的互联网学习教程文章

=SparkSession.builder.config(conf=SparkConf()).getOrCreate()df=spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")df.show()+----+-------+| age| name|+----+-------+|null|Michael|| 30| Andy|| 19| Justin|+----+-------+SparkSQL标签：example imp color dataframe tin text style png 图片本文系统来源：https://www.cnblogs.com/cschen588/p/11827898.html

【Spark深入学习 -16】官网学习SparkSQL【图】

----本节内容-------1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点：SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与RDD交互操作 2.8 聚集函数3.Spark数据源 3.1 通用Load/Save函数 3.2 Parquets文件格式 3.2.1 读取Parquet文件 ...

基于sparksql调用shell脚本运行SQL【代码】

基于sparksql调用shell脚本运行SQL，sparksql提供了类似hive中的 -e , -f ,-i的选项1、定时调用脚本#!/bin/sh # upload logs to hdfs yesterday=`date --date=‘1 days ago‘ +%Y%m%d` /opt/modules/spark/bin/spark-sql -i /opt/bin/spark_opt/init.sql --master spark://10.130.2.20:7077 --executor-memory 6g --total-executor-cores 45 --conf spark.ui.port=4075 -e "insert overwrite table st.stock_realtime_analy...

SparkSQL【代码】

sparksql错误报No such file or director【代码】

今天在非hadoop用户使用sparksql处理insert overwrite table a select b left join c这个句型遇到以下的错误。 Error: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 1601.0 failed 4 times, most recent failure: Lost task 1.3 in stage 1601.0 (TID 30784, ytc-11, executor 2): java.io.FileNotFoundException: /tmp/hadoop-hadoop/nm-local-dir/usercache/nonhadoop/appcache/applica...

SparkSQL与Hive on Spark的比较【图】

简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。架构Spark的架构如下图所示，主要包含四大组件：Driver、Master、Worker和Executor。Spark特点 Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问使用Scala语言编写部署模型1. 单机模型：主要用来开发测试。特点：Driver、Master、Worker和Executor都运行在同一...

2.sparkSQL--DataFrames与RDDs的相互转换【代码】【图】

使用反射获取RDD内的Schema 当已知类的Schema的时候，使用这种基于反射的方法会让代码更加简洁而且效果也很好。通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema，这种方式会让代码比较冗长。这种方法的好处是，在运行时才知道数据的列以及列的类型的情况下，可以动态生成Schema。原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6613755.html 微信：intsmaze 使用反射获取Schema（Inferring the ...

同样的SQL语句在SparkSQL中运行和在hive运行，结果不同

参考：https://blog.csdn.net/happylin0x29a/article/details/8855716问题原因：为了优化读取parquet格式文件，spark默认选择使用自己的解析方式读取数据，结果读出的数据就有问题。解决办法：将配置项spark.sql.hive.convertMetastoreParquet 改为false就行了

sparksql系列(九) spark多job提交，spark多目录处理【代码】

在生产环境中遇到了这种情况：spark程序需要处理输入是多个目录，输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改，最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理，在此记录一下。程序中所有异常处理，建议都在函数里面处理好，不要直接写一些处理代码。这样的话直接调用函数就行。方法一：for直接上典型的：减少使用资源，拉长运行时间代码递进程序 val sparkSession= SparkSession....

Spark系列——从零学习SparkSQL编程（下）

5. 导入Java依赖要使用SparkSQL的API，首先要导入Scala，Spark，SparkSQL的依赖：<properties><scala.version>2.11.8</scala.version><hadoop.version>2.7.4</hadoop.version><spark.version>2.0.2</spark.version></properties><dependencies><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>${scala.version}</version></dependency><dependency><groupId>org.apache.spark</grou...

Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法【图】

可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 如果不为空就将值赋值给变量 Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法标签：span soft sql ros img 修改 spark 变量 sparksql 本文系统来源：https://www.cnblogs.com/RzCong/p/10743615.html

hivesql 迁移spark3.0 sparksql报错如Cannot safely cast '字段':StringType to IntegerType的问题【代码】

"spark.sql.storeAssignmentPolicy").doc("When inserting a value into a column with different data type, Spark will perform " +"type coercion. Currently, we support 3 policies for the type coercion rules: ANSI, " +"legacy and strict. With ANSI policy, Spark performs the type coercion as per ANSI SQL. " +"In practice, the behavior is mostly the same as PostgreSQL. " +"It disallows certain unreasonabl...

sparkSQL实战详解【代码】【图】

) 两个字段进行链接 2、join还支持左联接和右链接，但是其左联接和右链接和我们sql的链接的意思是一样的，同样也是在链接的时候不能对字段进行重新命名，如果两个表中有相同的字段，则就会出现在同一个join的表中，同事左右链接，不会合并用于链接的字段。链接用的关键词：outer,inner,left_outer,right_outer//单字段链接 va...

sparkSQL【代码】【图】

1.spark SQL简介官网：http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程对象，叫DataFrame，并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性 2.2 MapReduce这种计算模型效率慢，代码繁碎，很多开发者都习惯使用sql，所以Spark SQL的应运而生，它是...

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用【代码】【图】

vi /etc/profile设置如下参数：export SPARK_HOME=/app/hadoop/spark-1.1.0 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbinexport HIVE_HOME=/app/hadoop/hive-0.13.1 export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:$HIVE_HOME/bin2.1.2 启动HDFS$cd /app/hadoop/hadoop-2.2.0/sbin $./start-dfs.sh2.1.3 启动Spark集群$cd /app/hadoop/spark-1.1.0/sbin $./start-all.sh2.1.4 启动Spark-Shell在spark客户...

首页 / 更多教程 / sparkSQL

sparkSQL

内容导读

内容图文

内容总结

内容备注

内容手机端

【sparkSQL】教程文章相关的互联网学习教程文章

SparkSQL

【Spark深入学习 -16】官网学习SparkSQL【图】

基于sparksql调用shell脚本运行SQL【代码】

SparkSQL【代码】

sparksql错误报No such file or director【代码】

SparkSQL与Hive on Spark的比较【图】

2.sparkSQL--DataFrames与RDDs的相互转换【代码】【图】

同样的SQL语句在SparkSQL中运行和在hive运行，结果不同

sparksql系列(九) spark多job提交，spark多目录处理【代码】

Spark系列——从零学习SparkSQL编程（下）

Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法【图】

hivesql 迁移spark3.0 sparksql报错如Cannot safely cast '字段':StringType to IntegerType的问题【代码】

sparkSQL实战详解【代码】【图】

sparkSQL【代码】【图】

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用【代码】【图】

更多教程 - 最新教程

更多教程 - 最热教程