首页 / 大数据 / 大数据笔记（三十一）——SparkStreaming详细介绍

大数据笔记（三十一）——SparkStreaming详细介绍

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了大数据笔记（三十一）——SparkStreaming详细介绍，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7886字，纯文字阅读大概需要12分钟。

内容图文

Spark Streaming: Spark用于处理流式数据的模块，类似Storm

核心：DStream（离散流），就是一个RDD
============================================
一、Spark Streaming基础
1、什么是Spark Streaming？
（*）Spark Streaming makes it easy to build scalable fault-tolerant streaming applications.
（*）常见的流式处理框架
（1）Apache Storm
（2）Spark Streaming
（3）JStorm：阿里巴巴
（4）Flink：可以很好的管理内存

（*）离线计算和流式计算各自的特点
典型代表数据的采集数据源（结果）
离线计算： MR、Spark Core Sqoop 批量操作
流式计算： Storm等等 Flume（Kafka）实时性

（*）典型的流式计算的框架：参考Hadoop的课件：P91

2、简介Spark Streaming内部结构
技术分享图片

3、演示Demo：NetworkWordCount 处理的是流式数据
（*）工具：netcat
（*）文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example
（*）步骤：启动两个窗口
第一个窗口中：

bin/run-example streaming.NetworkWordCount bigdata11 9999

第二个窗口中：启动消息服务器（先启动）

nc -l -p 9999

注意：如果要演示成功，保证虚拟机的CPU的核数至少2以上
技术分享图片

运行：

技术分享图片

4、开发自己的NetworkWordCount程序

技术分享图片

                 1
                package
                 main.scala.demo

                 2
                 3
                import
                 org.apache.spark.SparkConf

                 4
                import
                 org.apache.spark.storage.StorageLevel

                 5
                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}

                 6
                 7
                /**
                 8
                  * Created by YOGA on 2018/2/27.

                 9
                */
                10
                object MyNetworkWordCount {

                11
                  def main(args: Array[String]) {

                12
                //
                核心：通过StreamingContext对象，去创建一个DStream

                13
                //
                DStream从外部接收数据（使用的是Linux上的netcat工具）

                14
                15
                //
                创建一个SparkConf对象

                16
                //
                local[2]:相当于有两个工作线程，一个接收一个发送
                17     val sparkconf = new SparkConf()
18                     .setAppName("MyNetworkWordCount")
19                       .setMaster("local[2]")
2021//创建StreamContext，表示每隔三秒采集一次数据22     val ssc = new StreamingContext(sparkconf,Seconds(3))
2324//创建DStream,看成一个输入流
25//IP，端口，缓存到硬盘2627     val lines = ssc.socketTextStream("192.168.153.11",1234,StorageLevel.MEMORY_AND_DISK_SER)
2829//执行WordCount30     val words = lines.flatMap(_.split(" "))
3132//使用transform完成同样的计数，相当于map操作
33//val wordPair = words.transform(x=>x.map(x=>(x,1)))
34//val wordCount = wordPair.reduceByKey(_+_)35     val wordCount = words.map((_,1)).reduceByKey(_+_)
3637/*38    * 参数一：执行运算
39    * 参数二：窗口的大小
40    * 参数三：创建滑动的距离
41    *
42    * 例子：每9秒钟，把过去30秒的数据进行wordcount
43    * 注意：第二个参数 第三个参数 必须是采样频率的整数倍
44    * */45//val wordCount = words.map((_,1)).reduceByKeyAndWindow((a:Int,b:Int)=>(a+b),Seconds(30),Seconds(9))
46//输出47    wordCount.print()
4849//启动StreamingContext50    ssc.start()
5152//等待计算完成53    ssc.awaitTermination()
54  }
5556 }

二、Spark Streaming进阶

bin/spark-shell --master spark://bigdata11:7077
1、类：StreamingContext（类似：Spark Context、SQLContext）
上下文对象

创建的方式：
（1）通过SparkConf来创建

val sparkconf = new SparkConf().setAppName("MyNetworkWordCount").setMaster("local[2]")

//创建StreamingContext，表示每隔3秒采集一次数据
val ssc = new StreamingContext(sparkconf,Seconds(3))

（2）通过SparkContext对象来创建

                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}
val ssc = new StreamingContext(sc,Seconds(3))

说明：
（1）setMaster("local[2]")
（2）当创建StreamingContext对象，内部会创建一个SparkContext对象
（3）当StreamingContext开始执行，不能添加新的任务
（4）同一个时刻上，JVM只能有一个活动的StreamingContext

2、DStream（离散流）：把连续的数据流，变成不连续的离散流，表现形式就是RDD
简单来说：把连续的变成不连续的

技术分享图片

操作：Transformation和Action
? （*）transform(func)
? 通过RDD-to-RDD函数作用于源DStream中的各个RDD，可以是任意的RDD操作，从而返回一个新的RDD

改写上面WordCount例子，屏蔽35行

                //
                使用transform完成同样的计数，相当于map操作
33     val wordPair = words.transform(x=>x.map(x=>(x,1)))
34     val wordCount = wordPair.reduceByKey(_+_)

（*）?updateStateByKey(func)
可以进行累加操作。方法：设置检查点，定义一个累加功能的函数

                 1
                package
                 main.scala.demo

                 2
                 3
                import
                 org.apache.spark.SparkConf

                 4
                import
                 org.apache.spark.storage.StorageLevel

                 5
                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}

                 6
                 7
                /**
                 8
                  * Created by YOGA on 2018/2/28.

                 9
                */
                10
                object MyTotalNetworkWordCount {

                11
                  def main(args: Array[String]) {

                12     val sparkconf = new SparkConf()
13       .setAppName("MyNetworkWordCount")
14       .setMaster("local[2]")
1516//创建StreamContext，表示每隔三秒采集一次数据17     val ssc = new StreamingContext(sparkconf,Seconds(3))
1819//注意：如果累计，在执行计算的时候，需要保持之前的状态信息
20//设置检查点21     ssc.checkpoint("hdfs://192.168.153.11:9000/spark/checkpoint0228")
2223//创建DStream,看成一个输入流24     val lines = ssc.socketTextStream("192.168.153.11",1234,StorageLevel.MEMORY_AND_DISK_SER)
2526//执行WordCount27     val words = lines.flatMap(_.split(" "))
2829//每个单词记一次数30     val pairs = words.map((_,1))
3132//定义一个函数，进行累加
33//参数：1、当前的值 2、之前的值34     val addFunc = (currentValues:Seq[Int],preValues:Option[Int]) =>{
35//得到当前的值36       val currentCount = currentValues.sum
3738//先得到之前的值39       val preCount = preValues.getOrElse(0)
4041//返回累加结果42       Some(currentCount + preCount)
43    }
4445//统计每个单词出现的频率：累计46     val totalCount = pairs.updateStateByKey(addFunc)
47    totalCount.print()
4849//启动任务50    ssc.start()
51    ssc.awaitTermination()
5253  }
54 }

3、窗口操作

技术分享图片

例子：每9秒钟，把过去30秒的数据进行WordCount
注释上面的代码35行，放开下面一行代码

                /*
                
38     * 参数一：执行运算
39     * 参数二：窗口的大小
40     * 参数三：创建滑动的距离
41     *
42     * 例子：每9秒钟，把过去30秒的数据进行wordcount
43     * 注意：第二个参数 第三个参数 必须是采样频率的整数倍，采样频率3s
44     * 
                */
45     val wordCount = words.map((_,1)).reduceByKeyAndWindow((a:Int,b:Int)=>(a+b),Seconds(30),Seconds(9))

4、输入和输出
（1）输入：接收器接收外部数据源的数据
（*）基本数据源：文件流、RDD队列流、Socket流
（*）高级数据源：Kafka、Flume
文件流：监听一个目录，当目录下的文件发生变化的时候，将变化的数据读入DStream

                package
                 main.scala.demo


                import
                 org.apache.spark.SparkConf

                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}


                /**
                
  * Created by YOGA on 2018/2/28.
  
                */
                
object MyFileDStream {
  def main(args: Array[String]) {
    
                //
                创建一个SparkConf对象
    
                //
                local[2]:相当于有两个工作线程，一个接收一个发送
    val sparkconf = new SparkConf()
      .setAppName("MyNetworkWordCount")
      .setMaster("local[2]")

    //创建StreamContext，表示每隔三秒采集一次数据
    val ssc = new StreamingContext(sparkconf,Seconds(3))

      //监听一个目录，当目录下的文件发生变化的时候，将变化的数据读入DStream
    val lines = ssc.textFileStream("D:\\temp\\aaa")

    lines.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

RDD队列流queueStream

：定义一个for循环，生成RDD放入队列

                package
                 main.scala.demo


                import
                 org.apache.spark.SparkConf

                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}


                import
                 scala.collection.mutable

                import
                 scala.collection.mutable.Queue

                import
                 org.apache.spark.rdd.RDD

                /**
                
  * Created by YOGA on 2018/2/28.
  
                */
                
object MyRDDQueueDStream {
  def main(args: Array[String]){
    val sparkconf = new SparkConf()
      .setAppName("MyNetworkWordCount")
      .setMaster("local[2]")

    //创建StreamContext，表示每隔三秒采集一次数据
    val ssc = new StreamingContext(sparkconf,Seconds(3))

    //创建一个队列,把生成RDD放入队列
    val rddQueue = new mutable.Queue[RDD[Int]]()
    //初始化for(i <- 1 to 3){
      rddQueue += ssc.sparkContext.makeRDD(1 to 10)

      //让线程睡几秒
      Thread.sleep(3000)

    }

    //创建一个RDD的DStream
    val inputStream = ssc.queueStream(rddQueue)
    //处理：乘以10
    val result = inputStream.map(x=> (x,x*10))
    result.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

运行：

技术分享图片

（2）输出操作

技术分享图片

5、集成DataFrame和SQL: 使用SparkSQL的方式处理流式数据

把RDD转换成DataFrame，并生成临时表，然后就可以进行SQL查询

                 1
                package
                 main.scala.demo

                 2
                 3
                import
                 org.apache.spark.SparkConf

                 4
                import
                 org.apache.spark.sql.SparkSession

                 5
                import
                 org.apache.spark.storage.StorageLevel

                 6
                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}

                 7
                 8
                /**
                 9
                  * Created by YOGA on 2018/2/28.

                10
                */
                11
                object MyNetWorkWordCountBySQL {

                12
                  def main(args: Array[String]) {

                13
                //
                核心：通过StreamingContext对象，去创建一个DStream

                14
                //
                DStream从外部接收数据（使用的是Linux上的netcat工具）

                15
                16
                //
                创建一个SparkConf对象

                17
                //
                local[2]:相当于有两个工作线程，一个接收一个发送
                18     val sparkconf = new SparkConf()
19       .setAppName("MyNetworkWordCount")
20       .setMaster("local[2]")
2122//创建StreamContext，表示每隔三秒采集一次数据23     val ssc = new StreamingContext(sparkconf,Seconds(3))
2425//创建DStream,看成一个输入流26     val lines = ssc.socketTextStream("192.168.153.11",1234,StorageLevel.MEMORY_AND_DISK_SER)
2728//得到的所有单词29     val words = lines.flatMap(_.split(" "))
30//val wordPair = words.transform(x=> x.map(x=>(x,1)))
31//val wordCount = wordPair.reduceByKey(_+_)
3233//使用sparkSQL处理Spark Streaming的数据34     words.foreachRDD(rdd =>{
35//使用SparkSession来创建36       val spark = SparkSession.builder()
37                    .config(rdd.sparkContext.getConf)
38                    .getOrCreate()
3940//需要把RDD转成一个DataFrame41import spark.implicits._
42       val wordCountDF = rdd.toDF("word")
4344//注册成一个表45       wordCountDF.createOrReplaceTempView("words")
4647//执行SQL48       val result = spark.sql("select * from words group by word")
49      result.show()
5051       Thread.sleep(5000)
52    })
535455//启动StreamingContext56    ssc.start()
5758//等待计算完成59    ssc.awaitTermination()
60  }
61 }

原文：https://www.cnblogs.com/lingluo2017/p/8708600.html

内容总结

以上是互联网集市为您收集整理的大数据笔记（三十一）——SparkStreaming详细介绍全部内容，希望文章能够帮你解决大数据笔记（三十一）——SparkStreaming详细介绍所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1176944.html

来源：【匿名】

【上一篇】大数据学习总结（3）通用的技术架构【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【大数据笔记（三十一）——SparkStreaming详细介绍】教程文章相关的互联网学习教程文章

国产数据库比较之大数据分析【图】

最近，大数据越来越热，在自主可控的大旗下，各路国产数据库纷纷推出各自产品，本文，对国产数据库在大数据分析方面做些比较，所有都来源各官方网站内容。下面所选都是专门针对大数据的产品。650) this.width=650;" src="/upload/getfiles/default/2022/11/16/20221116065703052.jpg" title="dm-gbase-bloudwave-k-store.png" width="600" height="380" border="0" hspace="0" vspace="0" />据上图，各路产品相差不是非常显著，都...

mysql大数据量下优化

1 优化sql和索引2 增加缓存如：redis3 主从复制或主主复制，读写分离4 利用mysql自带分区表5 先做垂直拆分，将一个大系统分为多个小系统，也就是分布式6 水平切分，要选择一个合理的sharding key,为了有好的查询效率，表结构也要改动，做一定的冗余，应用也要改，sql中尽量带sharding key，将数据定位到限定的表上去查，而不是扫描全部的表参考：https://www.cnblogs.com/nengka/p/mysqloptimization.html原文：https://www.cnblo...

大数据实战（九十三）：电商数仓（七十七）集群管理（二）卸载CDH【图】

14.1 停止所有服务1）停止所有集群服务 2）停止CMservice 14.2 停用并移除Parcels对我们安装的parcels，依次执行停用、仅限停用状态、从主机删除 14.3 删除集群点击要删除的Cluster右侧的下拉箭头，点击删除 14.4 卸载Cloudera Manager Server1）停止Cloudera Manager Server[root@hadoop102 ~]# systemctl stop cloudera-scm-server2）卸载Cloudera Manager Server[root@hadoop102 ~]# yum remove cloudera-manager-server14.5 卸...

大数据在未来应用到哪些领域

互联网时代飚速发展，大数据作为近年热门兴起的行业之一已经越来越受人们重视，但是大学并没有相关专业随之同速发展，大部分企业招收的大数据人才80%来源于培训机构，东时教育联合高校建设大学生就业社会实践基地，让处于迷茫中的广大高校毕业生，找到了与社会亲密接触的机会，成为很多人弥补自身短板的选择。基于互联网的大数据时代，大数据在未来应用到哪些领域？东时拥有最权威的师资力量和最科学的培训体系，力争为学员提供从I...

大数据实践（九）--sqoop安装及基本操作【代码】

前置工具及环境Hadoop 2.7.3sqoop 1.4.6mysql 8mysql-connector-java-8.0.20.jarjava-json.jar一、简介Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中；导出数据：从分布式文件系统中导出数据到关系数据库中。其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移。二、安装1、解压、配...

DT大数据梦工厂第5讲

DT大数据梦工厂第5讲 http://yun.baidu.com/s/1jGjFpWy 本节王老师讲了数组。最主要的是使用了scala worksheet这个功能。这个功能可以打印出每一行代码的运行情况。 package com.dt.scala.helloimport scala.collection.mutable.ArrayBufferobject ArrayOps { def main(args: Array[String]): Unit = { val nums = new Array[Int](10) val a = new Array[String](10) val s = Array("Hello", "World") s(0) = "G...

大数据测试【图】

什么是大数据大数据是指无法在一定时间范围内用传统的计算机技术进行处理的海量数据集。对于大数据的测试则需要不同的工具、技术、框架来进行处理。大数据的体量大、多样化和高速处理所涉及的数据生成、存储、检索和分析使得大数据工程师需要掌握极其高的技术功底。需要你学习掌握更多的大数据技术、Hadoop、Mapreduce等等技术。大数据测试策略大数据应用程序的测试更多的是去验证其数据处理而不是验证其单一的功能特色。当然在大数...

大数据基础

1、Bloom Filter 过滤器数据分片与路由分区算法：一致性哈希算法2、备份机制与一致性3、CAP理论4、幂等性：分布式系统状态管理基石5、一致性模型：强、弱、最终一致。6、备份机制：法7,Leader-Follower模式7、共识协议：一致性协议。Paxos或者Raft8、算法与数据结构9、LSM：学习和B+树的区别和优势10、压缩算法：主流压缩算法Snapppy,LZ4。11、Bloom Filter过滤器统计学1、集中趋势 2、变异性3、归一化4、正态分布5、抽样分布6、估...

未来10年是大数据价值变现的阶段【图】

“未来几年，所有的金融企业，包括现在的银行、券商、保险和所有在线上风起云涌做金融生意的运营商，争夺的就是一件事情——那就是国民财富账户。国民财富账户如今是通过什么样的渠道去会聚、去使用、去体验的呢？那就是指尖上的银行。TalkingData不仅拥有移动数据，同时我们跟线上、线下的大型金融企业、金融机构和金融运营商进行了很多深入的合作。我们举办这样一场发布会，就是想从TalkingData的角度，看一看今天在指尖上所有做...

胖子哥的大数据之路（二）- 大数据结构化数据存储应用模式

一、楔子胖子哥是我网名，叫了很多年的网名，网名的来历与自己的沧桑和身材有关，不知是IT改变了我，显得苍老，还是我本就苍老，顺应了IT行业的需要。25岁那面，曾被跟我一样高的漂亮美眉叫叔叔，从此再也不敢打小姑娘的注意，走上了重口味热爱阿姨级别女性的不归路；曾被三十五、六岁的同事阿姨说苍老：看你也就三十五六吧，那年我25；周一的时候，还有一个60后的同事问及我的年龄，他很含蓄的，明显带着保留的口吻问我：你是75年...

大数据量表的优化查询

一、对于运算逻辑，尽可能将要统计的各项目整合在一个查询语句中计算，而不是用分组条件或分项目调用多个查询语句，而后在代码里计算结果。二、查询语句的优化，诸如不用"select *"、多表关联查询时添加别名于查询字段上、避免使用in、not in关键字、非去除重复时用union all替换union、先过滤后分组、排序等等。三、在无法更改数据结构、不影响其它业务操作情况下，为查询、统计项建立索引，这里有一段关于创建索引的话：创建索引...

大数据统计脚本，分城市订单统计

date_parameter <- "2016-08-01"start_date<-as.Date(date_parameter)dayCount_parameter = 1array = strsplit(as.character(start_date),"-")year = as.character(array[1])month=as.character(array[2])hiveContext <- sparkRHive.init(sc)sql(hiveContext, "use honeycomb_bh_db")if(dayCount_parameter>0){ date_parameter <-as.character(start_date) #通过hiveSql 获得想要的并集集合并且缓存下来 sql date_add ##程序执行阶...

我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知【图】

摘要：世上有三类书籍：1、介绍知识，2、阐述理论，3、工具书；世间也存在两类知识：1、技术，2、思想。以下是我在部署ElasticSearch集群时的经验总结，它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。关键词：ElasticSearch, 搜索引擎, 集群, 大数据, Solr, 大数据三类书籍和两类知识：有一些书是对某一新知识领域的介绍，将此知识领域从头到尾、从内而外剖开了分析，吸收...

利用字符串和十进制逢10进位的特性实现大数据的算术运算。（加法案例）【代码】【图】

java中普通的数据类型int,long等不支持大数据间的算术运算，会出现丢失精度的问题，甚至无法用现有数据类型表示。例如：对这两个数做加法运算：1243543534646546546465465465464654+32423985348957348957348957348957348574=？在java中Long类型已经无法表示了，Long类型的最大值为Long.MAX_VALUE=9223372036854775807。但jdk类库中提供了BigInteger类型，可以解决。这里我用字符串和十进制运算进位的特性实现下大数的加法运算，其它...

云帆大数据学院_hadoop 2.2.0源码编译【图】

2.1下载地址1、ApacheHadoop（100%永久开源）下载地址：- http://hadoop.apache.org/releases.html- SVN：http://svn.apache.org/repos/asf/hadoop/common/branches/2、CDH（ClouderaDistributed Hadoop，100%永久开源）下载地址： - http://archive.cloudera.com/cdh4/cdh/4/（是tar.gz文件！） - http://archive.cloudera.com/cdh5/cdh/ （是tar.gz文件！）2.2官方版本说明(1) 官网：http://hadoop.apache.org(2) 下载...

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / 大数据笔记（三十一）——SparkStreaming详细介绍

大数据笔记（三十一）——SparkStreaming详细介绍

内容导读

内容图文

内容总结

内容备注

内容手机端

【大数据笔记（三十一）——SparkStreaming详细介绍】教程文章相关的互联网学习教程文章

国产数据库比较之大数据分析【图】

mysql大数据量下优化

大数据实战（九十三）：电商数仓（七十七）集群管理（二）卸载CDH【图】

大数据在未来应用到哪些领域

大数据实践（九）--sqoop安装及基本操作【代码】

DT大数据梦工厂第5讲

大数据测试【图】

大数据基础

未来10年是大数据价值变现的阶段【图】

胖子哥的大数据之路（二）- 大数据结构化数据存储应用模式

大数据量表的优化查询

大数据统计脚本，分城市订单统计

我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知【图】

利用字符串和十进制逢10进位的特性实现大数据的算术运算。（加法案例）【代码】【图】

云帆大数据学院_hadoop 2.2.0源码编译【图】

数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程