首页 / 大数据 / 大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合

大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3622字，纯文字阅读大概需要6分钟。

内容图文

大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合

前一篇中数据源采用的是从一个socket中拿数据，有点属于“旁门左道”，正经的是从kafka等消息队列中拿数据！

主要支持的source，由官网得知如下：

技术分享图片

获取数据的形式包括推送push和拉取pull

一、spark streaming整合flume

1.push的方式

　　　　更推荐的是pull的拉取方式

　　　　引入依赖：

            
                <
                dependency
                >
                <
                groupId
                >org.apache.spark</groupId><artifactId>spark-streaming-flume_2.10</artifactId><version>${spark.version}</version></dependency>

　编写代码：

            
                package
                 com.streaming


                import
                 org.apache.spark.SparkConf

                import
                 org.apache.spark.streaming.flume.FlumeUtils

                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}


                /**
                
  * Created by ZX on 2015/6/22.
  
                */
                
object FlumePushWordCount {

  def main(args: Array[String]) {
    val host = args(0)
    val port = args(1).toInt
    val conf = new SparkConf().setAppName("FlumeWordCount")//.setMaster("local[2]")
    // 使用此构造器将可以省略sc，由构造器构建
    val ssc = new StreamingContext(conf, Seconds(5))
    // 推送方式: flume向spark发送数据（注意这里的host和Port是streaming的地址和端口，让别人发送到这个地址）
    val flumeStream = FlumeUtils.createStream(ssc, host, port)
    // flume中的数据通过event.getBody()才能拿到真正的内容
    val words = flumeStream.flatMap(x => new String(x.event.getBody().array()).split(" ")).map((_, 1))

    val results = words.reduceByKey(_ + _)
    results.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

flume-push.conf——flume端配置文件：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/data/flume
a1.sources.r1.fileHeader = true

# Describe the sink
a1.sinks.k1.type = avro
#这是接收方
a1.sinks.k1.hostname = 192.168.31.172
a1.sinks.k1.port = 8888

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

flume-push.conf

2.pull的方式

　　　　属于推荐的方式，通过streaming来主动拉取flume产生的数据

编写代码：（依赖同上）

            
                package
                 com.streaming


                import
                 java.net.InetSocketAddress


                import
                 org.apache.spark.SparkConf

                import
                 org.apache.spark.storage.StorageLevel

                import
                 org.apache.spark.streaming.flume.FlumeUtils

                import
                 org.apache.spark.streaming.{Seconds, StreamingContext}

object FlumePollWordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("FlumePollWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(5))
    //从flume中拉取数据(flume的地址)，通过Seq序列，里面可以new多个地址，从多个flume地址拉取
    val address = Seq(new InetSocketAddress("172.16.0.11", 8888))
    val flumeStream = FlumeUtils.createPollingStream(ssc, address, StorageLevel.MEMORY_AND_DISK)
    val words = flumeStream.flatMap(x => new String(x.event.getBody().array()).split(" ")).map((_,1))
    val results = words.reduceByKey(_+_)
    results.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

配置flume

通过拉取的方式需要flume的lib目录中有相关的JAR（要通过spark程序来调flume拉取），通过官网可以得知具体的JAR信息：

技术分享图片

配置flume：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/data/flume
a1.sources.r1.fileHeader = true

# Describe the sink（配置的是flume的地址，等待拉取）
a1.sinks.k1.type = org.apache.spark.streaming.flume.sink.SparkSink
a1.sinks.k1.hostname = mini1
a1.sinks.k1.port = 8888

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

flume-poll.conf

启动flume，然后启动IDEA中的spark streaming：

            bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console
// -D后参数可选

原文：https://www.cnblogs.com/jiangbei/p/8856750.html

内容总结

以上是互联网集市为您收集整理的大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合全部内容，希望文章能够帮你解决大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1227773.html

来源：【匿名】

【上一篇】针对Sqlserver大数据量插入速度慢或丢失数据的解决方法【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合】教程文章相关的互联网学习教程文章

大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合【代码】【图】

前一篇中数据源采用的是从一个socket中拿数据，有点属于“旁门左道”，正经的是从kafka等消息队列中拿数据！主要支持的source，由官网得知如下：获取数据的形式包括推送push和拉取pull一、spark streaming整合flume1.push的方式　　　　更推荐的是pull的拉取方式　　　　引入依赖：<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-flume_2.10</artifactId><version>${spark.version}</version></depe...

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令【代码】

一、kafka常用命令1.创建topicbin/kafka-topics.sh --create --topic topic_1 --partitions 4 --replication-factor 2 --zookeeper mini1:2181// 如果配置了PATH可以省略相关命令路径，相关命令参数暂不深入，字面意思也可以大概推断。后续给出完整参数参考。2.查看所有topicbin/kafka-topics.sh --list --zookeeper mini1:21813.发送消息bin/kafka-console-producer.sh --broker-list mini1:9092 --topic topic_14.消费消息bin/k...

大数据架构培训视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算【图】

培训大数据架构开发！从零基础到高级，手把手培训！[技术QQ：2937765541]? ?----------------------------------------------------------------------------------------------------------------------------------课程目录：获取视频资料和培训解答技术支持地址?课程展示(永久免费更新！永久免费培训解答技术支持！)：获取视频资料和培训解答技术支持地址?原文：http://twskyn.iteye.com/blog/2289784

大数据安装之Kafka（用于实时处理的消息队列）【图】

一、安装部署kafka1、集群规划hadoop102 hadoop103 hadoop104zk zk zkkafka kafka kafka2、jar包下载http://kafka.apache.org/downloads.html 3、集群部署1）解压安装包[test@hadoop102 software...

大数据技术之Kafka

第1章 Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。1.2 消息队列（Message Queue）1.2.1 传统消息队列的应用场景 1.2.2 消息队列的两种模式（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。...

CentOS6安装各种大数据软件第五章：Kafka集群的配置【代码】【图】

1. Kafka集群的安装准备1.1. 选择安装Kafka的版本由于kafka是scala语言编写的，基于scala的多个版本，kafka发布了多个版本。其中2.11是推荐版本。1.2. 下载并解压安装包解压文件，删除之前的的安装记录，并重命名tar -zxvf kafka_2.11-1.0.0.tgz -C /export/servers/ cd /export/servers/ rm -rf /export/servers/kafka rm -rf /export/logs/kafka/ rm -rf /export/data/kafka mv kafka_2.11-1.0.0 kafka 2. 查看目录及修改配置文件...

大数据系列之Kafka安装【代码】【图】

先简单说下安装kafka的流程。。（可配置多个zookeeper，这篇文只说一个zookeeper场景）1.环境配置：jdk1.7+ (LZ用的是jdk1.8)2.资料准备：下载 kafka_2.10-0.10.1.1.tgz ，官网链接为https://www.apache.org/dyn/closer.cgi?path=/kafka/0.10.1.1/kafka_2.10-0.10.1.1.tgz3.单机版安装步骤：　　a.将tgz放入目录： /app/ 　　b.解压：tar -xzvf kafka_2.10-0.10.1.1.tgz 　　c.修改配置：(暂时可不修改)　　d.启动zookeeper：在ka...

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算【图】

从零基础到高级，一对一培训！[技术QQ：2937765541] ------------------------------------------------------------------------------------------------------------------------------------------- 课程体系：获取视频资料和培训解答技术支持地址课程展示(大数据技术很广，一直在线为你培训解答！)：获取视频资料和培训解答技术支持地址大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeep...

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

从零基础到高级，一对一技术培训！全程技术指导！[技术QQ：2937765541] https://item.taobao.com/item.htm?id=535950178794 ------------------------------------------------------------------------------------- Java互联网架构师培训！https://item.taobao.com/item.htm?id=536055176638大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互...

大数据基础系列之kafka011生产者缓存超时，幂等性和事务实现

大数据基础系列之kafka011生产者缓存超时，幂等性和事务实现浪尖浪尖聊大数据一，demo及相关类1，基本介绍KafkaProducer是线程安全的，多线程间共享一个实例比共享多个实例更加高效。首先搞一个demoProperties props = new Properties();props.put("bootstrap.servers", "localhost:9092");props.put("acks", "all");props.put("retries", 0);props.put("batch.size", 16384);props.put("linger.ms", 1);props.put("buffer.memor...

大数据学习10之分布式事件流平台Kafka——Kafka部署及使用【代码】【图】

文章目录准备1：zookeeper下载与安装1.下载zookeeper，解压，并配置到系统环境变量中 `~/.bash_profile `中2.home/hadoop/app/zookeeper-3.4.5-cdh5.7.0/conf下拷贝zoo_sample.cfg到`zoo.cfg`，修改文件储存位置，tmp目录下每次重启都会清空，所以新建目录app/tmp/zk3.开启zookeeperI.单节点单Broker部署及使用准备2：kafka下载与安装1.下载并解压kafka_2.11-0.9.0.0.tgz到~/app/下，并添加系统环境变量，生效系统环境变量2.`/hom...

大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）【代码】【图】

download.oracle.com/otn-pub/java/jdk/8u45-b14/jdk-8u45-linux-x64.tar.gztar zxvf jdk-8u45-linux-x64.tar.gz cd jdk-8u45-linux-x64 sudo vi /etc/profile添加如下内容： export JAVA_HOME=/home/dir/jdk1.8.0_45 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin安装 Python sudo apt-get install python安装 zookeeper wget http://mirror.b...

大数据数据仓库-基于大数据体系构建数据仓库（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

背景接着上个文章数据仓库简述，想写一篇数据仓库常用模型的文章，但是自己对数据仓库模型的理解程度和建设架构并没有下面这个技术专家理解的深刻，并且自己去组织语言，可能会有不准确的地方，怕影响大家对数据仓库建模的理解，数据仓库属于一个工程学科，在设计上要体验出工程严谨性，所以这次向大家推荐这篇文章，毕竟IBM在数据仓库和数据集市方面已经做得很成熟了，已经有成型的商业数据仓库组件，这篇文章写的很好，可以让大...

大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器【代码】【图】

Scala和Java实现SparkStreaming Spark Streaming实时流监控端口数据进行WordCountScala版本实现Spark StreamingJava版本实现SparkStreaming Spark Streaming实时流监控文件夹数据进行WordCountSpark Streaming和Kafka Stream联用不显示输出过的结果显示输出过的结果自定义采集器 Spark Streaming实时流监控端口数据进行WordCount Scala版本实现Spark Streaming 添加maven依赖 <dependencies><dependency><groupId>com.fasterxml.j...

大数据数据仓库-基于大数据体系构建数据仓库（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

说明：大数据时代，数据仓库向大数据体系升级换代很常见，也是个不错的机会。如果是想系统研究大数据体系的数据仓库设计，个人比较推荐滴滴（前）架构师的视频分享课：http://t.cn/EJ07vua主要是干货比较多，有15案例 + 3实战 + 3项目。一、什么是数据库？ 1.数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库 2.数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的...

首页 / 大数据 / 大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合

大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合

内容导读

内容图文

一、spark streaming整合flume

内容总结

内容备注

内容手机端

【大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合】教程文章相关的互联网学习教程文章

大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合【代码】【图】

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令【代码】

大数据架构培训视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算【图】

大数据安装之Kafka（用于实时处理的消息队列）【图】

大数据技术之Kafka

CentOS6安装各种大数据软件第五章：Kafka集群的配置【代码】【图】

大数据系列之Kafka安装【代码】【图】

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算【图】

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

大数据基础系列之kafka011生产者缓存超时，幂等性和事务实现

大数据学习10之分布式事件流平台Kafka——Kafka部署及使用【代码】【图】

大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）【代码】【图】

大数据数据仓库-基于大数据体系构建数据仓库（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器【代码】【图】

大数据数据仓库-基于大数据体系构建数据仓库（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

KAFKA - 相关标签

入门 - 相关标签

数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程