首页 / 日志 / 带你看懂大数据采集引擎之Flume&采集目录中的日志

带你看懂大数据采集引擎之Flume&采集目录中的日志

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了带你看懂大数据采集引擎之Flume&采集目录中的日志，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2276字，纯文字阅读大概需要4分钟。

内容图文

欢迎关注大数据和人工智能技术文章发布的微信公众号：清研学堂，在这里你可以学到夜白（作者笔名）精心整理的笔记，让我们每天进步一点点，让优秀成为一种习惯！

技术分享图片

一、Flume的介绍：

Flume由Cloudera公司开发，是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于采集数据；同时，flume提供对数据进行简单处理，并写到各种数据接收方的能力，如果能用一句话概括Flume，那么Flume是实时采集日志的数据采集引擎。

二、Flume的体系结构：

技术分享图片

Flume的体系结构分成三个部分：数据源、Flume、目的地

数据源种类有很多：可以来自directory、http、kafka等，flume提供了source组件用来采集数据源。

1、source作用：采集日志

source种类：1、spooling directory source：采集目录中的日志

2、htttp source：采集http中的日志

3、kafka source：采集kafka中的日志

……

采集到的日志需要进行缓存，flume提供了channel组件用来缓存数据。

2、channel作用：缓存日志

channel种类：1、memory channel：缓存到内存中（最常用）

2、JDBC channel：通过JDBC缓存到关系型数据库中

3、kafka channel：缓存到kafka中

……

缓存的数据最终需要进行保存，flume提供了sink组件用来保存数据。

3、sink作用：保存日志

sink种类：1、HDFS sink：保存到HDFS中

2、HBase sink：保存到HBase中

3、Hive sink：保存到Hive中

4、kafka sink：保存到kafka中

……

官网中有flume各个组件不同种类的列举：

技术分享图片

三、安装和配置Flume：

1、安装：tar -zxvf apache-flume-1.7.0-bin.tar.gz -C ~/training

2、创建配置文件a4.conf：定义agent，定义source、channel、sink并组装起来，定义生成日志文件的条件。

以下是a4.conf配置文件中的内容，其中定义了数据源来自目录、数据缓存到内存中，数据最终保存到HDFS中，并且定义了生成日志文件的条件：日志文件大小达到128M或者经过60秒生成日志文件。

#定义agent名， source、channel、sink的名称

a4.sources = r1

a4.channels = c1

a4.sinks = k1

#具体定义source

a4.sources.r1.type = spooldir

a4.sources.r1.spoolDir = /root/training/logs

#具体定义channel

a4.channels.c1.type = memory

a4.channels.c1.capacity = 10000

a4.channels.c1.transactionCapacity = 100

#定义拦截器，为消息添加时间戳

a4.sources.r1.interceptors = i1

a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink

a4.sinks.k1.type = hdfs

a4.sinks.k1.hdfs.path = hdfs://192.168.157.11:9000/flume/%Y%m%d

a4.sinks.k1.hdfs.filePrefix = events-

a4.sinks.k1.hdfs.fileType = DataStream

#不按照条数生成文件

a4.sinks.k1.hdfs.rollCount = 0

#HDFS上的文件达到128M时生成一个日志文件

a4.sinks.k1.hdfs.rollSize = 134217728

#HDFS上的文件达到60秒生成一个日志文件

a4.sinks.k1.hdfs.rollInterval = 60

#组装source、channel、sink

a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

四、使用Flume语句采集数据：

1、创建目录，用于保存日志：

mkdir /root/training/logs

2、启动Flume，准备实时采集日志：

bin/flume-ng.agent -n a4 -f myagent/a4.conf -c conf -Dflume.root.logger=INFO.console

3、将日志导入到目录中：

cp * ~/training/logs

五、Sqoop和Flume的相同点和不同点：

相同点：sqoop和flume只有一种安装模式，不存在本地模式、集群模式等。

不同点：sqoop批量采集数据，flume实时采集数据。

作者：李金泽AllenLi，清华大学在读硕士，研究方向：大数据和人工智能

原文：https://www.cnblogs.com/lijinze-tsinghua/p/8505361.html

内容总结

以上是互联网集市为您收集整理的带你看懂大数据采集引擎之Flume&采集目录中的日志全部内容，希望文章能够帮你解决带你看懂大数据采集引擎之Flume&采集目录中的日志所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1087746.html

来源：【匿名】

【上一篇】日志和备份介绍【下一篇】php错误日志怎么看

更多 ►

【带你看懂大数据采集引擎之Flume&采集目录中的日志】教程文章相关的互联网学习教程文章

Spring cloud微服务安全实战-7-9自定义日志采集的格式和内容【图】

怎么来控制输出的日志的格式。并且从日志里面提取出来我想要的一些信息。整个的message是一个大的json格式字符串。虽然是可以通过关键字搜索到。但是日志看起来并不舒服。在我们的控制台，日志实际上是这样的。可以很清楚的看到日志的内容。现在混在了json里面。看起来不舒服，而且有些字段丢失掉了。进程号就丢失了。控制日志输出格式以为内这里配置的是logstashEncoder，它就把我们整个的日志信息转成了json直接发出去了。 ...

Flume 1.5日志采集并存入mongodb的安装搭建

Flume的介绍就不多说了，大家可以自己搜索。但是目前网上大都是Flume 1.4版本或之前的资料，Flume 1.5感觉变化挺大的，如果你准备尝试一下，我这里给大家介绍一下最小化搭建方案，并且使用MongoSink将数据存入mongodb。完全单机运行，没有master，没有collector（说白了collector也就是一个agent，只是数据来源于多个其他agent），只有一个agent。把这套东西理解了你就可以自由发挥了Flume是必须要求java运行环境的哈，jdk安装就不...

带你看懂大数据采集引擎之Flume&采集目录中的日志

欢迎关注大数据和人工智能技术文章发布的微信公众号：清研学堂，在这里你可以学到夜白（作者笔名）精心整理的笔记，让我们每天进步一点点，让优秀成为一种习惯！一、Flume的介绍：Flume由Cloudera公司开发，是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于采集数据；同时，flume提供对数据进行简单处理，并写到各种数据接收方的能力，如果能用一句话概括Flume，那...

Go语言（二十）日志采集项目（二）Etcd的使用【代码】

日志采集项目（二）Etcd的使用 ETCD 介绍概念：高可用的分布式key-value存储，实现配置共享和服务发现类似项目： zookeeper和consul开发语言： Go接口：提供restful的http接口，使用简单实现算法：基于raft算法的强一致性，高可用的服务存储目录ETCD的应用场景服务发现和注册配置中心分布式锁master选举ETCD环境搭建下载地址：https://github.com/etcd-io/etcd/releases/download/v3.4.7/etcd-v3.4.7-linux-amd64.tar.gz启动方式...

哪位高手采集过QQ空间日志

谁采集过QQ空间日志？日志内容采集不出来有时候可以采集有时候返回空的能伪造都伪造了。 php代码哎 CSDN提示字符太长了我截图: [img=http://api.cmccapp.com/jt.jpg][/img] 游览器直接打开能够显示用PHP读取不了~ 谁有空模拟测试下呢------解决方案-------------------- 采集并非万能的,因为服务器端可以轻松判断来访者的身份类型进行屏蔽.这样的状况我见得多了.并非偶然.

CMDB项目采集资产之日志记录【图】

CMDB项目采集资产之日志记录标签：img ima mamicode mic 日志项目技术资产采集本文系统来源：https://www.cnblogs.com/jintian/p/11286140.html

MySQL日志和数据采集分析-Archive引擎

Archive存储引擎只支持INSERT和SELECT操作，在MySQL5.1之前也不支持索引。 Archive引擎会缓存所有的写并利用zlib对插入的行进行压缩，所以比MyISAM表的磁盘I/O更少，但是每次SELECT查询都需要执行全表扫描。所以Archive引擎适合日志和数据采集类应用，这类应用作数据分析时往往需要全表扫描。或者在一些需要更快速的INSERT操作的场合下也可以使用。

Filebeat7 Kafka Gunicorn Flask Web应用程序日志采集【代码】

本文的内容如何用filebeat kafka es做一个好用，好管理的日志收集工具放弃logstash，使用elastic pipeline gunicron日志格式与filebeat/es配置 flask日志格式与异常日志采集与filebeat/es配置以上的配置概况我有一个HTTP请求，经过的路径为 Gateway(kong)-->WebContainer(gunicorn)-->WebApp(flask) 我准备以下流向处理我的日志 file --> filebeat --> kafka topic--> filebeat --> elastic pipeline --> elasticsearch|| ----...

阿里云日志采集配置【图】

一、服务器没有安装日志采集的插件，去阿里云文档内下载安装下载地址：https://help.aliyun.com/document_detail/49006.html?spm=a2c4g.11186623.6.603.66202e931NYoX7 二、开始日志采集配置点击下一步。 2.勾选服务器（此处为银保贷SAAS用户中心），点击确认安装完毕。 3.输入名称，输入IP地址点击下一步（具体步骤如下）。 (1)、输入名称可以填写对应服务器站点的名字。 (2)、Logtail默认安装在C:\Program Files ...

elk搭建及应用服务日志采集【代码】【图】

一、日志采集流程简介 1、elasticsearch stack 介绍 elasticsearch stack 主要是是由 elasticsearch + beats + logstash + kibana 四个组件组成。组件名称作用elasticsearch负责核心存储和检索引擎（比如beats或logstash采集的日志就可以存储在es中）。beats有很多种类的beat，比如filebeat主要用于采集日志文件，metricbeat主要用于采集服务性能指标（比如操作系统性能指标，NGINX性能指标，MySQL性能指标，Redis性能指标等），p...

结合springboot搭建日志采集系统EFK【代码】【图】

目录 EFK架构（elasticsearch\filebeat\kibana） 1、下载elasticsearch、kibana、filebeat 2、创建用户并授权 3、安装并启动 3.1 使用elasticsearch账号安装启动 >3.1.1 解压 elasticsearch >3.1.2 配置 elasticsearch >3.1.3 启动elasticsearch >3.1.4 访问 3.2 安装启动kibana >3.2.1 解压 kibana >3.2.2 配置 kibana >3.2.3 启动kibana >3.2.4 访问 3.3 安装启动filebeat >3.3.1 解压 & 配置 filebeat >3.3.3 启动filebeat 3.4 ...

日志采集分析实例【代码】【图】

背景简述：业务的一系列的落地页产生了一批cdn日志，需要抓取落地页的地址，然后进行内容分析。之前做过elastic stack方案做过nginx日志实时采集系统，对elastic家的产品情有独钟。配置快捷，开发少，简单高效。于是决定继续采用elastic的部分产品作为工具。一、解决方案：filebeat+logstash+mysql+脚本语言二、准备工作（具体过程省略）：1.要采集的日志文件。安装MySQL。安装Filebeat。安装Logstash。三、详细过程：1.配置Fi...

filebeat采集多个日志（推送给ES或者logstash）【代码】

filebeat采集多个日志在使用ELK做日志分析的时候，有时需要一个filebeat采集多个日志，送给ES，或者给logstash做解析。下面举例演示以下filebeat采集messages日志，secure日志，以及nginx日志送给ES或者送给logstash做解析的正确配置方法。一、filebeat采集日志发送给ES： 1.1、filebeat.yml 配置如下： filebeat.inputs: - type: logtail_files: truescan_frequency: 5sbackoff: 1smax_backoff: 10spaths:- /usr/local/apache-t...

日志如何采集？【图】

引言日志是人类关于日常生活的一个记录，也是机器运作时对于事件发生的报告。关于网络设备、系统及服务程序等，在运作时都会产生一个叫log的事件记录；每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。当遇到安全***事件时，日志能协助进行安全事件还原，能尽快找到事件发生的时间、原因等，通过大量不同安全设备的联动，日志可以关联分析监测真正有威胁的***行为，还原出真实的***情况。日志可以反应出很多的安全**...

Graylog2通过Graylog Collector Sidecar采集Nginx日志主动方式【代码】【图】

这次聊一下Graylog如何主动采集Nginx日志，分成两部分：介绍一下 Graylog Collector Sidecar 是什么如何配置 Graylog Collector Sidecar 采集nginx日志一、首先介绍一下Graylog Collector SidecarGraylog Collector Sidecar 是一个轻量级的日志采集器，通过访问graylog进行集中式管理，支持linux和windows系统。Sidecar 守护进程会定期访问graylog的REST API接口获取Sidecar配置文件中定义的标签（tag），Sidecar在首次运行时会从...

首页 / 日志 / 带你看懂大数据采集引擎之Flume&采集目录中的日志

带你看懂大数据采集引擎之Flume&采集目录中的日志

内容导读

内容图文

内容总结

内容备注

内容手机端

【带你看懂大数据采集引擎之Flume&采集目录中的日志】教程文章相关的互联网学习教程文章

Spring cloud微服务安全实战-7-9自定义日志采集的格式和内容【图】

Flume 1.5日志采集并存入mongodb的安装搭建

带你看懂大数据采集引擎之Flume&采集目录中的日志

Go语言（二十）日志采集项目（二）Etcd的使用【代码】

哪位高手采集过QQ空间日志

CMDB项目采集资产之日志记录【图】

MySQL日志和数据采集分析-Archive引擎

Filebeat7 Kafka Gunicorn Flask Web应用程序日志采集【代码】

阿里云日志采集配置【图】

elk搭建及应用服务日志采集【代码】【图】

结合springboot搭建日志采集系统EFK【代码】【图】

日志采集分析实例【代码】【图】

filebeat采集多个日志（推送给ES或者logstash）【代码】

日志如何采集？【图】

Graylog2通过Graylog Collector Sidecar采集Nginx日志主动方式【代码】【图】

日志 - 相关标签

采集 - 相关标签

数据 - 相关标签

日志 - 最新教程

日志 - 最热教程