首页 / ELEASTATICSEARCH / logstash6.8.3 导入 CSV 文件到 ElasticSearch

logstash6.8.3 导入 CSV 文件到 ElasticSearch

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了logstash6.8.3 导入 CSV 文件到 ElasticSearch，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4520字，纯文字阅读大概需要7分钟。

内容图文

使用logstash 导入数据到ES时，由三个步骤组成：input、filter、output。整个导入过程可视为：unix 管道操作，而管道中的每一步操作都是由"插件"实现的。使用./bin/logstash-plugin list 查看 logstash 已安装的插件。

每个插件的选项都可以在官网查询，先明确是哪一步操作，然后去官方文档看是否有相应的插件是否支持这种操作。比如 output 配置选项：plugins-outputs-elasticsearch-options)，其中的doc_id选项就支持指定docid写入ES。在这里，简要说明一些常用的插件，要想了解它们实现的功能可参考官方文档。

mutate 插件
csv 插件
convert 插件
date 插件
xxx

使用logstash导入时，会默认生成一些额外的字段，比如@version、host、@timestamp，如果用不着，这些字段可以去除掉，此外，要注意ES中的索引的格式(Mapping结构)，最好是指定自定义的索引模板，保证索引最"精简"。

配置文件完成后，执行以下命令./bin/logstash -f csvfile_logstash.conf即可启动 logstash 执行导入操作。

以下是各种错误解决：

错误一：

ConfigurationError”, :message=>”Expected one of #, input, filter, output at line 1, column 1

如果配置文件内容是正确的，用Notepad检查一下文件的编码，确保是：UTF-8 无BOM格式编码

解决 SOH 分隔符问题

由于csv插件的separator选项不支持转义字符，因此无法用\u0001来代表SOH。如果 csv 文件以 SOH 分隔符(\u0001)分割，一种方案是使用mutate插件替换，将\u0001替换成逗号。如下所示：

            mutate{
        # 每一行内容默认是message, 将分隔符 \u0001 替换成 逗号
        gsub => [ "message","\u0001","," ]
        # @timestamp 字段是默认生成的, 名称修改成 created
        rename => ["@timestamp", "created"]
    }

但是实际上logstash6.8.3是支持按 SOH 分割的。在Linux shell 下，先按 ctrl+v，再按ctrl+a，输入的就是SOH。那么在vim中打开配置文件，在 vim的 insert 模式下，先按 ctrl+v，再按ctrl+a，将SOH作为 csv 插件的separator分割符。

技术分享图片

            csv {
            # 每行按逗号分割, 生成2个字段: topsid 和 title, (如果分割超过2列了,第三列则以 column3 命名)
            separator => ""
            columns => ["topsid", "title"]
            # 删除一些不需要索引到ES中去的字段(logstash默认生成的一些字段)
            remove_field => ["host", "@timestamp", "@version", "message","path"]
        }

一个示例配置模板如下：（以SOH作为分割符）

        input {
  file {
      path => "/data/pengshijin/test/*.csv"
      start_position => "beginning"
      sincedb_path => "/dev/null"
    }
}

filter {
    csv {
            # 每行按逗号分割, 生成2个字段: topsid 和 title, (如果分割超过2列了,第三列则以 column3 命名)
            separator => ""
            columns => ["topsid", "title"]
            # 删除一些不需要索引到ES中去的字段(logstash默认生成的一些字段)
            remove_field => ["host", "@timestamp", "@version", "message","path"]

        }           
    mutate {
    convert => {
        # 类型转换
        "topsid" => "integer"
        "title" => "string"
    }
  }
}

output {
   elasticsearch {
        hosts => "http://http://127.0.0.1:9200"
        index => "chantitletest"
        # 指定 文档的 类型为 "_doc"
        document_type => "_doc"
        # 指定doc id 为topsid字段的值
        document_id => "%{topsid}"
        manage_template => true
        # 使用自定义的模板写入,否则将会以logstash默认模板写入
        template => "/data/services/logstash-6.8.3/config/chantitletpe.json"
        template_overwrite => true
        template_name => "chantitletpe"
       }
    stdout{
        codec => json_lines
    }
}

一个示例配置模板如下(将 SOH 转换成逗号)：

        input {
  file {
      path => "/data/pengshijin/test/*.csv"
      start_position => "beginning"
      sincedb_path => "/dev/null"
    }
}

filter {
    mutate{
        # 每一行内容默认是message, 将分隔符 \u0001 替换成 逗号
        gsub => [ "message","\u0001","," ]
        # @timestamp 字段是默认生成的, 名称修改成 created
        rename => ["@timestamp", "created"]
    }

    csv {
            # 每行按逗号分割, 生成2个字段: topsid 和 title, (如果分割超过2列了,第三列则以 column3 命名)
            separator => ","
            columns => ["topsid", "title"]
            # 删除一些不需要索引到ES中去的字段(logstash默认生成的一些字段)
            remove_field => ["host", "@timestamp", "@version", "message","path"]
        }           
    mutate {
    convert => {
        # 类型转换
        "topsid" => "integer"
        "title" => "string"
    }
  }
}

output {
   elasticsearch {
        hosts => "http://127.0.0.1:9200"
        index => "chantitletest"
        document_type => "_doc"
        # 指定doc id 为topsid字段的值
        document_id => "%{topsid}"
        manage_template => true
        # 使用自定义的模板写入,否则将会以logstash默认模板写入
        template => "/data/services/logstash-6.8.3/config/chantitletpe.json"
        template_overwrite => true
        template_name => "chantitletpe"
       }
    stdout{
        codec => json_lines
    }
}

使用的自定义模板如下：

        {
  "index_patterns": [
    "chantitle_v1",
    "chantitletest"
  ],
  "settings": {
    "number_of_shards": 3,
    "analysis": {
      "analyzer": {
        "my_hanlp_analyzer": {
          "tokenizer": "my_hanlp"
        },
        "pinyin_analyzer": {
          "tokenizer": "my_pinyin"
        }
      },
      "tokenizer": {
        "my_hanlp": {
          "enable_normalization": "true",
          "type": "hanlp_standard"
        },
        "my_pinyin": {
          "keep_joined_full_pinyin": "true",
          "lowercase": "true",
          "keep_original": "true",
          "remove_duplicated_term": "true",
          "keep_first_letter": "false",
          "keep_separate_first_letter": "false",
          "type": "pinyin",
          "limit_first_letter_length": "16",
          "keep_full_pinyin": "true"
        }
      }
    }
  },
  "mappings": {
    "_doc": {
      "properties": {
        "created": {
          "type": "date",
          "doc_values": false,
          "format": "yyyy-MM-dd HH:mm:ss"
        },
        "title": {
          "type": "text",
          "fields": {
            "pinyin": {
              "type": "text",
              "boost": 10,
              "analyzer": "pinyin_analyzer"
            },
            "raw": {
              "type": "keyword",
              "doc_values": false
            }
          },
          "analyzer": "my_hanlp_analyzer"
        },
        "topsid": {
          "type": "long",
          "doc_values": false
        }
      }
    }
  }
}

原文：https://www.cnblogs.com/hapjin/p/12410408.html

内容总结

以上是互联网集市为您收集整理的logstash6.8.3 导入 CSV 文件到 ElasticSearch全部内容，希望文章能够帮你解决logstash6.8.3 导入 CSV 文件到 ElasticSearch所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1045465.html

来源：【匿名】

【上一篇】Elasticsearch系列---增量更新原理及优势【下一篇】Elasticsearchik插件如果能精准查中文？

更多 ►

【logstash6.8.3 导入 CSV 文件到 ElasticSearch】教程文章相关的互联网学习教程文章

logstash6.8.3 导入 CSV 文件到 ElasticSearch【代码】【图】

logstash6.8.3 导入 CSV 文件到 ElasticSearch使用logstash 导入数据到ES时，由三个步骤组成：input、filter、output。整个导入过程可视为：unix 管道操作，而管道中的每一步操作都是由"插件"实现的。使用./bin/logstash-plugin list 查看 logstash 已安装的插件。每个插件的选项都可以在官网查询，先明确是哪一步操作，然后去官方文档看是否有相应的插件是否支持这种操作。比如 output 配置选项：plugins-outputs-elasticsearch-o...

开始使用ElasticSearch(四)之将SqlServer数据库数据导入ES【代码】【图】

开始导数据之前考虑必须考虑清楚需要什么。1.导入数据需要读数据库 JDBC Connector（因为这个是基于JAVA的）2.中间件工具Logstash (这个ES官网提供的)那么开始咯。试试看呀伐！把**JDBC for SQL**解压到D盘（我只是做个示范噢。）把Logstash解压到D盘。注意看下我的两个版本，我把我的数据库版本也贴出来，这样更直观。思路：Logstash 来使用 JDBC 驱动连接sql数据库查询出表数据输出到ES端。打开Logstash文件夹---lib---新建文件...

LogStash如何通过jdbc 从mysql导入elasticsearch【代码】

# mysql jdbc connection string to our backup databsejdbc_connection_string => "jdbc:mysql://localhost:3306/userdb?useUnicode=true&characterEncoding=utf-8&useSSL=false"# the user we wish to excute our statement asjdbc_user => "user"jdbc_password => "pass"# the path to our downloaded jdbc driverjdbc_driver_library => "mysql-connector-java-5.1.40-bin.jar"# the name of the driver class for mysqljdbc_d...

用logstash2.2.2把mysql数据库中的数据导入到elasticsearch

1.解压logstash2.2.2后台，进入到etc目录下，创建logstash-simple.conf，添加如下配置，根据自己的环境修改 input { jdbc { jdbc_driver_library => "/usr/local/elasticsearch-2.2.1/mysqldriver/mysql-connector-java-5.1.30-bin.jar" jdbc_driver_class => "com.mysql.jdbc.Driver" jdbc_connection_string => "jdbc:mysql://10.10.13.7:3306/carsrc?autoReconnect=true&useSSL=false" jdb...

将PostgreSQL数据库的表导入到elasticsearch中

Logstash：把MySQL数据导入到Elasticsearch中【代码】

Logstash：把MySQL数据导入到Elasticsearch中前提条件需要安装好Elasticsearch及Kibana。 MySQL安装根据不同的操作系统我们分别对MySQL进行安装。我们可以访问网页来对MySQL进行安装。等我们安装完我们的MySQL后，在我们的terminal中，打入如下的命令来检查MySQL的版本： $ /usr/local/mysql/bin/mysql -V /usr/local/mysql/bin/mysql Ver 8.0.17 for macos10.14 on x86_64 (MySQL Community Server - GPL) Logstash安装在上一...

使用Logstash把MySQL数据导入到Elasticsearch中【代码】【图】

总结：这种适合把已有的MySQL数据导入到Elasticsearch中有一个csv文件，把里面的数据通过Navicat Premium 软件导入到数据表中，共有998条数据文件下载地址：https://files.cnblogs.com/files/sanduzxcvbnm/SalesJan2009.zip csv文件格式如下：Logstash 配置 1.下载连接mysql的驱动包，放到指定目录下在地址https://dev.mysql.com/downloads/connector/j/下载最新的Connector。下载完这个Connector后，把这个connector存入到Logs...

Elasticsearch中使用reiver-jdbc导入数据

Elastisearch中提供了river模块来从其他数据源中获取数据，该项功能以插件的形式存在，目前已有的river插件包括： river pluginsedit 1. Supported by Elasticsearch CouchDB River Plugin RabbitMQ River Plugin Twitter River Plugin Wikipedia River Plug 　　Elastisearch中提供了river模块来从其他数据源中获取数据，该项功能以插件的形式存在，目前已有的river插件包括：river pluginsedit1. Supported by ElasticsearchCouc...

Elasticsearch7.0.0解决Java日期型数据的导入【代码】

第一种：使用时间戳记录时间。存入数据时，使用String转换为date然后转换为long(这里使用String是方便格式转换)： public final DateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");String str="2016-01-25 00:00:00";Date date=dateFormat.parse(str);Long dateLong=date.getTime(); 获取到数据后，使用long转换为date之后转换为String: DateFormat dateFormatdateFormat=new SimpleDateFormat();long dateLo...

利用java多线程技术往Elasticsearch导入千亿级数据

近期接到一个任务，需要改造现有从mysql往Elasticsearch导入数据MTE(mysqlToEs)小工具，由于之前采用单线程导入，千亿数据需要两周左右的时间才能导入完成，导入效率非常低。所以楼主花了3天的时间，利用java线程池框架Executors中的FixedThreadPool线程池重写了MTE导入工具，单台服务器导入效率提高十几倍（合理调整线程数据，效率更高）。干货分享：利用java多线程技术往Elasticsearch导入千亿级数据打开今日头条，查看更多...

解决使用logstash中jdbc导入mysql中的数据到elasticsearch中tinyint类型被转成布尔型的问题的方法

问题场景在最近这几天用logstash将mysql中的数据导入的elasticsearch时，发现数据库中的tinyint（1）这种类型的就会被转成布尔型，这把我给气的。在网上找了一圈，才找到问题的根源。原因探索原来是jdbc里面将这种tinyint（1）处理成布尔型的了。tinyint（2）以上的就不会处理。解决方案网上有说在查询结果中将这种字段乘以1然后作为源数据使用，但是有的时候，我们是用*号全部查询出来，为了其中个别的字段去将全部字段都一一...

linux 下安装并运行logstash 且导入mysql数据到Elasticsearch

先找到官方下载地址：[https://artifacts.elastic.co/downloads/logstash/logstash-6.2.2.tar.gz][1] [1]: https://artifacts.elastic.co/downloads/logstash/logstash-6.2.2.tar.gz 这里请酌情修改：然后解压：tar -zxvf logstash-6.2.2.tar.gz 之后进入解压后的文件夹：cd logstash-6.2.2 创建配置文件： logstash_test.conf ? input { ? ? ? jdbc { ? ? ? ? #驱动绝对路径 ? ? ? ? jdbc_driver_library => "/root/mysql-con...

Kafka Connect使用入门-Mysql数据导入到ElasticSearch【代码】

1.Kafka Connect Connect是Kafka的一部分，它为在Kafka和外部存储系统之间移动数据提供了一种可靠且伸缩的方式，它为连接器插件提供了一组API和一个运行时-Connect负责运行这些插件，它们负责移动数据。Connect以worker进程集群的方式运行，基于work进程安装连接器插件，然后使用REST API管理和配置connector，这些work进程都是长时间运行的作业。connector启动额外的task，利用work节点的资源以并行的方式移动大量的数据。SourceC...

ELEASTATICSEARCH - 最新教程

用【NEST】在C#中操作ElasticSearch elasticsearch + logstash + kibana 搭...elasticsearch,http://ip:9200访问不到...【ElasticSearch】中文分词器-IK分词器...ElasticSearch-倒排索引 Elasticsearch7.6 环境部署 elasticsearch搜索类型简介 Elasticsearch的javaAPI之get,delete,b...ElasticSearch之动态映射和模板 elasticsearch API列表

ELEASTATICSEARCH - 最热教程

Elasticsearch Java 入门教程之聚合常用...搭建elasticsearch配置java11环境 elasticsearch windows下ElasticSearch7.x集群开启X-P...ElasticSearch索引字段检索时使其不区分...搜索引擎ElasticSearch系列（四）： El...java – 使用带有嵌套对象的Criteria的...Elasticsearch通关教程（五）：如何通过...elasticsearch-head连接不上es elasticsearch Terms Query 实现类似于...