首页 / JAVA / java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢

java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2156字，纯文字阅读大概需要4分钟。

内容图文

java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢

我在亚马逊s3中有csv文件,大小为62mb(114000行).我正在将其转换为spark数据集,并从中获取前500行.代码如下;

DataFrameReader df = new DataFrameReader(spark).format("csv").option("header", true);
Dataset<Row> set=df.load("s3n://"+this.accessId.replace("\"", "")+":"+this.accessToken.replace("\"", "")+"@"+this.bucketName.replace("\"", "")+"/"+this.filePath.replace("\"", "")+"");

 set.take(500)

整个操作需要20到30秒.

现在我尝试相同但是使用csv我正在使用带有119 000行的mySQL表. MySQL服务器在亚马逊ec2.代码如下;

String url ="jdbc:mysql://"+this.hostName+":3306/"+this.dataBaseName+"?user="+this.userName+"&password="+this.password;

SparkSession spark=StartSpark.getSparkSession();

SQLContext sc = spark.sqlContext();

DataFrameReader df = new DataFrameReader(spark).format("csv").option("header", true);
Dataset<Row> set = sc
            .read()
            .option("url", url)
            .option("dbtable", this.tableName)
            .option("driver","com.mysql.jdbc.Driver")
            .format("jdbc")
            .load();
set.take(500);

这需要5到10分钟.
我在jvm里面运行火花.在两种情况下使用相同的配置.

我可以使用partitionColumn,numParttition等但我没有任何数字列,还有一个问题是我不知道该表的模式.

我的问题不是如何减少所需的时间,因为我知道在理想情况下火花将在集群中运行,但我无法理解的是为什么在上述两种情况下这个大的时间差异？

最佳答案:

StackOverflow上已多次覆盖此问题：

> How to improve performance for slow Spark jobs using DataFrame and JDBC connection?
> spark jdbc df limit… what is it doing?
> How to use JDBC source to write and read data in (Py)Spark?

在外部资源中：

> https://github.com/awesome-spark/spark-gotchas/blob/master/05_spark_sql_and_dataset_api.md#parallelizing-reads

所以重申一下 – 默认情况下,DataFrameReader.jdbc不会分发数据或读取.它使用单线程,单个exectuor.

分发阅读：

>使用lowerBound / upperBound的范围：

Properties properties;
Lower

Dataset<Row> set = sc
    .read()
    .option("partitionColumn", "foo")
    .option("numPartitions", "3")
    .option("lowerBound", 0)
    .option("upperBound", 30)
    .option("url", url)
    .option("dbtable", this.tableName)
    .option("driver","com.mysql.jdbc.Driver")
    .format("jdbc")
    .load();

>谓词

Properties properties;
Dataset<Row> set = sc
    .read()
    .jdbc(
        url, this.tableName,
        {"foo < 10", "foo BETWWEN 10 and 20", "foo > 20"},
        properties
    )

内容总结

以上是互联网集市为您收集整理的java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢全部内容，希望文章能够帮你解决java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/911560.html

来源：【匿名】

【上一篇】java – null SQLite数据字段占用额外的内存吗？【下一篇】JAVA/JSP学习系列之五

更多 ►

【java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢】教程文章相关的互联网学习教程文章

JavaCSV之读CSV文件【代码】【图】

Java在进行数据处理，有时候难免有进行CSV文件的操作，这里采用了JavaCSV读CSV文件。1.准备工作（1）第三方包库下载地址：https://sourceforge.net/projects/javacsv（2）相关文档：http://javacsv.sourceforge.net/2.使用简单的读操作（1）引入javacsv包import com.csvreader.CsvReader;（2）创建文件路径String file = "src/com/test/csv/test.csv"; // 注意路径，这里是相对路径（3）创建CSV读对象// 创建CSV读对象(文件路径，分...

Java之CSV文件转List数据工具【代码】

借鉴博客：https://www.cnblogs.com/yybinger/p/11907193.html 工具文件，可直接调用，亲测有效：package com.powersi.biz.park.network.util;import java.io.*; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map;/*** @Description TODO* @Author zhouruntao* @Date 2020/11/11 11:18*/publicclass CsvToListUtil {/*** CSV文件编码*/privatestatic final String ENCODE = "U...

应用Java泛型和反射导出CSV文件【代码】

项目中有需求要把数据导出为CSV文件，因为不同的类有不同的属性，为了代码简单，应用Java的泛型和反射，写了一个函数，完成导出功能。public <T> void saveFile(List<T> list, String outFile) throws IOException {if (list == null || list.isEmpty()) {return;}if (StringUtils.isEmpty(outFile)) {thrownew IllegalArgumentException("outfile is null");}boolean isFirst = true;BufferedWriter out = null;try {out = new Bu...

Java之利用openCsv导出csv文件【代码】

当时导入的时候用的openCsv，那么导出的时候自然也是用这个，查了好多资料才找到解决方案，下面记录一下实现过程。 1.Controller层：/*** 导出csv文件*/ @RequestMapping("/exportcsv") @RequiresPermissions("xxx:xxxx:xxx") public String exportCsv(@RequestBody List<xxxEntity> exportResults, HttpServletResponse response) {return xxxService.exportCsvFile(exportResults, response); }2.实现类部分：@Override public S...

自己写的一个java小脚本，用于comsol仿真声子晶体的能带图数据直接生成origin可以用的csv文件！【代码】

import javax.security.auth.login.CredentialException; import java.io.*; import java.util.Arrays;public class Hannscript {//判断几行public static int count = 0;public static void main(String[] args) throws IOException {//String path = Thread.currentThread().getClass().getClassLoader().getResource("structer1.csv").getPath();int i = 0;int j = 0;double[][] a = Creat2DArray();BufferedReader reader = n...

java写入csv文件【代码】

java换行写入csv文件，最后一行去掉空白行 public void Csvcreate(HttpServletRequest request, HttpServletResponse response, List<Map> list) {String cateid = "";List<String> datalist = new ArrayList();for (int i = 0; i < list.size(); i++) {Map map = list.get(i);StringBuffer sb = new StringBuffer();cateid = String.valueOf(map.get("CATEID"));sb.append(map.get("CATEID"));sb.append(",");sb.append(map.get("...

Java从CSV文件中读取数据和写入

package com.conn.csv; import java.io.BufferedReader; import java.io.FileReader; /** * @desc: 读取csv文件 * @author: tzconn@163.com * @time: 2018年3月22日16:22:41 */ public class TestRead { public static void main(String[] args) { try { BufferedReader reader = new BufferedReader(new FileReader("*.csv"));//换成你的文件名 reader.readLine();//第一行信...

java csv文件写入

List<String> list_code = null; 方案1 控制字符集： BufferedWriter bw=new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fileName),"Shift_JIS"));CSVPrinter printer = new CSVPrinter(bw, CSVFormat.EXCEL); 方案2 默认字符集utf8： CSVPrinter printer = new CSVPrinter(new FileWriter(fileName),CSVFormat.EXCEL); 写入printer.printRecord("id", "userName", "firstName", "lastName", "birthday"); ...

java-在csv文件中编辑内容【代码】

我正在尝试找到一种方法来编辑csv文件的内容. 主应用package project;public class Test {public static void main(String[] ages) {//Load file AnimalManager aMgr = new AnimalManager();aMgr.loadFromFile("AnimalDetails.txt");// try { // Animals anim = aMgr.getAnimalById("48331827032019"); // aMgr.deleteAnimal(anim); // } catch (IllegalArgumentException exc) { // System....

java-将不同的csv文件另存为单个excel工作簿中的不同工作表

与此question相关,如何将许多不同的csv文件保存到一个excel工作簿中,每个csv一张纸？我想知道如何在Java中以编程方式执行此操作.解决方法:您需要某种形式的库才能从Java访问Excel.谷歌搜索发现了这一点： http://j-integra.intrinsyc.com/support/com/doc/excel_example.html 一种替代方法是使用Office 2003附带的XML Excel格式.您最终将得到一个XML文件,但是可以在Excel中打开它并查看不同的工作表. http://www.javaworld.com/jav...

java-使用Spring Boot生成CSV文件的GetMapping【代码】

我正在编写一个spring rest方法,以从数据库中获取详细信息,并将其设置在响应POJO中,然后将其返回.当前,当使用POSTMAN或RC(例如带有数据的可下载CSV文件)命中URL时,我需要以CSV而不是默认json的形式生成此响应.我用Google搜索了许多网站,但不确定其中的逻辑. >我们是否需要编写业务逻辑以将pojo类值转换为csv格式,或者spring是否具有任何转换机制？> Produces =“ text / csv”在很多地方都被提及,这是否正确转换了响应？目前,我尚...

如何在Java中按两列对csv文件进行排序？【代码】

如何按两列排序CSV文件？现在,我可以按一列对其进行排序.我需要按前两列对其进行排序.怎么做？这是我用来按其第一列进行排序的代码：import java.io.BufferedReader; import java.io.FileReader; import java.io.FileWriter; import java.util.LinkedList; import java.util.List; import java.util.Map; import java.util.TreeMap;public class Practice {public static void main(String[] args) throws Exception {BufferedRead...

每行写入新的CSV文件(JAVA)【代码】

我有以下代码：public static void main(String[] args) throws IOException {//File being read:String fileName = "src/data/Belgium.csv";String[] nextLine;try (CSVReader reader = new CSVReader(new FileReader(fileName), ',', '"', 1)) {while ((nextLine = reader.readNext()) != null) {for (String line : nextLine) {//NewFile//When 2nd parameter - ture, it gets so big, that excel can't handle it anymore...Fi...

将csv文件导入到Java swing表中【代码】

我有一个nyse中所有股票报价的csv文件.第一列是符号,第二列是公司名称. 我有一个使用java swing库在netbeans中制成的搜索框和表. 现在,当我在框中输入名称时,它会返回正确的行数.因此,例如,如果我搜索GOOG,它将仅返回2行(GOOG符号1行,公司全名中1行).但是,这些行中的数据不是正确的数据,它只是一遍又一遍地打印csv文件的第一行.这是单击搜索按钮时执行的代码：package my.Stock;import java.util.ArrayList; import java.util.Scan...

如何将CSV文件拆分为多个块并在Java代码中并行读取这些块

我有一个非常大的CSV文件(1GB),它有100,000行. 我需要编写一个Java程序来解析CSV文件中的每一行,以便为发送的HTTP请求创建一个主体. 换句话说,我需要发送100,000个HTTP请求,这些请求对应于CSV文件中的行.如果我在一个线程中执行这些操作将会很长. 我想创建1,000个线程来执行i)从CSV文件中读取一行,ii)创建一个HTTP请求,其主体包含读取行的内容,以及iii)发送HTTP请求并接收响应. 这样,我需要将CSV文件拆分为1,000个块,并且这些块之间...

JAVA - 技术教程分类

Java 教程 Java 简介 Java 开发环境配置 Java 基础语法 Java 对象和类 Java 基本数据类型 Java 变量类型 Java 修饰符 Java 运算符 Java 循环结构 Java 条件语句 Java switch case Java Number & Math 类 Java Character 类 Java String 类 Java StringBuffer Java 数组 Java 日期时间 Java 方法 Java Stream、File、IO Java Scanner 类 Java 异常处理 Java 继承 Java Override/Overload Java 多态 Java 抽象类 Java 封装 Java 接口 Java 枚举 Java 包(package) Java 数据结构 Java 集合框架 Java ArrayList Java LinkedList Java HashSet Java HashMap Java Iterator Java Object Java 泛型 Java 序列化 Java 网络编程 Java 多线程编程 Java Applet 基础 Java 文档注释 Java 实例 Java 8 新特性 Java MySQL 连接 Java 9 新特性 Java 测验 java 全部

JAVA - 最热教程

Java在运行项目时候，点击右键的弹框，...nacos配置中心超时问题：java.net.Conn...Java的设计模式（7）— 生产者-消费者模...基于DOM4j和POI实现的XML文件转换为XLS...如何在Java中创建一些变量类型别名使用java8的Stream统计字符串数组中每一...idea插件篇之java内存分析工具(JProfil...cannot cast 'java.lang.Integer' to '...java – Bootstrap.properties中Spring...Java8利用stream流实现数字排序和中文排...

首页 / JAVA / java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢

java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢

内容导读

内容图文

内容总结

内容备注

内容手机端

【java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢】教程文章相关的互联网学习教程文章

JavaCSV之读CSV文件【代码】【图】

Java之CSV文件转List数据工具【代码】

应用Java泛型和反射导出CSV文件【代码】

Java之利用openCsv导出csv文件【代码】

自己写的一个java小脚本，用于comsol仿真声子晶体的能带图数据直接生成origin可以用的csv文件！【代码】

java写入csv文件【代码】

Java从CSV文件中读取数据和写入

java csv文件写入

java-在csv文件中编辑内容【代码】

java-将不同的csv文件另存为单个excel工作簿中的不同工作表

java-使用Spring Boot生成CSV文件的GetMapping【代码】

如何在Java中按两列对csv文件进行排序？【代码】

每行写入新的CSV文件(JAVA)【代码】

将csv文件导入到Java swing表中【代码】

如何将CSV文件拆分为多个块并在Java代码中并行读取这些块

MYSQL - 相关标签

JAVA - 相关标签

数据 - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程