首页 / JAVA / Spark：java api读取hdfs目录下多个文件

Spark：java api读取hdfs目录下多个文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Spark：java api读取hdfs目录下多个文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1092字，纯文字阅读大概需要2分钟。

内容图文

需求：

由于一个大文件，在spark中加载性能比较差。于是把一个大文件拆分为多个小文件后上传到hdfs，然而在spark2.2下如何加载某个目录下多个文件呢?

public class SparkJob {
    public static void main(String[] args) {
        String filePath = args[0];
        // initialize spark session
        String appName = "Streaming-MRO-Load-Multiple-CSV-Files-Test";
        SparkSession sparkSession = SparkHelper.getInstance().getAndConfigureSparkSession(appName);

        // reader multiple csv files.
        try {
            Dataset<Row> rows = sparkSession.read().option("delimiter", "|").option("header", false)
                    .csv(filePath).toDF(getNCellSchema());
            rows.show(10);
        } catch (Exception ex) {
            ex.printStackTrace();
        }

        try {
            Dataset<String> rows = sparkSession.read().textFile(filePath);
            rows.show(10);
        } catch (Exception ex) {
            ex.printStackTrace();
        }

        SparkHelper.getInstance().dispose();
    }

    private static Seq<String> getNCellSchema() {
        List<String> ncellColumns = "m_id,m_eid,m_int_id,.....";

        List<String> columns = new ArrayList<String>();
        for (String column : ncellColumns) {
            columns.add(column);
        }

        Seq<String> columnsSet = JavaConversions.asScalaBuffer(columns);

        return columnsSet;
    }
}

测试结果：

Spark：java api读取hdfs目录下多个文件 - 文章图片

内容总结

以上是互联网集市为您收集整理的Spark：java api读取hdfs目录下多个文件全部内容，希望文章能够帮你解决Spark：java api读取hdfs目录下多个文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/850254.html

来源：【匿名】

【上一篇】JDBC在Java Web中的应用【下一篇】JAVA/JSP学习系列之五

更多 ►

【Spark：java api读取hdfs目录下多个文件】教程文章相关的互联网学习教程文章

如何使用apache spark java中的hadoop office库将数据集写入excel文件【代码】

目前我正在使用com.crealytics.spark.excel来读取excel文件,但是使用这个库我无法将数据集写入excel文件.这个link说使用hadoop办公室库(org.zuinnote.spark.office.excel)我们可以读写excel文件请帮我把数据集对象写入spark java中的excel文件.解决方法:您可以使用org.zuinnote.spark.office.excel来使用数据集读取和写入Excel文件.示例在https://github.com/ZuInnoTe/spark-hadoopoffice-ds/给出.但是,如果您在数据集中读取Excel...

Spark Java版本wordCount【代码】

import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.*; import scala.Tuple2;import java.net.URL; import java.util.Arrays; import java.util.Comparator; import java.util.Iterator; import java.util.List;public class wordcount{public static ...

如何使用foreach迭代JavaRDD并使用Spark Java从每一行中查找特定元素【代码】

我的文本文件中包含以下行：Some different lines....Name : Praveen Age : 24 Contact : 1234567890 Location : India Some different lines....Name : John Contact : 1234567890 Location : UK Some different lines.... Name : Joe Age : 54 Contact : 1234567890 Location : US 一些不同的行指示其间还有其他信息. 现在,我需要阅读文件并提取人员信息.如果缺少任何键,则应将其读取为空字符串(第二人称信息...

Spark和Java的分层抽样【代码】

我想确保我正在对数据的分层样本进行培训. 似乎Spark 2.1和更早版本通过JavaPairRDD.sampleByKey(…)和JavaPairRDD.sampleByKeyExact(…)对此提供了支持,如here所述. 但是：我的数据存储在Dataset< Row>中,而不是JavaPairRDD中.第一列是标签,所有其他都是功能(从libsvm格式的文件导入). 获得我的数据集实例的分层样本的最简单方法是什么,最后有一个Dataset< Row>.再次？在某种程度上,这个问题与Dealing with unbalanced datasets ...

任务不可序列化-Spark Java【代码】

我在Spark中遇到“任务无法序列化”错误.我已经搜索并尝试使用某些帖子中建议的静态函数,但是它仍然会给出相同的错误. 代码如下：public class Rating implements Serializable {private SparkSession spark;private SparkConf sparkConf;private JavaSparkContext jsc;private static Function<String, Rating> mapFunc;public Rating() {mapFunc = new Function<String, Rating>() {public Rating call(String str) {return Rati...

Apache Spark和Java错误 – 引起：java.lang.StringIndexOutOfBoundsException：begin 0,end 3,length 2【代码】

我是spark框架的新手.我试图使用spark和java创建一个示例应用程序.我有以下代码的pom.xml<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.10</artifactId><version>1.6.1</version> </dependency>资源import org.apache.spark.SparkConf; import org.apache.spark.api.java.*;public class SparkTest {public static void main(String[] args) {SparkConf sparkConf = new SparkConf().setAppName("Ex...

Apache Spark：在Java中有效地使用mapPartitions【代码】

在当前早期发布的名为High Performance Spark的教科书中,Spark的开发人员注意到：To allow Spark the flexibility to spill some recordsto disk, it is important to represent your functions inside of mapPartitions in such away that your functions don’t force loading the entire partition in-memory (e.g.implicitly converting to a list). Iterators have many methods we can write functional styletransformation...

使用Apache Spark和Java将CSV解析为DataFrame / DataSet【代码】

我是新手,我想要使用group-by& reduce从CSV中找到以下内容(使用一行)：Department, Designation, costToCompany, StateSales, Trainee, 12000, UPSales, Lead, 32000, APSales, Lead, 32000, LASales, Lead, 32000, TNSales, Lead, 32000, APSales, Lead, 32000, TN Sales, Lead, 32000, LASales, Lead, 32000, LAMarketing, Associate, 18000, TNMarketing, Associate, 18000, TNHR, Manager, 58000, TN我想通过Department,Design...

加入一个数据帧spark java【代码】