首页 / 更多教程 / Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）

Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Spark2.3(三十七)：Stream join Stream（res文件每天更新一份），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5436字，纯文字阅读大概需要8分钟。

内容图文

Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）

kafka测试数据生成：

            package
             com.dx.kafka;


            import
             java.util.Properties;

            import
             java.util.Random;


            import
             org.apache.kafka.clients.producer.Producer;

            import
             org.apache.kafka.clients.producer.ProducerRecord;


            public
            class
             KafkaProducer {
    
            public
            static
            void main(String[] args) throws InterruptedException {
        Properties props = new Properties();
        props.put("bootstrap.servers", "192.168.0.141:9092,192.168.0.142:9092,192.168.0.143:9092,192.168.0.144:9092");
        props.put("acks", "all");
        props.put("retries", 0);
        props.put("batch.size", 16384);
        props.put("linger.ms", 1);
        props.put("buffer.memory", 33554432);
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        Producer<String, String> producer = new org.apache.kafka.clients.producer.KafkaProducer(props);
        int i = 0;
        Random random=new Random();
        while (true) {
            i++;
            producer.send(new ProducerRecord<String, String>("my-topic", "key-" + Integer.toString(i),
                    i%3+","+random.nextInt(100)));
            System.out.println(i);
            Thread.sleep(1000);
            
            if(i%100==0) {
                Thread.sleep(60*1000);                
            }
        }
        // producer.close();
    }
}

Stream join Stream测试代码：

要求：使用spark structured streaming实时读取kafka中的数据，kafka中的数据包含字段int_id；kafka上数据需要关联资源信息（通过kafka的int_id与资源的int_id进行关联），同时要求资源每天都更新。

使用spark structured streaming实时读取kafka中的数据

        Dataset<Row> linesDF = this.sparkSession.readStream()//
                .format("kafka")//
                .option("failOnDataLoss", false)//
                .option("kafka.bootstrap.servers", "192.168.0.141:9092,192.168.0.142:9092,192.168.0.143:9092,192.168.0.144:9092")//
                .option("subscribe", "my-topic")//
                .option("startingOffsets", "earliest")//
                .option("maxOffsetsPerTrigger", 10)//
                .load();

        StructType structType = new StructType();
        structType = structType.add("int_id", DataTypes.StringType, false);
        structType = structType.add("rsrp", DataTypes.StringType, false);
        structType = structType.add("mro_timestamp", DataTypes.TimestampType, false);
        ExpressionEncoder<Row> encoder = RowEncoder.apply(structType);
        Dataset<Row> mro = linesDF.select("value").as(Encoders.STRING()).map(new MapFunction<String, Row>() {
            privatestaticfinallong serialVersionUID = 1L;

            @Override
            public Row call(String t) throws Exception {
                List<Object> values = new ArrayList<Object>();
                String[] fields = t.split(",");
                values.add(fields.length >= 1 ? fields[0] : "null");
                values.add(fields.length >= 2 ? fields[1] : "null");
                values.add(new Timestamp(new Date().getTime()));

                return RowFactory.create(values.toArray());
            }
        }, encoder);
        mro=mro.withWatermark("mro_timestamp", "15 minutes");
        mro.printSchema();

加载资源信息

        StructType resulStructType = new StructType();
        resulStructType = resulStructType.add("int_id", DataTypes.StringType, false);
        resulStructType = resulStructType.add("enodeb_id", DataTypes.StringType, false);
        resulStructType = resulStructType.add("res_timestamp", DataTypes.TimestampType, false);
        ExpressionEncoder<Row> resultEncoder = RowEncoder.apply(resulStructType);
        Dataset<Row> resDs = sparkSession.readStream().option("maxFileAge", "1ms").textFile(resourceDir)
                .map(new MapFunction<String, Row>() {
                    privatestaticfinallong serialVersionUID = 1L;

                    @Override
                    public Row call(String value) throws Exception {
                        String[] fields = value.split(",");
                        Object[] objItems = new Object[3];
                        objItems[0] = fields[0];
                        objItems[1] = fields[1];
                        objItems[2] = Timestamp.valueOf(fields[2]);

                        return RowFactory.create(objItems);
                    }
                }, resultEncoder);
        resDs = resDs.withWatermark("res_timestamp", "1 seconds");
        resDs.printSchema();

kafka上数据与资源关联

关联条件int_id相同，同时要求res.timestamp<=mro.timestmap & res.timestamp<(mro.timestmap-1天)

res如果放入broadcast经过测试发现也是可行的。

            //
             JavaSparkContext jsc =
        
            //
             JavaSparkContext.fromSparkContext(sparkSession.sparkContext());
        Dataset<Row> cellJoinMro = mro.as("t10")//
                .join(resDs.as("t11"),// jsc.broadcast(resDs).getValue()
                        functions.expr("t11.int_id=t10.int_id "//
                                + "and t11.res_timestamp<=t10.mro_timestamp "//
                                + "and timestamp_diff(t11.res_timestamp,t10.mro_timestamp,‘>‘,‘-86400000‘)"),//
                        "left_outer")//
                .selectExpr("t10.int_id", "t10.rsrp", "t11.enodeb_id", "t10.mro_timestamp", "t11.res_timestamp");

        StreamingQuery query = cellJoinMro.writeStream().format("console").outputMode("update") //
                .trigger(Trigger.ProcessingTime(1, TimeUnit.MINUTES))//
                .start();

udf：timestamp_diff定义

        sparkSession.udf().register("timestamp_diff", new UDF4<Timestamp, Timestamp, String, String, Boolean>() {
            privatestaticfinallong serialVersionUID = 1L;

            @Override
            public Boolean call(Timestamp t1, Timestamp t2, String operator, String intervalMsStr) throws Exception {
                long diffValue=t1.getTime()-t2.getTime();
                long intervalMs=Long.valueOf(intervalMsStr);
                
                if(operator.equalsIgnoreCase(">")){
                    return diffValue>intervalMs;
                }elseif(operator.equalsIgnoreCase(">=")){
                    return diffValue>=intervalMs;
                }elseif(operator.equalsIgnoreCase("<")){
                    return diffValue<intervalMs;
                }elseif(operator.equalsIgnoreCase("<=")){
                    return diffValue<=intervalMs;
                }elseif(operator.equalsIgnoreCase("=")){
                    return diffValue==intervalMs;
                }else{
                    thrownew RuntimeException("unknown error");
                }
            }
        },DataTypes.BooleanType);

如果删除资源历史数据，不会导致正在运行的程序抛出异常；当添加新文件到res hdfs路径下时，可以自动被加载进来。

备注：要求必须每天资源文件只能有一份，否则会导致kafka上数据关联后结果重复，同时，res上的每天的文件中包含timestmap字段格式都为yyyy-MM-dd 00:00:00。

原文：https://www.cnblogs.com/yy3b2007com/p/10124722.html

内容总结

以上是互联网集市为您收集整理的Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）全部内容，希望文章能够帮你解决Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1241699.html

来源：【匿名】

【上一篇】图书馆管理系统【下一篇】关于IE的RegExp.exec的问题

更多 ►

【Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）】教程文章相关的互联网学习教程文章

Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）【代码】

kafka测试数据生成：package com.dx.kafka;import java.util.Properties; import java.util.Random;import org.apache.kafka.clients.producer.Producer; import org.apache.kafka.clients.producer.ProducerRecord;publicclass KafkaProducer {publicstaticvoid main(String[] args) throws InterruptedException {Properties props = new Properties();props.put("bootstrap.servers", "192.168.0.141:9092,192.168.0.142:9092,1...

启动office应用更新失败无法进入excel、word、visio的问题解决

windows10环境下不断碰到启动word、excel、visio等应用时即显示更新画面，然后更新失败退出，断网、重启电脑均无法解决。甚至无法进入任何一个应用关闭更新。解决的办法如下：资源管理器右击“此电脑”->管理->服务和应用程序->服务->列表中找到“Microsoft Office即点即用服务”右击->停止->属性->将启动类型改为“禁用”。此时再打开任一应用即可正常打开。再关闭更新：任一应用打开后->文件->账户->Office更新->更新选项->禁用更...

win 7 sp1 升级 win 10 更新时报错代码80070002的解决方法【图】

win 7 sp1 升级 win 10 的过程中不免会遇到各种各样的错误，我所遇到的错误就是在更新下载出现报错代码为80070002。当时我就想知道这串数字代表着什么？它又是什么意思？肯定先要利用搜索引擎来看看windows update 80070002 错误到底是什么？出现错误的图片为：为了保护电脑的一些程序不被删除，建议选择微软官网来寻找它的解决方法，微软官网的东西可信度还是相当高的。首先是进入微软官网的首页：http://...

wp8.1 gdr2什么时候更新？wp8.1gdr2更新推送时间【图】

当大家把注意力都放在了win10手机系统的的时候，微软就要放出wp8.1的第二个更新版本gdr2，下面就和小编一起去看下wp8.1gdr2的更新推送时间吧。　　微软在手机上的最大押注莫过于Windows 10，不过有消息说，在那之前微软还会为Windows Phone 8.1推送第二个更新升级GDR2，也有所谓截图泄露出来。　　现在，微软官方公开了它的存在，WP8.1 GDR2更新文档已经出现在微软官网开发中心，并披露了诸多新特性、新功能。　　首先，新版将支持...

postgresql 时间戳自动更新【代码】

PostgreSQL执行Insert语句时，自动填入时间的功能可以在创建表时实现，但更新表时时间戳不会自动自动更新。解决方案通过触发器实现，具体如下：createorreplacefunction upd_timestamp() returnstriggeras $$ beginnew.change_datetime =current_timestamp; --change_datetime为更新时间戳字段；所有的表建议都使用这个字段作为更新的时间戳字段；return new; end $$ language plpgsql;创建一个例子表：createtable ts (id ...

SQL Code tips (持续更新)

1. 表存在，查询语句也能执行，但是表名下面总是有条红线，说对象名无效CTRL + SHIFT +R 刷新本地缓存就可以了 2. IDE （Integrated Development Environment,集成开发环境）下SQL 2012下，列编辑！使用ALT 选中某一列或某多列，然后松开就可以在此位置开始进行列删除/列编辑/列插入了原文：http://www.cnblogs.com/skyEva/p/4220540.html

Fiddler Everywhere v1.1.0版本更新功能介绍【图】

2020年9月24号，Fiddler Everywhere 又更新了一个新的版本了，目前是v1.1.0了，可以到官网下载，小编这里已将下载好的安装包传到网盘：链接：https://pan.baidu.com/s/1YamuwybX0MVCUJA0gaLQTg 提取码：vl1v 复制这段内容后打开百度网盘手机App，操作更方便哦本次版本更新内容如下：修复了几个bug：新加了以下功能：原文：https://www.telerik.com/support/whats-new/fiddler-everywhere/release-history/fiddler-everywhere-v1...

数据库操作：编辑表向线上表更新

1、edit表是最新的数据，release表是线上表。 2、会有不同的容器调用release表，也就是需要解决容器之间的锁的问题，其他容器只有读操作，正在操控的容器有读写操作，因为更新操作无法做到原子，所以在操作之间可能会遇到其他容器查询为空或读了一半等出错的状态 a. 在另外一张表version里，打上到底使用哪张表. 即读取数据的时候是在两个表之间来回跳跃的以下操作在我们做update的容器里需要加锁 1、up...

win10系统预览版10064界面曝光 win10预览版10064更新内容汇总【图】

win10预览版10064更新了什么?继不久前推出的win10预览版10056后，win10预览版10064界面也已曝光。想了解具体情况的朋友们一起跟小编去看看吧　　据最新的Win10预览版10064的消息爆料，该版本同样为微软针对全球高级合作伙伴的内部版本。与之前曝光的10056版本一样，Win10预览版10064同样采用了暗黑风格界面设计。搜索栏、通知栏开始菜单中常用应用图标背景色、以及Metro界面设置中的按钮颜色、搜索条颜色均会随着壁纸的颜色进行改...

originos更新时间介绍【图】

vivo最近推出了一款自主的系统originos，很多小伙伴都很期待但是不知道具体的更新时间，下面就给你们带来了originos更新时间介绍，有需要的就来了解一下吧。originos什么时候更新：1、originos系统的首发机型将在下一代的x旗舰机上使用。2、第一批公测的计划将在2021年1月31日开启。3、第二批公测的计划将在2021年春节前期开始公测。4、而第三批将在2021年季度陆续开启公测。5、只要机型不是特别的老旧就都能更新的。你可能还想看：...

Xen-Serve带数据更新系统【图】

Xen-Serve带数据更新系统对于Xen-Server系统在系统出现异常时，可以考虑带数据更新系统，带数据更新系统，不需要对系统数据进行备份，直接更新就好，下面是更新的方法。先将服务器挂载好系统镜像，可以挂载与原系统相同的镜像，也可以挂载高版本的镜像。直接做到版本升级。相关操作截图如下重启即可。

小程序版本更新【代码】

APP.js App({onLaunch: function() {//检查小程序版本var that = this;that.checkUpdateVersion(); },checkUpdateVersion(){var that = this;//判断微信版本是否兼容小程序更新机制API的使用if (wx.canIUse(‘getUpdateManager‘)) {//创建 UpdateManager 实例const updateManager = wx.getUpdateManager();console.log(‘是否进入模拟更新‘);//检测版本更新updateManager.onCheckForUpdate(function (res) {console.log(‘是否...

【转载】net的nuget无法更新解决

打开Nuget，发现又出问题了：未能解析此远程名称:’nuget.org’。在浏览器中输入 http://nuget.org 会发现是无法打开的。在cmd命令行里输入: nslookup nuget.org 一般也是无法解析到这个域名的ip地址。不过在cmd命令行里输入： nslookup nuget.org 8.8.8.8 向谷歌的dns查询这个域名，便能正确返回域名对应ip地址。为什么使用dhcp自动获取的dns服务器就无法解析nuget.org 这个域名呢？输入如下命令： nslookup –type=ns nuget....

更新升级10.11 cocoapods安装出问题最简单的解决方法【代码】

这是因为10.11把cocoapods直接干掉了sudo gem install -n /usr/local/bin cocoapods 再加一句，完美解决 sudo xcode-select --switch /Applications/Xcode.app原文：http://www.cnblogs.com/Milo-CTO/p/6107859.html

Sql 函数大全（更新中...由难到简【代码】

1.字符处理类：1.1 指定指定字符输出的次数selectreplicate(‘1a‘,5)结果：1a1a1a1a1a （5个1a）原文：http://www.cnblogs.com/shengwei/p/4479662.html

首页 / 更多教程 / Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）

Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）

内容导读

内容图文

kafka测试数据生成：

Stream join Stream测试代码：

使用spark structured streaming实时读取kafka中的数据

加载资源信息

kafka上数据与资源关联

内容总结

内容备注

内容手机端

【Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）】教程文章相关的互联网学习教程文章

Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）【代码】

启动office应用更新失败无法进入excel、word、visio的问题解决

win 7 sp1 升级 win 10 更新时报错代码80070002的解决方法【图】

wp8.1 gdr2什么时候更新？wp8.1gdr2更新推送时间【图】

postgresql 时间戳自动更新【代码】

SQL Code tips (持续更新)

Fiddler Everywhere v1.1.0版本更新功能介绍【图】

数据库操作：编辑表向线上表更新

win10系统预览版10064界面曝光 win10预览版10064更新内容汇总【图】

originos更新时间介绍【图】

Xen-Serve带数据更新系统【图】

小程序版本更新【代码】

【转载】net的nuget无法更新解决

更新升级10.11 cocoapods安装出问题最简单的解决方法【代码】

Sql 函数大全（更新中...由难到简【代码】

更多教程 - 最新教程

更多教程 - 最热教程