首页 / 大数据 / 下一代大数据处理平台Apache Beam成为Apache顶级项目

下一代大数据处理平台Apache Beam成为Apache顶级项目

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了下一代大数据处理平台Apache Beam成为Apache顶级项目，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1670字，纯文字阅读大概需要3分钟。

内容图文

下一代大数据处理平台Apache Beam成为Apache顶级项目

iteblog 过往记忆大数据
下一代大数据处理平台Apache Beam成为Apache顶级项目 - 文章图片
Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业，成为Apache的顶级项目

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。

Beam仅仅是一个SDK，是一个应用顶层的API，那么它下层支持的数据处理框架（官方叫做Apache Beam Pipeline Runners）主要包括Apache Apex，Apache Flink，Apache Spark以及它自己的Google Cloud Dataflow。

Apache Beam 的两大特点

1、将数据的批处理（batch）和流处理（stream）编程范式进行了统一；
2、能够在任何的执行引擎上运行。

它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据处理、吸收和整合。

为什么会诞生Apache Beam

大数据处理领域的一大问题是：开发者经常要用到很多不同的技术、框架、API、开发语言和 SDK。根据任务场景的不一样，开发者很可能会用 MapReduce 进行批处理，用 Apache Spark SQL 进行交互请求，用 Apache Flink 实时流处理。新的分布式处理框架可能带来的更高的性能，更强大的功能，更低的延迟等，但用户切换到新的分布式处理框架的代价也非常大：需要学习一个新的数据处理框架，并重写所有的业务逻辑。

解决这个问题的思路包括两个部分，首先，需要一个编程范式，能够统一，规范分布式数据处理的需求，例如，统一批处理和流处理的需求。其次，生成的分布式数据处理任务应该能够在各个分布式执行引擎上执行，用户可以自由切换分布式数据处理任务的执行引擎与执行环境。Apache Beam正是为了解决以上问题而提出的。

因为笔者并没有实际使用Apache Beam的经验，所以深入的知识请参见Apache Beam的官方文档。

内容总结

以上是互联网集市为您收集整理的下一代大数据处理平台Apache Beam成为Apache顶级项目全部内容，希望文章能够帮你解决下一代大数据处理平台Apache Beam成为Apache顶级项目所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1022398.html

来源：【匿名】

【上一篇】好用的大数据平台有哪些？【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【下一代大数据处理平台Apache Beam成为Apache顶级项目】教程文章相关的互联网学习教程文章

玩转大数据系列之Apache Pig高级技能之函数编程（六）【图】

原创不易，转载请务必注明，原创地址，谢谢配合! http://my.oschina.net/u/1027043/blogPig系列的学习文档，希望对大家有用，感谢关注散仙！ Apache Pig的前世今生 Apache Pig如何自定义UDF函数？ Apache Pig5行代码怎么实现Hadoop的WordCount？ Apache Pig入门学习文档（一） Apache Pig学习笔记（二） Apache Pig学习笔记之内置函数（三）玩转大数据系列之Apache Pig如何与Apache Lucene集成（一）玩转大数据系列之Apache Pig如...

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

1.1 Hadoop简介从Hadoop官网获得Hadoop的介绍：http://hadoop.apache.org/(1)What Is Apache Hadoop?TheApache Hadoop project develops open-source software for reliable, scalable, distributed computing.TheApache Hadoop software library is a framework that allows for the distributedprocessing of large data sets across clusters of computers using simpleprogramming models. It is designed to scale up from si...

【大数据Zookeeper系列】 Zookeeper Java 客户端 ——Apache Curator

文章目录Zookeeper Java 客户端 ——Apache Curator一、基本依赖二、客户端相关操作2.1 创建客户端实例 2.2 重试策略 2.3 判断服务状态三、节点增删改查3.1 创建节点 2.2 获取节点信息 2.3 获取子节点列表 2.4 更新节点 2.5 删除节点 2.6 判断节点是否存在三、监听事件3.1 创建一次性监听 3.2 创建永久监听 3.3 监听子节点Zookeeper Java 客户端 ——Apache Curator 一、基本依赖

ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.12

公告我们的所有非技术内容和活动，从现在开始会使用 iBooker 这个名字。 “开源互助联盟”已终止，我们对此表示抱歉和遗憾。除非特地邀请，我们不再推广他人的任何项目。公众号自动回复已更新，添加了“轻小说/知识星球”关键词。我们近期将所有内容备份到 Gitee，欢迎访问 Gitee@ApacheCN。欢迎大家在我们平台上投放广告。如果你希望在我们的专栏、文档或邮件中投放广告，请准备好各种尺寸的图片和专属链接，联系咸鱼（1034616...

【大数据架构】Apache Flink和Apache Spark—比较指南【图】

1. 目标在本教程中，我们将讨论Apache Spark和Apache Flink之间的比较。Apache spark和Apache Flink都是用于大规模批处理和流处理的开源平台，为分布式计算提供容错和数据分布。本指南提供了Apache Flink和Apache Spark这两种蓬勃发展的大数据技术在特性方面的明智比较。2. Apache Flink vs Apache Spark特性Apache FlinkApache Spark计算模型Flink基于基于操作器的计算模型。Spark是基于微批处理模式的。流处理引擎Apache Flink为...

大数据可视化从未如此简单 - Apache Zepplien全面介绍【代码】【图】

大数据可视化从未如此简单 - Apache Zepplien全面介绍群主大数据技术与架构前言我们在进入 Apache Zepplien 的学习前，需要了解两个概念：REPL和Jupyter Notebook。 REPL REPL全称是Read Evaluate Print Loop，交互式解释器环境，通过交互式界面接收用户输入，交互式解释器读取输入内容并对它求值，返回结果，并重复此过程。JShell 是 Java 9 新增的一个交互式的编程环境工具。它允许你无需使用类或者方法包装来执行 Java 语...

下一代大数据处理平台Apache Beam成为Apache顶级项目【图】

下一代大数据处理平台Apache Beam成为Apache顶级项目 iteblog 过往记忆大数据 Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业，成为Apache的顶级项目 Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式，为...

盘点2020年晋升为Apache TLP的大数据相关项目【图】

盘点2020年晋升为Apache TLP的大数据相关项目过往记忆大数据过往记忆大数据\在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目（Top-Level Project ，简称 TLP ），在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目，主要是 Apache ShardingSphere?、Apache Hudi?、Apache Iceberg? 以及 Apache IoTDB?，这里以毕业的时间顺序依次介绍。关于过去几年毕...

盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目【图】

盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目过往记忆大数据过往记忆大数据今天是 2019年的最后一天了，明天就是新的一年，在这里预祝大家元旦快乐！也感谢大家过去一年对小编的支持！在过去两年，本博客盘点了当年晋升为 Apache TLP（Apache Top-Level Project）的大数据相关项目，具体参见《盘点2017年晋升为Apache TLP的大数据相关项目》、《盘点2018年晋升为Apache TLP的大数据相关项目》，继承这个...

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / 下一代大数据处理平台Apache Beam成为Apache顶级项目

下一代大数据处理平台Apache Beam成为Apache顶级项目

内容导读

内容图文

下一代大数据处理平台Apache Beam成为Apache顶级项目

Apache Beam 的两大特点

为什么会诞生Apache Beam

内容总结

内容备注

内容手机端

【下一代大数据处理平台Apache Beam成为Apache顶级项目】教程文章相关的互联网学习教程文章

玩转大数据系列之Apache Pig高级技能之函数编程（六）【图】

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

【大数据Zookeeper系列】 Zookeeper Java 客户端 ——Apache Curator

ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.12

【大数据架构】Apache Flink和Apache Spark—比较指南【图】

大数据可视化从未如此简单 - Apache Zepplien全面介绍【代码】【图】

下一代大数据处理平台Apache Beam成为Apache顶级项目【图】

盘点2020年晋升为Apache TLP的大数据相关项目【图】

盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目【图】

APACHE - 相关标签

大数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程