TDH大数据平台数据入库方案

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了TDH大数据平台数据入库方案，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1140字，纯文字阅读大概需要2分钟。

内容图文

一、数据入库方式

目前批量数据入库TDH大数据平台主要有如下几种方式

技术分享

1、手工入录

一些静态表手工维护的数据，可以直接采用insert导入，或者使用waterdrop客户端工具导入，只适用少数据量的导入和更新

2、dblink

TDH inceptor支持建立dblink直接连接db2，oracle，mysql等关系数据库，对于一些数据量不大的静态表，手工维护的表，可以通过建立dblink的方式获取数据

优点:简单方便

缺点:1）对大数据量的表，效率较差

2）初次使用相应数据库的dblink时，需要导入对应数据库的驱动jar包到 inceptor 的lib目录，重启才能生效

3、sqoop直接抽取

可以使用sqoop的方式从RDBMS关系型数据库抽取数据到TDH大数据平台

优点:1)支持各种类型的关系型数据库；

2)数据可以直接导入到HDFS；

缺点:1)sqoop单map导入数据不快，多map导入速度快，但是同时导出的表多时，关系型数据库需要抗压

2)当生产系统的数据导出要给多个系统使用或者数据重采，每个系统都需要再次从源系统抽取数据，源系统压力较大

3)对ORACLE的colb，blob等字段，导出速度慢

4）RDBMS-文件服务器-TDH平台

先使用相应的数据库导数工具导出成文本文件，然后把文本文件上传到TDH大数据平台

优点：1）使用数据库相对应的导数工具，数据导出速度快，put到hdfs数据也快特别适合数据量大，导出表多的情况

2）当有多个系统需要使用源系统导出的数据时，可以直接共享导出的文件

3）可以制定统一的数据入库规范

缺点：1）需要文件采集服务器，增加服务器和存储成本

二、数据入库流程

3,4 两种是目前主要采用的数据入库方案，详细流程见下图

技术分享

流程1

1)关系型数据库通过导数工具导出文件到采集服务器

2)采集服务把本地文件put到HDFS上

3)对PUT到hdfs上的文件建立inceptor text映射表

4) 此时可以通过sql的方式根据不同的需要把数据导入 TDH的不同类型的表里了

注:

inceptor是一个强大的分布式数据库引擎，各个不同类型表的数据可以通过inceptor使用SQL的方式互相导，简单方便快捷

流程2

1)直接通过sqoop 把RDBMS中的数据导出成hdfs文件

2)对PUT到hdfs上的文件建立inceptor text映射表

3) 此时可以通过sql的方式根据不同的需要把数据导入 TDH的不同类型的表里了

流程3

如果是文本文件

参照流程1从第二步开始导入即可

原文：http://www.cnblogs.com/felix-xwz/p/6804868.html

内容总结

以上是互联网集市为您收集整理的TDH大数据平台数据入库方案全部内容，希望文章能够帮你解决TDH大数据平台数据入库方案所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1077527.html

来源：【匿名】

【上一篇】大数据概述【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【TDH大数据平台数据入库方案】教程文章相关的互联网学习教程文章

阿里云发布飞天大数据平台，云计算打响“DT战争”？　　虽然Jack马先生总是口出惊人之语，但事实证明他说的话总是不断被应验。　　2016年的“新零售”现在已经是公认的零售新篇章，而2014年的“人类正从IT时代走向DT时代”，也在逐渐变成现实——不管什么样的企业，都习惯要“大数据”一下。　　这其中，阿里自己往往成为“预言”的忠实拥趸，新零售跑马圈地，现在大数据也要“搞个大新闻”。　　不久前，阿里云在其峰会上发布了大...

数据仓库和Hadoop大数据平台有什么差别？

广义上来说，Hadoop大数据平台也可以看做是新一代的数据仓库系统，它也具有很多现代数据仓库的特征，也被企业所广泛使用。因为MPP架构的可扩展性，基于MPP的数据仓库系统有时候也被划分到大数据平台类产品。但是数据仓库和Hadoop平台还是有很多显著的不同。针对不同的使用场景其发挥的作用和给用户带来的体验也不经相同。用户可以根据下表简单判断什么场景更适合用什么样的产品。数据仓库和Hadoop大数据平台特性比较特性HadoopDa...

1、CM+CDH构建企业级大数据平台部署基础环境的安装【代码】【图】

一、台安装部署前各项准备 1、安装centos7系统，这个我在vmware里面安装的，具体怎么装这里就不多讲了，我建议安装桌面版本的 2、修改静态IP地址打开终端，首先我们配置动态IP，切换到root用户输入 vim /etc/sysconfig/network-scripts/ifcfg-ens33 然后保存退出，重启网卡，再检查我们的ip地址测试一下网络没有问题现在开始配置静态ip信息 TYPE=Ethernet PROXY_METHOD=none...

hadoop大数据平台架构之DKhadoop详解【图】

hadoop大数据平台架构之DKhadoop详解大数据的时代已经来了，信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战。Hadoop作为一个开源的分布式并行处理平台，以其高拓展、高效率、高可靠等优点越来越受到欢迎。这同时也带动了hadoop商业版的发行。这里就通过大快DKhadoop为大家详细介绍一下hadoop大数据平台架构内容。目前国内的商业发行版hadoop除了大快DKhadoop以外还有像华为云等。虽然发行方不同，但在平台...

小白入门AI教程：教你快速搭建大数据平台『Hadoop+Spark』【代码】

Apache Spark 简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环...

【HADOOP】| 环境搭建：从零开始搭建hadoop大数据平台（单机/伪分布式）-下【代码】【图】

因篇幅过长，故分为两节，上节主要说明hadoop运行环境和必须的基础软件，包括VMware虚拟机软件的说明安装、Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置。具体请参看：【HADOOP】| 环境搭建：从零开始搭建hadoop大数据平台（单机/伪分布式）-上6. Linux节点配置　　设置主机名：根据规划修改主机名，执行hostnamectl set-hostname hdoop1，修改主机名并写入配置文件，使用hostname查看当前生效的主机名。　　关闭防火...

TDH大数据平台数据入库方案【图】

一、数据入库方式目前批量数据入库TDH大数据平台主要有如下几种方式1、手工入录一些静态表手工维护的数据，可以直接采用insert导入，或者使用waterdrop客户端工具导入，只适用少数据量的导入和更新2、dblinkTDH inceptor支持建立dblink直接连接db2，oracle，mysql等关系数据库，对于一些数据量不大的静态表，手工维护的表，可以通过建立dblink的方式获取数据优点:简单方便缺点:1）对大数据量的表，效率较差 2）初次使用相应数...

(转)我所经历的大数据平台发展史（四）：互联网时代 ? 下篇【图】

编者按：本文是松子（李博源）的大数据平台发展史系列文章的第四篇（共四篇），本系列以独特的视角，比较了非互联网和互联网两个时代以及传统行业与非传统行业。是对数据平台发展的一个回忆，对非互联网、互联网，从数据平台的用户角度、数据架构演进、模型等进行了阐述。在互联网时代被弱化的数据模型谈起数据模型就不得不提传统数据平台架构发展，我相信很多朋友都晓得传统数据平台的知识，其架构演进简单一句话说“基本上可以分...

Hadoop or TDengine，如何做物联网大数据平台的选型？【图】

导读：本次分享的主题为Hadoop or TDengine，如何做物联网大数据平台的选型？主要介绍物联网大数据处理中可能遇到的问题；结合实际的应用场景，分析TDengine、InfluxDB、ClickHouse、Hadoop、MySQL等系统在处理时序数据时的优缺点。——前言——1. 大数据时代大数据时代，大家都在说什么叫大数据，强调的就是一个“大”字，人们期望对海量数据的挖掘和运用能够获取到更多有价值的东西。其来源包括：微信聊天数据，淘宝&京东等电商数...

centos7搭建hadoop平台搭建hadoop大数据平台（详细版！适合新手入门）【代码】【图】

Centos7搭建hadoop环境的详细步骤 1.前期准备：所需文件：3台虚拟机，jdk-8u161-linux-x64.tar.gz ，hadoop-2.7.4.tar.gz 1.1 centos的镜像下载地址：https://mirrors.aliyun.com/centos/7/isos/x86_64/ 1.2 jdk的下载地址：https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.html 1.3 hadoop的下载地址： https://archive.apache.org/dist/hadoop/common/ 我这里我用的是 CentOS-7-x86_64-Minimal-200...

Hadoop大数据平台(1)--单机模式、伪分布式、完全分布式部署【代码】【图】

文章目录一、hadoop简介二、HDFS分布式文件存储系统单机版部署三、伪分布式存储系统部署四、完全分布式存储系统部署一、hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。 HDFS为海量的数据提供了存储。 MapReduce为海量的数据提供了计算。 Hadoop框架包括以...

在线教育大数据营销平台实战（一）：大数据平台构建实战【图】

作者介绍Tigerhu在线教育公司大数据营销产品线负责人。本人目前在一家在线教育公司担任大数据营销产品负责人，由于一些机缘巧合，我同时负责了数据产品线和营销CRM产品线，因此给了我更多的机会去思考和实践如何把数据与营销业务深入融合，将大数据的势能赋予营销平台，从而实现业务的精细化运营和数据驱动。针对在线教育业务场景下的大数据营销平台实战，我会用一个系列的文章进行系统化阐述。文章可能会涉及：大数据平台搭建、用...

大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）【代码】【图】

download.oracle.com/otn-pub/java/jdk/8u45-b14/jdk-8u45-linux-x64.tar.gztar zxvf jdk-8u45-linux-x64.tar.gz cd jdk-8u45-linux-x64 sudo vi /etc/profile添加如下内容： export JAVA_HOME=/home/dir/jdk1.8.0_45 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin安装 Python sudo apt-get install python安装 zookeeper wget http://mirror.b...

第五章大数据平台与技术第13讲 NoSQL数据库【图】

NoSQL不是不用SQL，是Not only SQL，不仅仅是结构化的查询。NoSQL兴起的原因在Web2.0时代新浪一分钟可以发送两万条微博，苹果可以下载4.7万次应用。数据的高并发性，同时有90万次的查询向百度的服务器提出了搜索要求。还有高扩展性，Web应用千变万化，可能对字段的需求在不断地增加。传统的数据库无法对字段进行简单的扩展。关系型数据库作为一个统一的数据模型，既被用于数据分析，也被用于在线业务。数据分析强调的是高吞吐量，...

大数据平台展示可视化效果，echarts图表实战项目(源码50套)【代码】【图】

本文重点介绍HTML5图表框架echarts入门及实战项目(含源码)，以此来实现大数据平台展示可视化效果。缘起：最近接了个任务需要用H5在前台两个大电视上做两页数据展示公司的产品数据，效果要高大上，充分展示咱们公司的实力，给各位来公司参观的大能们留下深刻的印象。还好之前接触过HTML5，所以第一时间想到就是echarts，这个框架对于数据展示尤其图表类处理的还是非常强大和炫酷的，入门也非常大简单。说干就干，首先到官网上把框...

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / TDH大数据平台数据入库方案

TDH大数据平台数据入库方案

内容导读

内容图文

内容总结

内容备注

内容手机端

【TDH大数据平台数据入库方案】教程文章相关的互联网学习教程文章

阿里云发布飞天大数据平台，云计算打响“DT战争”？【图】

数据仓库和Hadoop大数据平台有什么差别？

1、CM+CDH构建企业级大数据平台部署基础环境的安装【代码】【图】

hadoop大数据平台架构之DKhadoop详解【图】

小白入门AI教程：教你快速搭建大数据平台『Hadoop+Spark』【代码】

【HADOOP】| 环境搭建：从零开始搭建hadoop大数据平台（单机/伪分布式）-下【代码】【图】

TDH大数据平台数据入库方案【图】

(转)我所经历的大数据平台发展史（四）：互联网时代 ? 下篇【图】

Hadoop or TDengine，如何做物联网大数据平台的选型？【图】

centos7搭建hadoop平台搭建hadoop大数据平台（详细版！适合新手入门）【代码】【图】

Hadoop大数据平台(1)--单机模式、伪分布式、完全分布式部署【代码】【图】

在线教育大数据营销平台实战（一）：大数据平台构建实战【图】

大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）【代码】【图】

第五章大数据平台与技术第13讲 NoSQL数据库【图】

大数据平台展示可视化效果，echarts图表实战项目(源码50套)【代码】【图】

大数据 - 最新教程

大数据 - 最热教程