首页 / HADOOP / Hadoop集群间的hbase数据迁移

Hadoop集群间的hbase数据迁移

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop集群间的hbase数据迁移，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6678字，纯文字阅读大概需要10分钟。

内容图文

在日常的使用过程中，可能经常需要将一个集群中hbase的数据迁移到或者拷贝到另外一个集群中，这时候，可能会出很多问题以下是我在处理的过程中的一些做法和处理方式。前提，两个hbase的版本一直，否则可能出现不可预知的问题，造成数据迁移失败当两个集群

在日常的使用过程中，可能经常需要将一个集群中hbase的数据迁移到或者拷贝到另外一个集群中，这时候，可能会出很多问题

以下是我在处理的过程中的一些做法和处理方式。

前提，两个hbase的版本一直，否则可能出现不可预知的问题，造成数据迁移失败

当两个集群不能通讯的时候，可以先将数据所在集群中hbase的数据文件拷贝到本地

具体做法如下：

在Hadoop目录下执行如下命令，拷贝到本地文件。

bin/Hadoop fs -copyToLocal /hbase/tab_keywordflow /home/test/xiaochenbak

然后你懂得，将文件拷贝到你需要的你需要迁移到的那个集群中，目录是你的表的目录，

如果这个集群中也有对应的表文件，那么删除掉，然后拷贝。

/bin/Hadoop fs -rmr /hbase/tab_keywordflow

/bin/Hadoop fs -copyFromLocal /home/other/xiaochenbak /hbase/tab_keywordflow

此时的/home/other/xiaochenbak为你要迁移到数据的集群。

重置该表在.META.表中的分区信息

bin/hbase org.jruby.Main /home/other/hbase/bin/add_table.rb /hbase/tab_keywordflow

/home/other/hbase/bin/add_table.rb为ruby脚本，可以执行，脚本内容如下：另存为add_table.rb即可

#
# Copyright 2009 The Apache Software Foundation
#
# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor license agreements. See the NOTICE file
# distributed with this work for additional information
# regarding copyright ownership. The ASF licenses this file
# to you under the Apache License, Version 2.0 (the
# "License"); you may not use this file except in compliance
# with the License. You may obtain a copy of the License at
#
# http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#
# Script adds a table back to a running hbase.
# Currently only works on if table data is in place.
#
# To see usage for this script, run:
#
# ${HBASE_HOME}/bin/hbase org.jruby.Main addtable.rb
#
include Java
import org.apache.Hadoop.hbase.util.Bytes
import org.apache.Hadoop.hbase.HConstants
import org.apache.Hadoop.hbase.regionserver.HRegion
import org.apache.Hadoop.hbase.HRegionInfo
import org.apache.Hadoop.hbase.client.HTable
import org.apache.Hadoop.hbase.client.Delete
import org.apache.Hadoop.hbase.client.Put
import org.apache.Hadoop.hbase.client.Scan
import org.apache.Hadoop.hbase.HTableDescriptor
import org.apache.Hadoop.hbase.HBaseConfiguration
import org.apache.Hadoop.hbase.util.FSUtils
import org.apache.Hadoop.hbase.util.Writables
import org.apache.Hadoop.fs.Path
import org.apache.Hadoop.fs.FileSystem
import org.apache.commons.logging.LogFactory

# Name of this script
NAME = "add_table"

# Print usage for this script
def usage
puts 'Usage: %s.rb TABLE_DIR [alternate_tablename]' % NAME
exit!
end

# Get configuration to use.
c = HBaseConfiguration.new()

# Set Hadoop filesystem configuration using the hbase.rootdir.
# Otherwise, we'll always use localhost though the hbase.rootdir
# might be pointing at hdfs location.
c.set("fs.default.name", c.get(HConstants::HBASE_DIR))
fs = FileSystem.get(c)

# Get a logger and a metautils instance.
LOG = LogFactory.getLog(NAME)

# Check arguments
if ARGV.size < 1 || ARGV.size > 2
usage
end

# Get cmdline args.
srcdir = fs.makeQualified(Path.new(java.lang.String.new(ARGV[0])))

if not fs.exists(srcdir)
raise IOError.new("src dir " + srcdir.toString() + " doesn't exist!")
end

# Get table name
tableName = nil
if ARGV.size > 1
tableName = ARGV[1]
raise IOError.new("Not supported yet")
elsif
# If none provided use dirname
tableName = srcdir.getName()
end
HTableDescriptor.isLegalTableName(tableName.to_java_bytes)

# Figure locations under hbase.rootdir
# Move directories into place; be careful not to overwrite.
rootdir = FSUtils.getRootDir(c)
tableDir = fs.makeQualified(Path.new(rootdir, tableName))

# If a directory currently in place, move it aside.
if srcdir.equals(tableDir)
LOG.info("Source directory is in place under hbase.rootdir: " + srcdir.toString());
elsif fs.exists(tableDir)
movedTableName = tableName + "." + java.lang.System.currentTimeMillis().to_s
movedTableDir = Path.new(rootdir, java.lang.String.new(movedTableName))
LOG.warn("Moving " + tableDir.toString() + " aside as " + movedTableDir.toString());
raise IOError.new("Failed move of " + tableDir.toString()) unless fs.rename(tableDir, movedTableDir)
LOG.info("Moving " + srcdir.toString() + " to " + tableDir.toString());
raise IOError.new("Failed move of " + srcdir.toString()) unless fs.rename(srcdir, tableDir)
end

# Clean mentions of table from .META.
# Scan the .META. and remove all lines that begin with tablename
LOG.info("Deleting mention of " + tableName + " from .META.")
metaTable = HTable.new(c, HConstants::META_TABLE_NAME)
tableNameMetaPrefix = tableName + HConstants::META_ROW_DELIMITER.chr
scan = Scan.new((tableNameMetaPrefix + HConstants::META_ROW_DELIMITER.chr).to_java_bytes)
scanner = metaTable.getScanner(scan)
# Use java.lang.String doing compares. Ruby String is a bit odd.
tableNameStr = java.lang.String.new(tableName)
while (result = scanner.next())
rowid = Bytes.toString(result.getRow())
rowidStr = java.lang.String.new(rowid)
if not rowidStr.startsWith(tableNameMetaPrefix)
# Gone too far, break
break
end
LOG.info("Deleting row from catalog: " + rowid);
d = Delete.new(result.getRow())
metaTable.delete(d)
end
scanner.close()

# Now, walk the table and per region, add an entry
LOG.info("Walking " + srcdir.toString() + " adding regions to catalog table")
statuses = fs.listStatus(srcdir)
for status in statuses
next unless status.isDir()
next if status.getPath().getName() == "compaction.dir"
regioninfofile = Path.new(status.getPath(), HRegion::REGIONINFO_FILE)
unless fs.exists(regioninfofile)
LOG.warn("Missing .regioninfo: " + regioninfofile.toString())
next
end
is = fs.open(regioninfofile)
hri = HRegionInfo.new()
hri.readFields(is)
is.close()
# TODO: Need to redo table descriptor with passed table name and then recalculate the region encoded names.
p = Put.new(hri.getRegionName())
p.add(HConstants::CATALOG_FAMILY, HConstants::REGIONINFO_QUALIFIER, Writables.getBytes(hri))
metaTable.put(p)
LOG.info("Added to catalog: " + hri.toString())
end
好了，以上就是我的做法，如何集群键可以通信，那就更好办了，相信你懂得，scp

内容总结

以上是互联网集市为您收集整理的Hadoop集群间的hbase数据迁移全部内容，希望文章能够帮你解决Hadoop集群间的hbase数据迁移所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/541950.html

来源：【匿名】

【上一篇】MongoDB+Hadoop运行环境搭建【下一篇】php能用hadoop吗

更多 ►

【Hadoop集群间的hbase数据迁移】教程文章相关的互联网学习教程文章

Hadoop集群安装-CDH5（3台服务器集群）【代码】

CDH5包下载：http://archive.cloudera.com/cdh5/主机规划：IPHost部署模块进程192.168.107.82Hadoop-NN-01NameNodeResourceManagerNameNodeDFSZKFailoverControllerResourceManager192.168.107.83Hadoop-DN-01Zookeeper-01DataNodeNodeManagerZookeeperDataNodeNodeManagerJournalNodeQuorumPeerMain192.168.107.84Hadoop-DN-02Zookeeper-02DataNodeNodeManagerZookeeperDataNodeNodeManagerJournalNodeQuorumPeerMain各个进程解释...

应对Hadoop集群数据疯长，这里祭出了4个治理对策！【图】

一、背景在目前规模比较大的互联网公司中，总数据量能达到10PB甚至几十PB数据量的公司，我认为中国已经有超过了20家了。而在这些公司中，也有很多家公司的日数据增长达到100TB+ 了。所以我们每天都要观察集群的数据增长，观察是否有哪一天、哪个路径增长过猛了，是否增长了很多垃圾数据；继续深挖下去，看看是不是可以删掉无用的数据。此外我们还要做“容量预估“，把未来的数据增长规划出来，主要是依靠数据增长斜率计算出未来一...

搭Hadoop集群时，配置SSH免密登录【代码】

Hadoop集群采用SSH免密码登录的形式进行通信，需要事先配置免密码认证。CentOS 7操作系统中默认已经安装了SSH，本书中仅介绍SSH免密码登录配置。在配置SSH时使用Xshell分别登陆6个服务器节点，并进行SSH配置。(1)生成公钥SSH目录在/etc，目录下ssh-keygen -t rsa (提示：生成的认证秘钥并非只有rsa还有一个是dsa)，连续敲3个回车就行了，不用输入密码。[hadoop@sys01 ~]$ ssh-keygen -t rsa Generating public/private rsa key pai...

集群配置虚拟主机及部署Hadoop集群碰到的问题【代码】【图】

配置集群方案Ubuntu下的配置apache虚拟主机方案:对其中的Master节点配置虚拟主机，可以通过Chrome浏览器访问目录。安装虚拟主机之前，先安装Apache2sudo apt-get install apache2再安装php5sudo apt-get install php5然后，进入 /etc/apache2/sites-available文件夹，添加”*.conf”文件往该文件里写入<VirtualHost *:80>ServerName author.xxx.comServerAdmin author.xxx.comDocumentRoot "/home/author"<Directory "/home/au...

集群hadoop ubuntu版【代码】【图】

搭建ubuntu版hadoop集群用到的工具：VMware、hadoop-2.7.2.tar、jdk-8u65-linux-x64.tar、ubuntu-16.04-desktop-amd64.iso 1、在VMware上安装ubuntu-16.04-desktop-amd64.iso 单击“创建虚拟机”è选择“典型（推荐安装）”è单击“下一步” è点击完成修改/etc/hostname vim hostname 保存退出修改etc/hosts 127.0.0.1 localhost 192.168.1.100 s100 192.168.1.101 s101 192.168.1.102 s102 192.168.1.103 ...

windows下eclipse远程连接hadoop集群开发mapreduce【代码】【图】

转载请注明出处，谢谢2017-10-22 17:14:09 之前都是用python开发maprduce程序的，今天试了在windows下通过eclipse java开发，在开发前先搭建开发环境。在此，总结这个过程，希望能够帮助有需要的朋友。用Hadoop eclipse plugin，可以浏览管理HDFS，自动创建MR程序的模板文件，最爽的就是可以直接Run on hadoop。1、安装插件下载hadoop-eclipse-plugin-1.2.1.jar，并把它放到 F:\eclipse\plugins 目录下。 2、插件配置与使用2.1指定...

Hadoop集群硬盘故障分析与自动化修复【图】

作者：Zhang, Haohao摘要：硬盘在服务器中起着至关重要的作用，因为硬盘里面存储的是数据，随着制造业技术的提高，硬盘的类型也在逐渐的改变。对于硬盘的管理是IAAS部门的责任，但作为业务运维也需要懂得相关的技术。有的公司采用LVM来管理硬盘，这样做方便扩缩容，也有的公司直接用裸盘来存数据，这样做的好处是不会因LVM而损失掉一部分硬盘I/O速度。需要根据不同的场景采用不同的方式来管理。Hadoop集群中跑Datanode服务的节点不...

使用Docker在本地搭建Hadoop分布式集群

学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法：要么找多台机器来部署（常常找不到机器）或者在本地开多个虚拟机（开销很大，对宿主机器性能要求高，光是安装多个虚拟机系统就得搞半天……）。那么，问题来了！有没有更有可行性的办法？提到虚拟化，Docker最近很是火热！不妨拿来在本地做虚拟化，搭建Hadoop的伪分布式集群环境。虽然有点大材小用，但是学习学习，练练手也是极好的。更多详情，猛戳这...

流式大数据计算实践（2）----Hadoop集群和Zookeeper【代码】【图】

一、前言1、上一文搭建好了Hadoop单机模式，这一文继续搭建Hadoop集群二、搭建Hadoop集群1、根据上文的流程得到两台单机模式的机器，并保证两台单机模式正常启动，记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动，启动完毕后再改回来2、清空数据，首先把运行单机模式后生成的数据全部清理掉rm -rf /work/hadoop/nn/currentrm -rf /work/hadoop/dn/currenthdfs namenode -format3、启动集群（1）storm1作为n...

Hadoop集群安装部署(VMware)【图】

一、hadoop版本介绍不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称　CDH）、Hortonworks版本(Hortonworks Data Platform，简称“HDP”），对于国内而言，绝大多数选择CDH版本。　　Cloudera的CDH和Apache的Hadoop对应关系：　　CDH的两个系列版本分别是CDH3和CDH4，CDH3对应Hadoop 1.0...

Hadoop1.2.1 完全分布式集群搭建实操笔记

前期准备工作： 1.修改Linux主机名：/etc/hostname ubuntu系统：vi /etc/hostname 将ubuntu默认的主机名ubuntu改为suh01 2.修改IP：/etc/network/interfaces 修改配置文件/etc/network/interfaces vi /etc/network/interfaces #将原来的内容注释掉： #auto lo ...

Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统【代码】【图】

前言　　我们知道HDFS集群中，所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢？这就是我今天分享的内容了一、HDFS中数据块概述1.1、HDFS集群中数据块存放位置　　我们知道hadoop集群遵循的是主/从的架构，namenode很多时候都不作为文件的读写操作，只负责任务的调度和掌握数据块在哪些datanode的分布，　　保存的是一些数据结构，是namespace或者类似索引之类的东西，真正的数据存储和对数据的读写是...

hadoop分布式集群环境搭建【图】

参考 http://www.cnblogs.com/zhijianliutang/p/5736103.html 1 wget http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz2 解压 tar -zxvf hadoop-2.9.2.tar.gz3 配置环境变量 vim /etc/profile　　export HADOOP_HOME=/usr/hadoop-2.9.2　　export PATH=$PATH:$HADOOP_HOME/bin4 验证 $ hadoop version 配置ssh无密登录。。。。原文：https://www.cnblogs.com/syscn/p/10138750.html

docker中搭建分布式hadoop集群【代码】

1、pull Ubuntu镜像配置Java环境2、下载hadoop软件包3、配置JAVA_HOME（hadoop-env.sh、mapred-env.sh、yarn-env.sh）4、配置core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://127.17.0.5:8020</value></property><property><name>hadoop.tmp.dir</name><value>/home/root/data/tmp</value></property></configuration>5、配置hdfs-site.xml<configuration><property><name>dfs.namenode.secondary....

Hadoop集群启动之后,datanode节点未正常启动的问题【图】

Hadoop集群启动之后,用JPS命令查看进程发现datanode节点上,只有TaskTracker进程.如下图所示master的进程:两个slave的节点进程发现salve节点上竟然没有datanode进程.查看了日志,发现有这样一句话: 这句话的意思是:datanode上的data目录权限是765,而期望权限是755,所以使用chmod 755 data命令,将目录权限改为755.再次重启hadoop集群,发现datanode节点已经正常启动.原文：http://www.cnblogs.com/Cilimer/p/4055622.html

数据迁移 - 相关标签

数据迁移

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop集群间的hbase数据迁移

Hadoop集群间的hbase数据迁移

内容导读

内容图文

内容总结

内容备注

内容手机端

【Hadoop集群间的hbase数据迁移】教程文章相关的互联网学习教程文章

Hadoop集群安装-CDH5（3台服务器集群）【代码】

应对Hadoop集群数据疯长，这里祭出了4个治理对策！【图】

搭Hadoop集群时，配置SSH免密登录【代码】

集群配置虚拟主机及部署Hadoop集群碰到的问题【代码】【图】

集群hadoop ubuntu版【代码】【图】

windows下eclipse远程连接hadoop集群开发mapreduce【代码】【图】

Hadoop集群硬盘故障分析与自动化修复【图】

使用Docker在本地搭建Hadoop分布式集群

流式大数据计算实践（2）----Hadoop集群和Zookeeper【代码】【图】

Hadoop集群安装部署(VMware)【图】

Hadoop1.2.1 完全分布式集群搭建实操笔记

Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统【代码】【图】

hadoop分布式集群环境搭建【图】

docker中搭建分布式hadoop集群【代码】

Hadoop集群启动之后,datanode节点未正常启动的问题【图】

HADOOP - 相关标签

数据迁移 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程