Hadoop序列化与Java序列化
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop序列化与Java序列化,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1255字,纯文字阅读大概需要2分钟。
内容图文
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输
反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象。
1.JDK的序列化
只要实现了serializable接口就能实现序列化与反序列化,一定要加上序列化版本ID serialVersionUID,这个是用来识别序列化的之前的类到底是哪一个。比如希望类的不同版本对序列化兼容,需要确保类的不同版本具有相同的serialVersionUID;
Java序列化算法需要考虑:
将对象实例相关的类元数据输出。
递归地输出类的超类描述直到不再有超类。
类元数据完了之后,开始从最顶层的超类开始输出对象实例的实际数据值
从上至下递归输出实例的数据
所以java序列化很强大,序列化得到的信息很详细,但是序列化后很占内存。
2.Hadoop序列化
相对于JDK比较简洁,在急群众信息的传递主要就是靠这些序列化的字节楼来传递的,所以更快速度,容量更小。
hadoop序列化特点:
1.紧凑:带宽是集群中信息传递的最宝贵的资源所以我们必须想法设法缩小传递信息的大小 。
java序列化不够灵活,为了更好的控制序列化的整个流程所以使用Writable
java序列化会保存类的所有信息 依赖等,hadoop序列化不需要
2.对象可重用:JDK的反序列化会不断地创建对象,这肯定会造成一定的系统开销,但是在hadoop的反 序列化中,能重复的利用一个对象的readField方法来重新产生不同的对象。
java序列化每次序列化都要重新创建对象,内存消耗大。Writable可以重用。
3.可拓展性
hadoop自己写序列化很容易,可以利用实现hadoop的Writable接口 实现了直接比较字符流以确定两个Writable对象的大小。
而java不是,java的序列化机制在每个类的对象第一次出现的时候保存了每个类的信息, 比如类名, 第二次出现的类对象会有一个类的reference, 导致空间的浪费
可以使用开源的序列化框架protocol Buffers,Avro等框架
hadoop原生的序列化类需要实现一个叫Writeable的接口,类似于serializable接口
实现Writable接口必须实现两个方法:write(DataOutputStream out);readField(DataInputStream in)方法。
YARN的序列化就是用Google开发的序列化框架protocol Buffers,proto目前支持支持三种语言C++,java,Python所以RPC这一层我们就可以利用其他语言来做文章
Apache的Thrift和Google的Protocol Buffer也是比较流行的序列化框架,但是在Hadoop里使用是有限的,只用于RPC和数据交互
原文:http://www.cnblogs.com/kxdblog/p/4799282.html
内容总结
以上是互联网集市为您收集整理的Hadoop序列化与Java序列化全部内容,希望文章能够帮你解决Hadoop序列化与Java序列化所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。