首页 / HADOOP / Hadoop性能调优
Hadoop性能调优
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop性能调优,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含945字,纯文字阅读大概需要2分钟。
内容图文
1.Jvm重用
JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上,而是 N个Task按顺序在同一个Jvm上运行,即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置。也可在hive的执行设置:set mapred.job.reuse.jvm.num.tasks=10;(默认1)
一个TT最多可以同时运行的task数目由mapred-site.xml中mapreduce.tasktracker.map.tasks.maximum 和 mapreduce.tasktracker.reduce.tasks.maximum设置。其他方法,如在JobClient端通过命令行:-D mapred.tasktracker.map.tasks.maximum=number 或者 conf.set("mapred.tasktracker.map.tasks.maximum","number")设置都是【无效的】。
哪些因素影响作业的运行效率?
mapper的数量:尽量将输入数据切分成数据块的整数倍。如有太多小文件,则考虑CombineFileInputFormat
reducer的数量:为了达到最高性能,集群中reducer数应该略小于reducer的任务槽数
combiner使用: 充分使用合并函数减少map和reduce之间传递的数据量,combiner在map后运行
中间值的压缩:对map输出值进行压缩减少到reduce前的传递量conf.setCompressMapOutput(true)和setMapOutputCompressorClass(GzipCodec.class)
自定义Writable:如果使用自定义的Writable对象或自定义的comparator,则必须确保已实现RawComparator
调整shuffle参数:MapReduce的shuffle过程可以对一些内存管理的参数进行调整,以弥补性能不足
原文:http://www.cnblogs.com/skyl/p/4788965.html
内容总结
以上是互联网集市为您收集整理的Hadoop性能调优全部内容,希望文章能够帮你解决Hadoop性能调优所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。