首页 / HADOOP / Hadoop性能调优

Hadoop性能调优

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop性能调优，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含945字，纯文字阅读大概需要2分钟。

内容图文

1.Jvm重用

JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上，而是 N个Task按顺序在同一个Jvm上运行，即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置。也可在hive的执行设置：set mapred.job.reuse.jvm.num.tasks=10;(默认1)

一个TT最多可以同时运行的task数目由mapred-site.xml中mapreduce.tasktracker.map.tasks.maximum 和 mapreduce.tasktracker.reduce.tasks.maximum设置。其他方法，如在JobClient端通过命令行：-D mapred.tasktracker.map.tasks.maximum=number 或者 conf.set("mapred.tasktracker.map.tasks.maximum","number")设置都是【无效的】。

哪些因素影响作业的运行效率?

mapper的数量：尽量将输入数据切分成数据块的整数倍。如有太多小文件，则考虑CombineFileInputFormat

reducer的数量：为了达到最高性能，集群中reducer数应该略小于reducer的任务槽数

combiner使用: 充分使用合并函数减少map和reduce之间传递的数据量，combiner在map后运行

中间值的压缩：对map输出值进行压缩减少到reduce前的传递量conf.setCompressMapOutput(true)和setMapOutputCompressorClass(GzipCodec.class)

自定义Writable：如果使用自定义的Writable对象或自定义的comparator，则必须确保已实现RawComparator

调整shuffle参数：MapReduce的shuffle过程可以对一些内存管理的参数进行调整，以弥补性能不足

原文：http://www.cnblogs.com/skyl/p/4788965.html

内容总结

以上是互联网集市为您收集整理的Hadoop性能调优全部内容，希望文章能够帮你解决Hadoop性能调优所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1135450.html

来源：【匿名】

【上一篇】入门Hadoop---HDFS-API 【下一篇】php能用hadoop吗

更多 ►

【Hadoop性能调优】教程文章相关的互联网学习教程文章