如何在Apache Spark中执行Sort JavaPairRDD
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了如何在Apache Spark中执行Sort JavaPairRDD,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含872字,纯文字阅读大概需要2分钟。
内容图文
![如何在Apache Spark中执行Sort JavaPairRDD](/upload/InfoBanner/zyjiaocheng/664/2904e64445774baead62aefbb1357511.jpg)
我正在从日志文件中获取IP地址并对其进行计数,现在我想根据其计数值对该JavaPairRDD进行排序.
您可以参考以下代码.
JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
// TODO Auto-generated method stub
return v1 + v2;
}
});
上面的JavaPairRDD将返回IP计数,现在我要对其进行排序.
例如输出将是这样
(172.16.0.0,125)
(192.168.0.0,12)
(127.168.0.44,92)
第二个值是该特定ip的计数.
解决方法:
Spark不支持基于值的排序.作为解决方法,您可以交换键和值对,然后根据键进行排序.
检查:https://issues.apache.org/jira/browse/SPARK-3655
使用以下代码交换键和值:
JavaPairRDD<Integer, String> swapped = counts.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
@Override
public Tuple2<Integer, String> call(Tuple2<String, Integer> item) throws Exception {
return item.swap();
}
});
内容总结
以上是互联网集市为您收集整理的如何在Apache Spark中执行Sort JavaPairRDD全部内容,希望文章能够帮你解决如何在Apache Spark中执行Sort JavaPairRDD所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。