首页 / HADOOP / mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4665字，纯文字阅读大概需要7分钟。

内容图文

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

摘自：http://blog.fens.me/mahout-recommendation-api/

测试程序：RecommenderTest.java

测试数据集：item.csv

        
1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5

测试程序：org.conan.mymahout.recommendation.job.RecommenderTest.java

        
package org.conan.mymahout.recommendation.job;

import java.io.IOException;
import java.util.List;

import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.eval.RecommenderBuilder;
import org.apache.mahout.cf.taste.impl.common.LongPrimitiveIterator;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.common.RandomUtils;

public class RecommenderTest {

    final static int NEIGHBORHOOD_NUM = 2;
    final static int RECOMMENDER_NUM = 3;

    public static void main(String[] args) throws TasteException, IOException {
        RandomUtils.useTestSeed();
        String file = "datafile/item.csv";
        DataModel dataModel = RecommendFactory.buildDataModel(file);
        slopeOne(dataModel);
    }

    public static void userCF(DataModel dataModel) throws TasteException{}
    public static void itemCF(DataModel dataModel) throws TasteException{}
    public static void slopeOne(DataModel dataModel) throws TasteException{}

    ...

每种算法都一个单独的方法进行算法测试，如userCF(),itemCF(),slopeOne()….

5. 基于用户的协同过滤算法UserCF

基于用户的协同过滤，通过不同用户对物品的评分来评测用户之间的相似性，基于用户之间的相似性做出推荐。简单来讲就是：给用户推荐和他兴趣相似的其他用户喜欢的物品。

举例说明：

基于用户的 CF 的基本思想相当简单，基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。计算上，就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，找到 K 邻居后，根据邻居的相似度权重以及他们对物品的偏好，预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表作为推荐。图 2 给出了一个例子，对于用户 A，根据用户的历史偏好，这里只计算得到一个邻居 – 用户 C，然后将用户 C 喜欢的物品 D 推荐给用户 A。

上文中图片和解释文字，摘自： https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/

算法API: org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender

        
  @Override
  public float estimatePreference(long userID, long itemID) throws TasteException {
    DataModel model = getDataModel();
    Float actualPref = model.getPreferenceValue(userID, itemID);
    if (actualPref != null) {
      return actualPref;
    }
    long[] theNeighborhood = neighborhood.getUserNeighborhood(userID);
    return doEstimatePreference(userID, theNeighborhood, itemID);
  }

 protected float doEstimatePreference(long theUserID, long[] theNeighborhood, long itemID) throws TasteException {
    if (theNeighborhood.length == 0) {
      return Float.NaN;
    }
    DataModel dataModel = getDataModel();
    double preference = 0.0;
    double totalSimilarity = 0.0;
    int count = 0;
    for (long userID : theNeighborhood) {
      if (userID != theUserID) {
        // See GenericItemBasedRecommender.doEstimatePreference() too
        Float pref = dataModel.getPreferenceValue(userID, itemID);
        if (pref != null) {
          double theSimilarity = similarity.userSimilarity(theUserID, userID);
          if (!Double.isNaN(theSimilarity)) {
            preference += theSimilarity * pref;
            totalSimilarity += theSimilarity;
            count++;
          }
        }
      }
    }
    // Throw out the estimate if it was based on no data points, of course, but also if based on
    // just one. This is a bit of a band-aid on the ‘stock‘ item-based algorithm for the moment.
    // The reason is that in this case the estimate is, simply, the user‘s rating for one item
    // that happened to have a defined similarity. The similarity score doesn‘t matter, and that
    // seems like a bad situation.
    if (count <= 1) {
      return Float.NaN;
    }
    float estimate = (float) (preference / totalSimilarity);
    if (capper != null) {
      estimate = capper.capEstimate(estimate);
    }
    return estimate;
  }

测试程序:

        
    public static void userCF(DataModel dataModel) throws TasteException {
        UserSimilarity userSimilarity = RecommendFactory.userSimilarity(RecommendFactory.SIMILARITY.EUCLIDEAN, dataModel);
        UserNeighborhood userNeighborhood = RecommendFactory.userNeighborhood(RecommendFactory.NEIGHBORHOOD.NEAREST, userSimilarity, dataModel, NEIGHBORHOOD_NUM);
        RecommenderBuilder recommenderBuilder = RecommendFactory.userRecommender(userSimilarity, userNeighborhood, true);

        RecommendFactory.evaluate(RecommendFactory.EVALUATOR.AVERAGE_ABSOLUTE_DIFFERENCE, recommenderBuilder, null, dataModel, 0.7);
        RecommendFactory.statsEvaluator(recommenderBuilder, null, dataModel, 2);

        LongPrimitiveIterator iter = dataModel.getUserIDs();
        while (iter.hasNext()) {
            long uid = iter.nextLong();
            List list = recommenderBuilder.buildRecommender(dataModel).recommend(uid, RECOMMENDER_NUM);
            RecommendFactory.showItems(uid, list, true);
        }
    }

程序输出：

        
AVERAGE_ABSOLUTE_DIFFERENCE Evaluater Score:1.0
Recommender IR Evaluator: [Precision:0.5,Recall:0.5]
uid:1,(104,4.333333)(106,4.000000)
uid:2,(105,4.049678)
uid:3,(103,3.512787)(102,2.747869)
uid:4,(102,3.000000)

原文：http://www.cnblogs.com/bonelee/p/7243282.html

内容总结

以上是互联网集市为您收集整理的mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储全部内容，希望文章能够帮你解决mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1188342.html

来源：【匿名】

【上一篇】搭建单节点hadoop 【下一篇】php能用hadoop吗

更多 ►

【mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储】教程文章相关的互联网学习教程文章

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

摘自：http://blog.fens.me/mahout-recommendation-api/测试程序：RecommenderTest.java测试数据集：item.csv 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.5 3,104,4.0 3,105,4.5 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest.java package org.conan.mymahout.recommendation.job;import java.io.IOException; import java.util.List;import org.apache.mahout.cf.tast...

Hadoop辅助排序样例二【代码】【图】

1. 需求求每年的最高温度 2. 样例数据 1995 10 1996 11 1995 16 1995 22 1996 26 1995 3 1996 7 1996 10 1996 20 1996 33 1995 21 1996 9 1995 31 1995 -13 1995 22 1997 -2 1997 28 1997 15 1995 8 3. 思路、代码将记录按年份分组并按温度降序排序，然后才将同一年份的所有记录送到一个 reducer 组，则各组的首条记录就是这一年的最高温度。实现此方案的要点是： a. 定义包括自然键(年份)和自然值(温度)的组合键。 b. 根据组合...

一起学Hadoop——二次排序算法的实现【代码】【图】

二次排序，从字面上可以理解为在对key排序的基础上对key所对应的值value排序，也叫辅助排序。一般情况下，MapReduce框架只对key排序，而不对key所对应的值排序，因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求，例如Hadoop权威指南中的求一年的高高气温，key为年份，value为最高气温，年份按照降序排列，气温按照降序排列。还有水果电商网站经常会有按天统计水果销售排行榜的需求等等，这些都是需要...

流量汇总（自定义jar包，在hadoop集群上统计，排序，分组）之统计【代码】【图】

小知识点：half：关机yarn端口：8088删除hdfs目录：hadoop fs -rm -r /wc/outputnamenode两个状态都是standby原因：zookeeper没有比hdfs先启动现在来做一个流量统计的例子：首先数据是这样一张表：见附件统计：（代码）1，flowbean：package cn.itcast.hadoop.mr.flowsum;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.Writa...

hadoop 多目录输入，map到reduce如何排序

使用MultipleInputs.addInputPath 对多个路径输入现在假设有三个目录，并使用了三个mapper去处理，经过map处理后，输出的结果会根据key 进行join，如果使用TextPair，会根据第一个字段jion，第二个字段排序然后在作为reduce的输入，进行计算原文：http://blog.csdn.net/smile0198/article/details/34534241

python 实现Hadoop的partitioner和二次排序【代码】

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner，通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitioner可以方便地实现二次排序。使用方法： -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 一般配合： ...

3.1.2 HADOOP框架（MapReduce编程框架，序列化Writeable接口，Maptask并行度，ReduceTadk并行度，shuffle机制，排序，join,自定义读取、输出）【图】

3.1.2 HADOOP框架文章目录 3.1.2 HADOOP框架六、MapReduce编程框架6.1 MapReduce思想6.2 官?WordCount案例源码解析6.3 MapReduce编程规范及示例编写6.3.1 Mapper类6.3.2 Reducer类6.3.3 Driver阶段6.3.4 WordCount代码实现6.3.4.1 需求6.3.4.2 具体步骤6.4 序列化Writable接口6.4.1 实现Writable序列化步骤如下6.4.2 Writable接口案例 6.5 MapReduce原理分析6.5.1 MapTask运行机制详解6.5.2 MapTask的并行度6.5.2.1 切片机制源码阅...

hadoopmapreduce数据排序

hadoop mapreduce数据排序有如下3个输入文件： file0 [plain] 2 32 654 32 15 756 65223 file1 [plain] 5956 22 650 92 file2 [plain] 26 54 6 由于reduce获得的key是按字典顺序排序的，利用默认的规则即可。 [java] // map将输入中的value化成IntWritablehadoop mapreduce数据排序有如下3个输入文件：file0[plain] 2 32 654 32 15 756 65223 file1 [plain] 5956 22 650 92 file2 [plain] 26 54 6 由...

Hadoop和Python：禁用排序

我已经意识到,当使用Python代码运行Hadoop时,无论是mapper还是reducer(不确定哪个)都会在reducer.py打印输出之前对我的输出进行排序.目前,它似乎是按字母数字排序的.我想知道是否有一种方法可以完全禁用此功能.我想要基于从mapper.py打印的顺序的程序输出.我在Java中找到了答案,但没有找到关于Python的答案.我需要修改mapper.py还是命令行参数？解决方法:您应该阅读有关MapReduce基本概念的更多信息.即使在某些情况下可能不需要排序...

Hadoop之Hive的排序

首页 / HADOOP / mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

内容导读

内容图文

摘自：http://blog.fens.me/mahout-recommendation-api/

测试程序：RecommenderTest.java

5. 基于用户的协同过滤算法UserCF

内容总结

内容备注

内容手机端

【mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储】教程文章相关的互联网学习教程文章

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

Hadoop辅助排序样例二【代码】【图】

一起学Hadoop——二次排序算法的实现【代码】【图】

流量汇总（自定义jar包，在hadoop集群上统计，排序，分组）之统计【代码】【图】

hadoop 多目录输入，map到reduce如何排序

python 实现Hadoop的partitioner和二次排序【代码】

3.1.2 HADOOP框架（MapReduce编程框架，序列化Writeable接口，Maptask并行度，ReduceTadk并行度，shuffle机制，排序，join,自定义读取、输出）【图】

hadoopmapreduce数据排序

Hadoop和Python：禁用排序

Hadoop之Hive的排序

HADOOP - 相关标签

排序 - 相关标签

合并 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程