首页 / HADOOP / 基于hadoop的社交网络的分析

基于hadoop的社交网络的分析

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了基于hadoop的社交网络的分析，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含705字，纯文字阅读大概需要2分钟。

内容图文

昨天终于hadoop的项目验收完成了，终于可以松一口气了，总体还是比较满意的。

首先说一下项目流程，用mapreduce对数据进行预处理，然后用mahout中的聚类算法（kmeans）对数据进行处理，最后用peoplerank对数据进行处理。

根据老师交给我们的数据，包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接

http://snap.stanford.edu/data/egonets-Gplus.html（Google+）

http://snap.stanford.edu/data/egonets-Twitter.html（Twitter）

这里面的Google的人数是大概是100000多，相互之间的映射关系（A->B,就是A关注B，或者A是B的好友）有20W+，Twitter的人数大概是80000多，相互之间的映射关系也有20W+。

对下面的图片做一些解释，横坐标代表拥有好友的数量，纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。

技术分享

我是在本地上实现分布式的，在我的机子上开启了两个虚拟机，和使用了其他两个同学的电脑。

技术分享

然后我们的性能是用ganglia进行检测的，ganglia的安装以及使用我已在之前的一篇博文中已经说过。

技术分享

这只是其中一张性能分析的图片，估计本地上配置除了问题，所以才导致，master做了所有的工作。

如果有想要程序的朋友，可以在下面留言，我会写出全部的过程，和代码。

原文：http://blog.csdn.net/a296777513/article/details/43197307

内容总结

以上是互联网集市为您收集整理的基于hadoop的社交网络的分析全部内容，希望文章能够帮你解决基于hadoop的社交网络的分析所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1283415.html

来源：【匿名】

【上一篇】基于Hadoop生态圈的数据仓库实践 —— 环境搭建（三）笔记【下一篇】php能用hadoop吗

更多 ►

【基于hadoop的社交网络的分析】教程文章相关的互联网学习教程文章

基于hadoop的社交网络的分析【图】

昨天终于hadoop的项目验收完成了，终于可以松一口气了，总体还是比较满意的。首先说一下项目流程，用mapreduce对数据进行预处理，然后用mahout中的聚类算法（kmeans）对数据进行处理，最后用peoplerank对数据进行处理。根据老师交给我们的数据，包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接http://snap.stanford.edu/data/egonets-Gplus.html（Google+）http://snap.stanford.edu/data/egonets-Twitter.html...

Hadoop源代码分析（包mapreduce.lib.input）【图】

接下来我们按照MapReduce过程中数据流动的顺序，来分解org.apache.hadoop.mapreduce.lib.*的相关内容，并介绍对应的基类的功能。首先是input部分，它实现了MapReduce的数据输入部分。类图如下：650) this.width=650;" src="/upload/getfiles/default/2022/11/15/20221115031623971.jpg" width="600" /> 类图的右上角是InputFormat，它描述了一个MapReduceJob的输入，通过InputFormat，Hadoop可以：l 检查MapReduce输入数...

hadoop之MapReduce WordCount分析【图】

MapReduce的设计思想主要的思想是分而治之(divide and conquer),分治算法。将一个大的问题切分成很多小的问题，然后在集群中的各个节点上执行，这既是Map过程。在Map过程结束之后，会有一个Ruduce的过程，这个过程即将所有的Map阶段产出的结果进行汇集。写MapReduce程序的步骤：1.把问题转化为MapReduce模型2.设置运行的参数3.写map类4.写reduce类例子：统计单词个数将文件拆分成splits，每个文件为一个split，并将文件按行分割形成...

hadoop在线分析处理(OLAP)

数据处理与联机分析处理 ( OLAP ) 联机分析处理是那些为了支持商业智能，报表和数据挖掘与探索等业务而开展的工作。这类工作的例子有零售商按地区和季度两个维度计算门店销售额，银行按语言和月份两个维度计算手机银行装机量，设备制造商定位有哪些零部件的故障率比期望值高，以及医院研究有哪些事件会引起高危婴儿紧张等。如果原始数据来源于 OLTP 系统，典型的做法是将这些数据拷贝到 OLAP 数据库中，再进行这类...

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗【代码】【图】

网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html一、数据情况分析1.1 数据情况回顾　　该论坛数据有两部分：　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。　　（2）自2013-05-30起，每天生成一个数据文件，约150MB左右...

Hadoop 源代码分析（六）RPC-Client

原文：http://crxy2016.iteye.com/blog/2209413

Kudu:支持快速分析的新型Hadoop存储系统【图】

本文由网易云发布。 Kudu是Cloudera开源的新型列式存储系统，是Apache Hadoop生态圈的新成员之一（incuba ng），专门为了对快速变化的数据进行快速的分析，填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景，以及架构进行简单介绍。背景——功能上的空白 Hadoop生态系统有很多组件，每一个组件有不同的功能。在现实场景中，用户往往需要同时部署很多Hadoop工具来解决同一个问题，这种架构称为混合架构 (hybrid ...

Hadoop-2.4.1学习之InputFormat及源代码分析【图】

向Hadoop集群提交作业时，需要指定作业输入的格式（未指定时默认的输入格式为TextInputFormat）。在Hadoop中使用InputFormat类或InputFormat接口描述MapReduce作业输入的规范或者格式，之所以说InputFormat类或InputFormat接口是因为在旧的API（hadoop-0.x）中InputFormat被定义为接口，而在新的API（hadoop-1.x及hadoop-2.x）中，InputFormat是做为抽象类存在的，在本篇文章中主要讲述InputFormat抽象类及其子类。InputFormat主要...

Hadoop连载系列之四：数据收集分析系统Chukwa【代码】【图】

系列前三篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时，集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点：它架构清晰，部署简单；收集的数据类型广泛，具有很强的扩展性；与 Hadoop 无缝集成，能完成海量数据的收集与整理。1 Chukwa简介在Chukw...

Hadoop HA高可用性架构和演进分析（转）【图】

1.概况截至目前，Apache Hadoop版本分为两代，我们将第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0。前者主要有如下几种实现方式：1）社区版本基于Secondary namenode机制来定时备份HDFS metadata元数据信息；2）Avatar在Secondarynamenode的基础上实现了基于NFS共享存储方式的热备方案。3)Backup Node通过提供备用节点同步Namenode中的Matadata数据实现。后者基于NFS或者Journalnode实现HA同步两个namenode节...

使用hadoop mapreduce分析mongodb数据：（2）【代码】

在上一篇使用hadoop mapreduce分析mongodb数据：（１）中，介绍了如何使用Hadoop MapReduce连接MongoDB数据库以及如何处理数据库，本文结合一个案例来进一步说明Hadoop MapReduce处理MongoDB的细节原始数据> db.stackin.find({}) { "_id" : ObjectId("575ce909aa02c3b21f1be0bb"), "summary" : "good good day", "url" : "url_1" } { "_id" : ObjectId("575ce909aa02c3b21f1be0bc"), "summary" : "hello world good world", "url"...

Hadoop多目录输入，join，进入reduce，数据流分析

前言在做需求时，经常遇到多个目录，也就是多个维度进行join，这里分析一下，数据是怎么流动的。1、多目录输入使用MultipleInputs.addInputPath() 对多目录制定格式和map2、数据流分析map按行读入数据，需要对不同的输入目录，打上不同的标记（这个方法又叫reduce端连接），map在输出后会进行partition和sort，按照key进行排序，然后输出到reduce进行处理。例子三个输入文件：a.txt：500 501 b.txt:500 501 600 505 c.txt:501 500...

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

NameNodeHttpServer启动源码剖析，这一部分主要按以下步骤进行：　　一、源码调用分析　　二、伪代码调用流程梳理　　三、http server服务流程图解第一步，源码调用分析　　前一篇文章已经锁定到了NameNode.java类文件，搜索找到main()，可以看到代码只有寥寥几行，再筛除掉一些参数校验以及try-catch逻辑代码，　　剩下的核心的代码甚至只有两行，如下： 1publicstaticvoid main(String argv[]) throws Exception {2if (DFSUtil.p...

Hadoop项目实战－用户行为分析之应用概述（一）【图】

1.概述本课程的视频教程地址：《Hadoop 回顾》　　如果本教程能帮助到您，希望您能点击进去观看一下，而且现在注册成为极客学院的会员，验证手机号码和邮箱号码会赠送三天的会员时间，手机端首次也可以领取五天的会员时间哦（即使是购买年会员目前也仅仅是年费260），成为极客学院学习会员可以无限制的下载和观看所有的学院网站的视频，谢谢您的支持！　　好的，下面就开始本篇教程的内容分享，本篇教程我为大家介绍我们要做一个什...

Hadoop之RPC Server源码分析【图】

好了，让我们先来看看RPC的基础Server类的具体实现，很多设计思想和实践方式值的学习。重点不是看过源码，而是从源码中学习到了什么。尤其是其中，wait和notify的使用很好的学习范例，当然还有反射...Server start()方法是入口类，基本线程都是Daemon方式让我们来看看run里面执行了什么，主要是建立socket读取客户度请求。并将客户度请求并封装为call放入队列，提醒消费者使用。下面就是Handler，主要是处理，connection接受的对象...

分析 - 相关标签

分析工具

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / 基于hadoop的社交网络的分析

基于hadoop的社交网络的分析

内容导读

内容图文

内容总结

内容备注

内容手机端

【基于hadoop的社交网络的分析】教程文章相关的互联网学习教程文章

基于hadoop的社交网络的分析【图】

Hadoop源代码分析（包mapreduce.lib.input）【图】

hadoop之MapReduce WordCount分析【图】

hadoop在线分析处理(OLAP)

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗【代码】【图】

Hadoop 源代码分析（六）RPC-Client

Kudu:支持快速分析的新型Hadoop存储系统【图】

Hadoop-2.4.1学习之InputFormat及源代码分析【图】

Hadoop连载系列之四：数据收集分析系统Chukwa【代码】【图】

Hadoop HA高可用性架构和演进分析（转）【图】

使用hadoop mapreduce分析mongodb数据：（2）【代码】

Hadoop多目录输入，join，进入reduce，数据流分析

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

Hadoop项目实战－用户行为分析之应用概述（一）【图】

Hadoop之RPC Server源码分析【图】

HADOOP - 相关标签

分析 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程