【Hadoop Demo 倒排索引】教程文章相关的互联网学习教程文章

使用Hadoop 实现文档倒排索引【图】

文档倒排索引主要是统计每个单词在各个文档中出现的频数,因此要以单词为key,value为文档以及该单词在此文档频数,即输出数据的格式形如:< word1,[doc1,3] [doc2,4] ... > :表示word1这个单词在doc1文档中出现了3次,在doc2文档中出现了4次。 整个程序的输入是一系列文件,比如file01.txt, file02.txt, file03.txt ....,首先要将这些文件上传到hadoop hdfs中作为程序的输入。上传过程以及Java类的编译等可以参考这篇...

Hadoop Demo 倒排索引

package com.asin.hdp.inverted;import java.io.IOException; import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.InputSplit; import org.apache.hadoop.mapreduce.Job; ...