首页 / HADOOP / ClouderaSearch:轻松实现Hadoop全文检索

ClouderaSearch:轻松实现Hadoop全文检索

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了ClouderaSearch:轻松实现Hadoop全文检索，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2519字，纯文字阅读大概需要4分钟。

内容图文

近期Cloudera Search的推出，对于曾经做信息检索和使用过Lucene/Solr的我来讲，虽然不是那种令人乍舌的新技术，但从应用层面来考虑，我相信，对于业界而言，毫无疑问是一个相当令人兴奋的消息。想想看，有了集一整套解决方案在手的ClouderaSearch在手，现在

近期Cloudera Search的推出，对于曾经做信息检索和使用过Lucene/Solr的我来讲，虽然不是那种令人乍舌的新技术，但从应用层面来考虑，我相信，对于业界而言，毫无疑问是一个相当令人兴奋的消息。想想看，有了集一整套解决方案在手的Cloudera Search在手，现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了！

Cloudera Search核心部件包括Hadoop和Solr，后者建立在Lucene之上；而Hadoop也正是在06年正式成为Lucene的一个子项目而发展起来的。现在，我们喜见这两个技术再度联手，为更多的用户提供了轻松利用存储在Hadoop里面的海量数据来获取信息和价值的利器，可以预见，包括企业内部及外部在内的，更多的企业应用将可以围绕Hadoop来展开。

下面是一个简单的Cloudera Search组件示意图。

ClouderaSearch:轻松实现Hadoop全文检索 - 文章图片

通过Tika, Cloudera Search支持大量的被广泛使用的文件格式；除此之外，Cloudera Search还支持很多其他在Hadoop应用中常用的数据，譬如Avro, SequenceFile, 日志文件等。

用来建立索引和全文检索的数据可以是来自于HDFS，譬如日志文件，Hive或者HBase的表等等（通过集成NGData的Lily项目，对HBasae的支持工作也在进行中）。或者通过结合使用Flume采集于外部数据源，通过一个新支持的Flume Sink直接写到索引库里；同时还可以充分利用Flume来对要建立索引的数据进行各种预处理，譬如转换，提取创建元数据等。

建立的索引存储于HDFS。这给搜索带来了易于扩展，冗余和容错的好处。

此外，我们还可以运行MapReduce来对我们所需要检索的数据进行索引，提供给Solr。

大多数情况下， Zookeeper被用来协调各种数据的分布（参考 http://wiki.apache.org/solr/SolrCloud），并提供在系统出错的情况下自动切换，提高可靠性。

在系统安装和部署方面，Cloudera Manager可以被用来简化繁琐枯燥的工作，并提供了管理和监控搜索服务的功能。

用户接口上，搜索用户可以使用HUE的搜索界面进行查找操作。或者可以使用命令行工具或者Solr的GUI界面。

目前Cloudera Search还处于测试阶段，性能方面，一个服务器可以支持多达几亿个文档和接近TB的索引，搜索结果通常会在１至２秒之间返回。我们期待稳定版本的早日发布。

http://training.cloudera.com/elearning/SearchOverview/

http://www.cloudera.com/content/support/en/documentation/cloudera-search/cloudera-search-documentation-v1-latest.html

http://wiki.apache.org/solr/

http://wiki.apache.org/solr/SolrCloud
ClouderaSearch:轻松实现Hadoop全文检索 - 文章图片

? 青春就应该这样绽放?? 游戏测试：三国时期谁是你最好的兄弟！！?? 你不得不信的星座秘密

ClouderaSearch:轻松实现Hadoop全文检索 - 文章图片

原文地址：Cloudera Search: 轻松实现Hadoop全文检索, 感谢原作者分享。

内容总结

以上是互联网集市为您收集整理的ClouderaSearch:轻松实现Hadoop全文检索全部内容，希望文章能够帮你解决ClouderaSearch:轻松实现Hadoop全文检索所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/556707.html

来源：【匿名】

【上一篇】Hadoop教程(三):MR重要运行参数【下一篇】php能用hadoop吗

更多 ►

【ClouderaSearch:轻松实现Hadoop全文检索】教程文章相关的互联网学习教程文章

Hadoop分析Tomcat日志Demo实现【代码】【图】

Tomcat日志：127.0.0.1,-,-,[08/May/2014:13:42:40 +0800],GET / HTTP/1.1,200,11444 127.0.0.1,-,-,[08/May/2014:13:42:42 +0800],GET /jygl/jaxrs/teachingManage/ClassBatchPlanService/getCurrentClassPlanVO HTTP/1.1,204,- 127.0.0.1,-,-,[08/May/2014:13:42:42 +0800],GET /jygl/jaxrs/teachingManage/ClassBatchPlanService/getCurClassPlanVO HTTP/1.1,204,- 127.0.0.1,-,-,[08/May/2014:13:42:47 +0800],GET /jygl/jaxrs...

Hadoop:读取ｈｄｆｓ上ｚｉｐ压缩包并解压到ｈｄｆｓ的实现代码【代码】

背景：目前工作中遇到一大批的数据，如果不压缩直接上传到ｆｔｐ上就会遇到ｆｔｐ空间资源不足问题，没办法只能压缩后上传，上穿完成后在ｌｉｎｕｘ上下载。但是ｌｉｎｕｘ客户端的资源只有２０Ｇ左右一个压缩包解压后就要占用１６Ｇ左右的空间，因此想在ｌｉｎｕｘ上直接解压已经太折腾了（因为我们一共需要处理的这样的压缩包包含有３０个左右）。解决方案：先把ｌｉｎｕｘ上下载到的ｚｉｐ压缩包上传到ｈｄｆｓ，等待所有ｚｉｐ...

Java API实现Hadoop文件系统增删改查【代码】

Java API实现Hadoop文件系统增删改查Hadoop文件系统可以通过shell命令hadoop fs -xx进行操作，同时也提供了Java编程接口maven配置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>hadoopStudy</groupId><artifactId>...

实现hive proxy2-hive操作hadoop时使用用户的地方【代码】

hive权限有两层，hive本身的验证和hadoop的验证。自定义hive的proxy功能时，hive层面的相关验证更改在http://caiguangguang.blog.51cto.com/1652935/1587251 中已经提过，这里说下hive和hadoop以及本地文件系统相关的几个出现用户的地方：1.job的log文件session初始化时会初始化日志文件，主要在SessionState的start方法中： public static SessionState start(SessionState startSs) { setCurrentSessionState(startSs); ...

使用Hadoop 实现文档倒排索引【图】

文档倒排索引主要是统计每个单词在各个文档中出现的频数，因此要以单词为key，value为文档以及该单词在此文档频数，即输出数据的格式形如：< word1,[doc1,3] [doc2,4] ... > :表示word1这个单词在doc1文档中出现了3次，在doc2文档中出现了4次。整个程序的输入是一系列文件，比如file01.txt, file02.txt, file03.txt ....，首先要将这些文件上传到hadoop hdfs中作为程序的输入。上传过程以及Java类的编译等可以参考这篇...

Hadoop2.6.0的事件分类与实现【代码】【图】

前言　　说实在的，在阅读Hadoop YARN的源码之前，我对于java枚举的使用相形见绌。YARN中实现的事件在可读性、可维护性、可扩展性方面的工作都值得借鉴。概念　　在具体分析源码之前，我们先看看YARN是如何定义一个事件的。比如作业启动的事件，很多人可能会用常量将它定义到一个class文件中，就像下面这样：class Constants {publicstaticfinal String JOB_START_EVENT = "jobStart"; }或者简单的使用枚举，就像下面这样；enum En...

Hadoop生态圈-Azkaban实现hive脚本执行

一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现【代码】

1：首先搞好实体类对象：　　write 是把每个对象序列化到输出流，readFields是把输入流字节反序列化，实现WritableComparable，Java值对象的比较：一般需要重写toString(),hashCode(),equals()方法 1package com.areapartition;2 3import java.io.DataInput;4import java.io.DataOutput;5import java.io.IOException;6 7import org.apache.hadoop.io.Writable;8import org.apache.hadoop.io.WritableComparable;9 10/***11 * 12...

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

摘自：http://blog.fens.me/mahout-recommendation-api/测试程序：RecommenderTest.java测试数据集：item.csv 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.5 3,104,4.0 3,105,4.5 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest.java package org.conan.mymahout.recommendation.job;import java.io.IOException; import java.util.List;import org.apache.mahout.cf.tast...

自动实现Hadoop Decommission shell脚本版【代码】

介绍之前我有篇博文是介绍如何用ansible的playbook来自动化Hadoop Decommission的，本文介绍用shell脚本来实现。脚本都放在跳板机上，远端服务器调用本地脚本完成所有操作，不需要拷贝文件到远端服务器。正文主脚本：decom.sh#!/bin/bash iplist=/home/hadoop/shell_scripts/iplist #1. process iplist ,append them into exclude files # call append.sh for exclude_host in `cat $iplist` ; do ssh hadoop@hadoopmaster "b...

006、Hadoop-RPC之底层实现详解

第一部分：什么是RPC RPC (Remote Procedure Call Protocol) – 远程过程协议调用。通过 RPC 我们可以从网络上的计算机请求服务，而不需要了解底层网络协议。 Hadoop 底层的交互都是通过 rpc 进行的。例如： datanode 和 namenode 、 tasktracker和 jobtracker 、 secondary namenode 和 namenode 之间的通信都是通过 rpc 实现的。RPC 模式 RPC 采用客户机 / 服务器模式。请求程序就是一个客户机，而服务提...

Hadoop生态圈-Azkaban实现文件上传到hdfs并执行MR数据清洗

一起学Hadoop——二次排序算法的实现【代码】【图】

二次排序，从字面上可以理解为在对key排序的基础上对key所对应的值value排序，也叫辅助排序。一般情况下，MapReduce框架只对key排序，而不对key所对应的值排序，因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求，例如Hadoop权威指南中的求一年的高高气温，key为年份，value为最高气温，年份按照降序排列，气温按照降序排列。还有水果电商网站经常会有按天统计水果销售排行榜的需求等等，这些都是需要...

hadoop+zookepper实现namenode的高可用

Hadoop+zookeepker安装与配置: 在hadoop-env.sh中添加export JAVA的环境变量修改hostname文件的名称，/etc/hosts文件配置主机名和ip的映射关系，将mstaer，slave的主机名和ip地址都添加进来配置ssh免密钥配置Ssh-keygen –t rsa在./.ssh文件中生成两个文件id_rsa（私钥），id_rsa.pub(公钥)cat id_rsa.pub > .ssh/authorized_keysscp authorized_keys user@ipaddress:/home/user/id_rsa.pub修改authorzed文件的权限为600 //Namen...

itemcf的hadoop实现优化(Python)

原始数据如下：u1 a,d,b,c u2 a,a,c u3 b,d u4 a,d,c u5 a,b,c 计算公式使用：sim = U(i)∩U(j) / (U(i)∪U(j)) 其中： (U(i)∪U(j)) = U(i) + U(j) - U(i)∩U(j) 原始的Hadoop实现需要5轮MR，优化后只需要两轮就可以完成。之前的轮数过多，主要在于计算(U(i)∪U(j)) 的时候，需要多次更改key，并非计算量大。只需要修改一下传递的key，就可以两轮实现。mapper_1.py#!/usr/bin/python #-*-coding:utf-8-*- import sysfor lin...

SEARCH - 相关标签

search函数

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / ClouderaSearch:轻松实现Hadoop全文检索

ClouderaSearch:轻松实现Hadoop全文检索

内容导读

内容图文

内容总结

内容备注

内容手机端

【ClouderaSearch:轻松实现Hadoop全文检索】教程文章相关的互联网学习教程文章

Hadoop分析Tomcat日志Demo实现【代码】【图】

Hadoop:读取ｈｄｆｓ上ｚｉｐ压缩包并解压到ｈｄｆｓ的实现代码【代码】

Java API实现Hadoop文件系统增删改查【代码】

实现hive proxy2-hive操作hadoop时使用用户的地方【代码】

使用Hadoop 实现文档倒排索引【图】

Hadoop2.6.0的事件分类与实现【代码】【图】

Hadoop生态圈-Azkaban实现hive脚本执行

一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现【代码】

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

自动实现Hadoop Decommission shell脚本版【代码】

006、Hadoop-RPC之底层实现详解

Hadoop生态圈-Azkaban实现文件上传到hdfs并执行MR数据清洗

一起学Hadoop——二次排序算法的实现【代码】【图】

hadoop+zookepper实现namenode的高可用

itemcf的hadoop实现优化(Python)

HADOOP - 相关标签

SEARCH - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程