中文文档链接:https://mr-zhao.gitbooks.io/whoosh/content/%E5%A6%82%E4%BD%95%E7%B4%A2%E5%BC%95%E6%96%87%E6%A1%A3.html https://mr-zhao.gitbooks.io/whoosh/content/如何索引文档.html?q= 代码: 回头放github上去原文:http://www.cnblogs.com/renfanzi/p/7195970.html
python+flask+jieba+mongodb+whoosh实现自己的搜索引擎
一、目录
二、基于python的爬虫
三、网页去燥,URL去重
四、基于mongodb的数据存储
五、基于whoosh的全文搜索
六、基于flask的web应用python+flask+mongodb+whoosh实现自己的搜索引擎(一):目录标签:本文系统来源:http://www.cnblogs.com/litturtle/p/5389558.html
我想使用python进行文档搜索. Solr不能走,因为Java托管是一个约束.
因此,飞快移动似乎是显而易见的选择.但这似乎并不本地索引doc或pdf文件(如Solr可以).如何使其直接索引这些文件?解决方法:Whoosh只需从这些文档中提取文本即可.尽管Whoosh库不会为您提取内容,但有些Python库会为您提取文本,例如pdf挖掘程序,catdoc或反词.
有关更多信息,请参见这两个讨论:
> Best way to extract text from a Word doc without usingCOM/automati...
需要将HAYSTACK_WHOOSH_PATH设置为文件系统上Whoosh索引应位于的位置.谁能解释这条路到底指向哪里?我的意思是我应该在这条道路上奉献什么?解决方法:只要您的文件系统具有足够的空间来存储Whoosh索引(例如/ home / mysite / whoosh_index(直接从docs开始)),您就可以使用任何具有写访问权的目录.只要确保内容没有被网络服务器公开.
编辑:帖子底部的更多信息…
原始问题:
我似乎遇到了与此(未解决)问题相同的问题:django-haystack + Whoosh SearchQuerySet().all() always None
我已经在我的Django项目中使用Whoosh设置了Haystack,并且一开始工作正常(SearchQuerySet用于返回结果),但在尝试创建新的自定义搜索表单(从git回滚)后,似乎索引和原始搜索页面仍然可以正常工作,但现在SearchQuerySet()总是返回0结果!
运行:manage.py rebuild_index --verbosity=2正...
我在Whoosh索引中有一组文档,我想提供一个搜索词建议功能.因此,如果您输入“pop”,可能会出现一些建议:
>爆米花>流行>教皇>白杨电影>流行文化
我已经将条款作为建议进入我的索引中的NGRAMWORDS字段,但当我对该字段进行查询时,我得到自动完成的结果而不是扩展的建议 – 所以我得到标记为“pop culture”的文档“,但无法向用户显示该术语.(为了进行比较,我在ElasticSearch中使用该字段上的完成映射执行此操作,然后使用_suggest端点获...
Python 2.5,Django 1.2.1,最近的haystack,最近的飞快移动
这是我第一次深入研究Django-Haystack.我正在关注Haystack的“入门”指南,一切似乎都很顺利,直到我去构建索引.
所以,运行“manage.py rebuild_index”会向我发回信息:Traceback (most recent call last):File "/Users/steenb/Documents/Aptana Studio Workspace/bucksac/buckshr/manage.py", line 11, in <module>execute_manager(settings)File "/Library/Python/2.5/sit...
我正在从索尔的Whoosh重做我的搜索应用程序.我现在正在从快速入门中学习.但每次我不得不处理字符串时,我一直遇到问题
>>> writer.add_document(iden = fil,content = F2T.file_to_text(fil_path))ValueError:’File Name.doc’不是unicode或sequence
然后:>>>query = QueryParser("content", ix.schema).parse("first")
AssertionError: 'first' is not unicode这条线直接来自快速启动的turorial! Whoosh是否要求所有字段都是un...
我正试图用后嘶嘶声设置干草堆.当我尝试生成索引[或任何索引命令]时,我收到:TypeError: Item in ``from list'' not a string如果我完全删除我的search_indexes.py我得到相同的错误[所以我猜它根本找不到该文件]
什么可能导致这个错误?它设置为自动发现,我确定我的应用程序已安装,因为我正在使用它.
完全追溯:Traceback (most recent call last):File "./manage.py", line 17, in <module>execute_manager(settings)File "/Users...
我正在尝试将搜索与django-haystack集成,虽然它适用于“示例”后端,但当用whoosh替换后端时,它总是返回0结果.
settings.py:HAYSTACK_DEFAULT_OPERATOR = 'AND'
HAYSTACK_SITECONF = 'search_sites'
HAYSTACK_SEARCH_ENGINE = 'whoosh'
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 20
HAYSTACK_WHOOSH_PATH = os.path.join(PROJECT_ROOT, 'search_index')search_sites.pyimport haystack
haystack.autodiscover()配置文件/ search_indexes...
我正在测试飞快移动进行文本搜索,现在一个简单的人为例子对我不起作用.我想我在这里错过了一些东西.在下面的代码中,我希望它给出一个搜索结果,但我得到0次点击.import sys
import osfrom whoosh.fields import Schema, TEXT, STORED
from whoosh.index import create_in, open_dir
from whoosh.query import *#creating the schema
schema = Schema(tax_id=STORED,name=TEXT(stored=True))#creating the index
if not os.path.exis...