Django—whoosh搜索引擎使用jieba分词

Django版本：3.0.4
python包准备：
pip install django-haystack
pip install jieba

使用jieba分词

1.cd到site-packages内的haystack包，创建并编辑ChineseAnalyzer.py文件

# （注意：pip安装的是django-haystack，但是实际包的文件夹名字为haystack）
cd  /usr/local/lib/python3.8/site-packages/haystack/backends/
# 创建并编辑ChineseAnalyzer.py文件
vim ChineseAnalyzer.py

2.修改ChineseAnalyzer.py文件内容

import jieba
from whoosh.analysis import Tokenizer, Token


class ChineseTokenizer(Tokenizer):
    def __call__(self, 
                 value,
                 positions=False, 
                 chars=False,
                 keeporiginal=False, 
                 removestops=True,
                 start_pos=0, 
                 start_char=0,
                 mode='', 
                 **kwargs):
    t = Token(positions, chars, removestops=removestops, mode=mode,**kwargs)
    seglist = jieba.cut(value, cut_all=True)
    for w in seglist:
        t.original = t.text = w
        t.boost = 1.0
        if positions:
            t.pos = start_pos + value.find(w)
        if chars:
            t.startchar = start_char + value.find(w)
            t.endchar = start_char + value.find(w) + len(w)
            yield t


def ChineseAnalyzer():
    return ChineseTokenizer()

3.替换分词器

cp whoosh_backend.py whoosh_cn_backend.py
vim whoosh_cn_backend.py

# 导入ChineseAnalyzer，并将原有的StemmingAnalyser替换为ChineseAnalyzer
from .ChineseAnalyzer import ChineseAnalyzer
# from whoosh.analysis import StemmingAnalyzer

vim替换命令：%s/StemmingAnalyzer/ChineseAnalyzer/g

4.修改setting.py文件

# 全文搜索框架配置
HAYSTACK_CONNECTIONS = {
    'default': {
     # 使用whoosh引擎
     # 'ENGINE': 'haystack.backends.whoosh_backend.WhooshEngine',
     # 使用jieba分词
        'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',
     # 索引文件路径
        'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
    },
}

5.重新建立索引

python manage.py rebuild_index

可以看到，已经使用了jieba分词。

截屏2020-04-02 下午2.46.10.png

Django—whoosh搜索引擎使用jieba分词

使用jieba分词

1.cd到site-packages内的haystack包，创建并编辑ChineseAnalyzer.py文件

2.修改ChineseAnalyzer.py文件内容

3.替换分词器

4.修改setting.py文件

5.重新建立索引

SyntaxError

引用和评论

go模拟带超时控制的函数执行器

PHP实现站内搜索的开源利器——WindSearch

超越Elasticsearch！号称下一代搜索引擎，性能炸裂！

FastAPI 错误处理与自定义错误消息完全指南：构建健壮的 API 应用 🛠️

换掉ES！SpringBoot + Meilisearch实现商品搜索，太方便了！

FastAPI 请求体参数与 Pydantic 模型完全指南：从基础到嵌套模型实战 🚀

FastAPI 参数别名与自动文档生成完全指南：从基础到高级实战 🚀