whoosh mysql_Whoosh例子

全栈程序员-站长 • 2026年3月17日下午7:44 • 未分类 • 阅读 1

whoosh mysql_Whoosh例子Whoosh 的分词是基于正则表达式的所以只需要写出合适的正则表达式就可以正确分词当然因为 Whoosh 是纯 python 的你要重新实现分词模块或是使用第三方分词模块都是很容易的下面是一些例子基于正则表达式可能有不完善的地方需要继续完善完善测试分词 usr bin envpython coding UTF 8 fromwhoosh analysisimp

Whoosh的分词是基于正则表达式的，所以只需要写出合适的正则表达式就可以正确分词。

当然，因为Whoosh是纯python的，你要重新实现分词模块或是使用第三方分词模块都是很容易的。

下面是一些例子(基于正则表达式)，可能有不完善的地方，需要继续完善完善。

#测试分词

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

from whoosh.analysis import RegexAnalyzer

rex = RegexAnalyzer(ur”([\u4e00-\u9fa5])|(\w+(\.?\w+)*)”)

print [token.text for token in rex(u”hi 中 000 中文测试中文 there 3.141 big-time under_score”)]

#一个完整的演示

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

from whoosh.index import create_in

from whoosh.fields import *

from whoosh.analysis import RegexAnalyzer

analyzer = RegexAnalyzer(ur”([\u4e00-\u9fa5])|(\w+(\.?\w+)*)”)

schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT(stored=True, analyzer=analyzer))

ix = create_in(“indexdir”, schema)

writer = ix.writer()

writer.add_document(title=u”First document”, path=u”/a”,

content=u”This is the first document we’ve added!”)

writer.add_document(title=u”Second document”, path=u”/b”,

content=u”The second one 你中文测试中文 is even more interesting!”)

writer.commit()

searcher = ix.searcher()

results = searcher.find(“content”, u”first”)

print results[0]

results = searcher.find(“content”, u”你”)

print results[0]

results = searcher.find(“content”, u”测试”)

print results[0]

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/220756.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

VM安装教程+密钥

上一篇 2026年3月17日下午7:43

Chrome 浏览器安装Vue Devtools调试工具 (详细教程)

下一篇 2026年3月17日下午7:44

java outputstream乱码_HttpServletResponse OutputStream中文乱码解决方法

java outputstream乱码_HttpServletResponse OutputStream中文乱码解决方法首页 gt JavaWeb gt SpringMvc 应用 gt HttpServletR 中文乱码解决方法 HttpServletR 使用 OutputStream 输出中文的时候如果编码不设置就会产生乱码产生乱码的原因有以下几种 1 Tomcat 服务器默认的编码为 ISO 8859 1 不支持中文

全栈程序员-站长
2026年3月19日
3
python字符串转数字

string模块里有>>>a=”12345″>>>importstring>>>string.atoi(a)12345>>>b=”123.678″>>>string.atof(b)123.678

全栈程序员-站长
2022年4月18日
57
Charles 重写

Charles 重写Charles 内容替换

全栈程序员-站长
2026年3月17日
2
VS2010编写动态链接库DLL和单元测试，转让DLL测试的正确性

VS2010编写动态链接库DLL和单元测试，转让DLL测试的正确性

全栈程序员-站长
2022年1月4日
55
MATLAB 绘制折线图

MATLAB 绘制折线图MATLAB绘制折线图想要绘制出如上图所示折线图，首先，先展示代码：x=0:10:50;a=[0,1.80,7.60,17.40,31.20,49.00]plot(x,a,’s-g’,’MarkerSize’,2,’MarkerFaceColor’,’g’,’MarkerEdgeColor’,’g’,’LineWidth’,2);gridb=[0,1.10,4.20,9.30,1…

全栈程序员-站长
2022年6月14日
56
idea

phpstorm 激活码生成【最新永久激活】2022.02.28

(phpstorm 激活码生成)2021最新分享一个能用的的激活码出来，希望能帮到需要激活的朋友。目前这个是能用的，但是用的人多了之后也会失效，会不定时更新的，大家持续关注此网站~IntelliJ2021最新激活注册码，破解教程可免费永久激活，亲测有效，下面是详细链接哦~https://javaforall.net/100143.html…

全栈程序员-站长
2022年4月2日
295

发表回复

关注全栈程序员社区公众号