LUCENE3.0 自学吧 5 TokenStream

LUCENE3.0 自学吧 5 TokenStream
研究Lucene分析器的实现。
Analyzer抽象类
所有的分析器的实现,都是继承自抽象类Analyzer,它的源代码如下所示:
packageorg.apache.lucene.analysis;importjava.io.Reader;publicabstractclassAnalyzer{//通过Field的名称,和一个Reader对象,创建一个分词流,该方法是抽象方法publicabstractTokenStrea

大家好,又见面了,我是你们的朋友全栈君。

研究Lucene分析器的实现。

Analyzer抽象类

所有的分析器的实现,都是继承自抽象类Analyzer ,它的源代码如下所示:

这里,tokenStream()的作用非常大。它返回一个TokenStream类对象 ,这个TokenStream类对象应该是已经经过分词器处理过的

与Analyzer抽象类有关的其他类

TokenStream也是一个抽象类:

TokenStream类的方法表明,它最基本的是对分词流的状态进行管理。具体地,它如何对分析的对象处理,应该从继承该抽象类的子类的构造来看。

在包org.apache.lucene.analysis下可以看到有两个TokenStream的子类TokenizerTokenFilter ,它们还都是抽象类 ,从这两个抽象类可以看出,是在TokenStream的基础上,按照功能进行分类实现:处理分词、过滤分词

Tokenizer类在Lucene中定义如下所示:

接着,看看TokenFilter类的实现,TokenFilter类在Lucene中定义如下 所示:

TokenFilter是可以嵌套Tokenizer的:

当一个Tokenizer对象不为null时,如果需要对其进行过滤,可以构造一个TokenFilter来对分词的词条进行过滤。

同样地,在包org.apache.lucene.analysis下可以找到继承自Tokenizer类的具体实现类。

很明显了,实现Tokenizer类的具体类应该是分词的核心所在 了。

对指定文本建立索引之前,应该(1) 先构造Field对象 ,在此基础上(2) 再构造Document对象 ,然后(3) 添加到IndexWriter中进行分析处理 。在(4) 这个分析处理过程中,包含对其进行分词(Tokenizer) ,而(5) 经过分词处理以后返回的是一个Token 对象 (经过分词器得到的词条),它可能是Field中的一个Term的一部分

看一看Token类都定义了哪些内容:

 

最后 一个关系图 不太会画,里边的所有关系均为继承…

LUCENE3.0 自学吧 5 TokenStream

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163104.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • C++虚函数表剖析

    C++虚函数表剖析关键词:虚函数,虚表,虚表指针,动态绑定,多态一、概述为了实现C++的多态,C++使用了一种动态绑定的技术。这个技术的核心是虚函数表(下文简称虚表)。本文介绍虚函数表是如何实现动态绑定的。二、类的虚表每个包含了虚函数的类都包含一个虚表。我们知道,当一个类(A)继承另一个类(B)时,类A会继承类B的函数的调用权。所以如果一个基类包含了虚函数,那么其继承类也可调用这些虚函数,换句话说,一个类继承了包

    2022年7月13日
    33
  • 磁盘阵列怎么组linux系统,Linux系统下如何设置磁盘阵列?

    磁盘阵列怎么组linux系统,Linux系统下如何设置磁盘阵列?在Linux系统中,磁盘阵列主要通过/etc/raidtab配置文件来控制的。若系统管理员需要实现磁盘阵列的话,就需要手工创建这个配置文件。或者从其他地方复制这个文件,并进行相应的修改。默认情况下,在Linux系统中不会有这个文件。下面笔者就对这个文件中的主要参数进行讲解,帮助大家建立一个正确的磁盘阵列配置文件。参数一:raid-level指定磁盘阵列的类型。  磁盘阵列到目前为止,有不下于十种…

    2022年5月18日
    46
  • cubieboard 资源

    cubieboard 资源开发链接:http://pan.baidu.com/s/1o6r27V0密码:46h2文档资料:http://pan.baidu.com/s/1kTFXMSZ密码:9pka视频资料:http://pan.baidu.com/s/1ntLYBLB密码:mvcf http://dl.cubieboard.org/model/cubietruck/…

    2022年7月22日
    14
  • 如何测试网站打开速度(网站访问速度)

    检测网站打开速度的5个方法网页载入速度对于一个网站来讲很关键,Google已经将一个网站的载入速度列入了网站关键字排名的考虑因素当中,也就是说如果你的网站有足够的内容,而且载入速度比别人的网站更快一步的话,那么你就是获得更好的排名。那么下面就赶快测试你的网站,提高网站访问速度吧。1:用Ping命令简单测网站速度的方法Ping可以用来检查网络是否通畅或者网络连接速度,点击开始→运行在运行中输…

    2022年4月18日
    146
  • Linux的ssh登录命令,Linux SSH登录命令总结

    Linux的ssh登录命令,Linux SSH登录命令总结当项目计算量比较大 我们需要将任务分布到多台电脑上面运行 因为对于分布式概念不熟 就想到了 Linux 最简单的 ssh 协议 远程控制其他电脑 然后写 shell 脚本统一在所有电脑上运行程序 简单说 SSH 是一种网络协议 用于计算机之间的加密登录 如果一个用户从本地计算机 使用 SSH 协议登录另一台远程计算机 我们就可以认为 这种登录是安全的 即使被中途截获 密码也不会泄露 最早的时候 互联网通信都是明文通

    2025年6月22日
    2
  • Pycharm最简单安装Python里面的各种包

    Pycharm最简单安装Python里面的各种包大家在用Pycharm安装各种Python里面的包时,可能会出错,安装不成功。下面我介绍一种最可靠,最稳定,最便利的安装。第一步:打开Pycharm,点击右上角的File,找到setting第二步:在setting里面搜索interpreter,找到ProjectInterpreter点击右侧的+号第三步:点击最下面的ManageRespositories删除默认的配置…

    2022年8月29日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号