Lucene(8_2_0)核心API学习 之 TokenStream(一)「建议收藏」

Lucene(8_2_0)核心API学习 之 TokenStream(一)「建议收藏」一、继承org.apache.lucene.analysis.TokenStreamentendsorg.apache.lucene.util.AttributeSource二、详情TokenStream是一个抽象类,是一系列Token的枚举,这里的Token有两个来源,一是Document的Fields,一是查询语句Query; 这是一个抽象类,有两个具体子类:Tokeni…

大家好,又见面了,我是你们的朋友全栈君。

一、继承

org.apache.lucene.analysis.TokenStream  entends org.apache.lucene.util.AttributeSource

二、详情

  1. TokenStream是一个抽象类,是一系列Token的枚举,这里的Token有两个来源,一是Document的Fields,一是查询语句Query;
  2. 这是一个抽象类,有两个具体子类:

Tokenizer,分词器,输入为Reader;

TokenFilter,过滤器,输入为TokenStream;

用法:一般先用分词器分词,然后用过滤器过滤,这样可以缩小搜索范围,提高效率;

      3. TokenStream继承于AttributeSource,AttributeSource提供给TokenStream访问所有Token属性Attributes的方法。注意每一个AttributeImpl(Attribute的实现类)只有一个实例(单例模式)被创造,然后被所有的tokens重复使用。这样做是为了减少创建对象的消耗,同时允许对AttributeImpl引用的本地缓存。看incrementToken()可以获得更多详情。

三、TokenStream工作流程的核心API

  1. 实例化(Instantiation):实例化一个TokenStream或TokenFilter需要从AttributeSource添加相应的属性;
  2. 状态重置(reset):消费者在使用token前一定要先将状态reset(),因为每一个属性是单例的,被所有token使用;
  3. 查询属性并存储在本地:消费者从stream流中检索属性,并在本地存储指向这些属性的引用;
  4. 调用incrementToken():消费者不断调用incrementToken,获取下一个Token,直到返回错误;
  5. end():消费者调用end()表示token已经遍历完了,可以执行一些遍历结束时的操作;
  6. close():释放相关资源;

        我的理解:把Token当做建立索引时lucene可以处理的最小单元,而TokenStream是一个存储了一系列Token的流,当你需要使用时,一个一个从流中取出Token来处理。

四、进一步解释

  • 为了确保消费者和过滤器知道哪些属性是可用的,这些属性必须在实例化时被添加进去。过滤器和消费者不小在incrementToken()中检查这些属性的可用性;
  • 应为TokenStream的API是基于装饰者模式的,因此所有的非抽象子类必须是final,或者至少有一个final修饰的incrementToken()的实现方法!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163089.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • eclipse怎么导入mybatis项目_eclipse插件离线安装教程

    eclipse怎么导入mybatis项目_eclipse插件离线安装教程1.打开eclipse找到help,点击所选位置2.在查找那输入“MyBatis”,选择一个你所需的版本,进行Install3.点击“Iacceptthetermsofthelicenseagreement”4.点击完成…

    2022年10月6日
    2
  • 香农编码简单例题_单链表逆序输出c语言

    香农编码简单例题_单链表逆序输出c语言常量介绍:si:信源符号p(si):该项概率pi:前i-1项累加概率p(s1)+p(s2)+…+p(s(i-1))li:码长,计算公式[-log(p(si))]+1;(下取整)求解步骤:1、将信源符号按从大到小的顺序排列2、求码长li3、求累加概率pi4、将累加概率pi转换为二进制小数,并根据码长li取小数点后li为作为码字介绍:本程序是将原始数据存放到记事本Data.txt中,记事本应…

    2025年8月26日
    7
  • WebClien使用国外代理服务器访问URL

    WebClien使用国外代理服务器访问URLusing(WebClientwc=newWebClient()){//代理服务器的IP和PortWebProxymyProxy=newWebProxy(CommonBLL.server,Convert.ToInt32(CommonBLL.port))…

    2022年4月29日
    65
  • (转)DeviceIOControl详解[通俗易懂]

    (转)DeviceIOControl详解[通俗易懂]http://blog.csdn.net/gis_wudi/article/details/6639739DeviceIoControl这个api我们用的不多,但是很重要,有时会帮助我们实现一些特别

    2022年7月3日
    76
  • 求一个点在平面上的投影_unity获取物体坐标

    求一个点在平面上的投影_unity获取物体坐标Unity计算投影点主要内容新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入主要内容本文旨在求得点在某一平面的投影点,主要包括Unity中InverseTransformPoint和TransformPoint方法。主要

    2025年8月12日
    2
  • Linux解压zip中文乱码(绝对管用)

    Linux解压zip中文乱码(绝对管用)原文链接

    2022年5月15日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号