Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource[通俗易懂]

Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource[通俗易懂]前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NETCore2.0版本,而Lucene使用的版本是3.6.0,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net已经有了Core2.0版本,4.8.0bate版,而PanGu分词,目前有人正在做,貌似已经做完,只是…

大家好,又见面了,我是你们的朋友全栈君。

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有了Core 2.0版本,4.8.0 bate版,而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示。

Lucene.net 4.8.0   

https://github.com/apache/lucenenet

PanGu分词(可以直接使用的)

https://github.com/SilentCC/Lucene.Net.Analysis.PanGu

 JIEba分词(可以直接使用的)

https://github.com/SilentCC/JIEba-netcore2.0

 

 

Lucene.net 4.8.0 和之前的Lucene.net 3.6.0 改动还是相当多的,这里对自己开发过程遇到的问题,做一个记录吧,希望可以帮到和我一样需要升级Lucene.net的人。我也是第一次接触Lucene ,也希望可以帮助初学Lucene的同学。

 

一,Analyzer 中的TokenStream 

1.TokenSteam的产生

在这篇博文中,其实已经介绍了TokenStream 是怎么产生的:

 http://www.cnblogs.com/dacc123/p/8035438.html

在Analyzer 中,同一个线程上的所有Analyzer实例都是共用一个TokenStream,而实现如此都是因为Analyzer类中 storedValue 是全局共用的,获取TokenStream的方法是由reuseStrategy 类提供的,TokenStream 继承自AttributeSource

那么TokenStream的作用什么呢?

2.TokenSteam的使用

TokenStream 实际上是由一系列Token(分词)组合起来的序列,这里仅仅介绍如何通过TokenStream获得分词的信息。TokenStream的工作流程:

    1. 创建TokenStream

    2.TokenStream.Reset()

    3.TokenStream.IncrementToken()

    4.TokenStream.End();

    5.TokenStream.Dispose() //Lucene 4.8.0中已经取消了Close(),只有Dispose()

在执行:

_indexWriter.AddDocument(doc)

之后,IndexWriter则会调用初始化时创建的Analyzer,也即IndewWriterConfig()中的Analyzer参数。这里以PanGu分词为例子。

调用分词器,首先会执行CreateComponents()函数,创建一个TokenStreamComponents,这也是为什么所有自定义,或者外部的分词器如果继承Analyzer,必须要覆写CreateComponents()函数:

  protected override TokenStreamComponents CreateComponents(string fieldName, TextReader reader)
        {
            var result = new PanGuTokenizer(reader, _originalResult, _options, _parameters);
            var finalStream = (TokenStream)new LowerCaseFilter(LVERSION.LUCENE_48, result);

          
            finalStream.AddAttribute<ICharTermAttribute>();
            finalStream.AddAttribute<IOffsetAttribute>();

            return new TokenStreamComponents(result, finalStream);
        }

可以看到在这个CreateComponents函数中,我们可以初始化创建自己想要的Tokenizer和TokenStream。TokenStreamComponents是Lucene4.0中才有的,一个TokenStreamComponents是由Tokenizer和TokenStream组成。

在初始化完TokenStream 之后我们可以添加属性Attribute 到TokenStream中:

finalStream.AddAttribute<ICharTermAttribute>();
finalStream.AddAttribute<IOffsetAttribute>();

  2.1 AttributeSource的介绍

  上面说到TokenStream 继承自AttributeSource , finalStream.AddAttribute<ICharTermAttribute> 真是调用了父类AttributeSource的方法AddAttribute<T>() ,所以AttributeSoucre是用来给TokenStream添加一系列属性的,这是Lucene4.8.0中AttributeSource中AddAttribute的源码:

  

  public T AddAttribute<T>()
            where T : IAttribute
        {
            var attClass = typeof(T);
            if (!attributes.ContainsKey(attClass))
            {
                if (!(attClass.GetTypeInfo().IsInterface && typeof(IAttribute).IsAssignableFrom(attClass)))
                {
                    throw new ArgumentException("AddAttribute() only accepts an interface that extends IAttribute, but " + attClass.FullName + " does not fulfil this contract.");
                }
          //正真添加Attribute的函数,而创造Attribute实例则是通过AttributeSource中的 
          //private readonly AttributeFactory factory; AddAttributeImpl(
this.factory.CreateAttributeInstance<T>()); } T returnAttr; try { returnAttr = (T)(IAttribute)attributes[attClass].Value; } #pragma warning disable 168 catch (KeyNotFoundException knf) #pragma warning restore 168 { return default(T); } return returnAttr; }

 2.2 Attribute介绍

    上面介绍了AttributeSource 给TokenStream添加属性Attribute ,其实Attribute就是你需要获得的分词的属性。

    比如:上面写到的 ICharTermAttribute 继承自CharTermAttribute 表示的是分词内容;

       IOffsetAttribute 继承自 OffsetAttribute 表示的是分词起始位置和结束位置;

    类似的还有 IFlasAttribute , IKeywordAttribute,IPayloadAttribute,IPositionIncrementAttribute,IPositionLengthAttribute,ITermToBytesRefAttribute,ITypeAttribute

    我们再看Token(分词)类的源码:

    

  public class Token : CharTermAttribute, ITypeAttribute, IPositionIncrementAttribute, IFlagsAttribute, IOffsetAttribute, IPayloadAttribute, IPositionLengthAttribute

   

    其实Token(分词),是继承这些Attribute,也就是说分词是由这些属性组成的,所以就可以理解为什么在TokenStream中添加Attributes。

    

再回到之前,再初始化TokenStream 和添加完属性之后,必须执行TokenStream的Reset(),才可继续执行TokenStream.IncrementToken().

Reset()函数实际上在TokenStream创建和使用之后进行重置,因为我们之前说过,在Analyzer中所有实例是共用一个TokenStream的所以在TokenStream被使用过一次后,需要Reset() 以清除上次使用的信息,重新给下一个需要分词的text使用。

而IncrementToken实际的作用则是在遍历TokenStream 中的Token,类似于一个迭代器。

  public sealed override bool IncrementToken()
        {
            ClearAttributes();
            Token word = Next();
            if (word != null)
            {
                var buffer = word.ToString();
                termAtt.SetEmpty().Append(buffer);
                offsetAtt.SetOffset(word.StartOffset, word.EndOffset);
                typeAtt.Type = word.Type;
                return true;
            }
            End();
            this.Dispose();
            return false;
        }

直到返回的false ,表示分词已经遍历完了,这个时候调用End() 和Dispose() 来注销这个TokenStream。在这个过程中,TokenStream是可以被使用多次的,比如我写入索引的时候,加入两个Field : 

new Field("title","xxxx")
new Field("content","xxxxx")

对这个两个域进行分词,TokenStream创建之后,会先对title进行分词,遍历。然后执行Reset(),再对content进行分词,遍历。直到所有要分词的域都遍历过了。才会执行End()和Dispose()函数进行销毁。

 

二,问题:搜索不到内容

  在迁移的过程中,突然出现了搜索不到内容的bug,经过调试,发现写索引的时候,对文本的分词都是正确。这里要提一点,分词(Token) 和 Term的区别 ,term是最小的搜索的单位,就是每个词语,比如“我是搞IT的”,那么,经过分词 “我”,“是”,“搞”,“IT” 这些都是term,而这些分词的具体信息,比如起始位置信息,都包含在Token当中,在Lucene2.9中之后,已经不推荐用Token(分词),而直接用Attribute表示这些term的属性 

      后来发现写索引的时候正常,但是在搜索的时候,获取搜索关键词是,利用自己写的TokenStream获取分词信息出了错。

  

    tokenStream.Reset();
            //ItermAttribute在Lucene4.8.0中已经替换为CharTermAttribute
            while (tokenStream.IncrementToken())
            {
                
                var termAttr = tokenStream.GetAttribute<ICharTermAttribute>();
                var str = new string(termAttr.Buffer, 0, termAttr.Buffer.Length);
                var positionAttr = tokenStream.GetAttribute<IOffsetAttribute>();
                var start = positionAttr.StartOffset;
                var end = positionAttr.EndOffset;
                yield return new Token() { EndPosition = end, StartPosition = start, Term = str };
            }
           

termAttr.Buffer  是字节数组,而termAttr.Buffer.Length 是字节数组的长度,是固定。而termAttr.Length 是字节数组中实际元素的长度,是不一样的。我那样写会导致得到term字节信息是 [69,5b,23,/0,/0,/0,/0,/0,/0,/0] 因为长度填错了,所以后面自动填充/0,这样自然搜索不到,改成termAttr.Length就可以了。

这里在提一下在Lcuene.net 4.0中新增了BytesRef 类,表示term的字节信息,以后会介绍道

 

转载于:https://www.cnblogs.com/dacc123/p/8118526.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163114.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月22日 下午1:16
下一篇 2022年7月22日 下午1:36


相关推荐

  • SQLServer找不到配置管理器,如何打开配置管理器

    SQLServer找不到配置管理器,如何打开配置管理器总有些sqlserver安装完毕之后找不到配置管理器,想看个端口号或者看个服务的用户名,都很气。下面来介绍一下通过windows命令来打开SQLSERVER配置管理器。首先:windows键+R键各个sqlserver版本在textbox中输入对应的命令如下:SQLServerManager13.msc(对于SQLServer2016)SQLServerManager12.ms…

    2022年7月21日
    19
  • 数据库设计 ER图

    数据库设计 ER图一、ER图简介ER图,简单来说,E是实体,实体有一组属性;R是关系。找打系统中的实体以及实体关系就可以绘制出ER图了。例如,下图是网上找到的ER图,矩形的是实体,椭圆是属性,实体何实体时间的关系用菱形,关系也有熟悉,例如,学生选修课程,有成绩属性,当然如果系统需要,也可以记录选修的时间等属性信息。认真看下,你会发现ER图理解起来还是比较容易的二、ER图绘制常见问题但是真的落实到自己绘制,很多同学就会遇到困难。下面我们通过反例来学习ER图1.反例1区分功能和关系.

    2022年6月21日
    41
  • Delphi语言_DELPHI

    Delphi语言_DELPHI总结一下SQL语句中引号(‘)、quotedstr()、(”)、format()在SQL语句中的用法以及SQL语句中日期格式的表示(#)、(”)在Delphi中进行字符变量连接相加时单引号用(”’),又引号用(””)表示首先定义变量var AnInt:integer=123;//为了方便在此都给它们赋初值。虽然可能在引赋初值在某些情况下不对AnIntStr:str

    2022年10月18日
    6
  • Python 元组详解

    Python 元组详解Python 元组详解文章目录 Python 元组详解 1 元组的定义 2 元组的创建 3 访问元组中的值 4 更新元组 5 删除元组元素 6 基本元组操作 7 索引 切片和矩阵 8 元组循环遍历 9 元组应用场景 10 元组和格式化字符串 11 元组和列表之间的转换 12 内置元组函数功能参考文档 http www yiibai com python tuple tuple html1 元组的定义 笛卡尔

    2026年3月18日
    2
  • 开源运维自动化平台-opendevops

    开源运维自动化平台-opendevops开源运维自动化平台 opendevops 简介官网 Github 在线体验 CODO 是一款为用户提供企业多混合云 自动化运维 完全开源的云管理平台 CODO 前端基于 Vueiview 开发 为用户提供友好的操作界面 增强用户体验 CODO 后端基于 PythonTornad 开发 其优势为轻量 简洁清晰 异步非阻塞 CODO 开源多云管理平台将为用户提供多功能 ITSM 基于 RBAC

    2026年3月20日
    2
  • android插件化资源_android 插件化

    android插件化资源_android 插件化AndroidEagleEye是一个基于Xposed的应用,可以实现对Android系统API与应用自身方法的Hook,最终会将Hook的API或方法的信息以Log的形式输出,包括应用的uid、API或方法的名称、参数信息等。在使用AndroidEagleEye过程中对设备造成的任何风险自负特色可实现对Android系统API以及应用自身方法的Hook可根据配置

    2022年8月16日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号