lucene定义自己的分词器将其分成单个字符

全栈程序员-站长 • 2022年1月28日下午12:00 • 未分类 • 阅读 56

lucene定义自己的分词器将其分成单个字符

大家好，又见面了，我是全栈君。

问题描写叙述：将一句话拆分成单个字符。而且去掉空格。

package com.mylucene;

import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.util.AttributeSource.AttributeFactory;

public class SpiltChar extends Tokenizer {
	
	 public SpiltChar(AttributeFactory factory, Reader input) {
		super(factory, input);
		// TODO Auto-generated constructor stub
	}

	public SpiltChar(Reader input) {
	      super(input);
	    }
	    private int offset = 0, bufferIndex=0, dataLen=0;
	    private final static int MAX_WORD_LEN = 255;
	    private final static int IO_BUFFER_SIZE = 1024;
	    private final char[] buffer = new char[MAX_WORD_LEN];
	    private final char[] ioBuffer = new char[IO_BUFFER_SIZE];
	    private int length;
	    private int start;
	    private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
	    private final OffsetAttribute offsetAtt = addAttribute(OffsetAttribute.class);
	    private final void push(char c) {
	        if (length == 0) start = offset-1;            // start of token
	        buffer[length++] = Character.toLowerCase(c);  // buffer it

	    }

	    private final boolean flush() {

	        if (length>0) {
	            //System.out.println(new String(buffer, 0,
	            //length));
	          termAtt.copyBuffer(buffer, 0, length);
	          offsetAtt.setOffset(correctOffset(start), correctOffset(start+length));
	          return true;
	        }
	        else
	            return false;
	    }

	    @Override
	    public boolean incrementToken() throws IOException {
	        clearAttributes();

	        length = 0;
	        start = offset;
	        while (true) {
	            final char c;
	            offset++;
	            if (bufferIndex >= dataLen) {
	                dataLen = input.read(ioBuffer);
	                bufferIndex = 0;
	            }

	            if (dataLen == -1) {
	              offset--;
	              return flush();
	            } else
	                c = ioBuffer[bufferIndex++];

	            switch(Character.getType(c)) {

	            case Character.DECIMAL_DIGIT_NUMBER://注意此部分只是滤一些熟悉或者字母
	            case Character.LOWERCASE_LETTER://注意此部分
	            case Character.UPPERCASE_LETTER://注意此部分
//	                push(c);
//	                if (length == MAX_WORD_LEN) return flush();
//	                break;
	         
	            case Character.OTHER_LETTER:
	                if (length>0) {
	                    bufferIndex--;
	                    offset--;
	                    return flush();
	                }
	                push(c);
	                return flush();

	            default:
	                if (length>0) return flush();
	            	 
		                break;
	                
	            }
	        }
	    }
	    
	    @Override
	    public final void end() {
	      // set final offset
	      final int finalOffset = correctOffset(offset);
	      this.offsetAtt.setOffset(finalOffset, finalOffset);
	    }

	    @Override
	    public void reset() throws IOException {
	      super.reset();
	      offset = bufferIndex = dataLen = 0;
	    }

}

定义自己的分词器类：

package com.mylucene;

import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;

/**
 * 单字切分
 * **/
public class SpiltCharAnalyzer extends Analyzer {

	@Override
	protected TokenStreamComponents createComponents(String arg0, Reader arg1) {
	   
		Tokenizer token=new SpiltChar(arg1);
		
		return new TokenStreamComponents(token);
	}
	
	
	
	

}

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/115942.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

hdu3280Equal Sum Partitions (区间DP)「建议收藏」

上一篇 2022年1月28日下午12:00

移动终端处理器构成和基带芯片概述「建议收藏」

下一篇 2022年1月28日下午12:00

Android文字转语音引擎（TTS）简单比较及下载

Android文字转语音引擎（TTS）简单比较及下载目前国内Android系统自带语音引擎包括华为小米等居然都是不支持中文语音功能，以下是在网上找到的谷歌、科大讯飞和百度的纯语音引擎apk，没有启动界面，安装后在设置中能找到。不知为什么这些引擎在官网上都是找不到的。百度网盘下载地址密码：3si0简单比较com.svox.pico系统自带不支持中文语音com.svox.classic搜svox搜到的，和上面类似不支…

全栈程序员-站长
2022年6月27日
334
全国省市区JS数据

全国省市区JS数据vararrProvin newArray vararrCity newArray vararrcountr newArray vari 0 varj 0 vark 0 arrProvince i 北京市 5392 arrCity i newArray arrcountry i newArra

全栈程序员-站长
2026年3月19日
3
porm文件。随时可复制。

porm文件。随时可复制。<?xmlversion=”1.0″encoding=”UTF-8″?>4.0.0com.qstdsfsdfpom1.0-SNAPSHOTmain<name>dsfsdf</name>http://www.example.comorg.mybatis.generator…

全栈程序员-站长
2022年6月16日
38
如何进入现在较火热的大数据领域，学习路线是什么？

如何进入现在较火热的大数据领域，学习路线是什么？

全栈程序员-站长
2021年7月3日
91
6hutool实战:DateUtil(时间工具类)-时间偏移量获取

6hutool实战:DateUtil(时间工具类)-时间偏移量获取hutool 实战包含但不限于获取年季度月周日时分秒毫秒的开始时间和结束时间关键字 javajavaJAVA 工具类工具类工具类 DateUtilDate

全栈程序员-站长
2025年10月21日
5
union（联合体、结构体）的简介与使用

union（联合体、结构体）的简介与使用以前在学习 C 语言或 C 的时候只学习了一些常用的语法对于一些少见的本着后面遇到了再来学的目的就没有去学习过今天早上看群里面有人问 float 怎么转换为 4 个字节我一想这不是我以前做协议解析时候的问题吗当时我是用指针强制转换的方法去实现的方法就像下面那代码片段一样转换 float 数据到字节数组 unsignedchar floatfloatVa u

全栈程序员-站长
2026年3月17日
2

发表回复

关注全栈程序员社区公众号