Lucene笔记15-Lucene的分词-通过TokenStream显示分词[通俗易懂]

全栈程序员-站长 • 2022年7月22日下午2:36 • 未分类 • 阅读 18

Lucene笔记15-Lucene的分词-通过TokenStream显示分词[通俗易懂]一、展示分词内容packagecom.wsy;importorg.apache.lucene.analysis.*;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.analysis.tokenattributes.CharTermAttribute;impo…

大家好，又见面了，我是你们的朋友全栈君。

一、展示分词内容

package com.wsy;

import org.apache.lucene.analysis.*;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;

import java.io.IOException;
import java.io.StringReader;

public class AnalyzerUtils {
    public static void displayToken(String string, Analyzer analyzer) {
        try {
            // 通过分词器获取TokenStream
            TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(string));
            // TokenStream是一种流，我们要获取流中的东西，就需要一个“碗”，我们将CharTermAttribute比作这个“碗”
            // 当TokenStream遍历的时候，这个“碗”也跟着走，我们把“碗”放到流中就是方便获取流中的数据
            CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
            while (tokenStream.incrementToken()) {
                System.out.print("[" + charTermAttribute + "]");
            }
            System.out.println();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        Analyzer analyzer1 = new StandardAnalyzer(Version.LUCENE_35);
        Analyzer analyzer2 = new StopAnalyzer(Version.LUCENE_35);
        Analyzer analyzer3 = new SimpleAnalyzer(Version.LUCENE_35);
        Analyzer analyzer4 = new WhitespaceAnalyzer(Version.LUCENE_35);
        String string1 = "I am from liaocheng, it is my hometown. My name is Wang Shaoyang.My QQ number is 872452093.";
        String string2 = "我来自山东聊城，我的名字是王劭阳。";
        AnalyzerUtils.displayToken(string1, analyzer1);
        AnalyzerUtils.displayToken(string1, analyzer2);
        AnalyzerUtils.displayToken(string1, analyzer3);
        AnalyzerUtils.displayToken(string1, analyzer4);
        AnalyzerUtils.displayToken(string2, analyzer1);
        AnalyzerUtils.displayToken(string2, analyzer2);
        AnalyzerUtils.displayToken(string2, analyzer3);
        AnalyzerUtils.displayToken(string2, analyzer4);
    }
}

通过这个例子，可以看到对于一个字符串的分词结果，使用不同的分词器对于分词的效果是不同的，所以实际开发的时候，要根据需要使用合适的分词器才行。

二、总结

在displayToken()方法中，有一个非常重要的思想，就是向流中添加attribute，之后通过attribute来查看流中的内容，这在Lucene中非常重要，这里举了一个很形象的例子，把TokenStream比作水流，为了获取水流，我们需要向水流中放置一个碗，通过碗来获取到水流，也就获取到了数据，这一块一定要理解透。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/163095.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

java .foreach数组遍历_foreach遍历ArrayList和数组

上一篇 2022年7月22日下午2:36

java遍历ArrayList的四种方法[通俗易懂]

下一篇 2022年7月22日下午2:46

Ai程序员

打造智能Agent的“质检员”：基于DeepSeek的自动化评估体系实战

打造智能Agent的“质检员”：基于DeepSeek的自动化评估体系实战

全栈程序员-站长
2026年3月15日
2
python基础语法个人笔记_python基础语言法则

python基础语法个人笔记_python基础语言法则python语法规范python的语法规范非常重要，简洁明了是python的特性，以下是python语法的一些说明python3的编码格式是unicode(utf-8)标识符的规则：由字母、数字

全栈程序员-站长
2022年7月29日
8
java 常量池和运行时常量池_常量池在jvm的哪个部分

java 常量池和运行时常量池_常量池在jvm的哪个部分前言一直在《深入理解JVM》对常量池只有一个浅薄的了解，之前也遇到过这种题目，今天还是要挑出来进行一次全方位的了解。常量池分类常量池大体可以分为：静态常量池，运行时常量池。静态常量池存在于class文件中，比如经常使用的javap-verbose中，常量池总是在最前面把？运行时常量池呢，就是在class文件被加载进了内存之后，常量池保存在了方法区中，通常说的常量池值的…

全栈程序员-站长
2025年10月17日
6
此工作站和主域间的信任关系失败又一解决办法「建议收藏」

此工作站和主域间的信任关系失败又一解决办法「建议收藏」问题：局域网访问资料时提示：此工作站和主域间的信任关系失败环境：几台未加入域（加入域的机器未测试，问题已解决）机器访问机器test的共享资料时总是提示，此工作站和主域间的信任关系失败，多次重启几台计算机均未解决，苦苦找是否有办法实现域和工作组的信任，事实证明这是个牛角尖，而且还是死角！但是例行检查时候发现，无一报错的域控居然出现了叉叉具体如下图前几次都没…

全栈程序员-站长
2022年10月18日
5
四、全卷积网络FCN详细讲解（超级详细哦）[通俗易懂]

四、全卷积网络FCN详细讲解（超级详细哦）[通俗易懂]四、FCN全卷积网络+upsampling上采样+opencv图像金字塔（超级详细哦）1、全卷积网络（FCN）的简单介绍1.1、CNN与FCN的比较1、上采样理论2、OpenCV图像金字塔1、全卷积网络（FCN）的简单介绍1.1、CNN与FCN的比较在传统的cnn网络中，在在最后的卷积层之后会接上若干个全连接层，将卷积层产生的特征图（featuremap）映射成为一个固定长度的特征向量。一…

全栈程序员-站长
2022年6月18日
31
物理讨论题复习

物理讨论题复习请简要回答避雷针的工作原理？避雷针由于曲率半径小，电荷面密度大，从而产生尖端放电现象，导致自身与带电云层形成回路。导致自身电荷放出从而不会被雷击中，当带电云层密度过大，避雷针通过接地把电引下大地“分子电流假说“是谁提出的？请解释“分子电流”。安培。在原子、分子等物质微粒内部，存在着一种环形电流—-分子电流。分子电流使每个物质都成为微小的磁体，他的两侧相当于两个磁极请解释”磁偶极子“。磁偶极子是类比电偶极子而建立的物理模型。具有等值异号的两个点磁荷构成的系统称为磁偶极子。磁偶极子的物理

全栈程序员-站长
2025年6月29日
5

发表回复

关注全栈程序员社区公众号