IKAnalyzer使用停用词词典进行分词

IKAnalyzer使用停用词词典进行分词

大家好,又见面了,我是全栈君。

@Test
// 測试分词的效果,以及停用词典是否起作用
public void test() throws IOException {
	String text = "老爹我们都爱您。";
	Configuration configuration = DefaultConfig.getInstance();
	configuration.setUseSmart(true);
	IKSegmenter ik = new IKSegmenter(new StringReader(text), configuration);
	Lexeme lexeme = null;
	while ((lexeme = ik.next()) != null) {
		System.out.println(lexeme.getLexemeText());
	}
}

第二个样例

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.StringReader;

import javax.imageio.stream.FileImageInputStream;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import org.wltea.analyzer.lucene.IKAnalyzer;



public class TestStopWords {
	public static void main(String[] args) throws IOException {
		String keyWords = "2012年那个欧洲杯四强赛";
		InputStreamReader isr = new InputStreamReader(new FileInputStream(new File("data/stopword.txt")));
		IKSegmenter ikSegmenter = new IKSegmenter(isr, true);
		Lexeme lexeme = null;
		while((lexeme=ikSegmenter.next())!= null){
			System.out.println(lexeme.getLexemeText());
		}
	}
}	

程序的执行结果是:

载入扩展停止词典:stopword.dic
载入扩展停止词典:chinese_stopwords.dic
老爹
都爱

IKAnalyzer.cfg.xml的配置例如以下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户能够在这里配置自己的扩展字典 <entry key="ext_dict">ext.dic;</entry>假设有多个扩展词典。那么以分号分隔就可以,如以下的两个扩展停止词字典 -->
	<!--用户能够在这里配置自己的扩展停止词字典 -->
	<entry key="ext_stopwords">stopword.dic;chinese_stopwords.dic</entry>
</properties>


注意点:

1、停用词词典必须是UTF-8编码。

2、这里非常多跟我一样的新手没办法成功的原因就是被无bom的UTF-8格式给折磨的,IK作者自己也这样说了。

3、假设你不知道啥叫无BOM,也不确定自己的文件是不是UTF-8无bom,那么请在第一行使用回车换行,从第二行開始加入停止词。

4、该配置文件以及停用词词典均存放在src文件夹以下就可以。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115867.html原文链接:https://javaforall.net

(0)
上一篇 2022年1月29日 下午1:00
下一篇 2022年1月29日 下午2:00


相关推荐

  • DCL单例模式,如何解决DCL问题

    DCL单例模式,如何解决DCL问题何为 DCL DCL 即 DoubleCheckL 双重检查锁定 下面从几个单例模式来讲解懒汉式 publicvoidSi privatestati privateSingl publicstatic if

    2026年3月17日
    1
  • Java方法重载_java入门方法的使用

    Java方法重载_java入门方法的使用在Java中,同一个类中的多个方法可以有相同的方法名称,但是有不同的参数列表,这就称为方法重载(methodoverloading)。参数列表又叫参数签名,包括参数的类型、参数的个数、参数的顺序,只要有一个不同就叫做参数列表不同。重载是面向对象的一个基本特性。publicclassDemo{ //一个普通得方法,不带参数,无返回值 publicvoidadd(){ //met…

    2025年6月25日
    3
  • 51单片机实现流水灯

    51单片机实现流水灯文章目录51单片机实现流水灯一、点亮第一个LED灯二、流水灯1.总线型控制2.延时函数3._crol_函数使用4.实现流水灯51单片机实现流水灯以下是本篇文章正文内容,下面案例可供参考一、点亮第一个LED灯#include<reg52.h>#defineuintunsignedint//简化定义#defineucharunsignedchar//同上sbitD1=P2^1;voidmain(){ D1=0;}代码中D1代表着位定义,相.

    2022年5月9日
    56
  • 查询oracle物化视图,ORACLE物化视图

    查询oracle物化视图,ORACLE物化视图MView 重要视图在源数据库端的相关视图 DBA BASE TABLE MVIEWS 此视图与系统视图 SYS SLOG 相对应 视图 DBA BASE TABLE MVIEWS 记录了使用 MViewLog 访问基表的相关刷新的信息 换句话说就是记录了使用了 MViewLog 并且做过快速刷新的 MView 的信息 必须同时满足有 MViewLog 以及做过快速刷新这两个条件 缺一不可 列名描述 OWNER 基表的 OW

    2026年3月17日
    4
  • 阿里云设置端口访问、使用_阿里云服务器端口号

    阿里云设置端口访问、使用_阿里云服务器端口号登录阿里云账号后,点击控制台点击自定义视图→再点击云服务器ECS点击实例id进入实例:点击本实例安全组:点击安全组id或者配置规则进入安全组规则配置界面,可以选择添加方式,这里以手动添加作为演示点击手动添加后,会出现添加栏,我们配置521端口,源选择0.0.0.0/0(意思是开放给所有人),最后点击保存放行端口就设置完毕了此外也可以从另一个地方进入本地实例安全组:(1)点击云服务器ECS后(上述步骤3)进入实例页面后,可以直接点击实例(2)选择自..

    2022年10月3日
    3
  • Java学习之socket网络编程篇

    Java学习之socket网络编程篇0x00前言在一些工具开发中,最离不开的可能就是网络编程了,例如目录扫描器、端口扫描、包括exp这些其实都是依赖于socket。就拿简单的exp来说其实就是已

    2021年12月12日
    45

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号