jieba分词,自定义词库分词 java语言

jieba分词,自定义词库分词 java语言其实这是一个解决 JAVA 端使用 Jeba 分词的方式 Jeba 相较于其他产品的优势是双向匹配分词 GITHUB 地址 https github com huaban jieba analysis 第一步引用 Maven lt Jeba 分词器几年没更新了 GitHub gt lt dependency gt lt groupId gt com huaban lt gro

其实这是一个解决JAVA端使用Jeba分词的方式。Jeba相较于其他产品的优势是双向匹配分词

GITHUB地址:https://github.com/huaban/jieba-analysis

第一步引用Maven

 
   
   
   
     com.huaban 
    
   
     jieba-analysis 
    
   
     1.0.2 
    
  

第二步自定义词词典:

创建的文件结构以及文件名称:dicts/jieba.dict

自定义的词典请放到:resource/dicts/jieba.dict

自定义词词库的内容

塑料 3 n 塑料管件 3 n 塑料管 3 n 管件 3 n 

第三步调用:

public void contextLoadsJeba() { String text = "塑料管件" ; System.out.println( "Jeba 分词 -------------" ); JiebaSegmenter segmenter = new JiebaSegmenter(); System.out.println(segmenter.process( text , JiebaSegmenter.SegMode.INDEX).toString()); System.out.println("加载自定义词库的信息,开始做自定义词库的分词------->>>>>>>>"); // 词典路径为Resource/dicts/jieba.dict Path path = Paths.get(new File( getClass().getClassLoader().getResource("dicts/jieba.dict").getPath() ).getAbsolutePath() ) ; //加载自定义的词典进词库 WordDictionary.getInstance().loadUserDict( path ) ; //重新分词 segmenter = new JiebaSegmenter(); System.out.println(segmenter.process( text , JiebaSegmenter.SegMode.INDEX).toString()); }

搞定

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214378.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午4:24
下一篇 2026年3月18日 下午4:25


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号