其实这是一个解决JAVA端使用Jeba分词的方式。Jeba相较于其他产品的优势是双向匹配分词
GITHUB地址:https://github.com/huaban/jieba-analysis
第一步引用Maven
com.huaban
jieba-analysis
1.0.2
第二步自定义词词典:
创建的文件结构以及文件名称:dicts/jieba.dict
自定义的词典请放到:resource/dicts/jieba.dict
自定义词词库的内容
塑料 3 n 塑料管件 3 n 塑料管 3 n 管件 3 n
第三步调用:
public void contextLoadsJeba() { String text = "塑料管件" ; System.out.println( "Jeba 分词 -------------" ); JiebaSegmenter segmenter = new JiebaSegmenter(); System.out.println(segmenter.process( text , JiebaSegmenter.SegMode.INDEX).toString()); System.out.println("加载自定义词库的信息,开始做自定义词库的分词------->>>>>>>>"); // 词典路径为Resource/dicts/jieba.dict Path path = Paths.get(new File( getClass().getClassLoader().getResource("dicts/jieba.dict").getPath() ).getAbsolutePath() ) ; //加载自定义的词典进词库 WordDictionary.getInstance().loadUserDict( path ) ; //重新分词 segmenter = new JiebaSegmenter(); System.out.println(segmenter.process( text , JiebaSegmenter.SegMode.INDEX).toString()); }
搞定
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214378.html原文链接:https://javaforall.net
