java实现敏感词过滤「建议收藏」

java实现敏感词过滤「建议收藏」项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置.把代码整理了一下,可以直接使用完整工程下载地址:https://download.csdn.net/download/a897180673/10278921一共三个类,1个测试类,1个从数据库加载敏感词类,一个是实现DFT算法的类,具体的算法可以去研究.首先是从数据库加…

大家好,又见面了,我是你们的朋友全栈君。

项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置.
把代码整理了一下,可以直接使用
完整工程下载地址:
https://download.csdn.net/download/a897180673/10278921

一共三个类,1个测试类,1个从数据库加载敏感词类,一个是实现DFT算法的类,具体的算法可以去研究.

首先是从数据库加载敏感词

package com.abc;

import com.google.common.base.Strings;
import java.io.IOException;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/** * 加载敏感词配置文件�??<br/> * 将加载的敏感词按�?<b>DFA</b>算法的数据结构保存到{@link #wordsMap}中�??<br/> * * @author liuxinsi * @mail akalxs@gmail.com */
public class WordsLoader { 
   

    /** * 按照DFA算法的数据结构保存的敏感词�??<br/> * k=敏感词的第一个字符,v=后续字符�? */
    private static final Map<String, Map> wordsMap = new HashMap<String, Map>();

    static {
        // 加载
        List<String> wordLines = null;
        try {
            wordLines = loadWordsFile();
        } catch (IOException e) {
            e.printStackTrace();
        }

        addToCache(wordLines);
    }

    /** * 加载敏感词文件�??<br/> * 将按照顺序寻找直到找到一个�??<br/> * 1.启动时配置的系统属�?? ${swFilePath}。全路径�?<br/> * 2.${user.dir}/words.txt。一般是bin、domain etc...<br/> * 3.${classpath}/words.txt。环境变量里�?<br/> * * @return 敏感词列�? * @throws IOException */
    private static List<String> loadWordsFile() throws IOException {
        // 指定路径

        List<String>result =new ArrayList<String>(); 
        try {
            Class.forName("com.mysql.jdbc.Driver");
            Connection cnn=DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=UTF-8", 数据库用户名, 数据库密码);
            PreparedStatement ps=cnn.prepareStatement("select word from word");
            ResultSet rs=ps.executeQuery();
            while(rs.next()) {
                result.add(rs.getString("word"));
            }


        } catch (Exception e) {
            e.printStackTrace();
        }
        return  result;

    }

    /** * 逐字分割按照DFA算法的数据结构保存敏感词至{@link #wordsMap}�?<br/> * k=敏感词的第一个字符,v=后续字符。e.g<br/> * 敏感�?=�?假发票�??<br/> * { * "�?":{"�?":{"�?":{"�?":{}}}} * } * * @param wordLines 敏感词列�? */
    private static void addToCache(List<String> wordLines) {
        if (wordLines == null || wordLines.isEmpty()) {
            return;
        }
        wordLines.forEach(line -> {
            if (Strings.isNullOrEmpty(line)) {
                return;
            }

            char[] wordChars = line.toCharArray();
            // 首字
            String headWord = null;

            // 子内�?
            Map<String,Map> subWordMap = null;
            for (char word : wordChars) {
                String _word = String.valueOf(word);

                // 第一个字�?
                if (headWord == null) {
                    headWord = _word;
                    if (!wordsMap.containsKey(headWord)) {
                        wordsMap.put(headWord, new HashMap());
                    }
                    subWordMap = wordsMap.get(headWord);
                    continue;
                }

                // 如子内容map不包含当前字符则将当前字符保存到子中
                if (!subWordMap.containsKey(_word)) {
                    subWordMap.put(_word, new HashMap());
                    subWordMap = subWordMap.get(_word);
                    continue;
                }

                // 如包含,继续去下�?个子map中寻�?
                subWordMap = subWordMap.get(_word);
            }
        });
    }


    public static Map<String,Map> getWordsMap() {
        return wordsMap;
    }
}

第二个是敏感词检测的类

package com.abc;

import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/** * 敏感词检测�?? * * @author liuxinsi * @mail akalxs@gmail.com */
public class SensitiveWordsChecker { 
   



    public static Set<String> checkSensitiveWord(String textStr) {
        Set<String> illWords = new HashSet<>();
        Map<String, Map> wordsMap = WordsLoader.getWordsMap();

        for (int i = 0; i < textStr.length(); i++) {
            String currWord = String.valueOf(textStr.charAt(i));

            // 如包含当前字符,则当前字符敏感,�?下找
            if (wordsMap.containsKey(currWord)) {
                StringBuilder strb = new StringBuilder();
                strb.append(currWord);
                int j = i;

                // 获取当前字符的子map
                Map<String, Map> subMap = wordsMap.get(currWord);

                // 拼配的数�?
                int matchCount = 1;
                // 敏感词字符的总数�?
                int wordsCount = 1;

                while (true) {
                    // 找完�?
                    if (j == textStr.length() - 1) {
                        break;
                    }

                    // 下一个字�?
                    j++;
                    String nextWord = String.valueOf(textStr.charAt(j));

                    if (subMap.isEmpty()) {
                        break;
                    }
                    wordsCount++;

                    // 如子map仍然包含敏感字符接着�?下找
                    if (subMap.containsKey(nextWord)) {
                        strb.append(nextWord);
                        subMap = subMap.get(nextWord);
                        matchCount++;
                    }

                    // 已然不匹配了
                    if (wordsCount != matchCount) {
                        break;
                    }
                }

                // 如匹配的数量与敏感字符数量一致认为拼配到�?
                if (matchCount == wordsCount) {
                    illWords.add(strb.toString());
                }
            }

        }
        return illWords;
    }
}

第三个是测试类

package com.abc;

import java.util.Iterator;
import java.util.Set;

public class Test { 
   

    public static void main(String[] args) {


        SensitiveWordsChecker swc=new SensitiveWordsChecker();
        Set<String> ss=swc.checkSensitiveWord("这是测试文字");

        Iterator<String> sencitivWord=ss.iterator();

        while(sencitivWord.hasNext()) {
            System.out.println(sencitivWord.next());

        }

    }

}

首先配置一下数据库中的表

添加一个敏感词

这里写图片描述

看一下结果:
这里写图片描述

可以看到,控制台打印出的消息.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/139778.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • LLDP 协议

    LLDP 协议LLDP(LinkLayerDiscoveryProtocol,链路层发现协议)就是用于这个目的的协议。LLDP定义在802.1ab中,它是一个二层协议,它提供了一种标准的链路层发现方式。LLDP协议使得接入网络的一台设备可以将其主要的能力,管理地址,设备标识,接口标识等信息发送给接入同一个局域网络的其它设备。当一个设备从网络中接收到其它设备的这些信息时,它就将这些信息以MIB的形式存储起来。这些MIB信息可用于发现设备的物理拓扑结构以及管理配置信息。需要注意的是LLDP仅仅被设计用于进行信息通告,..

    2022年5月5日
    160
  • Try catch如何使用[通俗易懂]

    Try catch如何使用[通俗易懂]trycatch适用场合:一、兼容性浏览器的兼容性是程序员很头痛的事儿,往往一些出错会让我们查找许久,在使用trycatch能更好的解决兼容性出错的问题:由于不同浏览器报错提示也不尽相同,通过使用trycatch捕获的浏览器的报错提示,来判断用户使用的浏览器,然后做出对应的解决方法;那么,你如果用if,就只能反馈真或假,而不能直接抛出浏览器的报错内容。二、防止阻塞trycatch用…

    2022年6月20日
    40
  • Redis版本5.0.5安装

    这篇文章主要讲解Redis安装,以后的文章我会对Redis做一个详细介绍,已经Redis应用。1.解压压缩包tar-zxvfredis-5.05.tar.gz2.安装gccyuminstallgcc检查gcc安装是否成功rpm-qa|grepgcc3.进入文件夹make安装cdredis-5.0.5makeMALLOC=libc4.后台运行redissrc/redis-server&检查redis服务启动情况..

    2022年4月8日
    39
  • 数据库锁表

    数据库锁表人工智能,零基础入门!http://www.captainbed.net/inner1、锁表发生在insert、update、delete语句中2、锁表的原理是数据库使用独占式封锁机制,当执行上面的语句时,对表进行锁住,直到发生commit或回滚或退出数据库用户3、锁表的原因:第一、A程序执行了对tableA的insert,并还未commite时,B程…

    2022年6月18日
    29
  • 万年历月份算法(最实用的万年历)

    中秋节到啦,送给大家一个《万年星期历公式》  该公式是根据公历的基本性质编制的,年份不限,准确率为100%, 公式如下: (年+年/4+年/400-年/100+月日天数-1)/7=XX……余星期几。 其中: (年+年/4+年/400-年/100)/7=XX……余数为该年1月1日星期数。 注:分数商均取整数; 月日天数:平年——润年 一月为:0+日数,0+日数, 二月为:3+日数,…

    2022年4月11日
    48
  • CreateFileMapping用法

    CreateFileMapping的MSDN翻译和使用心得 测试创建和打开文件映射的时候老是得到”句柄无效”的错误,仔细看了MSDN以后才发觉是函数认识不透,这里把相关的解释翻译出来HANDLECreateFileMapping( HANDLEhFile,                      //物理文件句柄 LPSECURITY_ATTRIBUTESl

    2022年4月6日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号