java实现敏感词过滤「建议收藏」

java实现敏感词过滤「建议收藏」项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置.把代码整理了一下,可以直接使用完整工程下载地址:https://download.csdn.net/download/a897180673/10278921一共三个类,1个测试类,1个从数据库加载敏感词类,一个是实现DFT算法的类,具体的算法可以去研究.首先是从数据库加…

大家好,又见面了,我是你们的朋友全栈君。

项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置.
把代码整理了一下,可以直接使用
完整工程下载地址:
https://download.csdn.net/download/a897180673/10278921

一共三个类,1个测试类,1个从数据库加载敏感词类,一个是实现DFT算法的类,具体的算法可以去研究.

首先是从数据库加载敏感词

package com.abc;

import com.google.common.base.Strings;
import java.io.IOException;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/** * 加载敏感词配置文件�??<br/> * 将加载的敏感词按�?<b>DFA</b>算法的数据结构保存到{@link #wordsMap}中�??<br/> * * @author liuxinsi * @mail akalxs@gmail.com */
public class WordsLoader { 
   

    /** * 按照DFA算法的数据结构保存的敏感词�??<br/> * k=敏感词的第一个字符,v=后续字符�? */
    private static final Map<String, Map> wordsMap = new HashMap<String, Map>();

    static {
        // 加载
        List<String> wordLines = null;
        try {
            wordLines = loadWordsFile();
        } catch (IOException e) {
            e.printStackTrace();
        }

        addToCache(wordLines);
    }

    /** * 加载敏感词文件�??<br/> * 将按照顺序寻找直到找到一个�??<br/> * 1.启动时配置的系统属�?? ${swFilePath}。全路径�?<br/> * 2.${user.dir}/words.txt。一般是bin、domain etc...<br/> * 3.${classpath}/words.txt。环境变量里�?<br/> * * @return 敏感词列�? * @throws IOException */
    private static List<String> loadWordsFile() throws IOException {
        // 指定路径

        List<String>result =new ArrayList<String>(); 
        try {
            Class.forName("com.mysql.jdbc.Driver");
            Connection cnn=DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=UTF-8", 数据库用户名, 数据库密码);
            PreparedStatement ps=cnn.prepareStatement("select word from word");
            ResultSet rs=ps.executeQuery();
            while(rs.next()) {
                result.add(rs.getString("word"));
            }


        } catch (Exception e) {
            e.printStackTrace();
        }
        return  result;

    }

    /** * 逐字分割按照DFA算法的数据结构保存敏感词至{@link #wordsMap}�?<br/> * k=敏感词的第一个字符,v=后续字符。e.g<br/> * 敏感�?=�?假发票�??<br/> * { * "�?":{"�?":{"�?":{"�?":{}}}} * } * * @param wordLines 敏感词列�? */
    private static void addToCache(List<String> wordLines) {
        if (wordLines == null || wordLines.isEmpty()) {
            return;
        }
        wordLines.forEach(line -> {
            if (Strings.isNullOrEmpty(line)) {
                return;
            }

            char[] wordChars = line.toCharArray();
            // 首字
            String headWord = null;

            // 子内�?
            Map<String,Map> subWordMap = null;
            for (char word : wordChars) {
                String _word = String.valueOf(word);

                // 第一个字�?
                if (headWord == null) {
                    headWord = _word;
                    if (!wordsMap.containsKey(headWord)) {
                        wordsMap.put(headWord, new HashMap());
                    }
                    subWordMap = wordsMap.get(headWord);
                    continue;
                }

                // 如子内容map不包含当前字符则将当前字符保存到子中
                if (!subWordMap.containsKey(_word)) {
                    subWordMap.put(_word, new HashMap());
                    subWordMap = subWordMap.get(_word);
                    continue;
                }

                // 如包含,继续去下�?个子map中寻�?
                subWordMap = subWordMap.get(_word);
            }
        });
    }


    public static Map<String,Map> getWordsMap() {
        return wordsMap;
    }
}

第二个是敏感词检测的类

package com.abc;

import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/** * 敏感词检测�?? * * @author liuxinsi * @mail akalxs@gmail.com */
public class SensitiveWordsChecker { 
   



    public static Set<String> checkSensitiveWord(String textStr) {
        Set<String> illWords = new HashSet<>();
        Map<String, Map> wordsMap = WordsLoader.getWordsMap();

        for (int i = 0; i < textStr.length(); i++) {
            String currWord = String.valueOf(textStr.charAt(i));

            // 如包含当前字符,则当前字符敏感,�?下找
            if (wordsMap.containsKey(currWord)) {
                StringBuilder strb = new StringBuilder();
                strb.append(currWord);
                int j = i;

                // 获取当前字符的子map
                Map<String, Map> subMap = wordsMap.get(currWord);

                // 拼配的数�?
                int matchCount = 1;
                // 敏感词字符的总数�?
                int wordsCount = 1;

                while (true) {
                    // 找完�?
                    if (j == textStr.length() - 1) {
                        break;
                    }

                    // 下一个字�?
                    j++;
                    String nextWord = String.valueOf(textStr.charAt(j));

                    if (subMap.isEmpty()) {
                        break;
                    }
                    wordsCount++;

                    // 如子map仍然包含敏感字符接着�?下找
                    if (subMap.containsKey(nextWord)) {
                        strb.append(nextWord);
                        subMap = subMap.get(nextWord);
                        matchCount++;
                    }

                    // 已然不匹配了
                    if (wordsCount != matchCount) {
                        break;
                    }
                }

                // 如匹配的数量与敏感字符数量一致认为拼配到�?
                if (matchCount == wordsCount) {
                    illWords.add(strb.toString());
                }
            }

        }
        return illWords;
    }
}

第三个是测试类

package com.abc;

import java.util.Iterator;
import java.util.Set;

public class Test { 
   

    public static void main(String[] args) {


        SensitiveWordsChecker swc=new SensitiveWordsChecker();
        Set<String> ss=swc.checkSensitiveWord("这是测试文字");

        Iterator<String> sencitivWord=ss.iterator();

        while(sencitivWord.hasNext()) {
            System.out.println(sencitivWord.next());

        }

    }

}

首先配置一下数据库中的表

添加一个敏感词

这里写图片描述

看一下结果:
这里写图片描述

可以看到,控制台打印出的消息.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/139778.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ubuntu修改hosts文件_host文件怎么添加地址

    ubuntu修改hosts文件_host文件怎么添加地址ubuntu下修改host文件有些时候,我们需要让某些域名指向本地,来实现调试,下面介绍下ubuntu下修改host实现域名指向本地的方法。Ubuntu系统的Hosts只需修改/etc/hosts文件,在目录中还有一个hosts.conf文件,刚开始还以为只需要修改这个就可以了,结果发现是需要修改hosts。修改完之后要重启网络。打开host文件sudovim

    2022年10月9日
    2
  • getopt在Python中的使用

    getopt在Python中的使用在运行程序时,可能需要根据不同的条件,输入不同的命令行选项来实现不同的功能。目前有短选项和长选项两种格式。短选项格式为”-“加上单个字母选项;长选项为”–“加上一个单词。长格式是在Linux下引入的。许多Linux程序都支持这两种格式。在Python中提供了getopt模块很好的实现了对这两种用法的支持,而且使用简单。取得命令行参数  在使用之前,首先要取得命令行参数。使用sys模块

    2022年4月30日
    43
  • 常用的前端JavaScript方法封装

    常用的前端JavaScript方法封装1、输入一个值,返回其数据类型functiontype(para){returnObject.prototype.toString.call(para)}2、数组去重functionunique1(arr){return[…newSet(arr)]}functionunique2(arr){varobj={};returnarr.filter(ele=>{if(!obj[ele])..

    2022年7月11日
    16
  • executescalar mysql_ExecuteScalar

    executescalar mysql_ExecuteScalar这两个答案和一点点思考使我想到了一个接近答案的东西。首先再澄清一下:该应用程序是用C#(2.0+)编写的,并使用ADO.NET与SQLServer2005进行通信。镜像设置是托管主体和镜像的两个W2k3服务器以及托管作为监视器的快速实例的第三个服务器。这样做的好处是,故障转移对于使用数据库的应用程序几乎是透明的,它将对某些连接引发错误,但从根本上讲一切都会很好地进行。是的,我们得到了奇怪的误报…

    2022年6月30日
    20
  • pycharm使用python_pytorch中文手册

    pycharm使用python_pytorch中文手册本小节只讲如何通过pycharm使用pytorch,pytorch的详细安装点击这里https://blog.csdn.net/huang_shao1/article/details/82958551anaconda的详细安装点击这里https://blog.csdn.net/huang_shao1/article/details/82958615如图所示,我们编辑好了自己pytorch项…

    2022年8月26日
    8
  • Python量化交易学习笔记(50)——程序化交易1

    Python量化交易学习笔记(50)——程序化交易1easytrader安装pipinstalleasytrader下载安装e海通财PC独立交易版

    2022年10月8日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号