java实现敏感词过滤「建议收藏」

java实现敏感词过滤「建议收藏」项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置.把代码整理了一下,可以直接使用完整工程下载地址:https://download.csdn.net/download/a897180673/10278921一共三个类,1个测试类,1个从数据库加载敏感词类,一个是实现DFT算法的类,具体的算法可以去研究.首先是从数据库加…

大家好,又见面了,我是你们的朋友全栈君。

项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置.
把代码整理了一下,可以直接使用
完整工程下载地址:
https://download.csdn.net/download/a897180673/10278921

一共三个类,1个测试类,1个从数据库加载敏感词类,一个是实现DFT算法的类,具体的算法可以去研究.

首先是从数据库加载敏感词

package com.abc;

import com.google.common.base.Strings;
import java.io.IOException;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/** * 加载敏感词配置文件�??<br/> * 将加载的敏感词按�?<b>DFA</b>算法的数据结构保存到{@link #wordsMap}中�??<br/> * * @author liuxinsi * @mail akalxs@gmail.com */
public class WordsLoader { 
   

    /** * 按照DFA算法的数据结构保存的敏感词�??<br/> * k=敏感词的第一个字符,v=后续字符�? */
    private static final Map<String, Map> wordsMap = new HashMap<String, Map>();

    static {
        // 加载
        List<String> wordLines = null;
        try {
            wordLines = loadWordsFile();
        } catch (IOException e) {
            e.printStackTrace();
        }

        addToCache(wordLines);
    }

    /** * 加载敏感词文件�??<br/> * 将按照顺序寻找直到找到一个�??<br/> * 1.启动时配置的系统属�?? ${swFilePath}。全路径�?<br/> * 2.${user.dir}/words.txt。一般是bin、domain etc...<br/> * 3.${classpath}/words.txt。环境变量里�?<br/> * * @return 敏感词列�? * @throws IOException */
    private static List<String> loadWordsFile() throws IOException {
        // 指定路径

        List<String>result =new ArrayList<String>(); 
        try {
            Class.forName("com.mysql.jdbc.Driver");
            Connection cnn=DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=UTF-8", 数据库用户名, 数据库密码);
            PreparedStatement ps=cnn.prepareStatement("select word from word");
            ResultSet rs=ps.executeQuery();
            while(rs.next()) {
                result.add(rs.getString("word"));
            }


        } catch (Exception e) {
            e.printStackTrace();
        }
        return  result;

    }

    /** * 逐字分割按照DFA算法的数据结构保存敏感词至{@link #wordsMap}�?<br/> * k=敏感词的第一个字符,v=后续字符。e.g<br/> * 敏感�?=�?假发票�??<br/> * { * "�?":{"�?":{"�?":{"�?":{}}}} * } * * @param wordLines 敏感词列�? */
    private static void addToCache(List<String> wordLines) {
        if (wordLines == null || wordLines.isEmpty()) {
            return;
        }
        wordLines.forEach(line -> {
            if (Strings.isNullOrEmpty(line)) {
                return;
            }

            char[] wordChars = line.toCharArray();
            // 首字
            String headWord = null;

            // 子内�?
            Map<String,Map> subWordMap = null;
            for (char word : wordChars) {
                String _word = String.valueOf(word);

                // 第一个字�?
                if (headWord == null) {
                    headWord = _word;
                    if (!wordsMap.containsKey(headWord)) {
                        wordsMap.put(headWord, new HashMap());
                    }
                    subWordMap = wordsMap.get(headWord);
                    continue;
                }

                // 如子内容map不包含当前字符则将当前字符保存到子中
                if (!subWordMap.containsKey(_word)) {
                    subWordMap.put(_word, new HashMap());
                    subWordMap = subWordMap.get(_word);
                    continue;
                }

                // 如包含,继续去下�?个子map中寻�?
                subWordMap = subWordMap.get(_word);
            }
        });
    }


    public static Map<String,Map> getWordsMap() {
        return wordsMap;
    }
}

第二个是敏感词检测的类

package com.abc;

import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/** * 敏感词检测�?? * * @author liuxinsi * @mail akalxs@gmail.com */
public class SensitiveWordsChecker { 
   



    public static Set<String> checkSensitiveWord(String textStr) {
        Set<String> illWords = new HashSet<>();
        Map<String, Map> wordsMap = WordsLoader.getWordsMap();

        for (int i = 0; i < textStr.length(); i++) {
            String currWord = String.valueOf(textStr.charAt(i));

            // 如包含当前字符,则当前字符敏感,�?下找
            if (wordsMap.containsKey(currWord)) {
                StringBuilder strb = new StringBuilder();
                strb.append(currWord);
                int j = i;

                // 获取当前字符的子map
                Map<String, Map> subMap = wordsMap.get(currWord);

                // 拼配的数�?
                int matchCount = 1;
                // 敏感词字符的总数�?
                int wordsCount = 1;

                while (true) {
                    // 找完�?
                    if (j == textStr.length() - 1) {
                        break;
                    }

                    // 下一个字�?
                    j++;
                    String nextWord = String.valueOf(textStr.charAt(j));

                    if (subMap.isEmpty()) {
                        break;
                    }
                    wordsCount++;

                    // 如子map仍然包含敏感字符接着�?下找
                    if (subMap.containsKey(nextWord)) {
                        strb.append(nextWord);
                        subMap = subMap.get(nextWord);
                        matchCount++;
                    }

                    // 已然不匹配了
                    if (wordsCount != matchCount) {
                        break;
                    }
                }

                // 如匹配的数量与敏感字符数量一致认为拼配到�?
                if (matchCount == wordsCount) {
                    illWords.add(strb.toString());
                }
            }

        }
        return illWords;
    }
}

第三个是测试类

package com.abc;

import java.util.Iterator;
import java.util.Set;

public class Test { 
   

    public static void main(String[] args) {


        SensitiveWordsChecker swc=new SensitiveWordsChecker();
        Set<String> ss=swc.checkSensitiveWord("这是测试文字");

        Iterator<String> sencitivWord=ss.iterator();

        while(sencitivWord.hasNext()) {
            System.out.println(sencitivWord.next());

        }

    }

}

首先配置一下数据库中的表

添加一个敏感词

这里写图片描述

看一下结果:
这里写图片描述

可以看到,控制台打印出的消息.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/139778.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • GoogLeNet网络结构详解与模型的搭建[通俗易懂]

    GoogLeNet网络结构详解与模型的搭建[通俗易懂]首先给出三个链接:1.GoogLeNet网络结构详解视频2.使用pytorch搭建GoogLeNet网络并训练3.使用tensorflow搭建GoogLeNet网络并训练GoogLeNet在2014年由Google团队提出(与VGG网络同年,注意GoogLeNet中的L大写是为了致敬LeNet),斩获当年ImageNet竞赛中ClassificationTask(分…

    2022年8月14日
    6
  • word2vec 原理

    word2vec 原理转自:http://www.cnblogs.com/iloveai/p/word2vec.htmlSVD分解:低维词向量的间接学习既然基于co-occurrence矩阵得到的离散词向量存在着高维和稀疏性的问题,一个自然而然的解决思路是对原始词向量进行降维,从而得到一个稠密的连续词向量。第一个出场的对原始矩阵进行降维的方法是奇异值分解(SVD)。SVD的基本思想是,通过将原co-occurrence…

    2022年5月16日
    42
  • stm32的sdio接口_STM32F411

    stm32的sdio接口_STM32F411一、SDIO接口简介SDIO,全称:SecureDigitalInputandOutput,即安全数字输入输出接口。它是在SD卡接口的基础上发展而来,它可以兼容之前的SD卡,并可以连接SDIO接口设备,比如:蓝牙、WIFI、照相机等。SDIO和SD卡规范间的一个重要区别是增加了低速标准。低速卡的目标应用是以最小的硬件开支支持低速I/O能力。低速卡支持类似调制解调器、条码扫描仪和GPS接收器等应用。STM32的SDIO控制器支持多媒体卡(MMC卡)、SD存储卡、SDI/O卡和CE-ATA

    2022年10月3日
    4
  • Windows Mobile 6.0 SDK和中文模拟器下载

    Windows Mobile 6.0 SDK和中文模拟器下载

    2021年12月14日
    42
  • 阿里云的云服务器ECS和云虚拟主机有何区别?

    阿里云的云服务器ECS和云虚拟主机有何区别?阿里云的云服务器和云虚拟主机的共同点是都可以用来搭建网站,云服务器和云虚拟主机有很多相同之处,也有很多不同之处,云吞铺子从功能、价格、应用场景及优势几方面详细说明阿里云的云服务器和云虚拟主机之间的区别:一:云服务器ECS和虚拟主机的区别云服务器:虚拟的一台服务器,除了硬件摸不着外其他的功能和服务器一样,我们可以狭义的将云服务器ECS就看做一台物理服务器,ECS让用户拥有更多权限,用户可以在ECS上安装各种扩展插件实现各种功能,ECS需要有专业技术人员来维护。适合有技术实力、懂得服务器配置及维护的用户

    2022年6月25日
    41
  • Python入门教程 超详细1小时学会Python

    Python入门教程 超详细1小时学会Python为什么使用Python假设我们有这么一项任务:简单测试局域网中的电脑是否连通.这些电脑的ip范围从192.168.0.101到192.168.0.200.思路:用shell编程.(Linux通常是ba

    2022年7月3日
    25

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号