敏感词过滤算法:前缀树算法

敏感词过滤算法:前缀树算法背景平时我们在逛贴吧、牛客网的时候,我们经常可以看到一些形如“***”的符号,通过上下文,我们也可以很容易猜到这些词原来是骂人的话,只是被系统和谐了。那么这是如何实现的呢?作为普通人,我们最先想到的一种办法就是把所有敏感串存入一个列表中,然后用户每发一条内容后台就把该内容与敏感串列表的每一项进行匹配,然后把匹配的字符进行和谐。显然这样的效率是很低的。非常影响性能,那么我们有没有其他的算法…

大家好,又见面了,我是你们的朋友全栈君。

背景

平时我们在逛贴吧、牛客网的时候,我们经常可以看到一些形如 “***”的符号,通过上下文,我们也可以很容易猜到这些词原来是骂人的话,只是被系统和谐了。那么这是如何实现的呢?作为普通人,我们最先想到的一种办法就是把所有敏感串存入一个列表中,然后用户每发一条内容后台就把该内容与敏感串列表的每一项进行匹配,然后把匹配的字符进行和谐。显然这样的效率是很低的。非常影响性能,那么我们有没有其他的算法呢?这就是我这篇博文打算介绍的。

原理讲解

1.首先建立个敏感词前缀树

敏感词过滤算法:前缀树算法

根节点为空

2.准备好待处理字符串: 哈哈大王八子大猪蹄子哦 ,声明三个指针,分别指向前缀树的根节点以及待处理字符串的开始字符

敏感词过滤算法:前缀树算法

3.position指向的字符与根节点的所有子节点进行匹配,不匹配,position 和 begin分别指向待处理字符串的下一个字符,tempNode依旧指向 根节点

敏感词过滤算法:前缀树算法

4.依旧不匹配,position 和begin继续向前走一位,指向“”,treeNode依旧指向根节点

敏感词过滤算法:前缀树算法 

5.此时 根节点有一个子节点 与 position指向的字符相等,都为‘’,则tempNode 指向该节点,同时position前进一步,指向‘

敏感词过滤算法:前缀树算法

6.此时把position指向的‘’ 和 tempNode的所有子节点进行匹配,匹配失败,说明 从begin起头所有串是不存在敏感词的,可以直接输出。此时begin前进一位,position回退到begin的位置,tempNode回退到根节点

敏感词过滤算法:前缀树算法

7.此时再把position指向的‘王’与tempNode的所有子节点进行匹配,匹配成功,所以tempNode指向该节点,同时position前进一位,指向’

敏感词过滤算法:前缀树算法

8.此时再把position指向的‘’ 与tempNode的所有子节点进行匹配,匹配成功,此时tempNode 指向它的子节点‘’,同时position前进一位。

敏感词过滤算法:前缀树算法 

9.继续把position指向的字符与tempNode的所有子节点进行匹配,匹配失败。说明以begin起头的不存在非法字符,可以加入到结果集中。 此时begin向前走一位,position回退到begin的位置,同时tempNode回退到根节点。

敏感词过滤算法:前缀树算法

10.同理,可以发现子’子’不匹配,则直接把它加入结果集,同时position 和begin 向前走一位,tempNode指向根节点。

此时position指向 ‘’,与tempNode的所有 子节点进行匹配,匹配成功,则position和tempNode都走一位,循环执行….

直到position指向‘’,tempNode指向‘蹄’

敏感词过滤算法:前缀树算法

 11.此时把position与tempNode的所有子节点进行匹配,匹配成功,tempNode指向它的子节点‘子’,此时检查发现tempNode是敏感词树的叶子节点,说明从begin+1开始的位置 到 position这段是敏感词,用和谐词替换掉。替换之后position前进一位,begin跳到position的位置,tempNode回退到根节点

敏感词过滤算法:前缀树算法

以上,就是全部流程啦,理解了之后看代码就简单多啦

代码讲解

1.前缀树节点结构

private class TreeNode{

        //是否最后一个字
        private boolean isKeyWordsEnd = false;

        //子节点
        private Map<Character,TreeNode> subNodes = new HashMap<>();

        public void addSubNode(Character key, TreeNode node){
            subNodes.put(key,node);
        }

        public TreeNode getSubNode(Character key){
            return subNodes.get(key);
        }

        public boolean isKeyWordsEnd(){
            return isKeyWordsEnd;
        }

        public void setKeyWordsEnd(Boolean end){
            isKeyWordsEnd = end;
        }
    }

2.构建前缀树的方法

public void addSensitiveWord(String words){

        TreeNode tempNode = rootNode;

        for(int i = 0;  i < words.length(); i++){

            Character c = words.charAt(i);
            if(!isSymbol(c)){
                continue;
            }

            TreeNode node = tempNode.getSubNode(c);
            if (node == null){
                node = new TreeNode();
                tempNode.addSubNode(c,node);
            }
            // 指针移动
            tempNode = node;

            //如果到了最后一个字符
            if(i == words.length() -1){
                tempNode.setKeyWordsEnd(true);
            }

        }

    }

3.算法具体实现

public String filter(String text){

        if (StringUtils.isEmpty(text)){
            return text;
        }

        String sensitiveWords = "***";
        StringBuilder result = new StringBuilder();

        TreeNode tempNode = rootNode;
        int begin = 0;
        int position = 0;

        while (position < text.length()){

            Character c = text.charAt(position);

            //如果非东亚字符,则直接跳过 ??
            if(!isSymbol(c)){ //每次
                if(tempNode == rootNode){
                    result.append(c);
                    begin++;
                }
                position++;
                continue;
            }

            tempNode = tempNode.getSubNode(c);

            //如果匹配失败
            if(tempNode == null){
                //说明以begin起头的那一段不存在非法词汇
                result.append(text.charAt(begin));
                begin++;
                position = begin;
                tempNode = rootNode;
                continue;
            }else if(tempNode.isKeyWordsEnd()){
                //替换敏感词
                result.append(sensitiveWords);

                position++;
                begin = position;
                tempNode = rootNode;
            }else {
                position++;
            }

        }
        result.append(text.substring(begin)); //把剩下的动加入合法集

        return result.toString();
    }

小结

最近一直在做项目,所以有一段时间没写文章了,项目也快完成了,就把在项目中使用的一个算法做了下总结,希望能给读者一些帮助。 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134721.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • firefox修改版_火狐浏览器没有收藏按钮

    firefox修改版_火狐浏览器没有收藏按钮雅虎收藏+的扩展,不是不能用,也不是冲突,现在还没有发现,改造后用的好好的。就是它安装包里的安装文件的版本限制问题,它支持了2.*版本的firefox,ff3就自动把它列为不支持的扩展了,其实都好着呢。所以只需把安装软件改一下就没有问题了。怎么改呢?对于新装“雅虎收藏+”扩展的人:用7-zip或winzip或winrar等解压缩工具打开yahoo.xpi文件。这个xpi其实就是个zi…

    2025年7月5日
    3
  • phpstorm 常用快捷键

    phpstorm 常用快捷键

    2022年3月2日
    73
  • 空格代码 &nbsp[通俗易懂]

    空格代码 &nbsp[通俗易懂]空格代码 &nbsp

    2022年9月22日
    2
  • LCA详解_lca软件

    LCA详解_lca软件LCA问题(leastCommentAncestors,最近公共祖先问题),是指给定一棵有根树T,给出若干个查询LCA(u,v)(通常查询数量较大),每次求树T中两个顶点u和v的最近公共祖先,即找到一个节点,同时是u和v的祖先,并且深度尽可能的大(尽可能远离树根).LCA问题的解法有很多,有一般解法,基于tarjan的解法,跳表解法以及RMQ和LCA互相转化的解法。下面我们依次

    2025年8月16日
    2
  • android 电平信号状态识别View平局

    android 电平信号状态识别View平局

    2022年1月9日
    36
  • 什么叫分销商_分销是什么意思「详细介绍」带你秒懂[通俗易懂]

    什么叫分销商_分销是什么意思「详细介绍」带你秒懂[通俗易懂]很多创业者在创业的道路上可能都会遇到一个问题那就是分销,但是很多创业者却又不懂分销是什么意思。今天我们抖音创业网大家详细地介绍一下关于分析的意思,绝对让你看完以后秒懂。分销是什么意思解释其实简单来说分销就是我们帮助别人销售商品,但是我们销售出去以后我们可以得到一定的分成,同时在我们的利润允许的情况下我们还可以继续拉下线,让其他的人成为我们的销售员工。分销实际案例模拟假如现在有一个苹果,供货商说这…

    2022年5月16日
    58

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号