千万级敏感词过滤设计

千万级敏感词过滤设计需求分析系统有千万级的禁词需要去过滤当中包含人名特殊符号组成的语句网址单字组合成的敏感词等等初步设计 1.解决千万级禁词存储及查找问题 2.解决被过滤文本内容过多问题详细设计 1.采用ES作为禁词库千万级数据检索时间在毫秒级满足需求 2.不适用分词器需要完整匹配分词后很多词都是合法的组合之后才是敏感词 3.被过滤文本内容分词不完整利用IK分词器分词结果不适合现…

大家好,又见面了,我是你们的朋友全栈君。

需求分析

系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138801.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月30日 下午8:00
下一篇 2022年5月30日 下午8:00


相关推荐

  • js回调函数例子_c回调函数简单例子

    js回调函数例子_c回调函数简单例子回调函数每一个异步任务返回一个Promise对象,该对象有一个then方法,允许指定回调函数

    2025年6月15日
    4
  • 三大分析法——SWOT、PEST、波特五力

    三大分析法——SWOT、PEST、波特五力SWOT分析法「SWOT分析模型简介」(也称TOWS分析法、道斯矩阵)。在现在的战略规划报告里,SWOT分析应该算是一个众所周知的工具。来自于麦肯锡咨询公司的SWOT分析,包括分析企业的优势(Strengths)、劣势(Weaknesses)、机会(Opportunities)和威胁(Threats)。因此,SWOT分析实际上是将对企业内外部条件各方面内容进行综合和概括,进而分析组织的优劣势、面临的机会和威胁的一种方法。通过SWOT分析,可以帮助企业把资源和行动聚集在自己的强项和有最多机会的地方

    2022年5月1日
    58
  • 银行风控模型

    银行风控模型风控催生原因对于银行来说,现今互联网贷款和信用卡办理面临的主要难题是数据和风控。站在银行或金融机构角度,自然而然是想获得更多的信息和数据,但是在收集数据这方面又是比较无力的。加上当下的发展趋势,消费贷以及贷款审批速度都要求快。如何在快的的过程中对客户进行一个全面的审查,得出一个合理的结果呢?如果没有详细的数据对客户进行评估,这势必会提高放贷的风险。风控概述所谓风控,是指多银行贷款资金的…

    2022年6月13日
    40
  • ubuntu密码设置规则_密码复杂性策略

    ubuntu密码设置规则_密码复杂性策略版本查看cat/etc/issuecat/proc/version内核查看uname-aUbuntu修改密码及密码复杂度策略设置方法一、修改密码1、修改普通用户密码passwd2、修改root用户密码sudopasswdroot默认root用户被禁止登录,如果需要解除限制,修改配置即可sudovim/etc/ssh/sshd_config将默认配置注释掉,添加一行新的配置,默认的配置为允许root登录,但是禁止root用密码登录将默认配置注释掉,添加一行新

    2026年4月18日
    5
  • MySQL数据库cpu飙升到500%的话他怎么处理?[通俗易懂]

    MySQL数据库cpu飙升到500%的话他怎么处理?

    2022年2月14日
    45
  • 硬件监控-服务器

    硬件监控-服务器2019 独角兽企业重金招聘 Python 工程师标准 gt gt gt

    2026年3月16日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号