千万级敏感词过滤设计

千万级敏感词过滤设计需求分析系统有千万级的禁词需要去过滤当中包含人名特殊符号组成的语句网址单字组合成的敏感词等等初步设计 1.解决千万级禁词存储及查找问题 2.解决被过滤文本内容过多问题详细设计 1.采用ES作为禁词库千万级数据检索时间在毫秒级满足需求 2.不适用分词器需要完整匹配分词后很多词都是合法的组合之后才是敏感词 3.被过滤文本内容分词不完整利用IK分词器分词结果不适合现…

大家好,又见面了,我是你们的朋友全栈君。

需求分析

系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138801.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 高精度快速阶乘算法

    高精度快速阶乘算法    我在业余时间开发了一套《超大整数完全精度快速算法库》HugeCalc,可快速计算超大整数的加、减、乘、除(商/余)、乘方、开方,也可快速计算大数的Fibonacci数列、(双)阶乘、排列、组合等,还可完成超大整数数组的最大公约数、最小公倍数等数论运算,现在,该套软件已被华军、天空、电脑之家、天天等下载站点收录。    自在网上公开以来,广受网友关注,经常有网友来联系,想交流一些算法心

    2022年7月24日
    9
  • 数据挖掘之异常检测

    数据挖掘之异常检测看了数据挖掘的异常检测部分,写一点笔记。1.0概述什么是数据挖掘:数据挖掘什么是异常检测:异常检测异常检测的目标是发现与大部分其他对象不同的对象。通常,异常对象被称为离群点,因为在数据的散布

    2022年7月1日
    25
  • a星算法c++实现_递归算法理解

    a星算法c++实现_递归算法理解翻了翻别人写的博客,我看到一个A星算法,只怪自己见识太少,竟然没听过这个算法。网上查了好些资料,自己对这算法理解了些,并用C#实现出来。           A星算法,也叫A*算法。这是一种在图形平面上,有多个节点的路径,求出最低通过成本的算法。如在一张dota地图上,英雄从一个地方走动到地图上另一个点,它选择最优路线的算法。       如上图,绿点是

    2022年10月6日
    2
  • activity和task的启动模式有哪些_大数据是需要新处理模式才能具有

    activity和task的启动模式有哪些_大数据是需要新处理模式才能具有启动模式singleTask和FLAGACTIVITYNEWTASK具有不同的行为

    2022年10月6日
    3
  • AnalyticDB MySQL_tidb和mysql

    AnalyticDB MySQL_tidb和mysqlDLA一键建仓上线之后陆续收到很多反馈,其中一个就是RDS的数据能不能投递到AnalyticDBforMySQL里面去,以达到极致的分析速度,最近我们实现了这一特性,今天给大家介绍一下。一键建仓首先打开DLA的解决方案页面,点击“一键建仓(AnalyticDBforMySQL)”的“进入向导”按钮进入主页面,这里因为要列出您的RDS列表方便您操作,因此需要您授予DLARDSAPI的权限…

    2022年9月17日
    4
  • Origin | 堆叠柱状图 | 多列(分组)堆积柱状图[通俗易懂]

    Origin | 堆叠柱状图 | 多列(分组)堆积柱状图[通俗易懂]origin8.0画stackcolumn图(堆叠柱状图)origin画多列(百分比)堆积柱状图用origin绘制多分类(多组)堆叠柱状图

    2022年9月30日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号