千万级敏感词过滤设计

千万级敏感词过滤设计需求分析系统有千万级的禁词需要去过滤当中包含人名特殊符号组成的语句网址单字组合成的敏感词等等初步设计 1.解决千万级禁词存储及查找问题 2.解决被过滤文本内容过多问题详细设计 1.采用ES作为禁词库千万级数据检索时间在毫秒级满足需求 2.不适用分词器需要完整匹配分词后很多词都是合法的组合之后才是敏感词 3.被过滤文本内容分词不完整利用IK分词器分词结果不适合现…

大家好,又见面了,我是你们的朋友全栈君。

需求分析

系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138801.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Thinkphp 3.2中文章详情页的上一篇 下一篇文章功能

    Thinkphp 3.2中文章详情页的上一篇 下一篇文章功能

    2021年10月14日
    33
  • timestampdiff的一个BUG

    timestampdiff的一个BUG发现一个timestampdiff无法正确判断列值的BUG,看下面例子:–测试表如下:mysql>select*fromtest;+—-+———————+|id|col2|+—-+———————+|1|2019-03-2000:00:00||2|2…

    2022年5月2日
    40
  • Scrapy项目 – 数据简析 – 实现腾讯网站社会招聘信息爬取的爬虫设计

    Scrapy项目 – 数据简析 – 实现腾讯网站社会招聘信息爬取的爬虫设计一、数据分析截图本例实验,使用Weka3.7对腾讯招聘官网中网页上所罗列的招聘信息,如:其中的职位名称、链接、职位类别、人数、地点和发布时间等信息进行数据分析,详见如下图:图1-1Weka3.7分析界面图1-2职位数据ZeroR分析界面图1-3数据聚类分析界面图1-4数据Visualize分析界面二、数据分析结论由图2-1可知,随着应聘人数的…

    2022年5月2日
    55
  • MySQL配置文件配置

    MySQL配置文件配置MySQL配置文件

    2022年5月5日
    45
  • 千锋重庆IT学习之微信API接口文档

    千锋重庆IT学习之微信API接口文档微信​​API接口文档​​,微信API接口,个人微信聊天接口api微信手机客户端上传的通知类消息1.手机客户端微信上线通知WeChatOnlineNotice=1020;2.手机客户端微信下线通知WeChatOfflineNotice=1021;3.微信个人号新增好友通知FriendAddNotice=1022;4.微信个人号移除好友通知FriendDelNotice=1023;5.微信好友发来聊天消息FriendTalkNotice=1024;6.任务执行结果通

    2022年9月27日
    3
  • 安卓ddos攻击器_android设备是什么意思

    安卓ddos攻击器_android设备是什么意思原标题:Android移动设备上的DDOS攻击双11马上要到了,你家网站做好准备了吗什么是DDOS攻击?举个形象的例子你就明白了:某饭店可以容纳100人同时就餐,某日有个商家恶意竞争,雇佣了200人来这个饭店坐着不吃不喝,导致饭店满满当当无法正常营业。(DDOS攻击成功)老板当即大怒,派人把不吃不喝影响正常营业的人全都轰了出去,且不再让他们进来捣乱,饭店恢复了正常营业。(添加规则和黑名单进行D…

    2022年10月21日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号