python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束第一步:建立一个敏感词库(.txt文本)第二步:编写代码在文章中过滤敏感词(递归实现)#-*-coding:utf-8-*-#author代序春秋importosimportchardet#获取文件目录和绝对路径curr_dir=os.path.di…

大家好,又见面了,我是你们的朋友全栈君。

过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束

第一步:建立一个敏感词库(.txt文本)

python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

第二步:编写代码在文章中过滤敏感词(递归实现)

# -*- coding: utf-8 -*-

# author 代序春秋

import os

import chardet

# 获取文件目录和绝对路径

curr_dir = os.path.dirname(os.path.abspath(__file__))

# os.path.join()拼接路径

sensitive_word_stock_path = os.path.join(curr_dir, ‘sensitive_word_stock.txt’)

# 获取存放敏感字库的路径

# print(sensitive_word_stock_path)

class ArticleFilter(object):

# 实现文章敏感词过滤

def filter_replace(self, string):

# string = string.decode(“gbk”)

# 存放敏感词的列表

filtered_words = []

# 打开敏感词库读取敏感字

with open(sensitive_word_stock_path) as filtered_words_txt:

lines = filtered_words_txt.readlines()

for line in lines:

# strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。

filtered_words.append(line.strip())

# 输出过滤好之后的文章

print(“过滤之后的文字:” + self.replace_words(filtered_words, string))

# 实现敏感词的替换,替换为*

def replace_words(self, filtered_words, string):

# 保留新字符串

new_string = string

# 从列表中取出敏感词

for words in filtered_words:

# 判断敏感词是否在文章中

if words in string:

# 如果在则用*替换(几个字替换几个*)

new_string = string.replace(words, “*” * len(words))

# 当替换好的文章(字符串)与被替换的文章(字符串)相同时,结束递归,返回替换好的文章(字符串)

if new_string == string:

# 返回替换好的文章(字符串)

return new_string

# 如果不相同则继续替换(递归函数自己调用自己)

else:

# 递归函数自己调用自己

return self.replace_words(filtered_words, new_string)

def main():

while True:

string = input(“请输入一段文字:”)

run = ArticleFilter()

run.filter_replace(string)

continue

if __name__ == ‘__main__’:

main()

运行结果:

python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

以上就是本文的全部内容,希望对大家的学习有所帮助

您可能感兴趣的文章:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136876.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 芭比Q了,腰间盘给整突出了「建议收藏」

    在2022年除了腰间盘外,其他的各个方面都可以越来越突出!

    2022年3月1日
    153
  • 银行机构代码_工商银行怎么查12位行号

    银行机构代码_工商银行怎么查12位行号因为做到绑定银行卡的时候,需要定义一下银行卡的代号。  找了一下这方面的资源: 银行机构代码  央行颁发支付系统银行行别、行号业务标准,支付系统银行行别代码采取类别编码方法,实行3位定长数字,由类别代码和顺序编码组成。其中第一位为类别代码,用于区分不同种类的银行机构,便于金融统计数据的提取;第二、三位为顺序编码,用于标识每一家银行机构。  银行行别代码结构:  一、类别代码…

    2025年8月7日
    4
  • 1553B总线控制器61580使用

    1553B总线控制器61580使用这里写自定义目录标题收藏一篇关于61580使用的文章,侵删!原文地址:http://emesjx.spaces.eepw.com.cn/articles/article/item/1000231、BU-61580有“缓冲”和“透明”2种存储模式,前者使用BU-61580内部4Kx16bit缓冲区,后者使用外部RAM作为数据缓冲区,最大可达64Kx16bit。2、BU-61580的缓冲模式又…

    2022年6月5日
    49
  • 品优购-day01笔记-代码规范&品优购项目准备工作&首页初步

    品优购-day01笔记-代码规范&品优购项目准备工作&首页初步typora-copy-images-to:media第01阶段.WEB基础:品优购-day01笔记-代码规范&品优购项目准备工作&首页初步学习目标能会引入ico图标能简单看懂网站优化的三大标签能使用字体图标(重点)能说出我们css属性书写顺序能跟上pink老师的节奏完成品优购项目一、代码规范(重点)1.概述欢迎使用品优购代码规范,这是借鉴…

    2022年5月28日
    35
  • 关于尺度空间的理解和认识_尺度空间理论

    关于尺度空间的理解和认识_尺度空间理论通常会听到尺度变化等这类词语,看到的也总是一堆的数学公式,有时候真的不知道这到底有啥用,有啥意义,没有弄懂这些意义,当然就更不可能的理解,不可能去掌握应用它了,现在我才理解,小波变化其实也是一种尺度变化。今天我看到一篇南航数学系写的关于尺度空间解释的文章,感觉很通俗易懂,我们不从数学上来推倒什么是尺度空间,只是从生活常识方面来解释尺度空间的意义,意义懂了,数学方面自然就好理解了。       

    2022年10月11日
    3
  • sklearn库主要模块功能简介

    sklearn库主要模块功能简介数据科学系列:sklearn库主要模块功能简介01sklearn简介sklearn,全称scikit-learn,是python中的机器学习库,建立在numpy、scipy、matplotlib等数据科学包的基础之上,涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节,功能十分强大,目前sklearn版本是0.23。与深度学习库存在pytorch、TensorFlow等多种框架可选不同,sklearn是python中传统机器学习的首选库,不存在其他竞争

    2022年10月18日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号