正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码

正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码目录1.乱码符号种类较少,用replace()2.乱码字符种类较多,用re.sub()3.提取字符串中的中文字符4.提取字符串中的中文字符和数字5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=去掉这些很简单:1.乱码符号种类较少,用replace()如果只是很少类型的乱码符…

大家好,又见面了,我是你们的朋友全栈君。

目录

1.乱码符号种类较少,用replace()

2.乱码字符种类较多,用re.sub()

3.提取字符串中的中文字符

4.提取字符串中的中文字符和数字

5.提取其他


数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=

去掉这些很简单:

1.乱码符号种类较少,用replace()

如果只是很少类型的乱码符号,可以使用replace来替换掉,由于我们只是针对字符串中个别字符进行替换,因此使用str.replace(“#”,””)即可;

#只有一类乱码字符串
df['name'] = df['name'].str.replace("#","")


#连续多个字符一起替换
df['name'] = df['name'].str.replace("#","").str.replace("&","").str.replace("*","")

2.乱码字符种类较多,用re.sub()

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(string_code )


#输出:北京大学beijing985大学

这种方法的清洗,我们使用的其实是正则表达式,上述方法是提取了字符串中的中英文和数字,当然你也可以直提取中文,不同字符对应的 unicode 范围如下所示:

函数 说明
sub(pattern,repl,string) 把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**] 表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5 汉字的unicode范围
\u0030-\u0039 数字的unicode范围
\u0041-\u005a 大写字母unicode范围
\u0061-\u007a 小写字母unicode范围

3.提取字符串中的中文字符

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符
string_code = re.sub(u"([^\u4e00-\u9fa5])","",string)
print(string_code )

#输出:北京大学大学

4.提取字符串中的中文字符和数字

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符和数字
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",string)
print(string_code )

#输出:北京大学985大学

5.提取其他

至于提取其他字符,可以根据正则表达式的 unicode 范围,并参照上述三个例子敲代码。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142840.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 编译器实践三 之 针对算术表达式的语法分析器

    编译器实践三 之 针对算术表达式的语法分析器

    2022年1月26日
    43
  • c语言tinyxml使用方法,TinyXml使用方法[通俗易懂]

    c语言tinyxml使用方法,TinyXml使用方法[通俗易懂]本文用一个详细的例子说明了TiXml的使用方法。如写、查找、插入、替换、加载、遍历等常见操作。首先简单介绍一下TinyXml,要看详细的在网上搜搜了^_^:1、TinyXml源代码只有4个cpp文件和2个头文件。2、首先要理解TinyXml中的各个基本类型之间的关系,看看这个继承图大家就会很明白了!可以看到TinyXml中的注释comment,声明declaration,元素element,文本等…

    2022年5月6日
    61
  • linux下安装tomcat8

    linux下安装tomcat8(一)安装JDK环境64位JDK包:http://download.oracle.com/otn-pub/java/jdk/8u45-b14/jdk-8u45-linux-x64.tar.gz1.用 SecureCRT链接上linux,用命令直接下载 wget http://download.oracle.com/otn-pub/java/jdk/8u45-b14/jdk-8u45

    2022年6月2日
    39
  • Java基础(多态的理解与应用)

    Java基础(多态的理解与应用)1.多态概述 多态是继封装、继承之后,面向对象的第三大特性。 多态现实意义理解: 现实事物经常会体现出多种形态,如学生,学生是人的一种,则一个具体的同学张三既是学生也是人,即出现两种形态。…

    2022年7月8日
    18
  • 算法 – 求和为n的连续正整数序列(C++)

    算法 – 求和为n的连续正整数序列(C++)

    2022年2月3日
    36
  • 一键生成惊雷等喊麦歌词

    一键生成惊雷等喊麦歌词思路写一下 1 给一长篇的小说 利用正则表达式将小说分为无数的字符串 2 将从后到前字符串切割 最长为 n 否则一句话太长 3 并且将每一个字符串的末尾音节提取出来 普通的韵脚音的话放在一个字符数组里面 3 增加一个 hashmap 表 添加平时用的韵脚 4 将符合 hashmap 的韵脚放在字典里 5 规定歌词的格式 比如 随机从字典取出字

    2025年6月5日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号