正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码

正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码目录1.乱码符号种类较少,用replace()2.乱码字符种类较多,用re.sub()3.提取字符串中的中文字符4.提取字符串中的中文字符和数字5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=去掉这些很简单:1.乱码符号种类较少,用replace()如果只是很少类型的乱码符…

大家好,又见面了,我是你们的朋友全栈君。

目录

1.乱码符号种类较少,用replace()

2.乱码字符种类较多,用re.sub()

3.提取字符串中的中文字符

4.提取字符串中的中文字符和数字

5.提取其他


数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=

去掉这些很简单:

1.乱码符号种类较少,用replace()

如果只是很少类型的乱码符号,可以使用replace来替换掉,由于我们只是针对字符串中个别字符进行替换,因此使用str.replace(“#”,””)即可;

#只有一类乱码字符串
df['name'] = df['name'].str.replace("#","")


#连续多个字符一起替换
df['name'] = df['name'].str.replace("#","").str.replace("&","").str.replace("*","")

2.乱码字符种类较多,用re.sub()

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(string_code )


#输出:北京大学beijing985大学

这种方法的清洗,我们使用的其实是正则表达式,上述方法是提取了字符串中的中英文和数字,当然你也可以直提取中文,不同字符对应的 unicode 范围如下所示:

函数 说明
sub(pattern,repl,string) 把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**] 表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5 汉字的unicode范围
\u0030-\u0039 数字的unicode范围
\u0041-\u005a 大写字母unicode范围
\u0061-\u007a 小写字母unicode范围

3.提取字符串中的中文字符

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符
string_code = re.sub(u"([^\u4e00-\u9fa5])","",string)
print(string_code )

#输出:北京大学大学

4.提取字符串中的中文字符和数字

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符和数字
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",string)
print(string_code )

#输出:北京大学985大学

5.提取其他

至于提取其他字符,可以根据正则表达式的 unicode 范围,并参照上述三个例子敲代码。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142840.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux系统-tcpdump常用抓包命令_tcpdump循环抓包

    linux系统-tcpdump常用抓包命令_tcpdump循环抓包原标题:Linux抓包命令tcpdump命令图解tcpdump命令–>用来将网络中传送的数据包的”头”完全截获下来提供分析,常见的有Wireshark。在Linux中输入命令mantcpdump给出的定义如下所示:tcpdump-转储网络上的数据流是不是感觉很懵?我们用通俗、形象、学术的表达方式来全方位描述tcpdump:通俗的来说,tcpdump是一个抓包工具,用于抓取网络中传输的…

    2022年8月20日
    11
  • awk数组详解、实战

    awk数组详解、实战1.其它编程语言数组的下标一般从0开始,awk中数组下标默认从1开始,也可以从0开始设置:2.在awk中,元素的值设置为"空字符串"是合法的,所以不能用元素值是否为空,判断该元素

    2022年7月3日
    32
  • 用eclipse创建JAVA程序的步骤

    用eclipse创建JAVA程序的步骤如何使用Eclipse进行Java程序开发一般分为如下4个步骤:一、创建Java项目二、创建程序包三、编写Java源程序四、运行Java程序1、创建Java项目1.1打开eclipse1.2点击顶部菜单栏File->New->JavaProject,输入项目名2、创建程序包点击顶部菜单栏,File->New->Package,…

    2022年7月7日
    23
  • 千兆以太网在国产FPGA(智多晶)上的实现[通俗易懂]

    千兆以太网在国产FPGA(智多晶)上的实现[通俗易懂]**千兆以太网在国产FPGA(智多晶)上的实现闲来无事,想了想写点东西,顺带着记录一下自己学习的过程,其中千兆以太网这个模块是之前的一个项目任务,已经实现,但是想着自己在这里面也遇到过许多坑,所以写点东西,避免后来者遇到相同的问题,以后尽量避免事后总结,要做到边做边总结;在2020年国产化的大趋势下,国产芯片开始发展,在这样的时代背景下,我开始了千兆以太网的学习;实现的是简单千兆以太网的实现,利用udp协议、arp协议等千兆以太网的通信,在介绍具体操作流程的过程前,我先介绍一下千兆以太网的设计框架,

    2022年8月30日
    3
  • iOS友盟消息推送总是推送失败或者token无效[通俗易懂]

    iOS友盟消息推送总是推送失败或者token无效[通俗易懂]最近遇到的问题,仅仅贴出来我的解决办法问题(开发环境下)我的原因AppleDevCenter中的开发者provisioningfile无效了,重新生成了一个就OK。选择iOSAppDevelopment然后一步步生成一个,下载到本地,双击安装。然后,手动的在buildSetttings中,修改codesign(因为我的电脑中有三个AppStore账号的证书,所以手动靠谱些

    2022年9月12日
    3
  • 卷积神经网络超详细介绍

    卷积神经网络超详细介绍1、卷积神经网络的概念2、发展过程3、如何利用CNN实现图像识别的任务4、CNN的特征5、CNN的求解6、卷积神经网络注意事项7、CNN发展综合介绍8、LeNet-5结构分析9、AlexNet10、ZFNet10.1意义10.2实现方法10.3训练细节10.4卷积网络可视化10.6总结11、VGGNet11.1结构11.2网络特点:1…

    2022年6月11日
    33

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号