正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码

正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码目录1.乱码符号种类较少,用replace()2.乱码字符种类较多,用re.sub()3.提取字符串中的中文字符4.提取字符串中的中文字符和数字5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=去掉这些很简单:1.乱码符号种类较少,用replace()如果只是很少类型的乱码符…

大家好,又见面了,我是你们的朋友全栈君。

目录

1.乱码符号种类较少,用replace()

2.乱码字符种类较多,用re.sub()

3.提取字符串中的中文字符

4.提取字符串中的中文字符和数字

5.提取其他


数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=

去掉这些很简单:

1.乱码符号种类较少,用replace()

如果只是很少类型的乱码符号,可以使用replace来替换掉,由于我们只是针对字符串中个别字符进行替换,因此使用str.replace(“#”,””)即可;

#只有一类乱码字符串
df['name'] = df['name'].str.replace("#","")


#连续多个字符一起替换
df['name'] = df['name'].str.replace("#","").str.replace("&","").str.replace("*","")

2.乱码字符种类较多,用re.sub()

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(string_code )


#输出:北京大学beijing985大学

这种方法的清洗,我们使用的其实是正则表达式,上述方法是提取了字符串中的中英文和数字,当然你也可以直提取中文,不同字符对应的 unicode 范围如下所示:

函数 说明
sub(pattern,repl,string) 把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**] 表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5 汉字的unicode范围
\u0030-\u0039 数字的unicode范围
\u0041-\u005a 大写字母unicode范围
\u0061-\u007a 小写字母unicode范围

3.提取字符串中的中文字符

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符
string_code = re.sub(u"([^\u4e00-\u9fa5])","",string)
print(string_code )

#输出:北京大学大学

4.提取字符串中的中文字符和数字

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符和数字
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",string)
print(string_code )

#输出:北京大学985大学

5.提取其他

至于提取其他字符,可以根据正则表达式的 unicode 范围,并参照上述三个例子敲代码。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142840.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mac电脑安装windows系统_windows怎么装mac系统

    mac电脑安装windows系统_windows怎么装mac系统Mac电脑安装Pycharm    Pycharm是python开发时的一款IDE(编辑器)。我们可以在Pycharm官网下载Mac最新版的Pycharm进行安装。http://www.jetbrains.com/pycharm/    激活成功教程Pycharm    下载完Pycharm后,我们需要对电脑中hosts文件进行修改。打开“访达”,按下shift+comm…

    2022年8月28日
    3
  • LVDS通信接口详细介绍

    LVDS通信接口详细介绍1 概述 LVDS nbsp Low VoltageDiffe nbsp 低电压差分信号 属于平衡传输信号 这种技术的核心是采用极低的电压摆幅高速差动传输数据 从而有以下特点 低功耗 低误码率 低串扰 低抖动 低辐射 nbsp 良好的信号完整性 推荐的最高数据传输速率是 655Mbps 而理论上可以达到 1 923Gbps 在 17inch 及以上的液晶

    2025年10月17日
    3
  • python range在for循环里的用法_PyThon range()函数中for循环用法「建议收藏」

    python range在for循环里的用法_PyThon range()函数中for循环用法「建议收藏」最初range和xrange都生成可以用for循环迭代的数字,然而在python2和3里实现方式并不完全一致,下面着重讲讲python3的range()函数for循环用法。1、函数语法range(start,stop,[step])2、参数说明start:可选参数,计数从start开始。默认是从0开始。例如range(5)等价于range(0,5)stop:必选参数,计数到st…

    2022年8月12日
    6
  • arduino中Keypad 库函数介绍

    arduino中Keypad 库函数介绍原文:https://playground.arduino.cc/Code/Keypad/Creation构造函数:Keypad(makeKeymap(userKeymap),row[],col[],rows,cols)constbyterows=4;//fourrowsconstbytecols=3;//threecolumnscharkeys[rows][cols]={{‘1′,’2′,’3’},{‘4′,’5′,’6’},{‘

    2022年6月7日
    32
  • pycharm怎么安装python库_win10专业版怎么安装

    pycharm怎么安装python库_win10专业版怎么安装准备开始的时候,发现没下载库有些库直接下载是不行的解决办法(社区版)第一步:打开Pycharm第二步:点File->DefaultSettings->ProjectInterpreter->点加号第三步:搜索Pygame->InstallPackage不同于社区版,专业版是直接搜pythonInterpreter点加号,搜想要的库,点击Install直接起飞…

    2022年8月25日
    7
  • Navicat连接Mysql8.0.11出现1251错误

    Navicat连接Mysql8.0.11出现1251错误重装了电脑,安装了最新版的MySQL数据库,结果Navicat连接Mysql报1251错误,sqlyog报2058错误,但是window命令进入mysql,账号密码都是正确的。在网上查的是,出现这个原因是mysql8之前的版本中加密规则是mysql_native_password,而在mysql8之后,加密规则是caching_sha2_password,解决问题方法有两种…

    2022年10月15日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号