正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码

正则表达式 – 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 – Python代码目录1.乱码符号种类较少,用replace()2.乱码字符种类较多,用re.sub()3.提取字符串中的中文字符4.提取字符串中的中文字符和数字5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=去掉这些很简单:1.乱码符号种类较少,用replace()如果只是很少类型的乱码符…

大家好,又见面了,我是你们的朋友全栈君。

目录

1.乱码符号种类较少,用replace()

2.乱码字符种类较多,用re.sub()

3.提取字符串中的中文字符

4.提取字符串中的中文字符和数字

5.提取其他


数据清洗的时候一大烦恼就是数据中总有各种乱码字符,比如!@#¥%……&——+*(){}:“》《?|【】‘;/。,、-=

去掉这些很简单:

1.乱码符号种类较少,用replace()

如果只是很少类型的乱码符号,可以使用replace来替换掉,由于我们只是针对字符串中个别字符进行替换,因此使用str.replace(“#”,””)即可;

#只有一类乱码字符串
df['name'] = df['name'].str.replace("#","")


#连续多个字符一起替换
df['name'] = df['name'].str.replace("#","").str.replace("&","").str.replace("*","")

2.乱码字符种类较多,用re.sub()

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(string_code )


#输出:北京大学beijing985大学

这种方法的清洗,我们使用的其实是正则表达式,上述方法是提取了字符串中的中英文和数字,当然你也可以直提取中文,不同字符对应的 unicode 范围如下所示:

函数 说明
sub(pattern,repl,string) 把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**] 表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5 汉字的unicode范围
\u0030-\u0039 数字的unicode范围
\u0041-\u005a 大写字母unicode范围
\u0061-\u007a 小写字母unicode范围

3.提取字符串中的中文字符

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符
string_code = re.sub(u"([^\u4e00-\u9fa5])","",string)
print(string_code )

#输出:北京大学大学

4.提取字符串中的中文字符和数字

import re
string = "北京大学beijing985大学@#¥……&{}*@$%)..+_)(	"

#提取中文字符和数字
string_code = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",string)
print(string_code )

#输出:北京大学985大学

5.提取其他

至于提取其他字符,可以根据正则表达式的 unicode 范围,并参照上述三个例子敲代码。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142840.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月10日 下午6:20
下一篇 2022年5月10日 下午6:20


相关推荐

  • 教你如何暴力破解wifii密码

    使用kalilinux系统进行wifi暴力破解获取密码注意:私自破解他人WiFi属于违法行为,本教程仅供学习与参考。破解工具破解工具:kalilinux系统 ,本教程使用的装在物理机的linux系统(虚拟机使用方法一样)。支持监听模式的无线网卡,本教材使用的是某宝购买的3070L网卡。字典文件(如果你没有字典也没有问题后面会教你如何使用cruncl创建密码文件)。…

    2022年4月8日
    81
  • pycharm连接数据库报错

    pycharm连接数据库报错使用 pycharm 连接数据库的时候 报错为 08001 Couldnotcrea Attemptedrec Givingup 后来查阅资料发现这都是因为安装 mysql 的时候时区设置的不正确 mysql 默认的是美国的时区 而我们中国大陆要比他们迟 8 小时 采用 8 00 格式 使用的数据库是 MySQL 在你没有指定 MySQL 驱动版本的情况下它自动依赖的驱动是 8 0 12 很高的版本 这是由于数据库和系统时

    2026年3月17日
    2
  • 生成唯一序列号 Unique ID

    生成唯一序列号 Unique ID程序取号的锁竞争和网络延迟是不可避免的 所以最理想的 UniqueID 策略还是本地生成 把发号器内嵌到每个程序中 同时保证生成标准的同步

    2026年3月26日
    2
  • 2018.11.29 区块链论文翻译「建议收藏」

    2018.11.29 区块链论文翻译「建议收藏」2018.11.29 区块链论文翻译

    2022年4月21日
    40
  • Webstorm 调试 JavaScript 代码

    Webstorm 调试 JavaScript 代码通常前端项目的 JavaScript 代码调试是通过浏览器的开发者工具 右键菜单中点击 检查 来完成 这种调试的方式的舒适度很差 显示页面的区域占了很大一块空间 留给调试窗口的空间很小 另外 浏览器开发者工具也不具备 IDE 代码跳转功能等 在不跳出 IDE 的情况下直接调试 JavaScript 代码 可以最大限度增加调试窗口 并在不写 console log 的情况下 通过直接在代码处显

    2026年3月19日
    1
  • MATLAB–数字图像处理 图像直方图均衡化

    MATLAB–数字图像处理 图像直方图均衡化图像直方图均衡化首先 我们要理解什么是图像直方图均衡化 把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布 直方图均衡化就是对图像进行非线性拉伸 重新分配图像像素值 使一定灰度范围内的像素数量大致相同 直方图均衡化就是把给定图像的直方图分布改变成 均匀 分布直方图分布 具体见下图 说的简单点 就是把原来的图像的灰度分配均匀 使得 0 255 都有一定的取值 这样对比度相对

    2026年3月26日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号