Python—正则表达式建议收藏

1.re包常用函数match(pattern,string,flags=0)search(pattern,string,flags=0)区别:match从头开始匹配,若不符合则匹配失败

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

全栈程序员社区此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“全栈程序员社区”或者“www_javaforall_cn”或者微信扫描右侧二维码都可以关注本站微信公众号。

1. re包常用函数

  match(pattern, string, flags=0)

  search(pattern, string, flags=0)

  区别:match从头开始匹配,若不符合则匹配失败

     search从整个string中进行匹配,直到找到一个匹配

 

  fullmatch(pattern, string, flags=0)

    若string不是完全匹配则匹配失败

  sub(pattern, repl, string, count=0, flags=0)

    用repl替换string中正则表达式匹配到的内容

  split(pattern, string, maxsplit=0, flags=0)

  compile(pattern, flags=0)
        Compile a regular expression pattern, returning a pattern object.

2. 正则字符介绍

  普通字符

  ^: 匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置

  $: 匹配行或字符串的结尾

  \b: 不会消耗任何字符只匹配一个位置,常用于匹配单词边界

·    如 我想从字符串中”This is Regex”匹配单独的单词 “is” 正则就要写成 “\bis\b”

  \d:匹配数字

  \w:字母、数字、下划线

  \s:空格

  []

  重复

  * 重复零次或更多次

  + 重复一次或更多次

  ?重复零次或一次

  {n}重复n次

  {n,}重复n次或更多次

  {n,m}重复n到m次

  字符类

  [abcdefg] 匹配其中任意的一个字符

  [1-9] 匹配1-9范围内的任意一个数字

  分支条件

  | 表示分支条件

  分组

  ()进行分组表示

  (\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

  反义

  \W 匹配任意不是字母、数字、下划线的字符

  \S 匹配任意不是空白符的字符

  \D 匹配任意非数字的字符

  \B 匹配不是单词开头或结束的位置

  [^x] 匹配除了x以外的任意字符

  [^aeiou]匹配除了aeiou这几个字母以外的任意字符

  向后引用

分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?’name’exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

   零宽度断言

接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),
因此它们也被称为零宽断言。最好还是拿例子来说明吧: 断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。 (
?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),

如查找I'm singing while you're dancing.时,它会匹配sing和danc。 (?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),
例如在查找reading a book时,它匹配ading。 假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((
?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。 下面这个例子同时使用了这两种断言:(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。

  负向零宽度断言

前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,
如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样: \b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,
像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),
后面的\w*\b将会匹配下一个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。
现在,我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。 零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;
\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。 同理,我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。 请详细分析表达式(?<=<(\w+)>).*(?=<\/\1>),这个表达式最能表现零宽断言的真正用途。 一个更复杂的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(\w+)>)指定了这样的前缀:
被尖括号括起来的单词(比如可能是<b>),然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/,它用到了前面提过的字符转义;
\1则是一个反向引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是<b>的话,后缀就是</b>了。
整个表达式匹配的是<b>和</b>之间的内容(再次提醒,不包括前缀和后缀本身)。

  注:上述部分内容摘抄自博客:http://deerchao.net/tutorials/regex/regex.htm 

import re

string="abcdefg  acbdgef  abcdgfe  cadbgfe"

#带括号与不带括号的区别
#不带括号
regex=re.compile("((\w+)\s+\w+)")
print(regex.findall(string))
#输出:[('abcdefg  acbdgef', 'abcdefg'), ('abcdgfe  cadbgfe', 'abcdgfe')]

regex1=re.compile("(\w+)\s+\w+")
print(regex1.findall(string))
#输出:['abcdefg', 'abcdgfe']

regex2=re.compile("\w+\s+\w+")
print(regex2.findall(string))
#输出:['abcdefg  acbdgef', 'abcdgfe  cadbgfe']

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120220.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • android之bundle是什么_什么是bundle

    Bundle,是Android开发中的一个类,用于Activity之间传输数据用。Intent it = new Intent(A.this,B.class);Bundle bundle = new Bundle();bundle.putString(“name”,”张三”);it.putExtrats(bundle);startActivity(it);这样就把name为张三这个数据从A

    2022年3月9日
    58
  • acwing1117. 单词接龙(深搜dfs)[通俗易懂]

    acwing1117. 单词接龙(深搜dfs)[通俗易懂]单词接龙是一个与我们经常玩的成语接龙相类似的游戏。现在我们已知一组单词,且给定一个开头的字母,要求出以这个字母开头的最长的“龙”,每个单词最多被使用两次。在两个单词相连时,其重合部分合为一部分,例如 beast 和 astonish ,如果接成一条龙则变为 beastonish。我们可以任意选择重合部分的长度,但其长度必须大于等于1,且严格小于两个串的长度,例如 at 和 atide 间不能相连。输入格式输入的第一行为一个单独的整数 n 表示单词数,以下 n 行每行有一个单词(只含有大写或小写字母

    2022年8月8日
    6
  • 工作常用linux命令「建议收藏」

    工作常用linux命令「建议收藏」工作常用linux命令超棒的文档:https://man.linuxde.net/xinshoumingling按接触到的时间线来写第一周sudo:sudo+指令sudo执行的指令,就等价于root亲自执行的指令apt-get:ubuntu的。常用sudoapt-getinstall安装软件,因为一般需要root权限来操作,所以一般搭配sudo。apt-get对安装、卸载升级软件提供一条龙服务。yum:centos的安装命令是yuminstall。yum安装完后查看已安装

    2022年10月8日
    1
  • 打开桌面计算机投屏到扩展屏,将Win10电脑屏幕内容投屏到小米电视的操作方法…「建议收藏」

    Win10系统自带的无线投屏功能,可能大家还不知道,现在手机、电视都是支持Miracast协议的,把屏幕内容投屏到电视上使用,极大的满足了我们的视觉。不管是打游戏、看视频、看图片,投屏到电视比看电脑要来得更爽,这该怎么操作?本文和大家分享一下将Win10电脑屏幕内容投屏到电视的操作方法。Win10投屏电视步骤如下:(以小米电视为例)1、首先将电脑连接无线WIFI。2、将电视也连接在同一个无线WIF…

    2022年4月17日
    632
  • Linux系统平均负载3个数字的含义

    Linux系统平均负载3个数字的含义熟悉Linux系统的人都知道负载这个说法。负载就是指当前系统的资源使用情况。可以使用w,uptime和top命令实时查看监控系统的监控状况。越来越多人开始接触Linux操作系统,从VPS到无线路由的刷机系统(如OpenWRT、Tomato),同时也必不可少地会在各式各样的探针和系统监测界面上看到”系统平均负载”或者”LoadAverage…

    2025年11月4日
    3
  • Java零基础学习难吗「建议收藏」

    Java零基础学习难吗「建议收藏」  java编程是入行互联网的小伙伴们大多数的选择,那么对于零基础的小伙伴来说Java零基础学习难吗?如果你是初学者,你可以很好的理解java编程语言。并不困难。如果你的学习能力比较高,那么你对Java的理解会更快。而如果你恰巧已经掌握了c或c++语言编程的全部知识,那么学起Java来就会更简单了。但这是没有必要的,如果你的思维逻辑还可以,那么你是可以很好的成为一名Java程序员的。  Java零基础学习难吗?Java是一门直截了当的语言。边练习边学,越多的练习会让你有更大的进步,你会感觉很棒。你会

    2022年6月20日
    36

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号