Python—正则表达式建议收藏

1.re包常用函数match(pattern,string,flags=0)search(pattern,string,flags=0)区别:match从头开始匹配,若不符合则匹配失败

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

全栈程序员社区此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“全栈程序员社区”或者“www_javaforall_cn”或者微信扫描右侧二维码都可以关注本站微信公众号。

1. re包常用函数

  match(pattern, string, flags=0)

  search(pattern, string, flags=0)

  区别:match从头开始匹配,若不符合则匹配失败

     search从整个string中进行匹配,直到找到一个匹配

 

  fullmatch(pattern, string, flags=0)

    若string不是完全匹配则匹配失败

  sub(pattern, repl, string, count=0, flags=0)

    用repl替换string中正则表达式匹配到的内容

  split(pattern, string, maxsplit=0, flags=0)

  compile(pattern, flags=0)
        Compile a regular expression pattern, returning a pattern object.

2. 正则字符介绍

  普通字符

  ^: 匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置

  $: 匹配行或字符串的结尾

  \b: 不会消耗任何字符只匹配一个位置,常用于匹配单词边界

·    如 我想从字符串中”This is Regex”匹配单独的单词 “is” 正则就要写成 “\bis\b”

  \d:匹配数字

  \w:字母、数字、下划线

  \s:空格

  []

  重复

  * 重复零次或更多次

  + 重复一次或更多次

  ?重复零次或一次

  {n}重复n次

  {n,}重复n次或更多次

  {n,m}重复n到m次

  字符类

  [abcdefg] 匹配其中任意的一个字符

  [1-9] 匹配1-9范围内的任意一个数字

  分支条件

  | 表示分支条件

  分组

  ()进行分组表示

  (\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

  反义

  \W 匹配任意不是字母、数字、下划线的字符

  \S 匹配任意不是空白符的字符

  \D 匹配任意非数字的字符

  \B 匹配不是单词开头或结束的位置

  [^x] 匹配除了x以外的任意字符

  [^aeiou]匹配除了aeiou这几个字母以外的任意字符

  向后引用

分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?’name’exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

   零宽度断言

接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),
因此它们也被称为零宽断言。最好还是拿例子来说明吧: 断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。 (
?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),

如查找I'm singing while you're dancing.时,它会匹配sing和danc。 (?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),
例如在查找reading a book时,它匹配ading。 假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((
?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。 下面这个例子同时使用了这两种断言:(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。

  负向零宽度断言

前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,
如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样: \b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,
像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),
后面的\w*\b将会匹配下一个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。
现在,我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。 零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;
\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。 同理,我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。 请详细分析表达式(?<=<(\w+)>).*(?=<\/\1>),这个表达式最能表现零宽断言的真正用途。 一个更复杂的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(\w+)>)指定了这样的前缀:
被尖括号括起来的单词(比如可能是<b>),然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/,它用到了前面提过的字符转义;
\1则是一个反向引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是<b>的话,后缀就是</b>了。
整个表达式匹配的是<b>和</b>之间的内容(再次提醒,不包括前缀和后缀本身)。

  注:上述部分内容摘抄自博客:http://deerchao.net/tutorials/regex/regex.htm 

import re

string="abcdefg  acbdgef  abcdgfe  cadbgfe"

#带括号与不带括号的区别
#不带括号
regex=re.compile("((\w+)\s+\w+)")
print(regex.findall(string))
#输出:[('abcdefg  acbdgef', 'abcdefg'), ('abcdgfe  cadbgfe', 'abcdgfe')]

regex1=re.compile("(\w+)\s+\w+")
print(regex1.findall(string))
#输出:['abcdefg', 'abcdgfe']

regex2=re.compile("\w+\s+\w+")
print(regex2.findall(string))
#输出:['abcdefg  acbdgef', 'abcdgfe  cadbgfe']

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120220.html原文链接:https://javaforall.net

(0)
上一篇 2021年12月18日 下午2:00
下一篇 2021年12月18日 下午2:00


相关推荐

  • wrk 安装及使用

    wrk 安装及使用1 克隆 wrk 安装文件到本地 gitclonehttp github com wg wrk git2 编译 wrk 文件 cdwrk amp amp make 若出现错误 xmlto commandnotfo 可以尝试重新安装 xmlto yum yinstallxmlt 拷贝可执行文件到 PATH 目录下 cpwrk usr l

    2026年3月18日
    2
  • GPU利用率低的解决办法

    GPU利用率低的解决办法watch-n0.1-dnvidia-smi#检查GPU利用率参数解决办法:1.dataloader设置参数2.增大batchsize3.减少IO操作,比如tensorboard的写入和打印。4.换显卡

    2022年6月30日
    78
  • javascript 跳转_iframe跳转另一个页面

    javascript 跳转_iframe跳转另一个页面 按钮式:    链接式:  返回上一步  ”>返回上一步  直接跳转式:  window.location.href=http://www.9ba.cn;  开新窗口:  云上的日子 

    2022年8月12日
    9
  • java 判断水仙花_Java实现判断水仙花数

    java 判断水仙花_Java实现判断水仙花数写代码 packageday03 importjava util Scanner 根据用户输入的数字判断是否是水仙花数 authorapplov publicclassN publicstatic String args System out println 请您输入一个三位整数 Scanne

    2026年3月18日
    2
  • 实现组件的自动换行排布:

    实现组件的自动换行排布:

    2021年3月12日
    199
  • Java 创建PDF打印小册子

    Java 创建PDF打印小册子概述 PDF 打印小册子是指将 PDF 格式文档在打印成刊物前需要提前进行的页面排版 以便在打印后装订成册 下面以 Java 代码展示如何来实现 这里调用 FreeSpire PDFforJava 中的 PdfDocument createBookle java lang StringfileNa doublewidth doubleheight booleandoubl 方法来创建 Booklet 小册子 环境配置及代码步骤 1 环境配置 IntelliJIDEA

    2026年3月18日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号