网络爬虫——正则表达式语法

网络爬虫——正则表达式语法正则表达式基础讲解一、什么是正则表达式在网络爬虫将网页内容爬取的时候,有一个关键的步骤就是对我们关注的信息进行提取,正则表达式就是用于信息筛选提取的强大工具,并且学习简单,所以建议大家掌握。Python正则表达式语句re.compile(“正则表达式”).findall(“原字符串”)1.匹配符普通字符 正常匹配其中的字符。\n 匹配换行符。\t 匹配制表符。\…

大家好,又见面了,我是你们的朋友全栈君。

正则表达式基础讲解

代码代写(实验报告、论文、小程序制作)服务请加微信:ppz2759

一、什么是正则表达式

在网络爬虫将网页内容爬取的时候,有一个关键的步骤就是对我们关注的信息进行提取,正则表达式就是用于信息筛选提取的强大工具,并且学习简单,所以建议大家掌握。

Python正则表达式语句

import re

re.compile(“正则表达式”).findall(“原字符串”)
//例子:
# job_add_s = '<span class="t3">(.*?)</span>'
# job_add = re.compile(job_add_s, re.S).findall(data)[1:]

1.匹配符

普通字符			正常匹配其中的字符。
\n				匹配换行符。
\t				匹配制表符。
\w				匹配字母、数字、下划线。
\W				匹配除了字母、数字、下划线的字符串。字母大写相当于非(个人总结)
\d				匹配十进制数字
\D				匹配除了十进制数字的字符串
\s				匹配空白字符
\S				匹配非空白字符
[asd213]		匹配中括号中的任意一个字符
[^asd213]		匹配中除了括号中的任意一个字符

实例1

源字符串:"chengxuyuanxiaozhe666"
正则表达式:"xiaozhe"
匹配后:"xiaozhe"

实例2

源字符串:"chengxuyuanxiao
zhe666"
正则表达式:"xiao\nzhe"
匹配后:"xiao\nzhe"

实例3

源字符串:"chengxuyuanxiaozhe666"
正则表达式:"\w\w\w\d\d\d"
匹配后:"zhe666"

实例4

源字符串:"chengxuyuanxiaozhe666"
正则表达式:"xia[asdo]zhe"
匹配后:"xiaozhe"

2.特殊字符

想单纯的使用以下字符,需要在前面加一个\,如$。

.				匹配除换行符 \n 之外的任何单字符。
^				匹配输入字符串的开始位置。
$				匹配输入字符串的结尾位置。 
*				前一个字符出现零次或多次。
+				前一个字符出现一次或多次。
?				前一个字符出现零次或一次。
{ 
   n}				前一个字符恰好出现n次
{ 
   n,}			前一个字符至少出现n次
{ 
   n,m}			前一个字符至少n次,至多m次
|				指明两项之间的一个选择。
()				标记一个子表达式的开始和结束位置。

实例1

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"xiao..."
匹配后:"xiaozhe"

实例2

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"^xiaozhe..."//从第一个字母开始匹配
匹配后:None

实例3

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"^chengxuyuan"
匹配后:"chengxuyuan"

实例4

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"zuishuai$"//从最后一个字母开始匹配
匹配后:"zuishuai"

实例5

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"cheng.*"//*前一个字符出现零次或多次。//.匹配除换行符 \n 之外的任何单字符。
匹配后:"chengxuyuanxiaozhe666zuishuai"//默认贪婪尽可能多的匹配

实例6

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"zhe6+"
匹配后:"zhe666"

实例7

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"zhe6?"
匹配后:"zhe6"

实例8

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"zhe6{1,2}"
匹配后:"zhe66"

实例9

源字符串:"chengxuyuanxiaozhe666zuishuai"
正则表达式:"^cheng(xu....)"
匹配后:"xuyuan"

3.贪婪模式与懒惰模式

贪婪模式:就是尽可能多的匹配,默认贪婪模式
懒惰模式:就是尽可能少的匹配,也叫精准模式
当出现以下组合时,才代表是懒惰模式:

*?				懒惰模式//?不代表0或1了
+?				懒惰模式//?不代表0或1了

实例1

源字符串:"chengxuyuanxiaozheezhe666zuishuai"
正则表达式:"xiao.*e"
匹配后:"xiaozhezhe"//默认贪婪模式,尽可能多的匹配

实例2

源字符串:"chengxuyuanxiaozhezhe666zuishuai"
正则表达式:"xiao.*?e"
匹配后:"xiaozhe"//懒惰模式,尽可能少的匹配

4.模式修正符

在不改变正则表达式的情况下,通过模式修正符使匹配结果发生改变。
这个看不懂没关系,下面的例子就懂了

re.compile(“正则表达式”).findall(“原字符串”)			//原匹配语句
re.S				//使.也可以匹配换行
re.I				//匹配时候忽略大小写

实例1

源字符串:"XiaoZhe"
正则表达式:"xiao"
匹配语句:re.compile("xiao").findall("XiaoZhe")
匹配后:None

实例2

源字符串:"XiaoZhe"
正则表达式:"xiao"
匹配语句:re.compile("xiao",re.I).findall("XiaoZhe")
匹配后:"Xiao"

实例3

源字符串:"cheng\nxuyuan\nxiao\nzhe"
正则表达式:"cheng.*zhe"
匹配语句:re.compile("cheng.*zhe").findall("XiaoZhe")//.不包括回车
匹配后:None

实例4

源字符串:"cheng\nxuyuan\nxiao\nzhe"
正则表达式:"cheng.*zhe"
匹配语句:re.compile("cheng.*zhe",re.S).findall("XiaoZhe")
匹配后:"cheng\nxuyuan\nxiao\nzhe"

以上就是个人总结的关于正则表达式的知识点,望采纳
除了正则表达式外,我还推荐大家学习另一款XPath表达式,非常简单,比较重要,
XPath表达式在我的另一篇博客有介绍,如果没看到说明还没写完哈
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/159786.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 12.推荐几款好用的搜索引擎「建议收藏」

    12.推荐几款好用的搜索引擎「建议收藏」1.多吉搜索https://www.dogedoge.com/多吉搜索是我接触的第一款无广告,无跟踪的搜索引擎,网上有它和谷歌搜索的对比,个人认为非常好用,但是最近好像用不了,总显示502badgateway,估计是被人攻击了。。。2.goobehttps://goobe.io/专为程序员设计的搜索引擎(搜索非技术相关的东西也很6),界面是这样事儿的而且可以通过快照访问stackoverflow和github,非常好用无广告,不跟踪3.萌搜http..

    2022年5月23日
    69
  • ODrive应用 #6 编码器

    编码器支持的编码器请首先阅读一下ODrive编码器选型指南。编码器校准ODrive支持的所有编码器类型都需要进行某种编码器校准。这需要以下条件:选择一种编码器并将其安装到电动机选择编码器通讯接口(e.g.,AB,ABIorSPI)将编码器通信接口连接到ODrive加载正确的odrive固件(默认的固件大多数情况下都是可以的)电机校准将设置保存在ODrive中,并正…

    2022年4月8日
    195
  • 机器学习的分类与主要算法对比[通俗易懂]

    机器学习的分类与主要算法对比[通俗易懂]机器学习的分类与主要算法对比重要引用:AndrewNgCoureraMachineLearning;从机器学习谈起;关于机器学习的讨论;机器学习常见算法分类汇总;LeNetHomepage;pluskidsvm  首先让我们瞻仰一下当今机器学习领域的执牛耳者:  这幅图上的三人是当今机器学习界的执牛耳者。中间的是GeoffreyHinton,加拿大多伦多大学的教授,如今被聘为“Goo

    2022年6月18日
    38
  • 点积与叉积[通俗易懂]

    点积与叉积[通俗易懂]1. 向量的点乘:向量点乘是其各个分量乘积的和几何意义:点乘的结果是一个标量,等于向量大小与夹角的cos值的乘积。                    a•b=|a||b|cosθ                如果a和b都是单位向量,那么点乘的结果就是其夹角的cos值。                    a•b=cosθ交换律:分配律:结合律:  其中m是实数。2.向量叉乘:两个…

    2025年7月26日
    5
  • redis分布式锁的应用场景_分布式锁redis实现方式

    redis分布式锁的应用场景_分布式锁redis实现方式RedLock分布式锁 基于Redis实现分布式锁的方式名叫Redlock 安全特性:互斥访问,即永远只有一个client能拿到锁 避免死锁:最终client都可能拿到锁,不会出现死锁的情况,即使原本锁住某资源的clientcrash了或者出现了网络分区(两个完全不连通的区域,美国的网咱们登不上去) 容错性:只要大部分Redis节点存活就可以正常提供服务 Redis集群及应用场景热点数据存取数据优先从Redis操作,如果不存在再从文

    2025年10月7日
    3
  • intellij idea 控制台中文乱码_idea server控制台乱码

    intellij idea 控制台中文乱码_idea server控制台乱码本人下载了一开源工程,该工程采用的是maven进行编译,在导入到itellijidea后,按如下图配置好maven编译环境但是采用配置好的maven进行编译时,在run的控制台输出窗口中出现乱码,导致无法编译,由于工程是utf-8编码,所以按如下方式配置了工程的编码网上run控制台输出乱码的解决思路如下:1)参照上面配置工程编码的方式将GlobalEncoding/Proj…

    2022年8月29日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号