python 爬虫新手入门教程

python 爬虫新手入门教程python爬虫新手教程一、什么是爬虫爬虫就是把一个网站里的内容读取下来这里我们就要学习一个知识我们看到的网页是有一种叫HTML的语言编写的他可以给文字显示不同的样式如:<p&gt

大家好,又见面了,我是你们的朋友全栈君。

python 爬虫新手教程

一、什么是爬虫

爬虫就是把一个网站里的内容读取下来

这里我们就要学习一个知识

我们看到的网页是有一种叫HTML的语言编写的

他可以给文字显示不同的样式

如:<p>hello</p> 就会显示段落:hello

二、如何获取网页的内容

一般爬虫不会把网页内容爬下来

而是把网页源代码爬下来

就好比说:hello 会爬到 <p>hello</p>

如果要在浏览器上看源代码

只需在网页上右键点击 选择查看网页源代码即可

那么怎么用python把源代码爬下来呢?

这是要下载一个模块

在cmd里输入:

pip install requests

然后就可以用模块requests爬网页了

import requests  # 导入模块

url = 'https://sina.com.cn'  # 要爬的网址
html = requests.get(url)  # 获取网页源代码
print(html.text)  # 输出 注:需要text函数来返回源代码

输出:

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

细心的人可以看到后面的代码有编码问题

<span role="heading" aria-level="2">python 爬虫新手入门教程

要把代码转成utf-8中文编码

import requests

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'  # 将编码设为utf-8中文编码
print(html.text)

输出

<span role="heading" aria-level="2">python 爬虫新手入门教程

三、分析源代码

最后要在源代码中筛选出我们要的数据

需要用到模块 lxml

在cmd里输入:

pip install lxml

然后就要使用lxml来筛选数据

import requests
from lxml import etree

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'
element = etree.HTML(html.text)  # 获取html
result = element.xpath('//a/text()')  # 进行筛选

for i in result:
    print(i)  # 输出

输出:

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

 

其中核心语句是

result = element.xpath(‘//a/text()’)

而 //a/text() 的意思是获取所以的a标签的值

而常用的xpath语法如下

nodename      选取此节点的所有子节点
/         从当前节点选取直接子节点
//         从当前节点选取子孙节点
.         选取当前节点
..         选取当前节点的父节点
@        选取属性
*          通配符,选择所有元素节点与元素名
@*        选取所有属性
[@attrib]          选取具有给定属性的所有元素
[@attrib=’value’]         选取给定属性具有给定值的所有元素
[tag]        选取所有具有指定元素的直接子节点
[tag=’text’]        选取所有具有指定元素并且文本内容是text节点

 四、筛选实例

如果要在sina.com.cn读取部分新闻

 <span role="heading" aria-level="2">python 爬虫新手入门教程

 

那么要在键盘上按下F12

点左上角的按钮

 <span role="heading" aria-level="2">python 爬虫新手入门教程

鼠标悬停在新闻上再点击

在代码栏中找新闻

 <span role="heading" aria-level="2">python 爬虫新手入门教程

 

 再找到所有新闻的父元素

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

 

这里可以看到ul的class为list-a news_top

在python中写:

import requests
from lxml import etree

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'
element = etree.HTML(html.text)
result = element.xpath('//ul[@class="list-a news_top"]//a/text()')  # 进行筛选

for i in result:
    print(i)

 输出

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155837.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • BM3D(Block-Matching and 3D filtering)读后感[通俗易懂]

    BM3D(Block-Matching and 3D filtering)读后感[通俗易懂]本篇博客是关于BM3D(Block-Matchingand3Dfiltering)及其相关算法VBM3D、CBM3D的详细解析。图像去噪方向第一次做,所以用词不当还请指出。

    2022年6月7日
    43
  • nginx配置选项try_files详解

    nginx配置选项try_files详解nginx 配置选项 try files 详解一 try files 是 nginx 中 http core 核心模块所带的指令 主要是能替代一些 rewrite 的指令 提高解析效率 官网的文档为 http nginx org en docs http ngx http core module html try files 二 1 try files 的语法规则 格式 1 try

    2025年8月4日
    2
  • html生日快乐源代码「建议收藏」

    html生日快乐源代码「建议收藏」html生日快乐源代码源码下载》html生日快乐源代码.7z主页截图如下:默认的账号为root,密码为root如果想改的话,修改js文件夹下面verification.js的内容想要的,可以在此博客的最上面下载链接进行下载。…

    2022年7月15日
    25
  • Python实现人脸识别「建议收藏」

    Python实现人脸识别「建议收藏」案例分析概述Python在人脸识别方面功能很强大,程序语言简单高效,下面编程实现一下如何实现人脸识别。分别给出实现代码,作为学习和技术交流。Python基础环境准备参见:https://blog.csdn.net/yan_dk/article/details/89528463案例实现打开显示图片importcv2#opencv库#读…

    2025年5月31日
    2
  • 【面试现场】如何找到字符串中的最长回文子串?

    【面试现场】如何找到字符串中的最长回文子串?点击上方“程序人生”,选择“置顶公众号”第一时间关注程序猿(媛)身边的故事作者channingbreeze如需转载,请联系原作者。小史是一个应届生,虽然学的是电子专业,但…

    2022年6月9日
    29
  • JavaScript与Java的关系(联系与区别)

    JavaScript与Java的关系(联系与区别)JavaScript和Java是两种不一样的语言,但是它们之间存在联系。背景方面Javascript(1995年,Netscape公司雇佣了程序员BrendanEich开发这种网页脚本语言)最初名字叫做Mocha,1995年9月改为LiveScript。12月,Netscape公司与Sun公司(Java语言的发明者和所有者)达成协议,后者允许将这种语言叫做JavaScript。这样一来,Netsc

    2022年7月7日
    19

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号