python 爬虫新手入门教程

python 爬虫新手入门教程python爬虫新手教程一、什么是爬虫爬虫就是把一个网站里的内容读取下来这里我们就要学习一个知识我们看到的网页是有一种叫HTML的语言编写的他可以给文字显示不同的样式如:<p&gt

大家好,又见面了,我是你们的朋友全栈君。

python 爬虫新手教程

一、什么是爬虫

爬虫就是把一个网站里的内容读取下来

这里我们就要学习一个知识

我们看到的网页是有一种叫HTML的语言编写的

他可以给文字显示不同的样式

如:<p>hello</p> 就会显示段落:hello

二、如何获取网页的内容

一般爬虫不会把网页内容爬下来

而是把网页源代码爬下来

就好比说:hello 会爬到 <p>hello</p>

如果要在浏览器上看源代码

只需在网页上右键点击 选择查看网页源代码即可

那么怎么用python把源代码爬下来呢?

这是要下载一个模块

在cmd里输入:

pip install requests

然后就可以用模块requests爬网页了

import requests  # 导入模块

url = 'https://sina.com.cn'  # 要爬的网址
html = requests.get(url)  # 获取网页源代码
print(html.text)  # 输出 注:需要text函数来返回源代码

输出:

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

细心的人可以看到后面的代码有编码问题

<span role="heading" aria-level="2">python 爬虫新手入门教程

要把代码转成utf-8中文编码

import requests

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'  # 将编码设为utf-8中文编码
print(html.text)

输出

<span role="heading" aria-level="2">python 爬虫新手入门教程

三、分析源代码

最后要在源代码中筛选出我们要的数据

需要用到模块 lxml

在cmd里输入:

pip install lxml

然后就要使用lxml来筛选数据

import requests
from lxml import etree

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'
element = etree.HTML(html.text)  # 获取html
result = element.xpath('//a/text()')  # 进行筛选

for i in result:
    print(i)  # 输出

输出:

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

 

其中核心语句是

result = element.xpath(‘//a/text()’)

而 //a/text() 的意思是获取所以的a标签的值

而常用的xpath语法如下

nodename      选取此节点的所有子节点
/         从当前节点选取直接子节点
//         从当前节点选取子孙节点
.         选取当前节点
..         选取当前节点的父节点
@        选取属性
*          通配符,选择所有元素节点与元素名
@*        选取所有属性
[@attrib]          选取具有给定属性的所有元素
[@attrib=’value’]         选取给定属性具有给定值的所有元素
[tag]        选取所有具有指定元素的直接子节点
[tag=’text’]        选取所有具有指定元素并且文本内容是text节点

 四、筛选实例

如果要在sina.com.cn读取部分新闻

 <span role="heading" aria-level="2">python 爬虫新手入门教程

 

那么要在键盘上按下F12

点左上角的按钮

 <span role="heading" aria-level="2">python 爬虫新手入门教程

鼠标悬停在新闻上再点击

在代码栏中找新闻

 <span role="heading" aria-level="2">python 爬虫新手入门教程

 

 再找到所有新闻的父元素

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

 

这里可以看到ul的class为list-a news_top

在python中写:

import requests
from lxml import etree

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'
element = etree.HTML(html.text)
result = element.xpath('//ul[@class="list-a news_top"]//a/text()')  # 进行筛选

for i in result:
    print(i)

 输出

<span role="heading" aria-level="2">python 爬虫新手入门教程

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155837.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vector释放内存之swap方法

    相信大家看到swap这个词都一定不会感到陌生,就是简单的元素交换。但swap在C++STL中散发着无穷的魅力。下面将详细的说明泛型算法swap和容器中的swap成员函数的使用!1.泛型算法swa

    2021年12月28日
    42
  • MATLAB柱状图画法(详细)

    首先先给一张柱状图,请注意,ABC三个对比的数据,是分别对应一个数组的每一列,然后贴代码figure(1)axes2=axes(‘position’,[0.1,0.1,0.86,0.8]);%这个是figure里面图的位置和大小,分别为离下边,左边的距离,还有图的高和宽bar(mse_lowhigh);set(gca,’XTickLabel’,{‘0.5′,’1’,’…

    2022年4月5日
    4.2K
  • 清空标签间的内容(innerHTML)和 value

    清空标签间的内容(innerHTML)和 value

    2021年10月31日
    197
  • shellcode免杀「建议收藏」

    shellcode免杀「建议收藏」0x06利用wmic远程文件不落地执行shellcode1、msf生成的hta链接放入hta.xsl文件中,(其中JScript调用mshta运行恶意hta),并将文件放置攻击方服务器<?xmlversion=’1.0′?><stylesheetxmlns=”http://www.w3.org/1999/XSL/Transform”xmlns:ms=”urn:schemas-microsoft-com:xslt”xmlns:user=”placeholder”..

    2022年8月22日
    7
  • 运维架构简单剖析讲解

    运维架构简单剖析讲解运维架构简单剖析讲解随着IT运维的不断发展,尤其的Linux的飞速发展,越来越多的企业开始使用Linux操作系统平台,例如CentOS、RedHat、Ubuntu、Fedora等等,成千上亿个网站涌现在当今互联网,互联网已经成为必不可少的工具,那今天我们跟大家一起来分享讨论目前用的最多的Linux下主流网站架构:LVS+KEEPALIVED(heartbeat)+Squid+Nginx/Apache+JAVA/PHP+MySQL/MariaDB等,分享一个简单的拓扑图,供各位同学实验参考一般网站总体

    2022年7月17日
    15
  • 【iOS】UIViewController生命周期

    【iOS】UIViewController生命周期

    2022年1月12日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号