Python简单爬虫入门一

Python简单爬虫入门一

大家好,又见面了,我是全栈君。

为大家介绍一个简单的爬虫工具BeautifulSoup

BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4(由于python2.7编码格式问题)

此工具在搜索你想爬的数据匹配的方式就是html标签嵌套的顺序(html介绍在其它随笔内)

首先来聊聊BeautifulSoup的安装pip install python-bs4 包含BeautifulSoup方法

再来安装依赖工具requests和解析格式lxml下载安装包 解压进入目录 python setup.py install此方法是请求服务

先来写一个简单的网页解析代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
}
url = "http://www.jd.com/"

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)

来简单说明下每行代码得作用:

from从bs4库里import导入BeautifulSoup方法

import导入requests方法

headers表示头文件,伪装成浏览器浏览网页,当然我这里写得简单还没写全

url网页地址

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件)

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

print答应soup解析后的网页数据 也就是网页源代码如下 由于网页源代码很长所以这里截图只能显示一部分

Python简单爬虫入门一

学好基础包括html的结构标签的嵌套还有CSS的名字在网页位置等后教你们怎么去抓电影等网站并且把内容归类好方便查阅

下面是我抓去某电影网站的数据及归类效果掩饰:

Python简单爬虫入门一

 

转载于:https://www.cnblogs.com/cookie1026/p/6065384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/108780.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql查询前十条记录_查询前十条数据

    mysql查询前十条记录_查询前十条数据select*fromno_primary_keyorderbyidlimit10;#显示从id=1到id=10的前10条记录;   select*fromno_primary_keylimit10;#随意显示其中10条记录;   注意:不能用sel来代替select;但是可以用desc来代替describe;

    2025年10月7日
    3
  • 使用mshta.exe绕过应用程序白名单(多种方法)

    使用mshta.exe绕过应用程序白名单(多种方法)0x00简介很长一段时间以来,HTA文件一直被web攻击或在野恶意软件下载程序用作恶意程序的一部分。HTA文件在网络安全领域内广为人知,从红队和蓝队的角度来看,它是绕过应用程序白名单有价值的“古老

    2022年7月3日
    42
  • matlab中的ezplot函数

    matlab中的ezplot函数随时随地阅读更多技术实战干货,获取项目源码、学习资料,请关注源代码社区公众号(ydmsq666)一个容易使用的绘图函数语法ezplot(f)ezplot(f,[min,max])ezplot(f,[xmin,xmax,ymin,ymax])ezplot(x,y)ezplot(x,y,[tmin…

    2022年6月19日
    45
  • maven配置阿里云仓库地址

    maven配置阿里云仓库地址<mirror><id>nexus-aliyun</id><mirrorOf>central</mirrorOf><name>Nexusaliyun</name><url>http://maven.aliyun.com/nexus/content/groups/public</url></mirror>

    2022年6月25日
    26
  • AlertDialog的几种用法

    AlertDialog的几种用法xml代码:java代码:

    2022年7月2日
    25
  • 招聘考试图形推理题_图形推理历年真题

    招聘考试图形推理题_图形推理历年真题图形推理50中规律,自行阅读1.大小变化2.方向旋转3.笔画增减(数字,线条数)4.图形求同5.相同部份去掉6.图形叠加(简单叠加,合并叠加,去同叠加)7.图形组合变化(如:首尾两个图形中都包含中间图形)8.对应位置阴影变化(两图相同或不同则第三图对应位置变阴影或变空白)9.顺时针或逆时针旋转10.总笔画成等差数列…

    2025年10月11日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号