Python简单爬虫入门一

Python简单爬虫入门一

大家好,又见面了,我是全栈君。

为大家介绍一个简单的爬虫工具BeautifulSoup

BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4(由于python2.7编码格式问题)

此工具在搜索你想爬的数据匹配的方式就是html标签嵌套的顺序(html介绍在其它随笔内)

首先来聊聊BeautifulSoup的安装pip install python-bs4 包含BeautifulSoup方法

再来安装依赖工具requests和解析格式lxml下载安装包 解压进入目录 python setup.py install此方法是请求服务

先来写一个简单的网页解析代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
}
url = "http://www.jd.com/"

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)

来简单说明下每行代码得作用:

from从bs4库里import导入BeautifulSoup方法

import导入requests方法

headers表示头文件,伪装成浏览器浏览网页,当然我这里写得简单还没写全

url网页地址

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件)

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

print答应soup解析后的网页数据 也就是网页源代码如下 由于网页源代码很长所以这里截图只能显示一部分

Python简单爬虫入门一

学好基础包括html的结构标签的嵌套还有CSS的名字在网页位置等后教你们怎么去抓电影等网站并且把内容归类好方便查阅

下面是我抓去某电影网站的数据及归类效果掩饰:

Python简单爬虫入门一

 

转载于:https://www.cnblogs.com/cookie1026/p/6065384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/108780.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ZigBee集成开发环境IAR安装

    一、Zigbee概述1.什么是ZigbeeZigBee是一种近距离、低复杂度的双向无线通信系统,主要用于距离短、功耗低、传输速率不高的电子设备之间进行数据传输,且具有低功耗、低成本、大容量、时延短、可靠性高以及网络拓扑结构灵活的特点。Zigbee本质就是无线设备之间的一种通信方式,类似于人和人之间用普通话交流,普通话就是一种通信方式。Zigbee,Zigbee通信方式,Zigbee协议说的都是一回事。Zigbee的主要作用是用来构建无线局域网。2.各通信方式的比较蓝牙:功耗比较低,组建网络节点数

    2022年4月8日
    40
  • Java工程师-招聘要求

    Java工程师-招聘要求工作职责: 1、负责后台系统的研发,及时解决项目涉及到的技术问题。 2、参与系统需求分析与设计,负责完成核心代码编写,接口规范制定3、参与后台服务性能效率优化岗位要求: 1、计算机相关专业毕业,有大数据高并发的处理经验,精通spring框架,阅读过spring源码,熟悉其事务机制 2、熟练应用Linux操作系统,熟悉GIT等版本管理软件3、掌握网站访问速度的各种优化方案,并提出优化方案更佳4、掌握…

    2022年7月8日
    22
  • python-操作文件以及文件夹

    python-操作文件以及文件夹

    2021年5月17日
    116
  • QT的基本知识「建议收藏」

    QT的基本知识「建议收藏」QT是一个跨平台应用程序和UI开发框架。具体的安装以及源文件的下载这里不详细介绍。要在QT界面上添加一个按钮,可以有两种方法:一个是直接拖放一个按钮即可;另一种则是通过程序来添加一种按钮。QT提供的信号和槽机制,可以让任意两个对象之间进行消息处理,其作用就是让一个对象产生的信号能够被另一个对象接受并处理。QT基本所有的对象都集成在QObject对象中,在这个对象中有一个静态函数connect…

    2022年5月17日
    33
  • QTabWidget 控件样式

    QTabWidget 控件样式1、转载一篇当tab页多时,左侧的曲线问题。下面是原文:当tab个数大于一定个数时,会出现如下图左侧白线所示,这个是Qt自带的,作用是点击回到第一个tab隐藏方法:设置qssQTabBar::tear{width:0px;border:none;}原文链接:https://blog.csdn.net/qq411633267/article/details/1056847582、通用样式:…

    2022年10月25日
    0
  • 开心农场外挂助手_开心农场最新版本下载

    开心农场外挂助手_开心农场最新版本下载开心农场外挂助手,支持校内开心农场、校内开心农民、QQ校友开心农场、开心网001花园、开心网农场作用:1、自动倒计时,到朋友作物即将成熟前提醒你。2、不会错过好友的任何一个水果。偷东西一个都不会少。3、时间支持小时的输入;支持关机倒计时。4、支持自定义声音提醒、图标闪烁提醒使用方法:1、添加数据:直接在表格里填写好友标记、时间(分,最近成熟时间)2、添加完毕后,可最小化(就是X按钮)。去干其他事情…

    2022年9月13日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号