Python简单爬虫入门一

Python简单爬虫入门一

大家好,又见面了,我是全栈君。

为大家介绍一个简单的爬虫工具BeautifulSoup

BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4(由于python2.7编码格式问题)

此工具在搜索你想爬的数据匹配的方式就是html标签嵌套的顺序(html介绍在其它随笔内)

首先来聊聊BeautifulSoup的安装pip install python-bs4 包含BeautifulSoup方法

再来安装依赖工具requests和解析格式lxml下载安装包 解压进入目录 python setup.py install此方法是请求服务

先来写一个简单的网页解析代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
}
url = "http://www.jd.com/"

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)

来简单说明下每行代码得作用:

from从bs4库里import导入BeautifulSoup方法

import导入requests方法

headers表示头文件,伪装成浏览器浏览网页,当然我这里写得简单还没写全

url网页地址

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件)

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

print答应soup解析后的网页数据 也就是网页源代码如下 由于网页源代码很长所以这里截图只能显示一部分

Python简单爬虫入门一

学好基础包括html的结构标签的嵌套还有CSS的名字在网页位置等后教你们怎么去抓电影等网站并且把内容归类好方便查阅

下面是我抓去某电影网站的数据及归类效果掩饰:

Python简单爬虫入门一

 

转载于:https://www.cnblogs.com/cookie1026/p/6065384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/108780.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Android 浏览器打开APP中的Activity

    Android 浏览器打开APP中的Activity具体实现方式请看博客:jiangwei0910410003上面的示例打开了MainActivity,如果要打开很多不同的Activity,就这样干:

    2022年5月14日
    44
  • asp.net中DropDownList控件各种属性研究汇总

    asp.net中DropDownList控件各种属性研究汇总.aspx代码如下:AutoPostBack=”True”>AutoPostBack=”true”onselectedindexchanged=”DropDownList2_SelectedIndexChanged”>

    2022年10月17日
    3
  • php递归算法计算n 介乘,递归算法示例——计算N的阶乘「建议收藏」

    php递归算法计算n 介乘,递归算法示例——计算N的阶乘「建议收藏」递归算法,也就是调用方法自身。阶乘算法,N的阶乘为N*(N-1)*…*2*1,1的阶乘是1。下面是示例的代码:packagecom.cqit.edu.test;importjava.util.Scanner;/***@author肖德俊*@versionDec9,20086:02:55PM*/publicclassUseself{/***@paramargs*/pub…

    2022年8月11日
    10
  • 请简述list,set,map类型的集合的各自特点_list与set的区别

    请简述list,set,map类型的集合的各自特点_list与set的区别List、Map、Set的区别与联系一、结构特点List和Set是存储单列数据的集合,Map是存储键值对这样的双列数据的集合;List中存储的数据是有顺序的,并且值允许重复;Map中存储的数据是无序的,它的键是不允许重复的,但是值是允许重复的;Set中存储的数据是无顺序的,并且不允许重复,但元素在集合中的位置是由元素的hashcode决定,即位置是固定的(Set集合是根据hashcod…

    2025年9月25日
    5
  • XMind思维导图快捷键[通俗易懂]

    XMind思维导图快捷键[通俗易懂]快捷键的使用会让我们的工作效率大大的提高,XMind做为思维导图中软件的佼佼者,让众多办公的人们体会到了便捷;这么好使的一个工具,它的快捷键还不快快的学习/使用起来吗?需要更多教程,微信扫码即可XMind快捷键汇总先来张比较全的大图然后我们再来分解快捷键的大图,顺序按照XMind顶部的菜单顺序。一、文件【注】Command为Mac系统,若为Windows系统换为Ctrl即可,例如:Command+C/V(Mac)=>Ctrl+C/V…

    2022年5月30日
    38
  • AfxMessageBox和MessageBox差别

    AfxMessageBox和MessageBox差别

    2021年11月30日
    52

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号