关于部分动态爬虫「建议收藏」

关于部分动态爬虫「建议收藏」前言爬虫的动态处理方法(我用较为简单的一些网址举例比如豆瓣的热门电影)一、动态爬虫动态爬虫与静态爬虫的最大区别就是源代码与网页内容不同,动态爬虫可以通过抓包(就是直接利用浏览器的F12进行network抓包,获取相关对应的文件)二、使用步骤1.先通过网址找到需要的东西截图如下(示例):按F12进入开发者模式,第二步点击左上角刷新重新加载一下内容,第三步在红框里选取需要的内容,可以通过“预览”来查看是否对应查找正确之后然后在“标头”里找到“请求URL”以及“User-Agent”,把这些找到

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

前言

爬虫的动态处理方法(我用较为简单的一些网址举例 比如豆瓣的热门电影)


一、动态爬虫

动态爬虫与静态爬虫的最大区别就是源代码与网页内容不同,动态爬虫可以通过抓包(就是直接利用浏览器的F12进行network抓包,获取相关对应的文件)

二、使用步骤

1.先通过网址找到需要的东西在这里插入图片描述

截图如下(示例):按F12进入开发者模式,第二步点击左上角刷新重新加载一下内容,第三步在红框里选取需要的内容,可以通过“预览”来查看是否对应在这里插入图片描述查找正确之后然后在“标头”里找到“请求URL”以及“User-Agent”,把这些找到后基本工作就差不多完成了

2.代码部分

先引入所需要的库
代码如下:

import re
import urllib.request
import pandas as pd

这是我常用的几个库

url=('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0')
headers={ 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36' }
requests=urllib.request.Request(url,headers=headers)
respon=urllib.request.urlopen(requests)
html=respon.read().decode('utf-8')

以上代码就是获取对应网页的内容
然后之后在对所需内容进行查找就行了。

3.全代码

url=('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0')
headers={ 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36' }
requests=urllib.request.Request(url,headers=headers)
respon=urllib.request.urlopen(requests)
html=respon.read().decode('utf-8')
photo=re.compile(r'"cover":"(.*?),"id"')
list1=re.findall(photo,html)
name=re.compile(r'"title":"(.*?)",')
list2=re.findall(name,html)
# print(html)
rat=re.compile(r'"rate":"(.*?),')
list3=re.findall(rat,html)
xx={ 
   '电影名':list2,'评分':list3}
df=pd.DataFrame(xx,index=range(1,51))
print(df)

总结

以上就是今天要讲的内容,本文仅仅简单介绍了动态爬虫的方法,希望可以有所帮助

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/159472.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 锚点设置,增强用户体验

    锚点设置,增强用户体验

    2021年8月19日
    128
  • 学习zencart模板制作[通俗易懂]

    学习zencart模板制作[通俗易懂]

         
        1,在includes/template下面新建个文件夹叫你新
    模板的名字就可以了(名字可以随便给只要你自己知道就
    可以了)这里我就叫yourname
        2,把includes/template/defalut_template
           这个文件夹下面的所有的文件夹和文件复制到你
    刚刚新建的文件夹里面去yourname
        3,把template_info.p

    2022年7月27日
    5
  • 【Oracle VM VirtualBox安装SteamOS 教程】

    【Oracle VM VirtualBox安装SteamOS 教程】OracleVMVirt 安装 SteamOS 教程准备工作准备 iso 安装准备工作 UltraISO 软件 SteamOS 安装包 OracleVMVirt 准备 iso 下载 SteamOS 安装包官网下载的是 zip 包 需要将其转为 iso 包我已经准备好了链接 https pan baidu com s 1frHJdo4PQB9 提取码 xsps 如果需要最新版 只需要在官网下载最新的 zip 解压 再用 UltraISO 打开 SteamOS iso 替换掉里

    2025年10月9日
    7
  • 数据库主从复制_sqlserver主从复制

    数据库主从复制_sqlserver主从复制一、什么是主从复制?主从复制,是用来建立一个和主数据库完全一样的数据库环境,称为从数据库;主数据库一般是准实时的业务数据库。二、主从复制的作用(好处,或者说为什么要做主从)重点!1、架构的扩展。业务量越来越大,I/O访问频率过高,单机无法满足,此时做多库的存储,物理服务器增加,负荷增加。2、读写分离,使数据库能支撑更大的并发。主从只负责各自的写和读,极大程度的缓解X锁和S锁争用。在报表中尤其重要。由于部分报表sql语句非常的慢,导致锁表,影响前台服务。如果前台使用master,报表使用slave,那

    2022年8月13日
    5
  • 老程序员Java数组转List都这样操作「建议收藏」

    老程序员Java数组转List都这样操作「建议收藏」一、使用Arrays.asList()通过Arrays.asList(strArray)方式,将数组转换List后,不能对List增删,只能查改,否则抛异常。测试代码如下:publicstaticvoidway1(){List<String>list=Arrays.asList(“1″,”2”);//对转换后的list插入一条数据list.add(“3”);System.out.println(lis

    2022年8月23日
    5
  • Pandas个人操作练习(1)创建dataframe及插入列、行操作

    Pandas个人操作练习(1)创建dataframe及插入列、行操作使用pandas之前要导入包:importnumpyasnpimportpandasaspdimportrandom#其中有用到random函数,所以导入一、dataframe创建pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=False)data:numpy…

    2022年4月27日
    98

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号