关于部分动态爬虫「建议收藏」

关于部分动态爬虫「建议收藏」前言爬虫的动态处理方法(我用较为简单的一些网址举例比如豆瓣的热门电影)一、动态爬虫动态爬虫与静态爬虫的最大区别就是源代码与网页内容不同,动态爬虫可以通过抓包(就是直接利用浏览器的F12进行network抓包,获取相关对应的文件)二、使用步骤1.先通过网址找到需要的东西截图如下(示例):按F12进入开发者模式,第二步点击左上角刷新重新加载一下内容,第三步在红框里选取需要的内容,可以通过“预览”来查看是否对应查找正确之后然后在“标头”里找到“请求URL”以及“User-Agent”,把这些找到

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

前言

爬虫的动态处理方法(我用较为简单的一些网址举例 比如豆瓣的热门电影)


一、动态爬虫

动态爬虫与静态爬虫的最大区别就是源代码与网页内容不同,动态爬虫可以通过抓包(就是直接利用浏览器的F12进行network抓包,获取相关对应的文件)

二、使用步骤

1.先通过网址找到需要的东西在这里插入图片描述

截图如下(示例):按F12进入开发者模式,第二步点击左上角刷新重新加载一下内容,第三步在红框里选取需要的内容,可以通过“预览”来查看是否对应在这里插入图片描述查找正确之后然后在“标头”里找到“请求URL”以及“User-Agent”,把这些找到后基本工作就差不多完成了

2.代码部分

先引入所需要的库
代码如下:

import re
import urllib.request
import pandas as pd

这是我常用的几个库

url=('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0')
headers={ 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36' }
requests=urllib.request.Request(url,headers=headers)
respon=urllib.request.urlopen(requests)
html=respon.read().decode('utf-8')

以上代码就是获取对应网页的内容
然后之后在对所需内容进行查找就行了。

3.全代码

url=('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0')
headers={ 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36' }
requests=urllib.request.Request(url,headers=headers)
respon=urllib.request.urlopen(requests)
html=respon.read().decode('utf-8')
photo=re.compile(r'"cover":"(.*?),"id"')
list1=re.findall(photo,html)
name=re.compile(r'"title":"(.*?)",')
list2=re.findall(name,html)
# print(html)
rat=re.compile(r'"rate":"(.*?),')
list3=re.findall(rat,html)
xx={ 
   '电影名':list2,'评分':list3}
df=pd.DataFrame(xx,index=range(1,51))
print(df)

总结

以上就是今天要讲的内容,本文仅仅简单介绍了动态爬虫的方法,希望可以有所帮助

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/159472.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql alter 修改字段类型_Mysql必读mysql 增加修改字段类型及删除字段类型「建议收藏」

    mysql alter 修改字段类型_Mysql必读mysql 增加修改字段类型及删除字段类型「建议收藏」《MysqL必读MysqL增加修改字段类型及删除字段类型》要点:本文介绍了MysqL必读MysqL增加修改字段类型及删除字段类型,希望对您有用。如果有疑问,可以联系我们。添加)增加一个新列altertablet2adddtimestamp;altertableinfosaddextinyintnotnulldefault’0′;//删除列altertablet2…

    2022年5月24日
    29
  • FindWindowEx用法

    FindWindowEx用法函数功能:该函数获得一个窗口的句柄,该窗口的类名和窗口名与给定的字符串相匹配。这个函数查找子窗口,从排在给定的子窗口后面的下一个子窗口开始。在查找时不区分大小写。    函数原型:HWNDFindWindowEx(HWNDhwndParent,HWNDhwndChildAfter,LPCTSTRlpszClass,LPCTSTRlpszWindow);    

    2022年5月6日
    74
  • plsqldev使用指南_plsql配置文件在哪儿

    plsqldev使用指南_plsql配置文件在哪儿plsqldev的配置plsqldev的安装需要这两个,可以在网上下载注意问题:1、Path变量中添加client的路径2、并且在plsqldev上配置这两个的路径,不需要登录,直接取消然后就可以进去这个了,然后点工具,首选项3、然后是新建目录,在这下面新建一个文件,里面写着这个文件的路径,以及数据库地址以及端口的配置4、tnsnames.ora的写法…

    2022年10月24日
    0
  • Hdu1396「建议收藏」

    Hdu1396「建议收藏」//CountingTriangles/*顶角朝上的三角形:a[i]=a[i-1]+c(i+1,2)(从底边任选两点为正三角形底边)顶角朝下的三角形:b[i]=b[i-1]+c((i+1)/2,2)+c((i+2)/2,2)(因为偶数边长的正三角形和其边长一半的反三角形存在着对应关系,所以将底边所有的点分为两类:奇数和偶数点;再在相应的奇数…

    2022年8月12日
    5
  • 60道逻辑推理题及答案[通俗易懂]

    60道逻辑推理题及答案[通俗易懂]作者:billy版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处前言程序员面试题中经常会出现一些烧脑逻辑题,本人觉得这种题目非常有趣,于是收集了一些分享给大家!【1】假设有一个池塘,里面有无穷多的水。现有2个空水壶,容积分别为5升和6升。问题是如何只用这2个水壶从池塘里取得3升的水。由满6向空5倒,剩1升,把这1升倒5里,然后6剩满,倒5里面,由于5里面有1…

    2022年4月18日
    79
  • PHP获取网站中各文章的第一张图片的代码示例

    PHP获取网站中各文章的第一张图片的代码示例

    2021年10月30日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号