python爬b站弹幕_如何爬取B站数据

python爬b站弹幕_如何爬取B站数据本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。目标:爬取b站番剧最近更新输出格式:名字+播放量+简介那么开始撸吧~用到的类库:requests:网络请求pyquery:解析xml文档,像使用jquery一样简单哦~1.分析页面布局,找到需要爬取的内容目标url:https://bangumi.bilibili.com/22/…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

目标:爬取b站番剧最近更新

输出格式:名字+播放量+简介

那么开始撸吧~

用到的类库:

requests:网络请求

pyquery:解析xml文档,像使用jquery一样简单哦~

1.分析页面布局,找到需要爬取的内容

目标url:

https://bangumi.bilibili.com/22/

4ff5cb386313cdf6d8d8f2595f6c7b07.png

设计video类:

import requests

from pyquery import PyQuery as pq

class Video(object):

def __init__(self,name,see,intro):

self.name=name

self.see=see

self.intro=intro

def __str__(self):

return “{}–{}–{}”.format(self.name,self.see,self.intro)

分析完页面,设取爬去类:

class bilibili(object):

host=”https://bangumi.bilibili.com”

def __init__(self):

self.dom=pq(requests.get(‘https://bangumi.bilibili.com/22/’).text)

def get_recent(self):

”’最近更新”’

items=self.dom(‘#list_bangumi_new .c-list .new .c-item’)

videos=[]

for i in items:

name=i.find(‘.r-i .t’).attr(‘title’)

link=self.host+i.find(‘.r-i .t’).attr(‘href’)

d=pq(requests.get(url=link).text)

see=d(“.info-count .info-count-item”).eq(1).find(’em’).text()

intro=d(‘.info-row’).eq(3).find(‘.info-desc’).text()

videos.append(Video(name=name,see=see,intro=intro))

return videos

哎呀,怎么回事,居然返回为空

这种情况下不要慌,如果代码没有错误,那么一般是由两种情况造成

没有选择到目标,页面是js动态加载的

我们先试下第一种情况,打开浏览器,f12,将选择字符串复制到console中运行下,我们这就是

$(‘#list_bangumi_new .c-list .new .c-item’)

6ef2789d7bee730a1166f24ec0f9173f.png

可以选择到我们想要的目标,那看来是页面js动态加载了,那就方便我们了,我们就只要找到它的接口就好了,打开浏览器,f12,在network里面寻找一下就好了,

url:https://bangumi.bilibili.com/api/timeline_v2_global

5700dfd949ff6c5058df5add01856405.png

这是一个item的信息,里面有我们想要的名字信息,那接下来就是去详情页寻找播放量和简介了,但是详情页链接在哪那,刚刚那个接口里并没有,我们f12,审查一下元素。

c052cba5502d3fad26b2ee8ffbc8b56e.png

这里的链接是/anime/6439,刚刚的接口里并没有这个信息啊,那这个信息应该就是拼接出来的了,关键就是6439这个数字了,去刚刚那个接口信息里寻找一下,果然找到了一个season_id字段符合,那么详情页链接就构造如下:

detail_url = “https://bangumi.bilibili.com/anime/{season_id}”

那么接下来就是去分析详情页,爬去我们想要播放量和简介信息了,构造爬去代码如下:

see = d(“.info-count .info-count-item”).eq(1).find(’em’).text()

intro = d(‘.info-desc-wrp’).find(‘.info-desc’).text()

那么最终爬取类关键代码如下:

class bilibili(object):

recent_url = “https://bangumi.bilibili.com/api/timeline_v2_global” # 最近更新

detail_url = “https://bangumi.bilibili.com/anime/{season_id}”

def __init__(self):

self.dom=pq(requests.get(‘https://bangumi.bilibili.com/22/’).text)

def get_recent(self):

”’最近更新”’

items=json.loads(requests.get(self.recent_url).text)[‘result’]

videos=[]

for i in items:

name=i[‘title’]

link=self.detail_url.format(season_id=i[‘season_id’])

d=pq(requests.get(url=link).text)

see = d(“.info-count .info-count-item”).eq(1).find(’em’).text()

intro = d(‘.info-desc-wrp’).find(‘.info-desc’).text()

videos.append(Video(name=name,see=see,intro=intro))

return videos

运行一下:

3d998dbf705ac753ea376db9e2e933da.png

很ok,那接下来把它做成命令行~

2.制作命令行版

用到的类库:

argparse:解析命令行参数

主要代码如下:

if __name__ == ‘__main__’:

parser=argparse.ArgumentParser()

parser.add_argument(‘–recent’,help=”get the recent info”,action=”store_true”)

parser.add_argument(‘–num’,help=”The number of results returned,default show all”,type=int,default=0)

parser.add_argument(‘-v’,’–version’,help=”show version”,action=”store_true”)

args=parser.parse_args()

if args.version:

print(“bilibili 1.0”)

elif args.recent:

b = bilibili()

b.get_recent(args.num)

看下效果:

b5e1c144308566ef77b176faf5d2e8dc.png

12e86ac7824c503019a71bf1be48e67b.png

ok,大功告成,接下来大家就自由发挥添加更多的功能吧~:)

本文分享 CSDN – 松鼠爱吃饼干。

如有侵权,请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/172268.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Python中sort与sorted函数

    Python中sort与sorted函数python中列表的内置函数sort()可以对列表中的元素进行排序,而全局性的sorted()函数则对所有可迭代的序列都是适用的;并且sort()函数是内置函数,会改变当前对象,而sorted()函数只会返回一个排序后的当前对象的副本,而不会改变当前对象。sort原型:sort(fun,key,reverse=False)参数fun是表明此sort函数是基于何种算法进行排序的,一般默认情况…

    2025年5月27日
    0
  • C语言打印short、long、long long和unsigned类型整数[通俗易懂]

    C语言打印short、long、long long和unsigned类型整数[通俗易懂]要打印unsignedint数字,可以使用%u符号。打印long数值,可以使用%d格式说明符。如果系统的int和long类型具有同样的长度,使用%d就可以打印long数值,但是这会给程序移植到其他系统(这两种数据类型的长度不一样的系统)带来麻烦,所以建议使用%ld打印long数值。在x和o符号前也可以使用l前缀,因此%lx表示以十六进制格式打印长整数,%lo表示

    2022年6月5日
    215
  • 【http 请求返回状态码 500 】 Spring Boot 模拟http请求「建议收藏」

    【http 请求返回状态码 500 】 Spring Boot 模拟http请求「建议收藏」背景最近弄的项目中要求给另外一个服务器传送数据,预定是用http的方式,在开始动手之前我打算用SpringBoot模拟下服务器之间的请求流程:服务器A发起POST请求将Json格式的数据发送到服务器B,服务器B要回传”success”,当服务器A接收到”success”后表示数据发送成功@ControllerpublicclassMyController{/***服务器A*/@ResponseBody@RequestMap.

    2022年6月20日
    136
  • sql2008r2绿色版免安装_少女都市模拟器中文版激活成功教程版免费

    sql2008r2绿色版免安装_少女都市模拟器中文版激活成功教程版免费中文版本64位免激活成功教程SQLyog-12.5.064位中文激活成功教程版 百度云盘https://pan.baidu.com/s/1yvQ7f0esY8idqc_Ci3Su2Ahttps://pan.baidu.com/s/1mhFLVpm 原文:https://blog.csdn.net/odyssey1816/article/details/78801342…

    2022年9月24日
    0
  • 16位汇编指令_汇编语言指令表

    16位汇编指令_汇编语言指令表汇编语言特点:与机器相关,执行效率高,调试复杂汇编语言优缺点:汇编语言和高级语言混合编写,互补数据表示类型:二进制B,八进制Q,十进制D,十六进制HBCD编码:用二进制来表示十进制数CPU资源和存储器:通用寄存器,标志寄存器,指令寄存器EAX,累加ECX,循环计数EDX,数据寄存器EBX,基址寄存器ESP,栈顶EBP,栈底ESI,扩展源指针EDI,扩

    2022年10月21日
    1
  • Spring Boot 2 学习笔记(1 / 2)[通俗易懂]

    Spring Boot 2 学习笔记(1 / 2)[通俗易懂]01、基础入门-SpringBoot2课程介绍SpringBoot2核心技术SpringBoot2响应式编程学习要求-熟悉Spring基础-熟悉Maven使用环境要求Java8及以上Maven3.3及以上学习资料SpringBoot官网SpringBoot官方文档本课程文档地址视频地址1、视频地址2源码地址02、基础入门-Spring生态圈Spring官网Spring能做什么Spring的能力Spring的生态覆盖了:w

    2022年8月12日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号