requests爬取百度音乐

requests爬取百度音乐

 

使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来。

首先进行url分析,可以看到:

歌手网页:

<span>requests爬取百度音乐</span>

薛之谦网页:

<span>requests爬取百度音乐</span>

可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码:

# -*- coding: utf-8 -*-
"""
Created on Sat Dec 30 14:18:33 2017

@author: 24630
"""

import requests
from lxml import etree
import urllib.parse as urlparse

# 获得热门的前几个有封面的歌手
def get_info_artist(url):
    html = requests.get(url).text
    html=etree.HTML(html)
    hotlist = html.xpath('//div[@class="hot-head clearfix"]/dl/dd/a[1]/@href')    
    return hotlist

def get_info_single(url):
    html = requests.get(url).text
    html=etree.HTML(html)
    songlist = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/text()') 
    albumlist = html.xpath('//div[@class="song-item"]//span[@class="album-title"]/a[1]/text()') 
    downloadUrl = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@href')
    
    #无法找到下一页的跳转连接
    #next_page = //div[@class="page-inner"]/a[last()]/text()
    print(len(songlist))
    


url = 'http://music.baidu.com/artist'
hotlist = get_info_artist(url)
#urljoin主要是拼接URL,
#它以base作为其基地址,
#然后与url中的相对地址相结合组成一个绝对URL地址。
#函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。
#需要注意的是:
#如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。
#如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。

for u in hotlist:
    #获得单个歌手的链接
    url_singer = urlparse.urljoin(url,u)
    get_info_single(url_singer)

  可以看到,我读完一页后,想要继续进行下一页的数据的获取就没那么容易了。

<span>requests爬取百度音乐</span>

有时候显示:

<span>requests爬取百度音乐</span>

 

至于怎么获得下一页的信息:

<span>requests爬取百度音乐</span>

通过上面可以分析,上面三处有数据的地方分别是点击下一页的时候产生的,可以在上面找一下。

这个时候,可以分析到:

实际上,跳转路径的动态请求隐藏在:

<span>requests爬取百度音乐</span>

这样一个路径下。

因此,实际上可以构建该路径进行获取歌曲信息。

<span>requests爬取百度音乐</span>

可以看到,该路径下动态请求的页面是一个json格式数据,可以通过json解析,获取其中的html源码。

 

 代码修改为:

import requests
from lxml import etree
import urllib.parse as urlparse
import json,re,os
import sqlite3

def writeDB(song_dict):
    global num
    c = conn.cursor()
    sql = '''insert into baiduMusic (id, songName,singer,albumname,download) values (?,?,?,?,?)'''
    para = (num,song_dict['歌曲'],song_dict['歌手'],song_dict['专辑'],song_dict['下载路径'])
    c.execute(sql,para)
    conn.commit()
    num += 1


# 获得热门的前几个有封面的歌手
def get_info_artist(url):
    html = requests.get(url).text
    html=etree.HTML(html)
    hotlist = html.xpath('//div[@class="hot-head clearfix"]/dl/dd/a[1]/@href')    
    return hotlist

def get_info_single(url):
    re_com = re.compile('artist/(\d+)') 
    ting_uid = re_com.findall(url)[0]
    get_info_single_page(0,ting_uid)
    
def get_info_single_page(i,ting_uid):
    page = 'http://music.baidu.com/data/user/getsongs?start={0}&ting_uid={1}'.format(i,ting_uid)

    html = requests.get(page).text
    html = json.loads(html)["data"]["html"]
    html=etree.HTML(html)
    songlist = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/text()') 
    albumlist = html.xpath('//div[@class="song-item"]//span[@class="album-title"]/a[1]/text()') 
    downloadUrl = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@href')
    try:
        singer = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@title')[0]
        re_com = re.compile('(\S+?)《') 
    
        #这种解析歌手的方法不好,为了省事先这么弄的
        singer = re_com.findall(singer)[0]
    except:
        singer = ' '
    print(singer)
    for songName,album,download in zip(songlist,albumlist,downloadUrl):
        song_dict = {}
        song_dict['歌曲'] = songName
        song_dict['歌手'] = singer
        song_dict['专辑'] = album
        song_dict['下载路径'] = download
        writeDB(song_dict)
    #歌曲都获取全了,即获得某一页歌曲数少于25
    if (len(songlist) == 25):    
        get_info_single_page(i+25,ting_uid)



num = 1
if not os.path.isfile('test.db'):
    conn = sqlite3.connect('test.db')
    
    c = conn.cursor()
    c.execute('''create table baiduMusic (id integer primary key,songName varchar(10),singer varchar(10),
                                                   albumname varchar(10),
                                                   download varchar(10));''')
    conn.commit()
else:
    conn = sqlite3.connect('test.db')
url = 'http://music.baidu.com/artist'
hotlist = get_info_artist(url)
#urljoin主要是拼接URL,
#它以base作为其基地址,
#然后与url中的相对地址相结合组成一个绝对URL地址。
#函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。
#需要注意的是:
#如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。
#如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。

for u in hotlist:
    #获得单个歌手的链接
    url_singer = urlparse.urljoin(url,u)
    get_info_single(url_singer)

conn.close()

  

 

最终获得效果:

<span>requests爬取百度音乐</span>

 

当然,上面的download链接是歌曲的跳转链接,如果需要下载的话,可以继续分析:

<span>requests爬取百度音乐</span>

如上,可以继续分析如何构建歌曲文件的url,然后完成下载。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119473.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • USB协议基础篇

    USB协议基础篇初次接触USB的同学,可能会被里面各种名词给搞晕,下面就来梳理一下这些知识,希望能帮助大家理解USB。文章目录 一,从最常见的名词说起 1.1什么是USB 1.2USB协议版本 1.3USB接口分类 1.4PIPE 1.5endpoint 1.6管道通信方式 1.7传输方式 1.7逻辑设备 1.8interface 1.9class协议 1.10host/device 二,USB框架/拓扑结构

    2022年6月18日
    41
  • 经典vbs代码收集「建议收藏」

    经典vbs代码收集「建议收藏」经典vbs代码收集2011年01月17日  经典的vbs代码,收集起来也为了以后学习。  VBS脚本用途很多:  1.计算  2.处理文件和文件夹  3.管理Windows  4.处理Word,Excel,PowerPoint等Office文档  5.嵌入网页,驱动dHTML  6.编写HTTP通信  7.调用系统功能…

    2022年5月18日
    58
  • Spring Boot 配置ContextPath「建议收藏」

    Spring Boot 配置ContextPath「建议收藏」Springboot默认是/ ,这样直接通过http://ip:port/就可以访问到index页面,如果要修改为http://ip:port/path/ 访问的话,那么需要在Application.properties文件中加入server.context-path=/你的path,比如:spring-boot,那么访问地址就是http://ip:port/spring-boot路径。

    2022年9月14日
    0
  • 多项式曲线拟合之最小二乘法推导[通俗易懂]

    多项式曲线拟合之最小二乘法推导[通俗易懂]1、多项式曲线拟合之最小二乘法1.1问题来源1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的已有观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。只有时年24岁的高斯所计算的谷神星的轨道,被奥地利天文学家海因里希·奥尔伯斯的观测所证实,使天文界从此可以预测到谷神星的精确位置。同样的方法也产生了哈雷彗星等很多天文学成果。高斯使用的方法就是最小二乘法,

    2022年5月17日
    53
  • Cydia中文源_最新cydia源地址大全

    Cydia中文源_最新cydia源地址大全Cydia中文源大全cydia.hackulo.us大名鼎鼎的Hackulo源,资源不多,但都几乎是必须的,我的appsync,Installous等一般就在这里面进行安装如果你要装googlemap补丁,就要加/julio-skype/macanavari//omkff//iPhone-I//suik/无语资源仓iphone.**.com/cydia/电玩扒屎的Cydia源,资源丰…

    2022年9月20日
    0
  • 代理模式(proxy)

    前言 代理模式是一个大类,而且会经常用到,它包含了远程代理,虚拟代理,防火墙代理等,当然还有动态代理了,学过spring的人应该不陌生。 各种代理模式样式差别很大,不容易从程序上辨认,但是可以从功能上认出来,今天我就举个例子聊聊代理模式最基本的样子,从例子中认识代理模式。 举例为静态代理的基本应用,稍后再介绍代理模式的一些特点。  情境引入      本次我们以滴滴为例…

    2022年4月4日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号