python爬虫——淘宝书包

全栈程序员-站长 • 2022年6月17日下午11:46 • 未分类 • 阅读 40

python爬虫——淘宝书包importreimportrequestsdefgetHTMLText(url):try:headers={‘user-agent’:’Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/76.0.3809….

大家好，又见面了，我是你们的朋友全栈君。

import re
import requests
def getHTMLText(url):
    try:
        headers={ 
   
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',
              'cookie': 'cna=NQPPFYICwyoCAW8OdtofQqLm; tracknick=tb31551803; tg=0; enc=rmQMsTLREKmqi0wCPiaesTYWq1FQEkZvJR9RxYQe31E%2B8H%2Bgsg29O3QjlWBYNsk5B4hWdVnoyl9FmqezxIlA0A%3D%3D; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0; t=8b87e0b54eedb63ec79bf6e58120539b; uc3=lg2=V32FPkk%2Fw0dUvg%3D%3D&nk2=F5RGNw0oDsOWmg%3D%3D&vt3=F8dBxdsbDKQbUlBPQ8E%3D&id2=Vy0Qmj0GGZVBZA%3D%3D; lgc=tb31551803; uc4=id4=0%40VXqe5nOGv2p3QUXK2yfB2w2AQ2Rw&nk4=0%40FY4NAqkeavMG4lO%2Fk5N%2Fb5R2Zw6o; _cc_=URm48syIZQ%3D%3D; mt=ci=118_1; JSESSIONID=790849CCFE2C514ABA531615EB3CA8E8; l=cBOcsO94QbHsxX8kBOCNquI8LPbOSIRAkuPRwCcXi_5dc6L_6w_OoSyK1Fp62jWdtfTB4JuaUM29-etkiKy06Pt-g3fP.; isg=BJ2dqUHwn35VGntR9LG1laqSrHmXutEM-IpwbF9i2fQjFr1IJwrh3GuEQQoQmOnE',
}
        r=requests.get(url,timeout=30,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return""
       
def parsePage(ilt,html):
    try:
        plt=re.findall(r'\"view_price\":\"\d+\.\d*\"',html)
        tlt=re.findall(r'\"raw_title\":\".*?\"',html)
        for i in range(len(plt)):
            price=eval(plt[i].split('\"')[3])
            title=tlt[i].split('\"')[3]
            ilt.append([title,price])
    except:
        print("解析出错")

def printGoodsList(ilt):
    tplt="{:^4}\t{:^8}\t{:^16}"
    
    print(tplt.format("序号","价格","商品名称"))
    count=0
    for g in ilt:
        count=count+1
        print(tplt.format(count,g[0],g[1]))
if __name__ == '__main__' :
    goods="书包"
    depth=2
    start_url="https://s.taobao.com/search?q="+goods
    infoList=[]
    for i in range(depth):
        try:
            url=start_url+"$S="+str(44*i)
            html=getHTMLText(url)
            parsePage(infoList,html)
        except:
            continue
    printGoodsList(infoList)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/150125.html原文链接：https://javaforall.net

赞 (0)

全栈程序员-站长

0 0

linux启动网络服务步骤_centos7启动网络服务命令

linux启动网络服务步骤_centos7启动网络服务命令linux系统下重启网络服务的两种方法发布时间：2020-04-0211:25:25来源：亿速云阅读：207作者：小新今天小编给大家分享的是linux系统下重启网络服务的两种方法，很多人都不太了解，今天小编为了让大家更加了解linux系统下重启网络服务的方法，所以给大家总结了以下内容，一起往下看吧。一定会有所收获的哦。Linux启动、关闭、重启网络服务的两种方式：1、使用service脚本来调…

全栈程序员-站长
2022年4月19日
112
范数计算（一范数、二范数、无穷范数）

概念多维数据度量方式：0范数，向量中非零元素的个数。1范数，为绝对值之和。2范数，就是通常意义上的模。无穷范数，就是取向量的最大值。计算题实例

全栈程序员-站长
2022年4月7日
734
苹果app测试_ios上架app费用

苹果app测试_ios上架app费用详细操作地址http://www.applicationloader.net/blog/zh/88.html苹果iOSAPP真机调试测试和上架AppStore视频教程优酷http://v.youku.com/v_show/id_XMzk0MTMyNDM2NA==.html?spm=a2hzp.8244740.0.0转载于:https://www.cnblogs.com/…

全栈程序员-站长
2025年9月20日
6
html静态页面代码_静态网页设计代码

html静态页面代码_静态网页设计代码这个例子我们做一个游戏静态页面，自动跳转到我们想要玩的游戏或者视频等网站大家也可以根绝我的代码，适当修改一些信息，但是套用我的这个模板请注释下来自我这，我也是初学者，辛辛苦苦写了几个小时，尊重下劳动成果先看效果图：我以张杰为背景图，里面是各种网站跳转，比如我点击：冰火人，他就会跳转到4399的冰火人游戏界面。ok,上代码，我觉得比较简单，就没注释，希望能看懂：<!DOCTYPEhtml><html><headlang=”en”><metacha

全栈程序员-站长
2022年9月23日
3
什么都能播放的媒体播放器——Potplayer

什么都能播放的媒体播放器——Potplayer“它体积小巧、界面简洁、解码功能强大、它是视屏播放器的不二之选！”——来自一个朋友“PotPlayerisbyfarthebestvideoplayerIhaveusedyet.Thefactthatit’sfreeisicingonthecake.”——来自另一个朋友没错，它就是本期要介绍的主角Potplayer。

全栈程序员-站长
2022年7月12日
32
java函数式编程：四大Function

java函数式编程：四大Functionjava util function 包下的四大 Function1 Consumer 消费者 publicinterf T voidaccept Tt 从名字可以看出消费者是来消费的它接受一个数据没有任何返回值简单使用比如我们只想打印列表中的每个元素这里的 forEach Consumer 里面接受的参数就是一个 C T

全栈程序员-站长
2025年9月3日
4

发表回复

关注全栈程序员社区公众号