爬取7160美女图片

爬取7160美女图片#coding=utf-8importurllib.requestfrombs4importBeautifulSoupfromurllibimporterrorimportrels=[‘zhenrenxiu’,’meinv’,"lianglichemo",’rentiyishu’,’xiaohua’]defvalidateTitle(title):rstr=r"…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

#coding=utf-8

import urllib.request
from bs4 import BeautifulSoup
from urllib import error
import re
ls = ['zhenrenxiu','meinv',"lianglichemo",'rentiyishu','xiaohua']
def validateTitle(title):
rstr = r"[\/\\\:\*\?\"\<\>\|]" # '/ \ : * ? " < > |'
new_title = re.sub(rstr, "_", title) # 替换为下划线
return new_title

for j in range(1,60000):
url_origin = "http://www.7160.com/xiaohua/"+str(j)
try:
page_obj = urllib.request.urlopen(url_origin)
page_soup = BeautifulSoup(page_obj,'lxml')
total_page_obj = page_soup.find(text=re.compile('共')).string
pattern = re.compile(r'\d+')
match = pattern.search(total_page_obj)

if match == None:
total_page = 0;
else:
total_page = match.group();

for i in range(1,int(total_page)):
if i == 1 :
url = url_origin+"/index.html"
else:
url = url_origin+"/index_"+str(i)+".html"
request = urllib.request.Request(url)
try:
res = urllib.request.urlopen(request)

soup = BeautifulSoup(res,'lxml')
title_obj = soup.find(attrs={"class":"picmainer"})

if title_obj is not None:
print(url)
title = title_obj.h1.string
content = soup.find('img')
src = content.get("src")

file_name = validateTitle(title)+".jpg"
urllib.request.urlretrieve(src, "D://img2/"+file_name)
print(file_name+"保存成功")
except Exception as e:
print("异常"+str(j))
except Exception as e:
print("异常"+str(j))

Jetbrains全家桶1年46,售后保障稳定

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/207160.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • peoplesoft笔记「建议收藏」

    peoplesoft笔记「建议收藏」PeopleCode语言结构本主题假定您熟悉一种编程语言,例如C、VisualBasic或Java。在其基础上,PeopleCode语法类似于其他编程语言。但是,PeopleCode语言的某些方面与PeopleTools环境特别相关。例如,定义名称引用使您能够在不使用硬编码字符串文字的情况下引用PeopleTools定义,例如记录定义或页面。其他语言特性,如PeopleCode数据类型和元字符串,反映了PeopleTools和SQL的密切交互。PeopleCode中的

    2022年10月23日
    1
  • 关于 Android 程序员最近的状况

    关于 Android 程序员最近的状况-关于Android的近况大家都知道,今年移动开发不那么火热了,完全没有了前两年Android开发那种火热的势头,如此同时,AI热火朝天,很多言论都说Android不行了。其实不光是Android,iOS也有类似的言论。那么到底如何看待这一现象呢?我的答案是:Android还行,只是回归平淡了,没有了前些年的火热。-为什么Android还行?如何看待一个行业行不行?有两点:这个行业有没有死亡?…

    2022年6月14日
    150
  • R-向量内积外积[通俗易懂]

    R-向量内积外积[通俗易懂]http://f.dataguru.cn/thread-310494-1-1.htmlhttps://blog.csdn.net/paoxungan5156/article/details/83620632

    2022年9月2日
    2
  • Java关键字(50个)(超详细!)[通俗易懂]

    Java关键字(50个)(超详细!)[通俗易懂]关键字大致含义abstract表明类或者成员方法具有抽象属性assert断言,用来进行程序调试boolean基本数据类型之一,声明布尔类型的关键字break提前跳出一个块byte基本数据类型之一,字节类型case用在switch语句之中,表示其中的一个分支…

    2022年7月8日
    22
  • LightOJ 1027 A Dangerous Maze 概率期望

    LightOJ 1027 A Dangerous Maze 概率期望

    2022年3月7日
    32
  • 多级时间轮定时器_时间轮与哈希表定时

    多级时间轮定时器_时间轮与哈希表定时时间轮简述顾名思义,时间轮就像一个轮子,在转动的时候外界会指向轮子不同的区域,该区域就可以被使用。因此只要将不同时间的定时器按照一定的方法散列到时间轮的不同槽(即时间轮划分的区域)之中,就可以实现在运转到某个槽时,进行判断该定时器是否已经到达运行时间(需要判断是由于有的定时器并非在这一圈就需要运行,可能需要后面几圈才会运行。从图中也可以看出,每个槽中的定时器是以(双向)链表…

    2022年9月29日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号