python爬虫基础源代码

python爬虫基础源代码1.简单爬取百度网页内容:爬取百度网页源代码:importrequestsr=requests.get(“http://www.baidu.com”)r.status_coder.encodingr.encoding=r.apparent_encodingr.text结果展示:2.爬取网页的通用代码框架:(这里继续选用百度网页)爬取网页的通用代码框架importrequestsdefgetHTMLText(url):try:r=reques

大家好,又见面了,我是你们的朋友全栈君。

1.简单爬取百度网页内容:

爬取百度网页源代码:
import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding
r.encoding=r.apparent_encoding
r.text
结果展示:

在这里插入图片描述
2.爬取网页的通用代码框架:(这里继续选用百度网页)

爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ =="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))
爬取结果展示

在这里插入图片描述
3.京东商品页面爬取

京东商品页面爬取
import requests
url="http://item.jd.com/2967929.html"
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")
爬取结果展示:

在这里插入图片描述
4.亚马逊商品页面的爬取

亚马逊商品爬取源代码
import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv={ 
   'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")
结果展示:

在这里插入图片描述
5.百度搜索全代码

百度搜索全代码
import requests
keyword="Python"
try:
    kv={ 
   'wd':'keyword'}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败!")
结果展示:

在这里插入图片描述
6.360搜索全代码

360搜素全代码
import requests
keyword="Python"
try:
    kv={ 
   'q':keyword}
    r=requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
结果展示:

在这里插入图片描述
7. 图片爬取全代码:

爬取高清图片源代码
import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="D://pics//"
path=root+url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件爬取失败")
except:
    print("爬取失败")

8.用requests库获取源代码:

获取源代码
import requests
r=requests.get("http://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())
soup.title
爬取结果显示:

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135839.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月3日 下午11:40
下一篇 2022年5月3日 下午11:40


相关推荐

  • 现在建网站你会选择自己建站还是在线建站平台?

    现在建网站你会选择自己建站还是在线建站平台?一 什么是网站 网上关于网站的定义很多 在此就不想重复了 简而言之网站就是创建者使用技术手段搭建 从而让访客可以通过域名访问并进行互动的互联网页面组合 通常网站由四个部分组成 1 域名 也就是我们通常称为网址的东东 比如 淘宝 taobao com 百度 baidu com 对于普通用户可以简单理解为域名既网址 域名是网站的访问入口 没有域名的话普通用户无法访问网站就好了 所以域名是网站的重要组成部分 2 程序 这里特指建站程序 网站虽然每一个页面都是由源代码组成的 但即使是程

    2025年6月26日
    5
  • apache 负载均衡 超时设置_apache负载均衡配置

    apache 负载均衡 超时设置_apache负载均衡配置最近因为新疆移动项目的要求,必须要用负载均衡来实现HTTP请求,没办法,我这个人一般是有压力的环境下才会好好学习,所以只有老实的自己来边学边写了。   其实,我们在平时经常听说集群这个名词,但是真正知道的又有几个呢,恩,好了,不讲废话了,我就先给大家扫盲吧,当然,我讲的不一定是对的,我就把我自己知道的讲出来,集群目前分3类吧,科学集群、高可用性集群、负载均衡集群。    科学集群(ScientificClustering,简称SC):使用特殊的软硬件技术将大量的计算能力有限的机器连接成计算能力巨大

    2025年9月4日
    9
  • html设置背景图片透明度代码,css设置图片背景透明度[通俗易懂]

    html设置背景图片透明度代码,css设置图片背景透明度[通俗易懂]我们经常会使用到背景图片,但有时候需要把背景图片设置一个半透明的效果,那么就需要以下的CSS了。这是一个CSS滤镜达到的效果,应用十分广泛。.modbr{filter:alpha(opacity=80);-moz-opacity:0.8;width:auto!important;width:100%}注:代码应用的式CSS中的Alpha滤镜,这个滤镜可以设置目标元素的透明度。还可以通过指定坐标,从…

    2022年5月12日
    55
  • 过滤器与拦截器详解图_过滤器 拦截器

    过滤器与拦截器详解图_过滤器 拦截器过滤器详解依赖于servlet容器,实现基于函数回调,可以对几乎所有请求进行过滤,但是缺点是一个过滤器实例只能在容器初始化时调用一次。使用过滤器的目的是用来做一些过滤操作,获取我们想要获取的数据,过滤器一般用于登录权限验证、资源访问权限控制、敏感词汇过滤、字符编码转换等等操作,便于代码重用,不必每个servlet中进行冗余操作。Java中的Filter并不是一个标准的Servlet,它…

    2022年8月23日
    8
  • Shortcuts(快捷方式) Android7

    Shortcuts(快捷方式) Android7

    2021年10月1日
    123
  • TOEIC科普一下

    TOEIC科普一下有些单位会要求员工进行英语能力的测评 在国内相对有权威的一种考试 可能就算托业了 接下来科普一下 了解下什么是托业考试 一 什么是托业考试托业考试 TOEIC 英文全称是 TESTO

    2026年3月19日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号