python爬虫基础源代码

python爬虫基础源代码1.简单爬取百度网页内容:爬取百度网页源代码:importrequestsr=requests.get(“http://www.baidu.com”)r.status_coder.encodingr.encoding=r.apparent_encodingr.text结果展示:2.爬取网页的通用代码框架:(这里继续选用百度网页)爬取网页的通用代码框架importrequestsdefgetHTMLText(url):try:r=reques

大家好,又见面了,我是你们的朋友全栈君。

1.简单爬取百度网页内容:

爬取百度网页源代码:
import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding
r.encoding=r.apparent_encoding
r.text
结果展示:

在这里插入图片描述
2.爬取网页的通用代码框架:(这里继续选用百度网页)

爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ =="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))
爬取结果展示

在这里插入图片描述
3.京东商品页面爬取

京东商品页面爬取
import requests
url="http://item.jd.com/2967929.html"
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")
爬取结果展示:

在这里插入图片描述
4.亚马逊商品页面的爬取

亚马逊商品爬取源代码
import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv={ 
   'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")
结果展示:

在这里插入图片描述
5.百度搜索全代码

百度搜索全代码
import requests
keyword="Python"
try:
    kv={ 
   'wd':'keyword'}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败!")
结果展示:

在这里插入图片描述
6.360搜索全代码

360搜素全代码
import requests
keyword="Python"
try:
    kv={ 
   'q':keyword}
    r=requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
结果展示:

在这里插入图片描述
7. 图片爬取全代码:

爬取高清图片源代码
import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="D://pics//"
path=root+url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件爬取失败")
except:
    print("爬取失败")

8.用requests库获取源代码:

获取源代码
import requests
r=requests.get("http://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())
soup.title
爬取结果显示:

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135839.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • codeblocks中文编码问题

    codeblocks中文编码问题其实这是老调重弹的问题了,在windows下面出现中文乱码大多都是编码格式的问题不一致的问题,最简单的就是uft-8和gbk冲突的问题。如果一个文件本来是以utf-8存的,但是以gbk打开,当然会出现乱码了。方法一:用utf-8打开文件linux中中文常用的格式是utf-8,minGW是gcc的编译器,默认是utf-8格式,但是我们打开Setting/Editor/EncodingSetting

    2022年7月26日
    6
  • 文件读写的理论

    文件读写的理论

    2022年1月20日
    39
  • 谈谈几个 Spring Cloud 常见面试题及答案

    来自:Wbw Belief 链接:blog.csdn.net/qq_41497111/article/details/92067565 全文目录 什么是微服务? 微服务之间如何独立…

    2021年6月23日
    115
  • 快速查找Python安装路径方法「建议收藏」

    快速查找Python安装路径方法「建议收藏」我相信一定有很多的人跟我一样,经常忘记Python安装的路径,每当用到的时候,最笨的办法就是在全局电脑里,直接查找Python,这样是肯定能查到的,但是如果你的电脑文件超级多,这将是一个工厂量很大的事情,你要等好久的。便捷的方法时:打开我们的cmd命令输入Python输入importsys输入print(sys.path)列表中的第五个将是你的安装路径…

    2022年6月12日
    48
  • 数据库的存储系列———将图片存储到数据库

    数据库的存储系列———将图片存储到数据库数据库的存储—系列———将图片存储到数据库在很多时候我们都使用数据库才存储我们的数据,然而我们通常在数据库里面存放的数据大多都支持数或者是一些字符,那么如果我们想在数据库里面存放图片,那么应该要怎么做的?第一,我们可以将图片所在的路径或者URI存入到数据库里面,这样简单方便。不过这样的缺点也很显然,就是图片路径改变的时候,我们没有办法通过数据库来获取这一张图片。所以这种方法并不是我们所想要的将图片存

    2022年7月12日
    18
  • github加速插件

    github加速插件在chrome或edge的插件库里搜索github加速,安装后访问github,和在github上下东西都很快

    2025年6月15日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号