Python网络爬虫之抓取订餐信息「建议收藏」

Python网络爬虫之抓取订餐信息「建议收藏」本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。

大家好,又见面了,我是你们的朋友全栈君。

         本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。      

       1.抓取大众点评网中关村附近的餐馆有哪些

import urllib.request
import re


def fetchFood(url):
    # 模拟使用浏览器浏览大众点评的方式浏览大众点评
    headers = {'User-Agent',
               'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    data = opener.open(url).read()
    data = data.decode('utf')

    print('================================抓取的页面数据=======================================')

    print(data)     # 打印抓取的页面

    print('================================获取的餐馆信息====================================')


    foodNameSet = set(re.compile(r'<img title="(.*?)"', re.DOTALL).findall(data))

    number = 0

    for i in foodNameSet:
        number = number + 1
        print("第%d个餐馆: %s" % (number, i))


foodUrl = "http://www.dianping.com/search/category/2/10/r1488"
fetchFood(foodUrl)

     输出结果:

      

"D:\Program Files\python\python.exe" D:/zhangzh/program/MyGitHub/python3-webapp-demo/www/dzdp.py
================================抓取的页面数据=======================================
<!DOCTYPE html>

<html>
<head>
<meta charset="UTF-8"/>
<meta http-equiv="X-UA-Compatible" content="IE=edge"/>
<script>(function(n){var e;e="//catdot.dianping.com/broker-service/api/js",n.οnerrοr=function(n,o,r){var i=encodeURIComponent,t=+new Date();(new Image).src=e+"?error="+i(n)+"&file="+i(o)+"&line="+i(r)+"×tamp="+t}})(window);</script>
<title>北京中关村美食-大众点评网</title>
 
 ......此处省略


<li class="" >
                        <div class="pic" >
                            <a target="_blank" href="/shop/33562041" rel="nofollow" title=""  >
                                <img title="渝是乎(中关村店)" alt="渝是乎(中关村店)" data-src="http://p0.meituan.net/ugcpic/023ff4be1a239be5b7f13ac328bc6c5d%40249w_249h_0e_1l%7Cwatermark%3D1%26%26r%3D1%26p%3D9%26x%3D2%26y%3D2%26relative%3D1%26o%3D20"/>
                            </a>
                        </div>

                        <div class="txt">

                            <div class="tit">
                                <a οnclick="document.hippo.ext({cl_i:10,query_id:'4ab097b5-d3b6-441b-a684-8b58c0704567'}).mv('cl_to_s',33562041);
" data-hippo-type="shop" title="渝是乎(中关村店)" target="_blank" href="/shop/33562041"  >
                                    <h4>渝是乎(中关村店)</h4>
                                </a>


                                <div class="promo-icon">
                    
      
                                             
            

                        


            
            <a rel="nofollow" target="_blank" href="/shop/33562041#waimai"
class="iout" title="本店支持在线下单,足不出户,外送到家!" ></a>
                                </div>

                                <a target="_blank" href="/search/branch/2/0_33562041/g0"
                    module="list-branch" 
                    
                     class="shop-branch">分店</a>


                                
                            </div>

                            <div class="comment">
                                <span class="sml-rank-stars sml-str50" title="五星商户"></span>
                    
                                <a href="/shop/33562041#comment" class="review-num" target="_blank" module="list-readreview" 
                   rel="nofollow">
                    <b>1536</b>
                    条点评</a>
                    
                                <em class="sep">|</em>
                                <a href="/shop/33562041" class="mean-price" target="_blank" >
                                    人均
                                        <b>¥42</b>
                                        </span>
                                </a>

                            </div>
                            <div class="tag-addr">
                                <a href = "/search/category/2/10/g102" ><span class="tag">川菜</span></a>
                                <em class="sep">|</em>
                                <a href = "/search/category/2/0/r1488" ><span class="tag">中关村</span></a>
                                <span class="addr">榆树林1号</span>
                            </div>
                                <span class="comment-list">
                                <span >口味<b>9.1</b></span>
                                <span >环境<b>8.7</b></span>
                                <span >服务<b>8.3</b></span>
                                 </span>


                        </div>


                        <div class="svr-info">

 

 ......此处省略

 
 
</script>
</body></html>

================================获取的餐馆信息====================================
第1个餐馆: 重八牛府(之初入江湖店)
第2个餐馆: 纽约客美式餐厅(新中关店)
第3个餐馆: Chatuchak加都加曼谷潮流甜品
第4个餐馆: 新净雅烹小鲜
第5个餐馆: 那家小馆(中关村店)
第6个餐馆: 谷得一
第7个餐馆: 唐廊.朴禅(当代商城店)
第8个餐馆: 小福楼餐厅
第9个餐馆: 食宝街
第10个餐馆: 渝是乎(中关村店)
第11个餐馆: 品咖啡
第12个餐馆: 小吊梨汤(融科店)
第13个餐馆: 鱼八斗老麻水煮鱼(酸菜鱼)
第14个餐馆: 鳗鳗的爱(新中关购物中心店)
第15个餐馆: 速度牛排

Process finished with exit code 0

        2. 抓取中关村附近的餐馆的评价信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149560.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Kafka常见面试题

    1什么是kafkaKafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。2为什么要使用kafka,为什么要使用消息队列缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓…

    2022年4月4日
    44
  • stringutils中的isempty和isblank_java stringbuilder和stringbuffer

    stringutils中的isempty和isblank_java stringbuilder和stringbuffer主要的区别在于“空格”判断isNotEmpty(”空格”)=>true isNotBlank(”空格”)=>falseisNotEmpty(str)等价于str!=null&&str.length>0isNotBlank(str)等价于str!=null&&str.length>0&am…

    2022年9月1日
    1
  • idea设置eclipse风格「建议收藏」

    1.修改使用Eclipse风格的快捷键步骤:File–&gt;settings–&gt;keymap,选择eclipse,点击apply生效…

    2022年4月13日
    80
  • python encode和decode傻傻分不清楚「建议收藏」

    python encode和decode傻傻分不清楚「建议收藏」一、字符串和字节串的区别1、字符串:我们最常挂在嘴边的,”普通字符串“,是给人看的,在python中是str类型,str使用的是unicode编码,可通过encode()方法编码为字节串2、字节串:有时也叫“二进制字符串”,是给机器看的,在python中是bytes类型,bytes有编码格式,如utf-8(默认),gbk,可以通过decode()方法解码为字符串具体操作如下1、程序从文件或其他外部存储读取字节串内容,要将基解码为字符串,然后再内部使用2、程序完成处理,要把字符串写入文件

    2022年10月6日
    1
  • Web漏洞扫描神器:xray

    Web漏洞扫描神器:xray一.Xray简介:xray是从长亭洞鉴核心引擎中提取出的社区版漏洞扫描神器,支持主动、被动多种扫描方式,自备盲打平台、可以灵活定义POC,功能丰富,调用简单,支持Windows/macOS/Linux多种操作系统,可以满足广大安全从业者的自动化Web漏洞探测需求二.下载地址:GitHub项目地址:https://github.com/chaitin/xray下载地址:https://download.xray.cool/xray/1.7.0三.版本说明:..

    2022年5月30日
    104
  • Python – 0b、0o、0x

    Python – 0b、0o、0xa=0b010b=0o010c=0x010print(type(a),a)print(type(b),b)print(type(c),c)#————-print(0b010&0b111)print(0b001|0b010)print(0b010^0b100)print(~0b001)#原码->补码->求原码(原码的值+符…

    2022年6月24日
    29

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号