Python网络爬虫之抓取订餐信息「建议收藏」

Python网络爬虫之抓取订餐信息「建议收藏」本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。

大家好,又见面了,我是你们的朋友全栈君。

         本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。      

       1.抓取大众点评网中关村附近的餐馆有哪些

import urllib.request
import re


def fetchFood(url):
    # 模拟使用浏览器浏览大众点评的方式浏览大众点评
    headers = {'User-Agent',
               'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    data = opener.open(url).read()
    data = data.decode('utf')

    print('================================抓取的页面数据=======================================')

    print(data)     # 打印抓取的页面

    print('================================获取的餐馆信息====================================')


    foodNameSet = set(re.compile(r'<img title="(.*?)"', re.DOTALL).findall(data))

    number = 0

    for i in foodNameSet:
        number = number + 1
        print("第%d个餐馆: %s" % (number, i))


foodUrl = "http://www.dianping.com/search/category/2/10/r1488"
fetchFood(foodUrl)

     输出结果:

      

"D:\Program Files\python\python.exe" D:/zhangzh/program/MyGitHub/python3-webapp-demo/www/dzdp.py
================================抓取的页面数据=======================================
<!DOCTYPE html>

<html>
<head>
<meta charset="UTF-8"/>
<meta http-equiv="X-UA-Compatible" content="IE=edge"/>
<script>(function(n){var e;e="//catdot.dianping.com/broker-service/api/js",n.οnerrοr=function(n,o,r){var i=encodeURIComponent,t=+new Date();(new Image).src=e+"?error="+i(n)+"&file="+i(o)+"&line="+i(r)+"×tamp="+t}})(window);</script>
<title>北京中关村美食-大众点评网</title>
 
 ......此处省略


<li class="" >
                        <div class="pic" >
                            <a target="_blank" href="/shop/33562041" rel="nofollow" title=""  >
                                <img title="渝是乎(中关村店)" alt="渝是乎(中关村店)" data-src="http://p0.meituan.net/ugcpic/023ff4be1a239be5b7f13ac328bc6c5d%40249w_249h_0e_1l%7Cwatermark%3D1%26%26r%3D1%26p%3D9%26x%3D2%26y%3D2%26relative%3D1%26o%3D20"/>
                            </a>
                        </div>

                        <div class="txt">

                            <div class="tit">
                                <a οnclick="document.hippo.ext({cl_i:10,query_id:'4ab097b5-d3b6-441b-a684-8b58c0704567'}).mv('cl_to_s',33562041);
" data-hippo-type="shop" title="渝是乎(中关村店)" target="_blank" href="/shop/33562041"  >
                                    <h4>渝是乎(中关村店)</h4>
                                </a>


                                <div class="promo-icon">
                    
      
                                             
            

                        


            
            <a rel="nofollow" target="_blank" href="/shop/33562041#waimai"
class="iout" title="本店支持在线下单,足不出户,外送到家!" ></a>
                                </div>

                                <a target="_blank" href="/search/branch/2/0_33562041/g0"
                    module="list-branch" 
                    
                     class="shop-branch">分店</a>


                                
                            </div>

                            <div class="comment">
                                <span class="sml-rank-stars sml-str50" title="五星商户"></span>
                    
                                <a href="/shop/33562041#comment" class="review-num" target="_blank" module="list-readreview" 
                   rel="nofollow">
                    <b>1536</b>
                    条点评</a>
                    
                                <em class="sep">|</em>
                                <a href="/shop/33562041" class="mean-price" target="_blank" >
                                    人均
                                        <b>¥42</b>
                                        </span>
                                </a>

                            </div>
                            <div class="tag-addr">
                                <a href = "/search/category/2/10/g102" ><span class="tag">川菜</span></a>
                                <em class="sep">|</em>
                                <a href = "/search/category/2/0/r1488" ><span class="tag">中关村</span></a>
                                <span class="addr">榆树林1号</span>
                            </div>
                                <span class="comment-list">
                                <span >口味<b>9.1</b></span>
                                <span >环境<b>8.7</b></span>
                                <span >服务<b>8.3</b></span>
                                 </span>


                        </div>


                        <div class="svr-info">

 

 ......此处省略

 
 
</script>
</body></html>

================================获取的餐馆信息====================================
第1个餐馆: 重八牛府(之初入江湖店)
第2个餐馆: 纽约客美式餐厅(新中关店)
第3个餐馆: Chatuchak加都加曼谷潮流甜品
第4个餐馆: 新净雅烹小鲜
第5个餐馆: 那家小馆(中关村店)
第6个餐馆: 谷得一
第7个餐馆: 唐廊.朴禅(当代商城店)
第8个餐馆: 小福楼餐厅
第9个餐馆: 食宝街
第10个餐馆: 渝是乎(中关村店)
第11个餐馆: 品咖啡
第12个餐馆: 小吊梨汤(融科店)
第13个餐馆: 鱼八斗老麻水煮鱼(酸菜鱼)
第14个餐馆: 鳗鳗的爱(新中关购物中心店)
第15个餐馆: 速度牛排

Process finished with exit code 0

        2. 抓取中关村附近的餐馆的评价信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149560.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 安全帽识别系统的应用

    安全帽识别系统的应用应用背景施工现场,安全帽作为一种最常见和实用的个人防护用具,能够有效地防止和减轻外来危险源对头部的伤害。然而,长期以来,我国施工区作业人员普遍存在综合素质低、安全意识不强的问题,尤其缺乏基础防护设施(如安全帽)的佩戴意识,大大增加了作业风险。传统的人工监管存在如下缺点:一、人力成本增加;二、人工长时间监控易疲劳,致使监控的疏忽、遗漏或者误判安全隐患;三、人工监控和人员情绪、状态、工作经…

    2022年5月19日
    45
  • JSON C# Class Generator —由json字符串生成C#实体类的工具

    JSON C# Class Generator —由json字符串生成C#实体类的工具

    2022年4月2日
    91
  • mysql8.0配置允许远程连接_设置允许远程连接

    mysql8.0配置允许远程连接_设置允许远程连接一.设置Mysql远程登陆1.登进MySQL2.输入以下语句,进入mysql库:usemysql3.更新域属性,’%’表示允许任意IP地址访问:updateusersethost=’%’whereuser=’root’;4.执行以上语句之后再执行:FLUSHPRIVILEGES;5.再执行授权语句:GRANTALLPRIVI……

    2022年10月9日
    0
  • DispatcherServlet contextConfigLocation

    DispatcherServlet contextConfigLocation//ClassPathXmlApplicationContext是读取src目录下的配置文件ApplicationContextapp=newClassPathXmlApplicationContext("applicationContext.xml");//FileSystemXmlApplicationContext即系统文件路径,文件的目录。Applica…

    2022年7月12日
    14
  • Linux系统安装,教你安装一个属于自己的Linux系统

    Linux系统安装,教你安装一个属于自己的Linux系统一、Linux的简介1.Linux抽象解释肯定有人和我一样,很早就听说过Linux的这个词,但是又没接触过。然后随手百度一下看着满满的命令惊呆了,不知道从哪里开始学习。这种状况一直维持到我面试的时候,我不怕跟你们说,我拿着写着“熟悉Linux的系统”的简历去面试,其实当时的我都没有了解Linux的到底是什么!我相信大家肯定都用过的Windo…

    2022年6月2日
    40
  • redis命令

    redis命令redis命令

    2022年4月24日
    44

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号