Python网络爬虫之抓取订餐信息「建议收藏」

Python网络爬虫之抓取订餐信息「建议收藏」本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。

大家好,又见面了,我是你们的朋友全栈君。

         本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。      

       1.抓取大众点评网中关村附近的餐馆有哪些

import urllib.request
import re


def fetchFood(url):
    # 模拟使用浏览器浏览大众点评的方式浏览大众点评
    headers = {'User-Agent',
               'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    data = opener.open(url).read()
    data = data.decode('utf')

    print('================================抓取的页面数据=======================================')

    print(data)     # 打印抓取的页面

    print('================================获取的餐馆信息====================================')


    foodNameSet = set(re.compile(r'<img title="(.*?)"', re.DOTALL).findall(data))

    number = 0

    for i in foodNameSet:
        number = number + 1
        print("第%d个餐馆: %s" % (number, i))


foodUrl = "http://www.dianping.com/search/category/2/10/r1488"
fetchFood(foodUrl)

     输出结果:

      

"D:\Program Files\python\python.exe" D:/zhangzh/program/MyGitHub/python3-webapp-demo/www/dzdp.py
================================抓取的页面数据=======================================
<!DOCTYPE html>

<html>
<head>
<meta charset="UTF-8"/>
<meta http-equiv="X-UA-Compatible" content="IE=edge"/>
<script>(function(n){var e;e="//catdot.dianping.com/broker-service/api/js",n.οnerrοr=function(n,o,r){var i=encodeURIComponent,t=+new Date();(new Image).src=e+"?error="+i(n)+"&file="+i(o)+"&line="+i(r)+"×tamp="+t}})(window);</script>
<title>北京中关村美食-大众点评网</title>
 
 ......此处省略


<li class="" >
                        <div class="pic" >
                            <a target="_blank" href="/shop/33562041" rel="nofollow" title=""  >
                                <img title="渝是乎(中关村店)" alt="渝是乎(中关村店)" data-src="http://p0.meituan.net/ugcpic/023ff4be1a239be5b7f13ac328bc6c5d%40249w_249h_0e_1l%7Cwatermark%3D1%26%26r%3D1%26p%3D9%26x%3D2%26y%3D2%26relative%3D1%26o%3D20"/>
                            </a>
                        </div>

                        <div class="txt">

                            <div class="tit">
                                <a οnclick="document.hippo.ext({cl_i:10,query_id:'4ab097b5-d3b6-441b-a684-8b58c0704567'}).mv('cl_to_s',33562041);
" data-hippo-type="shop" title="渝是乎(中关村店)" target="_blank" href="/shop/33562041"  >
                                    <h4>渝是乎(中关村店)</h4>
                                </a>


                                <div class="promo-icon">
                    
      
                                             
            

                        


            
            <a rel="nofollow" target="_blank" href="/shop/33562041#waimai"
class="iout" title="本店支持在线下单,足不出户,外送到家!" ></a>
                                </div>

                                <a target="_blank" href="/search/branch/2/0_33562041/g0"
                    module="list-branch" 
                    
                     class="shop-branch">分店</a>


                                
                            </div>

                            <div class="comment">
                                <span class="sml-rank-stars sml-str50" title="五星商户"></span>
                    
                                <a href="/shop/33562041#comment" class="review-num" target="_blank" module="list-readreview" 
                   rel="nofollow">
                    <b>1536</b>
                    条点评</a>
                    
                                <em class="sep">|</em>
                                <a href="/shop/33562041" class="mean-price" target="_blank" >
                                    人均
                                        <b>¥42</b>
                                        </span>
                                </a>

                            </div>
                            <div class="tag-addr">
                                <a href = "/search/category/2/10/g102" ><span class="tag">川菜</span></a>
                                <em class="sep">|</em>
                                <a href = "/search/category/2/0/r1488" ><span class="tag">中关村</span></a>
                                <span class="addr">榆树林1号</span>
                            </div>
                                <span class="comment-list">
                                <span >口味<b>9.1</b></span>
                                <span >环境<b>8.7</b></span>
                                <span >服务<b>8.3</b></span>
                                 </span>


                        </div>


                        <div class="svr-info">

 

 ......此处省略

 
 
</script>
</body></html>

================================获取的餐馆信息====================================
第1个餐馆: 重八牛府(之初入江湖店)
第2个餐馆: 纽约客美式餐厅(新中关店)
第3个餐馆: Chatuchak加都加曼谷潮流甜品
第4个餐馆: 新净雅烹小鲜
第5个餐馆: 那家小馆(中关村店)
第6个餐馆: 谷得一
第7个餐馆: 唐廊.朴禅(当代商城店)
第8个餐馆: 小福楼餐厅
第9个餐馆: 食宝街
第10个餐馆: 渝是乎(中关村店)
第11个餐馆: 品咖啡
第12个餐馆: 小吊梨汤(融科店)
第13个餐馆: 鱼八斗老麻水煮鱼(酸菜鱼)
第14个餐馆: 鳗鳗的爱(新中关购物中心店)
第15个餐馆: 速度牛排

Process finished with exit code 0

        2. 抓取中关村附近的餐馆的评价信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149560.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux smartctl 命令,Linux下硬盘检测工具smartmontools(smartctl)使用方法

    linux smartctl 命令,Linux下硬盘检测工具smartmontools(smartctl)使用方法安装:yuminstallsmartmontoolshelp:#smartctl–helpsmartctlversion5.38[i686-redhat-linux-gnu]Copyright(C)2002-8BruceAllenHomepageishttp://smartmontools.sourceforge.net/Usage:smartctl[options…

    2022年10月8日
    0
  • 谷歌浏览器报错 Active resource loading counts reached to a per-frame

    谷歌浏览器报错 Active resource loading counts reached to a per-frame

    2021年11月8日
    79
  • datax(18):源码解读Transformer

    datax(18):源码解读Transformer现在很多场景都把datax当做ETL工具,datax中的各种reader相当于E(Extract),各种writer相当于L(load),那么datax中是否有T(transform)。答案是肯定的~一、概述transformer作用:在生产上数据传输,一般情况下只需要rw就行,但是有时候需要在中间过程做些操作,比如加解密、切割、拼接等等,这个时候就需要transform了。族谱datax中的transform有2个顶级祖宗,简单类型的Transformer和复杂类型的ComplexTran.

    2022年5月13日
    82
  • es6字符串的方法_es6模板字符串

    es6字符串的方法_es6模板字符串       模板字符串(templatestring)也就是模板字面量,是增强版的字符串,用反引号(`)来表示。它既可以当作普通字符串来使用,也可以在字符串中嵌套变量。注意:在模板字符串中嵌入变量的时候,需要将变量名写在${}中。       传统…

    2022年8月21日
    3
  • 从大量的IP访问记录中找到访问次数最多的IP

    从大量的IP访问记录中找到访问次数最多的IP

    2021年11月4日
    39
  • SRC挖掘—web不安全的直接对象引用 (IDOR)漏洞-3day

    SRC挖掘—web不安全的直接对象引用 (IDOR)漏洞-3day什么是IDOR?当应用程序根据用户提供的输入提供对对象的直接访问时,就会发生不安全的直接对象引用(IDOR)。由于此漏洞,攻击者可以绕过授权并直接访问系统中的资源,例如数据库记录或文件。不安全的直接对象引用允许攻击者通过修改用于直接指向对象的参数值来绕过授权并直接访问资源。这些资源可以是属于其他用户的数据库条目、系统中的文件等等。这是因为应用程序接受用户提供的输入并使用它来检索对象而没有执行足够的授权检查。(来源:OWASP)让我们看一个例子。想象一下,您正在使用一个文档共享平台。您可以上传..

    2022年6月5日
    36

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号