from pyquery import PyQuery as pq「建议收藏」

from pyquery import PyQuery as pq「建议收藏」了解更多关注微信公众号“木下学Python”吧~1.爬取知乎-发现-热门话题的问答:importrequestsfrompyqueryimportPyQueryaspqurl=’https://www.zhihu.com/explore’headers={‘user-agent’:’Mozilla/5.0(WindowsNT10.0;WOW64)…

大家好,又见面了,我是你们的朋友全栈君。

了解更多关注微信公众号“木下学Python”吧~

 

1.爬取知乎-发现-热门话题的问答:

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi\
            t/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'}

html = requests.get(url,headers = headers).text

doc = pq(html) #初始化PyQuery类对象
items = doc('.explore-tab .feed-item').items() #抓取 .explore-tab 结点下的所有 .feed-item 子节点 .items() 把他们组成列表
for item in items:
    question = item.find('h2').text() #抓问题,不为 .h2 理由是 h2 是标签,不是属性
    author = item.find('.author-link-line').text() #抓作者
    answer = pq(item.find('.content').html()).text() #抓取一条回答,列表里面返回的是标签名称,.html()还原成 html 代码
    file = open('explore.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,answer]))
    file.write('\n' + '=' * 50 + '\n')
    file.close()

 

2..find()

查找子孙结点

 

3.,attr()

<img alt=”炉石传说石英元素 女巫森林新卡” src=”http://newsimg.5054399.com/uploads/litimg/180410/1606441M5F5.jpg”>

可以理解为这个标签的对应值,是以字典形式返回,所以 attr() 返回键的值;例如 attr(‘alt’) 得到的是 ‘炉石传说石英元素 

女巫森林新卡’

提取 scr 的值:.attr(‘lz_src’) 加一个 lz_

 

4.

doc = pq(html)
items = doc('#dq_list > li').items()

绿色部分获取结点的方法为 Selector;还可以有其他方法

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/139612.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • C语言读写文件

    C语言读写文件一:打开文件句柄//参数1:文件路径//参数2:文件打开模式函数执行成功返回文件流指针,错误返回NULL。FILE*fopen(constchar*path,constchar*mode);模式操作区别文件要求r读…

    2022年6月2日
    40
  • javacomparator_mybatis是做什么的

    javacomparator_mybatis是做什么的Myabatis-Plus集成异常下面贴出错误信息:java.lang.NoSuchMethodError:com.baomidou.mybatisplus.core.toolkit.StringUtils.isNotBlank(Ljava/lang/CharSequence;)Z11:29:34.886[main]DEBUGorg.springframework.boot.context.logging.ClasspathLoggingApplicationListener-Appli

    2022年8月12日
    3
  • jquery实现更多内容效果

    体验效果:http://hovertree.com/texiao/jquery/33/写个“更多内容的展开/收起”的js代码如下:转自:http://hovertree.com/h/bjaf/6

    2021年12月22日
    41
  • Dedecms_DedeCMS提示信息

    Dedecms_DedeCMS提示信息dedecms:说这个是国内人气最旺的cms,我想没有人反对吧?中国站长站(chinaz.com),站长资讯(admin5.com),称这两个站点是大站,没人反对吧?如果你做的是个人站点,如果数据不是很大,那么dedecms依然是首选,dedecms在20w数据就会反应迟钝,有过技术文章分析的,dedecms的数据表频繁查询,导致性能不过关,但是首选你的站有多大?10w篇文章,每天发10篇那…

    2022年9月30日
    0
  • SVR支持向量回归例子「建议收藏」

    SVR支持向量回归例子「建议收藏」SVR支持向量回归例子欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用M…

    2022年5月24日
    63
  • 初试 Windows XP Embedded 系统开发1[通俗易懂]

    初试 Windows XP Embedded 系统开发1

    2022年1月27日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号