mongodb数据库去重命名_数据库数据去重语句

mongodb数据库去重命名_数据库数据去重语句  最近写爬虫的时候遇到了一个问题,爬一个专利网站,主要工作流是先把列表页下所有的专利包括专利号、专利名称、URL放到数据库的一个文档info中,再抽取info中的URL进行爬取详情页,爬取列表页的信息做了一个去重,爬一个就在数据库里查一个。。效率就不提了(另一种我能想到的方法是先用线程池爬取一遍,把单个字典放入一个列表中,再采用set去重,但是线程池似乎没法返回子线程的值?),之后在详情页爬取工…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

  最近写爬虫的时候遇到了一个问题,爬一个专利网站,主要工作流是先把列表页下所有的专利包括专利号、专利名称、URL放到数据库的一个文档info中,再抽取info中的URL进行爬取详情页,爬取列表页的信息做了一个去重,爬一个就在数据库里查一个。。效率就不提了(另一种我能想到的方法是先用线程池爬取一遍,把单个字典放入一个列表中,再采用set去重,但是线程池似乎没法返回子线程的值?),之后在详情页爬取工作的时候,去重遇到了问题(当然也是set去重),就是,最好是根据专利号来去重,而不是URL,因为详情页的URL可能会有变化,因此就多了如下很多代码:

 1      rest_infos = self.obj.get_more_infos()#Mongoengine的查询对象
 2         rest_texts = self.obj.get_more_texts()#同上
 3         rest_urls = set()#先定义一个集合
 4         '''根据查询条件获得的列表页专利信息,包括url和专利号'''
 5         patents_infos_urls = [item.patent_url for item in rest_infos]#详情页URL,表1
 6         patents_infos_nums = [item.patent_num for item in rest_infos]#详情页专利号,表2
 7         dict_infos = dict(map(lambda x,y:[x,y],patents_infos_nums,patents_infos_urls))#合成一个字典1{'专利号':'URL'}
 8         '''专利详情页文档下的所有专利信息,包括url和专利号,同上操作'''
 9         patents_texts_urls = [item.Patent_url for item in rest_texts]
10         patents_texts_nums = [item.Patent_num for item in rest_texts]
11         dict_texts = dict(map(lambda x,y:[x,y],patents_texts_nums, patents_texts_urls))#字典2
12         for item in (set(dict_infos)-set(patents_texts_nums)):#遍历字典1的键和字典2的键的差集
13             for k,v in dict_infos.items():在列表页的字典里遍历
14                 if item == k:#如果查到那个差集里的某个专利名在列表页里面
15                     rest_urls.add(v)#就把它添加到最终的URL集合里面,之后针对这个集合里的URL,做线程池爬取

但是感觉这种方法还是太麻烦,因为现在学到的东西还是太少,继续努力。

——————————————————————————

这里还有一个问题要注意,列表页数据库里面的专利号是Int格式,所以详情页的专利号也要存成Int

转载于:https://www.cnblogs.com/yqpy/p/8626696.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/187290.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 基于python的学生信息管理系统_面向对象程序设计学生成绩管理系统

    基于python的学生信息管理系统_面向对象程序设计学生成绩管理系统文章目录一、系统需求二、准备程序文件2.1分析2.2创建程序文件三、书写程序3.1student.py3.2managerSystem.py3.2.1定义类:3.2.2管理系统框架3.3main.py3.4定义系统功能函数3.4.1添加功能3.4.2删除学员3.4.5查询学员信息3.4.6显示所有学员信息3.4.7保存学员信息3.4.8加载学员信息四.总结一、系统需求使用面向对象编程思想完成学员管理系统的开发,具体如下:系统要求:学员数据存储在文件中系统功能:添加学员、

    2025年12月2日
    4
  • 有什么软件可以测试U盘性能,最新版本:U盘性能检查测试软件简介

    有什么软件可以测试U盘性能,最新版本:U盘性能检查测试软件简介U 盘性能检查测试软件简介 U 盘扩展和速度检测工具 MyDiskTest 是 U 盘 SD 卡 CF 卡和其他移动存储产品扩展识别工具 它可以轻松检测存储产品是否已扩展容量 并且伪劣 它还可以检测 FLASH 闪存中是否有坏块 是否使用黑芯片 不破坏磁盘的原始数据 并可以测试 U 盘的读写速度 这是选择 U 盘和存储卡的必备工具 设备芯片模型检测工具 U 盘主控检测 ChipGenius 是 USB 设备芯片模型检测工具 可以自

    2025年11月21日
    3
  • blender导入灰度图生成地形模型「建议收藏」

    blender导入灰度图生成地形模型「建议收藏」安装软件在此处下载blender并安装。添加平面1、打开blender,右键删除初始的立方体。2、shift+a选择平面添加进场景:3、按下s键鼠标拖动调节平面大小确定后按下鼠标左键:4、选择顶部菜单的modeling后再右键选择细分:5、在左下角输入细分的数值后按下回车:导入灰度图1、选择顶部菜单的layout后点击右下角的纹理属性然后新建:2、打开自己的灰度图:3、选择修改器属性:4、添加修改器:置换5、选择刚才添加的纹理:6、地形模型生成成功,但会有锯齿

    2022年6月20日
    56
  • VSCode 配置Java环境「建议收藏」

    VSCode 配置Java环境「建议收藏」VSCode配置Java环境闲话少说,开始配置挚爱的VSCode!!!第一步,安装VScode小插件第二步,简单写个测试代码然后进入setting.json替换以下代码第三步,配置launch.json好了,到此完成,希望能帮到大家!!!有问题可以留言共同探讨哦!!![点击这里转到Wondows配置java环境,配置完之后再到这个文章看VSCode配置](https://blog.c…

    2022年5月23日
    229
  • 串口服务器调试助手使用教程,串口调试助手使用教程【操作方式】

    串口服务器调试助手使用教程,串口调试助手使用教程【操作方式】喜欢使用电脑的小伙伴们一般都会遇到win7系统串口调试助手使用教程的问题,突然遇到win7系统串口调试助手使用教程的问题就不知道该怎么办了,其实win7系统串口调试助手使用教程的解决方法非常简单,按照1:打开电脑浏览器,进入百度搜索在输入框输入:友善串口助手,回车进行搜索,在第一条直接点击下载,安装即可.2:安装完成后,桌面上会有一个这样的图标我们双击打开.来操作就行了,接下来小伙伴们…

    2022年4月27日
    60
  • fiddler手机抓包 443「建议收藏」

    fiddler手机抓包 443「建议收藏」安装证书常规设置之后仍然抓不到包:https://blog.csdn.net/lx_zsdong/article/details/82257698

    2022年6月17日
    42

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号