携程 爬虫_python自动化和爬虫先学哪个

携程 爬虫_python自动化和爬虫先学哪个一、查看chrome版本浏览器:chrome://version/二、下载传送门url:http://chromedriver.storage.proxy.ustclug.org/index.html根据自己的版本进行下载放入C:\ProgramFiles\Google\Chrome\Application三、由于携程

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

一、查看chrome版本
浏览器:chrome://version/
在这里插入图片描述

二、下载传送门
url:http://chromedriver.storage.proxy.ustclug.org/index.html
根据自己的版本进行下载
在这里插入图片描述
放入C:\Program Files\Google\Chrome\Application
在这里插入图片描述
三、由于携程是js加密看一下
在这里插入图片描述
在这里插入图片描述
这里可以看到testab后面加密字符串,base64位加密(通过接口timestamp,appid等混合),我使用自动化爬取抓数据。

四、自动化抓取(selenium)

url='https://hotels.ctrip.com/hotels/list?city=28&checkin=2021/06/11&checkout=2021/06/12&optionId=28&optionType=City&directSearch=0&display=%E6%88%90%E9%83%BD&crn=1&adult=1&children=0&searchBoxArg=t&travelPurpose=0&ctm_ref=ix_sb_dl&domestic=1&'
'

Jetbrains全家桶1年46,售后保障稳定

city:城市ID
checkin:入住时间
checkout:退房时间
开始操作:

1、导入相关的库	
from selenium import webdriver
from selenium.webdriver import ActionChains
import time
2、加载chromedriver路径

path='D:\WebDriver\chromedriver_win32\chromedriver.exe'
driver=webdriver.Chrome(executable_path=path)
3、打开网页
url='https://hotels.ctrip.com/hotels/list?		city=28&checkin=2021/06/11&checkout=2021/06/12&optionId=28&optionType=City&directSearch=0&display=%E6%88%90%E9%83%BD&crn=1&adult=1&children=0&searchBoxArg=t&travelPurpose=0&ctm_ref=ix_sb_dl&domestic=1&'
driver.get(url)
4、通过xpath点击搜索
driver.maximize_window() #最大化浏览器
找到QQ登陆图标
driver.implicitly_wait(30)
driver.find_element_by_xpath("//*[@id='loginbanner']/div[2]/a[2]").click()
5、通过QQ授权登陆
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210611112331370.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0lUOTlxa3k=,size_16,color_FFFFFF,t_70)

这里直接用xpath定位是定位不到,为什么呢?
是因为账户输入登陆在一个子iframe里面的,如果直接定位里面的元素是定位不到的,所以需要先切换到这个子iFrame
#跳转到QQ页面点击账号密码登陆,前提是绑定手机号
time.sleep(2)
windows=driver.window_handles  # 此行代码用来新窗口
driver.switch_to.window(windows[1])
time.sleep(2)

driver.maximize_window()

driver.switch_to.frame('ptlogin_iframe')

element=driver.find_element_by_xpath('//*[@id="switcher_plogin"]')

ActionChains(driver).move_to_element(element).perform()
driver.find_element_by_id('switcher_plogin').click()
time.sleep(2)

#自适应等待,输入QQ账号

driver.find_element_by_id('u').send_keys('username')
#自适应等待,输入QQ密码
driver.find_element_by_id('p').send_keys('password')
time.sleep(3)
#自适应等待,点击授权登陆
driver.find_element_by_id('login_button').click()
time.sleep(2)

6、我们可以看见携程是拉取翻页,怎么解决,小问题,骚操作
获取页面高度
js = "return action=document.body.scrollHeight"
height = driver.execute_script(js)
7、xpath定位查看元素

在这里插入图片描述
这里出现广告酒店注意,写if判断,不然价格会报错
#注意li标签是顺序,会变化自己找。

for j in range(5,21):
    # 获取页面初始高度
    js = "return action=document.body.scrollHeight"
    height = driver.execute_script(js)
    # get_attribute(‘textContent’)获取"标签里面内容"文字
    name=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]/div/div/div/div[1]/div[2]/div[1]/div/span[1]").get_attribute("textContent").replace('\n', '').replace('\t', '')
    shangquan=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]/div/div/div/div[1]/div[2]/div[2]/p/span[1]/span").get_attribute('textContent')
    x=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]//div[1]/p[1]/span[2]").get_attribute("textContent")
    if x == None:
        price=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]//div[1]/p[1]/span").get_attribute("textContent")
    else:
        price=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]//div[1]/p[1]/span[2]").get_attribute("textContent")
    percent=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]/div/div/div/div[2]/div[1]/div/div[2]/span").get_attribute("textContent")
    people=driver.find_element_by_xpath("//*[@id='ibu_hotel_container']/div/section/div[2]/ul/li["+str(j)+"]/div/div/div/div[2]/div[1]/div/div[1]/p[2]/a").get_attribute("textContent")
addresses = "成都"
time.sleep(1)

# 将滚动条调整至页面底部
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
time.sleep(1)

#模拟点击浏览器点击搜索更多
dianji=driver.find_element_by_xpath('//*[@id="ibu_hotel_container"]/div/section/div[2]/ul/div[2]/div/span')
dianji.click()
time.sleep(2)

print(name,shangquan,price,percent,people,addresses)

在这里插入图片描述

8、需要完整代码私聊,后期会做js抠出来。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/230823.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 圆桌排序公式_大圆桌怎么坐

    圆桌排序公式_大圆桌怎么坐假设有来自 m 个不同单位的代表参加一次国际会议。每个单位的代表数分别为 ri(i=1,2,…,m)。会议餐厅共有 n 张餐桌,每张餐桌可容纳 ci(i=1,2,…,n) 个代表就餐。为了使代表们充分交流,希望从同一个单位来的代表不在同一个餐桌就餐。试设计一个算法,给出满足要求的代表就餐方案。输入格式第 1 行有 2 个正整数 m 和 n,m 表示单位数,n 表示餐桌数。第 2 行有 m 个正整数,分别表示每个单位的代表数 ri。第 3 行有 n 个正整数,分别表示每个餐桌的容量 ci。输

    2022年8月10日
    5
  • XGBoost简介

    XGBoost简介本文据此对XGBoost的原理做简单的介绍…XGBoost[1]是2014年2月诞生的专注于梯度提升算法的机器学习函数库,此函数库因其优良的学习效果以及高效的训练速度而获得广泛的关注。仅在2015年,在Kaggle[2]竞赛中获胜的29个算法中,有17个使用了XGBoost库,而作为对比,近年大热的深度神经网络方法,这一数据则是11个。在KDDCup2015[3]竞赛中,排

    2022年6月1日
    104
  • JLink的JTag和SWD模式引脚定义[通俗易懂]

    JLink的JTag和SWD模式引脚定义[通俗易懂]1、SWD模式第15脚可接可不接(有问题再接)2、SWD模式第1脚VCC由目标板提供参考电压,若目标板MCU电压与SWD第2脚电压相同,则可以将1脚与2脚短接,实现3线式SWD…

    2022年5月28日
    47
  • html js 全局 变量,JS定义全局变量

    html js 全局 变量,JS定义全局变量【实例名称】定义全局变量【实例描述】在高级开发语言(如c#、Java)中可以很方便地使用“public”等关键字,定义应用程序中的全局变量,但JaVascript的变量只能存在于当前的方法中。本例通过一个简单的方法实现全局变量的定义。【实例代码】标题页-学无忧(www.xue51.com)functiontoGlobal(varName){window.execScript(varName)…

    2022年6月6日
    104
  • app放真机测试_什么软件可以验机安卓手机

    app放真机测试_什么软件可以验机安卓手机本方式测试环境为XCode3.2.3IOS4.0本方法只能把APP放到真机中测试,不能联机调试。 APP写好了之后,关闭XCode,记的要完全关闭哦。找到/Developer/Platforms/iPhoneOS.platform/Developer/SDKs/iPhoneOS4.0.sdk/里的SDKSettings.plist.先修改一下权限。右键GetInfo,不多…

    2025年9月20日
    8
  • css怎么隐藏滚动条「建议收藏」

    css怎么隐藏滚动条「建议收藏」法一:①使用伪类隐藏滚动条(仅限Chrome与Safari)②scrollbar-width:none;(仅限firefox)③-ms-overflow-style:none;(仅限IE10+)/*隐藏滚动条*/.element{width:100%;height:72px;box-sizing:border-box;padding-top:16px;overflow-x:scroll;/*设置溢出滚动*/white-spa

    2025年8月13日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号