1200字范文 > python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现

python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现

时间：2018-11-13 01:23:51

准备工作

1.pip install selenium

2.配置浏览器驱动、配置其环境变量

Selenium3.x调用浏览器必须有一个webdriver驱动文件

Chrome驱动文件下载chromedrive

Firefox驱动文件下载geckodriver

具体步骤自行百度

3.先确保webdriver可以正常使用

一、webdriver部分

要利用代码控制浏览器依次点击及修改

具体代码：

driver = webdriver.Chrome()driver.get("")# 选取城市toCity = driver.find_element_by_xpath("//input[@tabindex='1']")#用xpath定位到城市的输入框粘贴刚刚复制的xpathtoCity.clear()#清除输入框原本的数据toCity.send_keys("上海")#输入上海 toCity.send_keys(Keys.TAB)#输入TAB键time.sleep(2)

同样的方式定位到其他三个需要修改的部分：

注意定位到日期之后要多执行一步CTRL-A全选然后再删除

具体代码：

# 选取开始日期checkInDate = driver.find_element_by_xpath("//input[@tabindex='2']")checkInDate.click()checkInDate.send_keys(Keys.CONTROL, "a")#定位到该搜索框后执行CTRLA全选checkInDate.send_keys(Keys.DELETE)checkInDate.send_keys("-10-14")# 选取结束日期checkOutDate = driver.find_element_by_xpath("//input[@tabindex='3']")checkOutDate.click()checkOutDate.send_keys(Keys.CONTROL, "a")checkOutDate.send_keys(Keys.DELETE)checkOutDate.send_keys("-10-15")# 进行搜索search = driver.find_element_by_xpath("//a[@tabindex='5']")search.click()

注意这里的代码不要放到单独的函数里再在主函数中调用会导致页面跳转后直接关闭浏览器

二、定位到新页面

首先页面跳转后要先定位到当前页面本次获取这几个信息

这里我无法直接获取到当前页面的html

所以先获取当前页面的url再用基础爬虫框架进行爬取

如果不加这段代码我当时无法定位到跳转后的页面估计是个人问题？

#定位到当前页面time.sleep(2)#这句必须要有driver.switch_to.window(driver.window_handles[0])#这里如果点击搜索后出来的是另一个页面就改为【1】如果还是只有这一个页面就是【0】

这是我当时只有一个页面但写成【1】的报错

三、提取酒店信息

new_url = driver.current_url

用该语句提取到当前页面的url

res = requests.get(new_url,headers = headers,cookies=cookies)text = etree.HTML(res.text)'''content = response.texttext = parsel.Selector(content)'''

？？这里要注意？？

我这里一开始用text = parsel.Selector(content)解析

输出的文本就是这样具体原因也不知道同学用这个语句可行

后来改为

text = etree.HTML(res.text)用这个解析如果直接输出

输出是<Element html at 0x2ba79195908>这样的

去百度说需要加这样一句语句

#转为stringtext1 = html.tostring(text[0])#编码'utf-8'text2 = HTMLParser().unescape(text1.decode('utf-8'))

没啥用

直接用xpath语句可以直接定位到

具体代码：xpath语句

hotel_name = text.xpath('//div[@class="cont"]/p[@class="name"]/a/text()')hotel_gold = text.xpath('//div[@class="operate fl_right"]/p[@class="price_new"]/a/text()')hotel_addres = text.xpath('//div[@class="cont"]/p[@class="adress"]/text()')

四、输出结果

这里只提取了第一页着急交作业先就这样吧 hiahia

五、全部代码

from selenium import webdriverfrom mon.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom mon.keys import Keysimport timeimport requestsfrom lxml import etreeif __name__=='__main__':driver = webdriver.Chrome()driver.get("")# 选取城市toCity = driver.find_element_by_xpath("//input[@tabindex='1']")#用xpath定位到城市的输入框toCity.clear()#清除输入框原本的数据toCity.send_keys("上海")#输入上海 toCity.send_keys(Keys.TAB)#输入TAB键time.sleep(2)# 选取开始日期checkInDate = driver.find_element_by_xpath("//input[@tabindex='2']")checkInDate.click()checkInDate.send_keys(Keys.CONTROL, "a")checkInDate.send_keys(Keys.DELETE)checkInDate.send_keys("-10-14")# 选取结束日期checkOutDate = driver.find_element_by_xpath("//input[@tabindex='3']")checkOutDate.click()checkOutDate.send_keys(Keys.CONTROL, "a")checkOutDate.send_keys(Keys.DELETE)checkOutDate.send_keys("-10-15")# 进行搜索search = driver.find_element_by_xpath("//a[@tabindex='5']")search.click()#定位到当前页面time.sleep(2)driver.switch_to.window(driver.window_handles[0])new_url = driver.current_urlheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}cookies={'QN1':'00005f00319829df5c702e97','HN1':'v1b1c8303c8baa2359ebb145a991a74a6f','HN2':'quzqqcqsngqlz','QN300':'organic','csrfToken':'DEKN7FH5xNSuYx6iemD47gRY7vw7IEDD','QN205':'organic','QN277':'organic','_i':'RBTjeCcd1wEx33hRlirI_q1t88ex','_vi':'cXbZyZ4BEOh4wBX9J1cQYcFSDw7dMnuW6r866eG6uTLr2331x2aHSq2To22tuRaNX98Df2nZGmhz0cLAr7upqmqCbdOQAIdmlWtslBHfje5IuNMQw8EFJdQqcYryaJwEVTuYNxcCm_65Ngnh_WrURpXQy7Hcm3ytO0twTZsG4AtJ','QN269':'4EFF41210D2E11EB8470FA163E9C4675','fid':'13f15660-e827-4b68-b89b-58c65d29e4ba','QN267':'01176786801cc3c53c8','QN271':'0fd118d6-0b4a-4ba3-9005-e8a223f2d096'}res = requests.get(new_url,headers = headers,cookies=cookies)text = etree.HTML(res.text)'''content = response.texttext = parsel.Selector(content)'''hotel_name = text.xpath('//div[@class="cont"]/p[@class="name"]/a/text()')hotel_gold = text.xpath('//div[@class="operate fl_right"]/p[@class="price_new"]/a/text()')hotel_addres = text.xpath('//div[@class="cont"]/p[@class="adress"]/text()')#hotel_Dict = list(name +" "+ value +" "+ money + "起" for name, value, money in zip(hotel_name, hotel_gold, hotel_money))print(hotel_name)print(hotel_addres)print(hotel_gold)

想要提取所有信息，进一步优化的可以参考这篇知乎

Python+Selenium爬取去哪儿网信息

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。