目錄
- 一、目標(biāo)網(wǎng)頁(yè)分析
- 二、數(shù)據(jù)請(qǐng)求
- 三、數(shù)據(jù)解析
- 四、數(shù)據(jù)存儲(chǔ)
- 五、采集結(jié)果預(yù)覽
一、目標(biāo)網(wǎng)頁(yè)分析
目標(biāo)網(wǎng)站是某車(chē)之家關(guān)于品牌汽車(chē)車(chē)型的口碑模塊相關(guān)數(shù)據(jù),比如我們演示的案例奧迪Q5L的口碑頁(yè)面如下:
https://k.autohome.com.cn/4851/#pvareaid=3311678
為了演示方式,大家可以直接打開(kāi)上面這個(gè)網(wǎng)址,然后拖到全部口碑位置,找到我們本次采集需要的字段如下圖所示:

采集字段
我們進(jìn)行翻頁(yè)發(fā)現(xiàn),瀏覽器網(wǎng)址發(fā)生了變化,大家可以對(duì)下如下幾頁(yè)的網(wǎng)址找出規(guī)律:
https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList
對(duì)于上面寫(xiě)網(wǎng)址,我們發(fā)現(xiàn)可變部分是車(chē)型(如4851)以及頁(yè)碼(如2,3,4),于是我們可以構(gòu)建url參數(shù)如下:
# typeid是車(chē)型,page是頁(yè)碼
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
二、數(shù)據(jù)請(qǐng)求
通過(guò)簡(jiǎn)單的測(cè)試,發(fā)現(xiàn)似乎不存在反爬,那就簡(jiǎn)單了。
我們先引入需要用到的庫(kù):
import requests
import pandas as pd
import html
from lxml import etree
import re
然后創(chuàng)建一個(gè)數(shù)據(jù)請(qǐng)求的函數(shù)備用:
# 獲取網(wǎng)頁(yè)數(shù)據(jù)(傳遞參數(shù) 車(chē)型typeid和頁(yè)碼數(shù))
def get_html(typeid,page):
# 組合出請(qǐng)求地址
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
# 請(qǐng)求數(shù)據(jù)(因?yàn)闆](méi)有反爬,這里沒(méi)有設(shè)置請(qǐng)求頭和其他參數(shù))
r = requests.get(url)
# 請(qǐng)求的網(wǎng)頁(yè)數(shù)據(jù)中有網(wǎng)頁(yè)特殊字符,通過(guò)以下方法進(jìn)行解析
r = html.unescape(r.text)
# 返回網(wǎng)頁(yè)數(shù)據(jù)
return r
請(qǐng)求來(lái)的數(shù)據(jù)就是網(wǎng)頁(yè)html文本,我們接下來(lái)采用re解析出一共多少頁(yè)碼,再用xpath進(jìn)行采集字段的解析。
三、數(shù)據(jù)解析
由于需要進(jìn)行翻頁(yè),這里我們可以先通過(guò)re正則表達(dá)式獲取總頁(yè)碼。通過(guò)查看網(wǎng)頁(yè)數(shù)據(jù),我們發(fā)現(xiàn)總頁(yè)碼可以通過(guò)如下方式獲?。?/p>
try:
pages = int(re.findall(r'共(\d+)頁(yè)',r)[0])
# 如果請(qǐng)求不到頁(yè)數(shù),則表示該車(chē)型下沒(méi)有口碑?dāng)?shù)據(jù)
except :
print(f'{name} 沒(méi)有數(shù)據(jù)!')
continue

總頁(yè)碼采集
關(guān)于待采集字段信息,我們發(fā)現(xiàn)都在節(jié)點(diǎn)div[@class="mouthcon-cont-left"]里,可以先定位這個(gè)節(jié)點(diǎn)數(shù)據(jù),然后再進(jìn)行逐一解析。

待采集字段信息所在節(jié)點(diǎn)
此外,我們發(fā)現(xiàn)每一頁(yè)最多15個(gè)車(chē)型口碑?dāng)?shù)據(jù),因此我們每頁(yè)可以定位15個(gè)待采集信息數(shù)據(jù)集,遍歷采集代碼:
divs = r_html.xpath('.//div[@class="mouthcon-cont-left"]')
# 遍歷每個(gè)全部的車(chē)輛銷(xiāo)售信息
for div in divs:
# 找到車(chē)輛銷(xiāo)售信息所在的地方
mt = div.xpath('./div[@class="choose-con mt-10"]')[0]
# 找到所需字段
infos = mt.xpath('./dl[@class="choose-dl"]')
# 設(shè)置空的字典,用于存儲(chǔ)單個(gè)車(chē)輛信息
item = {}
# 遍歷車(chē)輛信息字段
for info in infos:
key = info.xpath('.//dt/text()')[0]
# 當(dāng)字段為購(gòu)買(mǎi)車(chē)型時(shí),進(jìn)行拆分為車(chē)型和配置
if key == '購(gòu)買(mǎi)車(chē)型':
item[key] = info.xpath('.//dd/a/text()')[0]
item['購(gòu)買(mǎi)配置'] = info.xpath('.//span[@class="font-arial"]/text()')[0]
# 當(dāng)字段為購(gòu)車(chē)經(jīng)銷(xiāo)商時(shí),需要獲取經(jīng)銷(xiāo)商的id參數(shù),再調(diào)用api獲取其真實(shí)經(jīng)銷(xiāo)商信息(這里有坑)
elif key == '購(gòu)車(chē)經(jīng)銷(xiāo)商':
# 經(jīng)銷(xiāo)商id參數(shù)
經(jīng)銷(xiāo)商id = info.xpath('.//dd/a/@data-val')[0] +','+ info.xpath('.//dd/a/@data-evalid')[0]
# 組合經(jīng)銷(xiāo)商信息請(qǐng)求地址
jxs_url = base_jxs_url+經(jīng)銷(xiāo)商id+'|'
# 請(qǐng)求數(shù)據(jù)(為json格式)
data = requests.get(jxs_url)
j = data.json()
# 獲取經(jīng)銷(xiāo)商名稱
item[key] = j['result']['List'][0]['CompanySimple']
else:
# 其他字段時(shí),替換轉(zhuǎn)義字符和空格等為空
item[key] = info.xpath('.//dd/text()')[0].replace("\r\n","").replace(' ','').replace('\xa0','')
四、數(shù)據(jù)存儲(chǔ)
由于沒(méi)啥反爬,這里直接將采集到的數(shù)據(jù)轉(zhuǎn)化為pandas.DataFrame類(lèi)型,然后存儲(chǔ)為xlsx文件即可。
df = pd.DataFrame(items)
df = df[['購(gòu)買(mǎi)車(chē)型', '購(gòu)買(mǎi)配置', '購(gòu)買(mǎi)地點(diǎn)', '購(gòu)車(chē)經(jīng)銷(xiāo)商', '購(gòu)買(mǎi)時(shí)間', '裸車(chē)購(gòu)買(mǎi)價(jià)']]
# 數(shù)據(jù)存儲(chǔ)在本地
df.to_excel(r'車(chē)輛銷(xiāo)售信息.xlsx',index=None,sheet_name='data')
五、采集結(jié)果預(yù)覽
整個(gè)爬蟲(chóng)過(guò)程比較簡(jiǎn)單,采集下來(lái)的數(shù)據(jù)也比較規(guī)范,以本文案例奧迪Q5L示例如下:

到此這篇關(guān)于Python爬蟲(chóng)之自動(dòng)采集某車(chē)之家各車(chē)銷(xiāo)售數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python采集汽車(chē)銷(xiāo)售數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- Python腳本實(shí)現(xiàn)自動(dòng)登錄校園網(wǎng)
- python自動(dòng)化運(yùn)維之Telnetlib的具體使用
- 還在手動(dòng)蓋樓抽獎(jiǎng)?教你用Python實(shí)現(xiàn)自動(dòng)評(píng)論蓋樓抽獎(jiǎng)(一)
- Python 如何實(shí)現(xiàn)文件自動(dòng)去重
- python趣味挑戰(zhàn)之爬取天氣與微博熱搜并自動(dòng)發(fā)給微信好友
- python 利用PyAutoGUI快速構(gòu)建自動(dòng)化操作腳本
- Python實(shí)現(xiàn)智慧校園自動(dòng)評(píng)教全新版