成人性生交大片免费看视频r_亚洲综合极品香蕉久久网_在线视频免费观看一区_亚洲精品亚洲人成人网在线播放_国产精品毛片av_久久久久国产精品www_亚洲国产一区二区三区在线播_日韩一区二区三区四区区区_亚洲精品国产无套在线观_国产免费www

主頁 > 知識庫 > python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析

python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析

熱門標簽:高德地圖標注字母 千呼ai電話機器人免費 鎮(zhèn)江人工外呼系統(tǒng)供應(yīng)商 400電話辦理費用收費 申請辦個400電話號碼 騰訊地圖標注有什么版本 柳州正規(guī)電銷機器人收費 外呼系統(tǒng)前面有錄音播放嗎 深圳網(wǎng)絡(luò)外呼系統(tǒng)代理商

一、CrawlSpider類介紹

1.1 引入

使用scrapy框架進行全站數(shù)據(jù)爬取可以基于Spider類,也可以使用接下來用到的CrawlSpider類?;赟pider類的全站數(shù)據(jù)爬取之前舉過栗子,感興趣的可以康康

scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取

1.2 介紹和使用

1.2.1 介紹

CrawlSpider是Spider的一個子類,因此CrawlSpider除了繼承Spider的特性和功能外,還有自己特有的功能,主要用到的是 LinkExtractor()rules = (Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),)

LinkExtractor()鏈接提取器
LinkExtractor()接受response對象,并根據(jù)allow對應(yīng)的正則表達式提取響應(yīng)對象中的鏈接

link = LinkExtractor(
# Items只能是一個正則表達式,會提取當(dāng)前頁面中滿足該"正則表達式"的url	
  allow=r'Items/'
)

rules = (Rule(link, callback='parse_item', follow=True),)規(guī)則解析器
按照指定規(guī)則從鏈接提取器中提取到的鏈接中解析網(wǎng)頁數(shù)據(jù)
link:是一個LinkExtractor()對象,指定鏈接提取器
callback:回調(diào)函數(shù),指定規(guī)則解析器(解析方法)解析數(shù)據(jù)
follow:是否將鏈接提取器繼續(xù)作用到鏈接提取器提取出的鏈接網(wǎng)頁

import scrapy
# 導(dǎo)入相關(guān)的包
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class TextSpider(CrawlSpider):
 name = 'text'
 allowed_domains = ['www.xxx.com']
 start_urls = ['http://www.xxx.com/']

# 鏈接提取器,從接受到的response對象中,根據(jù)item正則表達式提取頁面中的鏈接
	link = LinkExtractor(allow=r'Items/')
	link2 = LinkExtractor(allow=r'Items/')
# 規(guī)則解析器,根據(jù)callback將鏈接提取器提取到的鏈接進行數(shù)據(jù)解析
# follow為true,則表示將鏈接提取器繼續(xù)作用到鏈接提取器所提取到的鏈接頁面中
# 故:在我們提取多頁數(shù)據(jù)時,若第一頁對應(yīng)的網(wǎng)頁中包含了第2,3,4,5頁的鏈接,
# 當(dāng)跳轉(zhuǎn)到第5頁時,第5頁又包含了第6,7,8,9頁的鏈接,
# 令follow=True,就可以持續(xù)作用,從而提取到所有頁面的鏈接
 rules = (Rule(link, callback='parse_item', follow=True),
 		Rule(link2,callback='parse_content',follow=False))
 # 鏈接提取器link使用parse_item解析數(shù)據(jù)
	def parse_item(self, response):
 item = {}
 
 yield item
 # 鏈接提取器link2使用parse_content解析數(shù)據(jù)
	def parse_content(self, response):
		item = {}
		
		yield item

1.2.2 使用

創(chuàng)建爬蟲文件:除了創(chuàng)建爬蟲文件不同外,創(chuàng)建項目和運行爬蟲使用的命令和基于Spider類使用的命令相同

scrapy genspider crawl -t spiderName www.xxx.com 

二、案例:古詩文網(wǎng)全站數(shù)據(jù)爬取

爬取古詩文網(wǎng)首頁古詩的標題,以及每一首詩詳情頁古詩的標題和內(nèi)容。
最后將從詳情頁提取到的古詩標題和內(nèi)容進行持久化存儲

2.1 爬蟲文件

import scrapy
from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule
from gushiPro.items import GushiproItem,ContentItem

class GushiSpider(CrawlSpider):
 name = 'gushi'
 #allowed_domains = ['www.xxx.com']
 start_urls = ['https://www.gushiwen.org/']

 # 鏈接提取器:只能使用正則表達式,提取當(dāng)前頁面的滿足allow條件的鏈接
 link = LinkExtractor(allow=r'/default_\d+\.aspx')

 # 鏈接提取器,提取所有標題對應(yīng)的詳情頁url
 content_link = LinkExtractor(allow=r'cn/shiwenv_\w+\.aspx')
 rules = (
 # 規(guī)則解析器,需要解析所有的頁面,所有follow=True
 Rule(link, callback='parse_item', follow=True),

 # 不需要寫follow,因為我們只需要解析詳情頁中的數(shù)據(jù),而不是詳情頁中的url
 Rule(content_link, callback='content_item'),
 )

 # 解析當(dāng)前頁面的標題
 def parse_item(self, response):
 p_list = response.xpath('//div[@class="sons"]/div[1]/p[1]')

 for p in p_list:
 title = p.xpath('./a//text()').extract_first()
 item = GushiproItem()
 item['title'] = title
 yield item
 
 # 解析詳情頁面的標題和內(nèi)容
 def content_item(self,response):
 # //div[@id="sonsyuanwen"]/div[@class="cont"]/div[@class="contson"]
 # 解析詳情頁面的內(nèi)容
 content = response.xpath('//div[@id="sonsyuanwen"]/div[@class="cont"]/div[@class="contson"]//text()').extract()
 content = "".join(content)
 # # 解析詳情頁面的標題
 title = response.xpath('//div[@id="sonsyuanwen"]/div[@class="cont"]/h1/text()').extract_first()
 # print("title:"+title+"\ncontent:"+content)
 item = ContentItem()
 item["content"] = content
 item["title"] = title
 # 將itme對象傳給管道
 yield item

2.2 item文件

import scrapy

# 不同的item類是獨立的,他們可以創(chuàng)建不同的item對象
class GushiproItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 title = scrapy.Field()

class ContentItem(scrapy.Item):
 title = scrapy.Field()
 content = scrapy.Field()

2.3 管道文件

from itemadapter import ItemAdapter

class GushiproPipeline:
 def __init__(self):
 self.fp = None

 def open_spider(self,spider):
 self.fp = open("gushi.txt",'w',encoding='utf-8')
 print("開始爬蟲")

 def process_item(self, item, spider):
 # 從詳情頁獲取標題和內(nèi)容,所以需要判斷爬蟲文件中傳來的item是什么類的item
 # item.__class__.__name__判斷屬于什么類型的item
 if item.__class__.__name__ == "ContentItem":
 content = "《"+item['title']+"》",item['content']
 content = "".join(content) 
 print(content)
 self.fp.write(content)
 return item

 def close_spider(self,spider):
 self.fp.close()
 print("結(jié)束爬蟲")

2.4 配置文件

2.5 輸出結(jié)果

到此這篇關(guān)于python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析的文章就介紹到這了,更多相關(guān)python爬蟲scrapy數(shù)據(jù)爬取內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python scrapy項目下spiders內(nèi)多個爬蟲同時運行的實現(xiàn)
  • Python爬蟲Scrapy框架CrawlSpider原理及使用案例
  • Python Scrapy框架:通用爬蟲之CrawlSpider用法簡單示例
  • Python爬蟲框架之Scrapy中Spider的用法

標簽:合肥 郴州 大慶 哈爾濱 海南 平頂山 烏蘭察布 烏蘭察布

巨人網(wǎng)絡(luò)通訊聲明:本文標題《python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析》,本文關(guān)鍵詞  python,爬蟲,scrapy,基于,CrawlSpider,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析》相關(guān)的同類信息!
  • 本頁收集關(guān)于python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    国产美女无遮挡永久免费| 天堂av一区二区三区| 成人精品视频一区二区| 国产福利一区二区三区| 免费看黄在线看| 久久久国产精彩视频美女艺术照福利| 亚洲精品免费一二三区| 亚洲综合图区| 在线观看91视频| 日韩和一区二区| 成人写真福利网| 欧洲vodafonewi精品| 亚洲欧美变态国产另类| 亚洲电影小说图| 亚洲黄色片网站| 国产91社区| 久久伊人亚洲| 日韩中文一区二区| 亚洲成人精品一区| 网站免费满18成年在线观看| 国产网站在线看| 成人免费视频毛片| 91蜜桃网址入口| 性xxxx丰满孕妇xxxx另类| 97人人澡人人爽人人模亚洲| 亚洲高清视频网站| 欧美日韩黄色一级片| 91午夜精品| 欧美最猛黑人猛交69| 久久精品网站免费观看| 中文字幕一区二区三| 久久久久久国产精品| 电影中文字幕一区二区| 91沈先生在线观看| 热久久天天拍国产| 亚洲欧美日韩视频二区| 国产激情自拍视频| 国产尤物91| 产国精品偷在线| 日韩国产成人精品| 91福利免费观看| 国产成人免费av在线| 草草在线视频| 亲子伦视频一区二区三区| wwwav91| 午夜欧美巨大性欧美巨大| 欧美日本乱大交xxxxx| 亚洲欧洲综合在线| 免费毛片在线看片免费丝瓜视频| 91精品中国老女人| 久久精品男人天堂| 国产二区视频在线| 大胆人体一区| 亚洲激情一区二区三区| 亚洲精品一卡二卡| 精品一区二区三区蜜桃| 免费一级大片| 欧美精彩视频一区二区三区| 国产99久久精品一区二区 夜夜躁日日躁| 手机电影在线观看| 精品国产乱码久久久久久夜甘婷婷| 日韩欧美中文字幕一区| 在线观看中文字幕2021| 伊人久久成人网| 日韩av不卡在线| 国产高清免费在线观看| 欧美a级在线观看| fc2成人免费人成在线观看播放| 香蕉成人在线视频| 黄色动漫在线免费看| 国产精品入口麻豆完整版| 国产精品99999| 妞干网在线播放| 国产精品成人一区| 手机福利小视频在线播放| 欧美一二三四在线| 国产资源在线一区| 亚洲欧洲日本mm| 日韩一区在线看| 亚洲国产成人精品综合99| 99久久综合色| 国产免费一区视频观看免费| 日本视频在线免费观看| 一区二区三区四区视频免费观看| 亚洲宅男天堂在线观看无病毒| 欧美 日韩 国产精品免费观看| 日韩一区精品| 亚洲男人的天堂在线播放| 女人扒开屁股爽桶30分钟| 亚洲最新av在线网站| 久久av.com| 欧美一级中文字幕| 亚洲最大黄网| 国产乱码77777777| 久久久久久久久岛国免费| 亚洲欧洲日本韩国| 精品国内自产拍在线观看视频| 欧美成人精品福利网站| baoyu135国产精品免费| 伊人成色综合网| 国产精品99视频| 成人做爽爽免费视频| 香蕉成人app免费看片| 亚洲视频狠狠| 欧美日韩免费观看中文| 国产精品最新自拍| 免费福利视频一区二区三区| 亚洲国产91色在线| 精品日韩欧美在线| 不卡一区视频| 蜜臀av在线播放一区二区三区| 欧美日韩视频第一区| 懂色av一区二区夜夜嗨| 精品97人妻无码中文永久在线| 国产精品18久久久久久久久久久久| youjizzxxxx18| 中日韩美女免费视频网站在线观看| 天天爽夜夜爽一区二区三区| 日韩一级特黄毛片| 男人天堂亚洲天堂| 美女福利视频导航| 可以直接看的av网址站| 在线观看久久av| 国产高清一区在线观看| 91在线一区| 91精品久久久久久蜜臀| 欧美高清视频免费观看| 欧美一区三区三区高中清蜜桃| 久草福利在线视频| 亚洲欧美在线专区| 日本www在线观看视频| 国产浪潮av性色av小说| 巨大黑人video| 国产女主播一区二区三区| 欧美日韩午夜精品| 日本黄视频网站| 国产亚洲成av人片在线观看桃| 精品视频www| 啪啪小视频网站| wwwww在线观看免费视频| 久久人体做爰大胆| 免费视频91蜜桃| 国产一区一一区高清不卡| 久久er99精品| 精品久久久久国产| 国产极品精品在线观看| 91精品国产丝袜白色高跟鞋| 欧美在线中文字幕高清的| 国产91|九色| 97在线观看免费观看高清| 美女在线观看视频一区二区| 欧美草草影院在线视频| 成人精品在线观看视频| 老牛影视免费一区二区| 国产乱子轮xxx农村| 精品美女一区| 日韩精品视频网| а天堂中文最新一区二区三区| 亚洲欧美日韩在线一区| 日本精品在线中文字幕| 亚洲欧美日韩精品综合在线观看| 久久久视频免费观看| 国产传媒在线观看| 久久精品国产麻豆| 日韩久久精品电影| 亚洲国产欧美在线| 91一区二区三区| 综合在线一区| 国产清纯白嫩初高中在线观看性色| 精品久久久久久中文字幕| 色婷婷精品国产一区二区三区| 国产成人va亚洲电影| www插插插无码免费视频网站| 9色视频在线观看| 国产精品永久久久久久久久久| 91福利视频网站| 日本不卡久久| 国产综合网站| 蜜桃tv一区二区三区| 欧美日韩午夜爽爽| 亚洲三级小视频| 精品国产电影| 国产成人综合亚洲欧美在| 日日干日日操日日射| 欧美高清一级片在线观看| www.毛片.com| 亚洲小说欧美另类婷婷| 成年人免费看的视频| 亚洲天堂最新地址| 欧美一区,二区| 久久综合av免费| 免费一级欧美在线大片| 亚洲一道本在线| 久久久久国产精品一区| 亚洲欧美网站在线观看| 日本我和搜子同居的日子高清在线| 亚洲一区 欧美| 中文在线中文资源| 国产在线观看无码免费视频| 欧美成人精品h版在线观看| 亚洲欧美日韩中文在线制服| 床上的激情91.| 亚洲欧美日韩综合在线| 伊人亚洲综合网| 亚洲人成色777777精品音频| 久久视频国产精品免费视频在线| 91精品综合久久| 日韩精品免费播放| 欧美男女视频| 亚洲一区二区三区激情| 精品久久久久久久久久久久久久久久久| 日本午夜小视频| 亚洲欧洲精品成人久久奇米网| 久久人体做爰大胆| 福利在线观看| 亚洲精品天堂| 久久久久北条麻妃免费看| 亚洲乱妇老熟女爽到高潮的片| 青草网在线观看| 不卡电影一区二区三区| 盗摄牛牛av影视一区二区| 91久久国产综合久久91| 秋霞影院一区二区三区| 老司机午夜福利视频| 国产色在线观看| 在线观看av中文字幕| 日韩不卡一区二区三区| 黑人巨大精品欧美一区| 中文字幕成人免费视频| www.日韩免费| 国产美女精彩久久| 国产精品99精品无码视| 97久精品国产片一区二区三区| 欧美一区二区不卡视频| 欧美色图亚洲激情| 林ゆな中文字幕一区二区| yw3121.龙物视频永不失联| 国产日本欧美一区二区| 一区二区在线视频| 黄色永久免费网站| 亚洲美女主播视频免费观看| 久久久女女女女999久久| 日韩精品影音先锋| 一区二区激情| 亚洲永久在线观看| 婷婷中文字幕在线观看| 亚洲一二三四在线观看| 狂野欧美性猛交xxxx巴西| 国产一级免费| 亚洲av无码国产综合专区| 九九九九九伊人| 国产亚洲成av人片在线观看| 成人免费视频视频在线观看免费| 亚洲视频播放| va视频在线观看| 在线视频一区二区免费| 色老板在线观看| av福利网址网站| 欧美福利视频网站| 乱人伦视频在线| 国产亚洲依依| 国产日韩欧美在线一区| 五月天视频在线观看| 欧美精品18+| 一区二区三区免费播放| 日韩女优av电影在线观看| 黄色网址免费在线观看| 国产成人精品综合久久久久99| 欧美日韩一级片在线观看| 国产精品国产三级国产普通话蜜臀| 日韩欧美小视频| 国产亚洲精品久久久优势| 99精品国产一区二区青青牛奶| 亚洲人成网77777色在线播放| 国产精品一二三四五区| 午夜神马福利影院| 日韩视频国产视频| 国产女人18毛片水18精| 国产91在线免费观看| 国产精品一区二区三区高清在线| www.777色| 美女主播精品视频一二三四| 日韩精品一区二区三区视频在线观看| 素人fc2av清纯18岁| 新婚的少妇hd中文字幕| 完全免费av在线播放| 欧美在线视频二区| 国产精品视频一区二区三| 久草精品在线观看| 一级黄色在线视频| av电影天堂一区二区在线观看| 亚洲精品第一国产综合精品| 欧美 日韩 国产一区| japanese日本护士撒尿| 在线观看av资源网| 一区二区三区四区高清视频| 国产精品日韩| 野外做受又硬又粗又大视频√| 福利网址在线观看| 国产高清视频一区| 国产探花在线精品| 天天射天天拍| 人人干狠狠干| 特级xxxxx欧美| 粉嫩高清一区二区三区精品视频| 亚洲国产一区二区精品视频| 91黄在线观看| 欧美图片第一页| 一区二区三区区四区播放视频在线观看| 免费国产在线观看| av女在线播放| 91久久久在线| 亚洲综合在线网| 无遮挡亚洲一区| 伊人天天久久大香线蕉av色| 尤物视频网站| 亚洲网友自拍偷拍| 国产人妻精品一区二区三区| 91视频最新网址| 91蝌蚪视频在线观看| eeuss影院一区二区三区| 国产精彩免费视频| 欧美高清videos性极品| 男人添女人下部视频免费| 北条麻妃国产九九九精品小说| 久久不见久久见免费视频7| 久久精品国产免费| 95精品视频在线|