成人性生交大片免费看视频r_亚洲综合极品香蕉久久网_在线视频免费观看一区_亚洲精品亚洲人成人网在线播放_国产精品毛片av_久久久久国产精品www_亚洲国产一区二区三区在线播_日韩一区二区三区四区区区_亚洲精品国产无套在线观_国产免费www

主頁 > 知識庫 > Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

熱門標簽:電銷機器人錄音要學習什么 煙臺電話外呼營銷系統(tǒng) 上海正規(guī)的外呼系統(tǒng)最新報價 企業(yè)彩鈴地圖標注 銀川電話機器人電話 長春極信防封電銷卡批發(fā) 外賣地址有什么地圖標注 如何地圖標注公司 預覽式外呼系統(tǒng)

項目需求

在專門供爬蟲初學者訓練爬蟲技術(shù)的網(wǎng)站(http://quotes.toscrape.com)上爬取名言警句。

創(chuàng)建項目

在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。進入您打算存儲代碼的目錄中,運行下列命令:

(base) λ scrapy startproject quotes
New scrapy project 'quotes ', using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in:
    D:\XXX
You can start your first spider with :
    cd quotes
    scrapy genspider example example. com

首先切換到新建的爬蟲項目目錄下,也就是/quotes目錄下。然后執(zhí)行創(chuàng)建爬蟲文件的命令:

D:\XXX(master)
(base) λ cd quotes\

  
D:\XXX\quotes (master)
(base) λ scrapy genspider quotes quotes.com
cannot create a spider with the same name as your project
 
D :\XXX\quotes (master)
(base) λ scrapy genspider quote quotes.com
created spider 'quote' using template 'basic' in module:quotes.spiders.quote

該命令將會創(chuàng)建包含下列內(nèi)容的quotes目錄:

robots.txt

robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)蜘蛛,此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的爬蟲獲取的,哪些是可以被爬蟲獲取的。

robots協(xié)議并不是一個規(guī)范,而只是約定俗成的。

#filename : settings.py
#obey robots.txt rules
ROBOTSTXT__OBEY = False

分析頁面

編寫爬蟲程序之前,首先需要對待爬取的頁面進行分析,主流的瀏覽器中都帶有分析頁面的工具或插件,這里我們選用Chrome瀏覽器的開發(fā)者工具(Tools→Developer tools)分析頁面。

數(shù)據(jù)信息

在Chrome瀏覽器中打開頁面http://lquotes.toscrape.com,然后選擇"Elements",查看其HTML代碼。

可以看到每一個標簽都包裹在

編寫spider

分析完頁面后,接下來編寫爬蟲。在Scrapy中編寫一個爬蟲, 在scrapy.Spider中編寫代碼Spider是用戶編寫用于從單個網(wǎng)站(或者-些網(wǎng)站)爬取數(shù)據(jù)的類。

其包含了-個用于下載的初始URL,如何跟進網(wǎng)頁中的鏈接以及如何分析頁面中的內(nèi)容,提取生成item的方法。

為了創(chuàng)建一個Spider, 您必須繼承scrapy.Spider類,且定義以下三個屬性:

  • name:用于區(qū)別Spider。該名字必須是唯一-的, 您不可以為不同的Spider設(shè)定相同的名字。
  • start _urls:包含了Spider在啟動時進行爬取的ur列表。因此, 第一個被獲取到的頁面將是其中之一。后續(xù)的URL則從初始的URL獲取到的數(shù)據(jù)中提取。
  • parse():是spider的一一個方法。被調(diào)用時,每個初始URL完成下載后生成的Response對象將會作為唯一的參數(shù)傳遞給該函數(shù)。該方法負責解析返回的數(shù)據(jù)(response data),提取數(shù)據(jù)(生成item)以及生成需要進一步處理的URL 的Request對象。
import scrapy
 
class QuoteSpi der(scrapy . Spider):
    name ='quote'
    allowed_ domains = [' quotes. com ']
    start_ urls = ['http://quotes . toscrape . com/']
    
    def parse(self, response) :
        pass

下面對quote的實現(xiàn)做簡單說明。

  • scrapy.spider :爬蟲基類,每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。
  • name是爬蟲的名字,是在genspider的時候指定的。
  • allowed_domains是爬蟲能抓取的域名,爬蟲只能在這個域名下抓取網(wǎng)頁,可以不寫。
  • start_ur1s是Scrapy抓取的網(wǎng)站,是可迭代類型,當然如果有多個網(wǎng)頁,列表中寫入多個網(wǎng)址即可,常用列表推導式的形式。
  • parse稱為回調(diào)函數(shù),該方法中的response就是start_urls 網(wǎng)址發(fā)出請求后得到的響應(yīng)。當然也可以指定其他函數(shù)來接收響應(yīng)。一個頁面解析函數(shù)通常需要完成以下兩個任務(wù):

1.提取頁面中的數(shù)據(jù)(re、XPath、CSS選擇器)
2.提取頁面中的鏈接,并產(chǎn)生對鏈接頁面的下載請求。
頁面解析函數(shù)通常被實現(xiàn)成一個生成器函數(shù),每一項從頁面中提取的數(shù)據(jù)以及每一個對鏈接頁面的下載請求都由yield語句提交給Scrapy引擎。

解析數(shù)據(jù)

import scrapy
 
def parse(se1f,response) :
    quotes = response.css('.quote ')
    for quote in quotes:
        text = quote.css( '.text: :text ' ).extract_first()
        auth = quote.css( '.author : :text ' ).extract_first()
        tages = quote.css('.tags a: :text' ).extract()
        yield dict(text=text,auth=auth,tages=tages)

重點:

  • response.css(直接使用css語法即可提取響應(yīng)中的數(shù)據(jù)。
  • start_ur1s 中可以寫多個網(wǎng)址,以列表格式分割開即可。
  • extract()是提取css對象中的數(shù)據(jù),提取出來以后是列表,否則是個對象。并且對于
  • extract_first()是提取第一個

運行爬蟲

在/quotes目錄下運行scrapycrawlquotes即可運行爬蟲項目。
運行爬蟲之后發(fā)生了什么?

Scrapy為Spider的start_urls屬性中的每個URL創(chuàng)建了scrapy.Request對象,并將parse方法作為回調(diào)函數(shù)(callback)賦值給了Request。

Request對象經(jīng)過調(diào)度,執(zhí)行生成scrapy.http.Response對象并送回給spider parse()方法進行處理。

完成代碼后,運行爬蟲爬取數(shù)據(jù),在shell中執(zhí)行scrapy crawl SPIDER_NAME>命令運行爬蟲'quote',并將爬取的數(shù)據(jù)存儲到csv文件中:

(base) λ scrapy craw1 quote -o quotes.csv
2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)

等待爬蟲運行結(jié)束后,就會在當前目錄下生成一個quotes.csv的文件,里面的數(shù)據(jù)已csv格式存放。

-o支持保存為多種格式。保存方式也非常簡單,只要給上文件的后綴名就可以了。(csv、json、pickle等)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例的文章就介紹到這了,更多相關(guān)Python scrapy框架內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲框架-scrapy的使用
  • python scrapy項目下spiders內(nèi)多個爬蟲同時運行的實現(xiàn)
  • python爬蟲scrapy基本使用超詳細教程
  • 在python3.9下如何安裝scrapy的方法
  • python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼
  • python Scrapy爬蟲框架的使用

標簽:宜昌 上饒 珠海 盤錦 西寧 湖北 潮州 佳木斯

巨人網(wǎng)絡(luò)通訊聲明:本文標題《Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例》,本文關(guān)鍵詞  Python,爬蟲,基礎(chǔ),之,初次,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    国产精品高潮粉嫩av| 日韩美女免费线视频| 影音先锋中文字幕影院| 日韩女同强女同hd| 午夜婷婷国产麻豆精品| 久久久久麻豆v国产精华液好用吗| jizz蜜桃视频在线观看| 女尊高h男高潮呻吟| 国产精品第一| 四虎国产精品成人免费影视| 18国产免费视频| 制服.丝袜.亚洲.另类.中文| 麻豆av免费在线观看| 亚洲电影一区二区三区| 91精品国产91热久久久做人人| 亚洲性视频在线| 国产精品海角社区在线观看| v888av成人| 午夜视频在线| 麻豆中文一区二区| 亚洲第一av| 欧美午夜在线播放| 悠悠资源网久久精品| 草莓视频app18在线视频| 成人av男人的天堂| wwwxxxx欧美| 中文字幕日韩一区二区| 国产91精品青草社区| 在线不卡欧美精品一区二区三区| 爱情岛论坛亚洲品质自拍视频网站| 久热国产在线| a看欧美黄色女同性恋| 四虎永久在线精品免费网址| 精精国产xxxx视频在线野外| 欧美日韩在线播放三区四区| 自拍日韩亚洲一区在线| 久久久综合激的五月天| 色哟哟网站入口亚洲精品| 麻豆av一区二区三区| 综合色中文字幕| 中文字幕在线永久| 亚洲国产精品久久久久久久| 九七久久人人| 熟女视频一区二区三区| 天天干夜夜夜操| 最近的中文字幕在线看视频| 日韩精品在在线一区二区中文| 亚洲欧洲日产国码av系列天堂| 亚洲一区二区三区四区五区午夜| 欧美一区=区| 国产一区二区在线免费视频| 99热在线观看| 国产一区二区三区精品在线| 欧美日韩国产一中文字不卡| 中文字幕在线日亚洲9| 亚洲精品在线免费| 无码少妇一区二区三区芒果| 久久99精品久久久久久欧洲站| 在线国产一级| 欧美极品一区二区| 国产成人黄色片| 无人码人妻一区二区三区免费| 国产日韩在线亚洲字幕中文| 婷婷六月国产精品久久不卡| 电影一区中文字幕| 亚洲第一二三四区| h七七www色午夜日本| 国产无套粉嫩白浆内谢| 久久不射中文字幕| 好男人www在线视频| 欧美xxxxx牲另类人与| 一区二区三区视频免费视频观看网站| 亚洲中字在线| 久久影院在线观看| 91影院未满十八岁禁止入内| 国产精品久一| 国产绿帽一区二区三区| 少妇人妻大乳在线视频| 国产精品1区| 亚洲色图自拍偷拍美腿丝袜制服诱惑麻豆| 国产精品v欧美精品∨日韩| 国产精品久久免费看| 日韩三级av在线| 不卡av电影在线播放| 777丰满影院| 国产人妻人伦精品1国产丝袜| 色婷婷精品国产一区二区三区| 青青草国产成人av片免费| 国产老头老太做爰视频| 国产一级特黄视频| 精品欧美一区二区三区免费观看| 国产精品视频资源| 亚洲国产精品国自产拍久久| 欧美网站在线观看| 欧美不卡一区| 国产精品久久免费视频| 欧美日韩成人免费| 亚洲欧美一区二区三区在线| 91夜夜揉人人捏人人添红杏| 99综合电影在线视频| 日韩精品综合一本久道在线视频| 久久理论片午夜琪琪电影网| 亚洲综合好骚| 自拍偷拍国产精品| 不卡一区二区在线观看| 亚洲欧美日韩精品综合在线观看| 国产亚洲精品一区二区在线观看| 欧美精品第1页| 成人国产一区二区三区| 调教+趴+乳夹+国产+精品| 欧美视频四区| 日本高清精品| 蜜桃av久久久亚洲精品| 亚洲熟女乱色一区二区三区久久久| 哺乳挤奶一区二区三区免费看| 91大神在线观看线路一区| 日韩免费观看高清| 欧美视频在线第一页| 国产精品一区而去| 3d动漫精品啪啪一区二区下载| 国产精品国产三级国产aⅴ| 亚洲欧美日韩精品久久亚洲区| 不卡av免费在线观看| 久久亚洲专区| 美女永久在线网站| 蜜臀精品一区二区三区| 国产精品99久久久久久久久久久久| 国产一级一级片| 欧美亚洲动漫制服丝袜| av男人的天堂av| 亚洲图片欧美色图| fc2ppv完全颜出在线播放| 亚洲综合激情六月婷婷在线观看| 91日韩视频在线观看| 欧美夫妻性视频| 日韩欧美中文一区二区| 亚洲电影男人天堂| 亚洲最新在线视频| www.久久热| 麻豆传媒一区| 欧美中文字幕一区二区三区亚洲| 精品欧美一区二区三区免费观看| 欧美丰满熟妇bbbbbb百度| 亚洲一区二区三区在线观看视频| 国产情人综合久久777777| 国产精品高潮视频| 99久久精品一区二区成人| 久久综合第一页| 国产精品无码一区二区桃花视频| 国产做a爰片久久毛片| 亚洲一区二区三区久久久| 天天做天天爱天天爽| 欧美精品做受xxx性少妇| 亚洲s码欧洲m码国产av| 免费成人黄色| 午夜精品婷婷| 亚洲一区 视频| 国产成人精品免高潮在线观看| 国产精品欧美日韩一区二区| 亚洲 小说 欧美 激情 另类| 久久不射电影网| 四虎永久国产精品| 国内精品久久久久久影院老狼| 日韩经典一区二区三区| 国产一二三四| 91精品一区二区三区综合| 成人黄色图片网站| 欧美大交乱xxxxbbbb| 欧美激情福利视频在线观看免费| 成人aaaa| 伦理天堂电影| 三级特黄视频| 国产精品毛片高清在线完整版| 日本网站在线免费观看| 日韩三级电影网| 亚洲精品久久久| 91麻豆高清视频| 国产激情在线观看| 一本之道在线视频| 国产成人综合在线| av中文网站| 日韩久久一区二区| 亚洲日本欧美天堂| 国产精品视频3p| 色先锋资源网| 国产午夜精品福利| 北条麻妃在线一区| 国产一级做a爰片久久毛片男| 91热精品视频| 色99之美女主播在线视频| 成人一区二区三区| 欧美色偷偷大香| 欧美国产第二页| 国产视频一区二区| 精品免费av一区二区三区| 成人久久一区二区三区| 思思99精品视频在线观看| 国产精品久久久久9999| 亚洲一区二区三区免费看| 日韩欧美亚洲国产精品字幕久久久| 美女爽到呻吟久久久久| 国产欧美日韩成人| 亚洲风情在线资源站| 在线免费看黄| 国产成人精品一区二区三区在线观看| 91首页免费视频| 欧美 日韩 国产 在线观看| 久久99精品久久久久久久久久| 国产精品素人一区二区| 欧美日韩亚洲一区二区三区四区| 日本一区二区三区视频| 自拍偷拍亚洲视频| 日韩一区欧美| 91大神在线观看线路一区| 国产乱淫av免费| 亚洲精品aaaaa| 玖玖国产精品视频| 91视频观看免费| seerx性欧美巨大| 玩弄中年熟妇正在播放| 国产视频一区二区三区四区五区| 亚洲大片一区二区三区| 一区二区三区人妻| 久久久久人妻一区精品色欧美| 国产精品污www一区二区三区| 99精品网站| 污污的网站在线看| 久久裸体网站| 91精品欧美一区二区三区综合在| 免费毛片b在线观看| 2019亚洲男人天堂| 在线观看视频网站你懂得| www.蜜臀av| 日韩av网站在线播放| 国产欧美一区二区精品婷婷| 欧美乱大交做爰xxxⅹ性3| 欧美性高潮床叫视频| 一二三区在线| 国产精品一区视频| 中文字幕先锋av影音资源网| 成人在线国产精品| 天天干天天插天天射| 91国内产香蕉| 日本黄色免费片| 国产成人欧美在线观看| 日韩二区三区在线| 欧美 日韩 精品| 欧美色综合天天久久综合精品| 国产视频高清免费| 日韩伦理一区二区| 人人澡人人添人人爽一区二区| 久久久夜色精品亚洲| 成人精品免费视频| www婷婷av久久久影片| 亚洲精品一区在线观看香蕉| 91tv国产成人福利| 黄色免费在线观看| 美女久久一区| 99er热精品视频| 久久99久久人婷婷精品综合| 美女隐私在线观看| 日韩一区二区三区在线免费观看| 亚洲免费视频一区| 亚洲精品一二三区区别| 精品无码一区二区三区电影桃花| 亚洲免费伊人电影在线观看av| 国产精品自拍在线观看| 精品成人一区二区| 天堂网在线最新版www中文网| 国产精品天天操| 在线成人综合色一区| 91在线免费看网站| 视频一区二区免费| 久久久久久久久久影院| 国产午夜在线播放| 日本精品一区二区三区四区| 麻豆一区产品精品蜜桃的特点| 日韩欧美中文字幕一区二区| 一级二级三级在线观看| 色资源网站在线观看| av成人在线网站| 欧美在线观看视频在线| 久久亚洲美女| 在线国产欧美| 精品少妇人妻av免费久久洗澡| 国产亚洲一二三区| 国产又粗又大又长| 成人在线视频观看| 亚洲在线成人精品| 一区二区三区无码高清视频| 丰满人妻一区二区三区免费| 国产精品色午夜在线观看| 在线亚洲日本| 精品少妇人妻av一区二区三区| av网站大全在线观看| 精品一区精品二区高清| 一区不卡在线观看| 国产做受高潮漫动| 密臀av在线播放| 在哪里可以看毛片| 国产精品免费精品自在线观看| 亚洲成人在线免费| 一本久久a久久精品亚洲| 82av视频| а√天堂资源官网在线资源| 久久国产劲爆∧v内射| 日韩av视屏| 欧美美女18p| 午夜成人免费电影| 日本不卡一区二区三区高清视频| 国产精品毛片久久| 亚洲精品电影在线| 一级全黄少妇性色生活片| 99在线热播| 久久久久久国产精品美女| 国产精彩视频一区二区| 另类视频欧美| 久久国产美女视频| 日本精品一区二区三区四区的功能| 韩国成人在线视频| 麻豆网站免费观看| 好吊妞这里只有精品| 日韩电影中文 亚洲精品乱码| 亚洲另类自拍| 日本小视频在线免费观看| 亚洲精品日韩综合观看成人91| 69精品人人人人| 欧产日产国产精品视频|