成人性生交大片免费看视频r_亚洲综合极品香蕉久久网_在线视频免费观看一区_亚洲精品亚洲人成人网在线播放_国产精品毛片av_久久久久国产精品www_亚洲国产一区二区三区在线播_日韩一区二区三区四区区区_亚洲精品国产无套在线观_国产免费www

主頁 > 知識庫 > Python爬蟲教程使用Scrapy框架爬取小說代碼示例

Python爬蟲教程使用Scrapy框架爬取小說代碼示例

熱門標(biāo)簽:南昌辦理400電話怎么安裝 哈爾濱外呼系統(tǒng)代理商 佛山防封外呼系統(tǒng)收費(fèi) 不錯的400電話辦理 獲客智能電銷機(jī)器人 徐州天音防封電銷卡 湛江電銷防封卡 鄭州智能外呼系統(tǒng)運(yùn)營商 電話機(jī)器人適用業(yè)務(wù)

Scrapy框架簡單介紹

Scrapy框架是一個基于Twisted的異步處理框架,是純Python實現(xiàn)的爬蟲框架,是提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,其架構(gòu)清晰,模塊之間的耦合程度低,可擴(kuò)展性極強(qiáng),我們只需要少量的代碼就能夠快速抓取數(shù)據(jù)。

其框架如下圖所示:

Scrapy Engine是整個框架的核心,而涉及到我們編寫代碼的模塊一般只有Item Pipeline模塊和Spiders模塊。

創(chuàng)建Scrapy項目

首先我們通過以下代碼來創(chuàng)建Scrapy項目,執(zhí)行代碼如下圖所示:

Scrapy startproject Fiction

運(yùn)行結(jié)果如下圖所示:

通過上圖可知,我們在C盤創(chuàng)建了一個新的Scrapy項目,項目名為Fiction,而且還提示我們可以通過以下命令創(chuàng)建第一個Spider爬蟲,命令如下所示:

cd Fiction          #進(jìn)入目錄
scrapy genspider example example.com    #創(chuàng)建spider爬蟲

其中example是我們爬蟲名,example.com是爬蟲爬取的范圍,也就是網(wǎng)站的域名。

Fiction文件夾內(nèi)容如下圖所示:

創(chuàng)建Spider爬蟲

在上面的步驟我們成功創(chuàng)建了一個Scrapy項目,而且知道如何創(chuàng)建Spider爬蟲,接下來我們創(chuàng)建名為fiction的Spider爬蟲,其域名為www.17k.com,代碼如下所示:

scrapy genspider fiction www.17k.com

運(yùn)行后,spiders文件夾中多了我們剛才創(chuàng)建fiction.py,這個就是我們創(chuàng)建的Spider爬蟲。

如下圖所示:

看到這么多py文件是不是慌了,其實不用慌,一般情況我們主要在剛創(chuàng)建的spider爬蟲文件、items.py和pipelines.py進(jìn)行編寫代碼,其中:

  • fiction.py:主要編寫代碼定義爬取的邏輯,解析響應(yīng)并生成提取結(jié)果和新的請求;
  • items.py:主要先定義好爬取數(shù)據(jù)的字段,避免拼寫錯誤或者定義字段錯誤,當(dāng)然我們可以不先定義好字段,而在fiction.py中直接定義;
  • pipelines.py:主要是編寫數(shù)據(jù)清洗、驗證和存儲數(shù)據(jù)的代碼,當(dāng)我們把數(shù)據(jù)存儲在csv、xml、pickle、marshal、json等文件時,就不需要在pipelines.py中編寫代碼了,只需要執(zhí)行以下代碼即可:
scrapy crawl fiction 文件名.后綴

當(dāng)數(shù)據(jù)需要保存在MongoDB數(shù)據(jù)庫時,則編寫以下代碼即可:

from pymongo import  MongoClient
client=MongoClient()
collection=client["Fiction"]["fiction"]
​class Test1Pipeline:
    def process_item(self, item, spider):
        collection.insert(item)
        return item

Spider爬蟲提取數(shù)據(jù)

在提取數(shù)據(jù)前,首先我們進(jìn)入要爬取小說網(wǎng)站并打開開發(fā)者工具,如下圖所示:

我們通過上圖可以發(fā)現(xiàn),dl class="Volume">存放著我們所有小說章節(jié)名,點(diǎn)擊該章節(jié)就可以跳轉(zhuǎn)到對應(yīng)的章節(jié)頁面,所以可以使用Xpath來通過這個div作為我們的xpath爬取范圍,通過for循環(huán)來遍歷獲取每個章節(jié)的名和URL鏈接。

跳轉(zhuǎn)章節(jié)內(nèi)容頁面后,打開開發(fā)者工具,如下圖所示:

通過上圖可以發(fā)現(xiàn),小說內(nèi)容存儲在div class="readAreaBox">里面,我們可以通過for循環(huán)來遍歷該dl中的div class="p">獲取到章節(jié)的全部內(nèi)容,當(dāng)然也是通過使用Xpath來獲取。

items.py代碼定義字段

細(xì)心的小伙伴就發(fā)現(xiàn)了,我們所需要提前的字段有章節(jié)名、章節(jié)URL鏈接和章節(jié)內(nèi)容,其中章節(jié)名和章節(jié)內(nèi)容是需要進(jìn)行數(shù)據(jù)保存的,所以可以先在items.py文件中定義好字段名,具體代碼如下所示:

import scrapy
​class FictionItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    text = scrapy.Field()

定義字段很簡單,字段名=scrapy.Field()即可。

對了,在items.py定義好字段有個最好的好處是當(dāng)我們在獲取到數(shù)據(jù)的時候,使用不同的item來存放不同的數(shù)據(jù),在把數(shù)據(jù)交給pipeline的時候,可以通過isinstance(item,FictionItem)來判斷數(shù)據(jù)屬于哪個item,進(jìn)行不同的數(shù)據(jù)(item)處理。

定義好字段后,這是我們通過在pipeline.py文件中編寫代碼,對不同的item數(shù)據(jù)進(jìn)行區(qū)分,具體代碼如下:

from Fiction.items import FictionItem
class FictionPipeline:
    def process_item(self, item, spider):
        if isinstance(item,FictionItem):
            print(item)

當(dāng)然,在我們爬取的項目中,只需要一個class類,在上面的代碼只是為了展示如何判斷區(qū)分?jǐn)?shù)據(jù)屬于哪個item。

fiction.py代碼提取數(shù)據(jù)

fiction.py文件也就是我們創(chuàng)建的spider爬蟲,打開fiction.py文件,其代碼內(nèi)容如下所示:

import scrapy
class FictionSpider(scrapy.Spider):
    name = 'fiction'
    allowed_domains = ['www.17k.com']
    start_urls = ['http://www.17k.com/']
​    def parse(self, response):
        pass

其中:

  • name是定義此爬蟲名稱的字符串,每個項目唯一的名字,用來區(qū)分不同的Spider,啟動爬蟲時使用scrapy crawl +該爬蟲名字;
  • allowed_domains是允許爬取的域名,防止爬蟲爬到其他網(wǎng)站;
  • start_urls是最開始爬取的url;
  • parse()方法是負(fù)責(zé)解析返回響應(yīng)、提取數(shù)據(jù)或進(jìn)一步生成要處理的請求,注意:不能修改這個方法的名字。

大致了解該文件內(nèi)容的各個部分后,我們開始提取首頁的章節(jié)名和章節(jié)URL鏈接,具體代碼如下所示:

import scrapy
from Fiction.items import FictionItem
​class FictionSpider(scrapy.Spider):
    name = 'fiction'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/list/2536069.html']
​    def parse(self, response):
        html = response.xpath('//dl[@class="Volume"]')
        books = html.xpath('./dd/a')
        for book in books:
            item =FictionItem()
            item['name'] = []
            name = book.xpath('./span/text()').extract()
            for i in name:
                item['name'].append(i.replace('\n', '').replace('\t', ''))
            href = book.xpath('./@href').extract_first()
             + href
            yield scrapy.Request(url=href, callback=self.parse_detail, meta={'item': item})

首先導(dǎo)入FictionItem,再我們把start_urls鏈接修改為待會要爬的URL鏈接,在parse()方法中,使用xpath獲取章節(jié)名和章節(jié)URL鏈接,通過for循環(huán)調(diào)用FictionItem(),再把章節(jié)名存放在item里面。

通過生成器yield 返回調(diào)用scrapy.Request()方法,其中:

  • url=href:表示下一個爬取的URL鏈接;
  • callback:表示指定parse_detail函數(shù)作為解析處理;
  • meta:實現(xiàn)在不同的解析函數(shù)中傳遞數(shù)據(jù)。

在上一步中我們指定了parse_detail函數(shù)作為解析處理,接下來將編寫parse_detail函數(shù)來獲取章節(jié)內(nèi)容,具體代碼如下所示:

    def parse_detail(self,response):
        string=""
        item=response.meta['item']
        content=response.xpath('//*[@id="readArea"]/div[1]/div[2]//p/text()').extract()
        for i in content:
            string=string+i+'\n'
        item['text']=string
        yield item

首先我們定義了一個空變量string,在通過response.meta[]來接收item數(shù)據(jù),其參數(shù)為上一步中的meta={'item': item}的item,接下來獲取章節(jié)內(nèi)容,最后將章節(jié)內(nèi)容存儲在item['text']中,并通過生成器yield返回數(shù)據(jù)給引擎。

pipelines.py代碼保存數(shù)據(jù)

章節(jié)名和章節(jié)內(nèi)容已經(jīng)全部獲取下來了,接下來我們把獲取下來的數(shù)據(jù)保存為txt文件,具體代碼如下所示:

from Fiction.items import FictionItem
import time
class FictionPipeline:
    def open_spider(self, spider):
        print(time.time())
    def process_item(self, item, spider):
        if isinstance(item, FictionItem):
            title = item['name']
            content = item['text']
            with open(f'小說/{title[0]}.txt', 'w', encoding='utf-8')as f:
                f.write(content)
    def close_spider(self, spider):
        print(time.time())

首先我們導(dǎo)入FictionItem、time,在open_spider()和close_spider()方法編寫代碼調(diào)用time.time()來獲取爬取的開始時間和結(jié)束時間,再在process_item()方法中,把引擎返回的item['name']和item['text']分別存放在title和content中,并通過open打開txt文件,調(diào)用write()把章節(jié)內(nèi)容寫入在txt文件中。

settings.py代碼啟動爬蟲

在啟動爬蟲前,我們先要在settings.py文件中啟動引擎,啟動方式很簡單,只要找到下圖中的代碼,并取消代碼的注釋即可:

有人可能問:那User-Agent在哪里設(shè)置?我們可以在settings.py文件中,設(shè)置User-Agent,具體代碼如下:

好了,所有代碼已經(jīng)編寫完畢了,接下來將啟動爬蟲了,執(zhí)行代碼如下:

scrapy crawl fiction

啟動爬蟲后,發(fā)現(xiàn)我們控制臺里面多了很多l(xiāng)og日志數(shù)據(jù)的輸出,這時可以通過在settings.py添加以下代碼,就可以屏蔽這些log日志:

LOG_LEVEL="WARNING"

結(jié)果展示

好了,scrapy框架爬取小說就講到這里了,感覺大家的觀看?。?!

更多關(guān)于Python爬蟲教程Scrapy框架爬取的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • python實現(xiàn)爬蟲抓取小說功能示例【抓取金庸小說】
  • Python scrapy爬取小說代碼案例詳解
  • Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單
  • Python爬蟲框架Scrapy基本用法入門教程
  • 零基礎(chǔ)寫python爬蟲之使用Scrapy框架編寫爬蟲

標(biāo)簽:呂梁 懷化 吉安 蕪湖 廣西 安康 紹興 蘭州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲教程使用Scrapy框架爬取小說代碼示例》,本文關(guān)鍵詞  Python,爬蟲,教程,使用,Scrapy,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲教程使用Scrapy框架爬取小說代碼示例》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python爬蟲教程使用Scrapy框架爬取小說代碼示例的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    色域天天综合网| 亚洲欧美日产图| 中国麻豆视频| 二区中文字幕| 免费观看亚洲天堂| 色妞久久福利网| 天天操天天舔天天干| 激情欧美日韩一区| 老太脱裤子让老头玩xxxxx| 欧美变态tickling挠脚心| 国内免费久久久久久久久久久| 国产精品一区二区不卡| 欧美成人精品一区二区男人小说| 久久精品国产亚洲blacked| 亚洲成人自拍一区| 99久久精品国产观看| 国产精品丝袜久久久久久不卡| 成人av二区| 男人操女人的视频网站| 一区二区三区精| 日韩激情综合| 11024精品一区二区三区日韩| 亚洲人成网77777色在线播放| 最近2018中文字幕免费在线视频| 欧美亚洲一区三区| 亚洲精品免费在线观看| 999久久久国产精品| 日韩精品无码一区二区三区久久久| 亚洲精品毛片一区二区三区| 正在播放亚洲一区| 色婷婷综合成人av| 国产精品成久久久久| 美女av免费观看| 九9re精品视频在线观看re6| 亚洲精品乱码久久久久久久久久久久| 精品久久久久久久人人人人传媒| 久久久久久无码午夜精品直播| 国产亚洲一区二区三区四区| www一区二区| 久久精品色欧美aⅴ一区二区| 国产精品亚洲视频在线观看| 精品国产视频在线| 成人精品一区二区三区中文字幕| 午夜国产一区二区三区| 天天干天天干天天操| 亚洲欧美国产va在线影院| 日韩a级黄色片| 电影一区二区三| 精品无码久久久久国产| 国产性猛交╳xxx乱大交| 9191成人精品久久| 制服.丝袜.亚洲.中文.综合懂色| 欧美成人app| 午夜国产在线观看| 少妇av一区二区三区无码| 在线免费一区| 尤物视频在线| av在线网址导航| 日韩欧美不卡一区| 久久久亚洲午夜电影| 日本五十路女优| 成年人免费在线视频网站| 91久久久久久久久久久久| 九九热在线精品视频| 亚洲精品成人在线播放| 国产亚洲一区二区手机在线观看| 亚洲h片在线看| 正在播放国产对白害羞| 久久久精品日本| 日本特黄a级片| 97青娱国产盛宴精品视频| 91aaa精品| 福利视频999| 日韩精品一区二区三区第95| 法国空姐在线观看免费| 久青青在线观看视频国产| 男男一级淫片免费播放| 国产精品久久久久毛片大屁完整版| www.日韩在线观看| 神马影院我不卡午夜| 北条麻妃在线视频观看| 欧美无人高清视频在线观看| a毛片不卡免费看片| 国产精品视频免费一区| 国产精品久久久久久久久久三级| 国产精品亚洲欧美| 一级片在线视频| 日韩av在线免费| 成年网在线观看免费观看网址| 亚洲最大成人综合网| 97在线免费公开视频| 成人天堂入口网站| 欧美激情第一页xxx| 国产免费不卡视频| 强伦女教师2:伦理在线观看| 精品国产乱码久久久久久丨区2区| 国产在线视频卡一卡二| 超碰免费在线97| 亚洲线精品一区二区三区八戒| 亚洲精品在线视频免费观看| 欧美黄片一区二区三区| 国产精品一区在线| 日韩av一区二区三区在线| 久久综合九色综合88i| 欧美性videos高清精品| 小小水蜜桃在线观看| 亚洲一区二区自拍| 日韩成人黄色| v天堂中文在线| 欧美久久久久久久久中文字幕| 日韩免费观看在线观看| 7777久久香蕉成人影院| 久久嫩草精品久久久精品一| 精品国产1区2区| 四季av在线一区二区三区| 日本中文字幕一级片| 日本免费网站视频| 蜜桃视频一日韩欧美专区| 成人一区二区电影| 久久精品国产99国产| 国产原厂视频在线观看| 色狠狠av一区二区三区| 日本一区二区三区视频在线播放| 牛牛国产精品| 国产亚洲精品美女久久久m| 亚洲免费国产视频| 国产又大又黄又粗的视频| 色婷婷精品大在线视频| 国产日韩欧美不卡在线| 波多野结衣中文在线| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 性高潮久久久久久久久久| 亚洲欧美日韩国产成人| 欧美巨大丰满猛性社交| 四色永久免费网站| 一本色道久久综合亚洲精品小说| 国产v日产∨综合v精品视频| 蜜臀av性久久久久蜜臀av| 蜜臀精品一区二区| 亚洲日韩视频| 中文字幕亚洲成人| 69xxxx国产| 日b视频免费观看| 成年女人免费视频| 在线免费黄网| 国产老妇另类xxxxx| 青青青国内视频在线观看软件| 日本亚洲天堂网| 男女猛烈激情xx00免费视频| 女人被男人躁得好爽免费视频| 精品一区二区三区四| 日本高清久久一区二区三区| 国产又粗又黄又爽| 久久久综合久久| 免费视频拗女稀缺一区二区| 最近2019免费中文字幕视频三| 久久久综合视频| 国产不卡精品在线| 美女视频黄频大全不卡视频在线播放| 78国产伦精品一区二区三区| 久久久精品免费看| 91av视频在线免费观看| 一本色道精品久久一区二区三区| 一个色在线视频| 最近的中文字幕在线看视频| 91国产精品电影| 日本五码在线| 国产精品久久无码一三区| xxxx69视频| 精品国产伦一区二区三区| 国产激情小视频| 你懂的国产精品永久在线| 欧洲精品亚洲精品| 波多野在线播放| 国产激情无码一区二区三区| 羞羞的视频网站| 日韩av快播网址| 欧美亚洲丝袜传媒另类| 色婷婷粉嫩av| 日本国产亚洲| 亚洲精品国产精品自产a区红杏吧| 国产91精品久久久久久久| 黄色综合网址| 成人动漫h在线观看| 亚洲天堂男人av| 欧美专区在线观看| 国产成人精品av| 成人av二区| www.日韩高清| 亚洲国产精品女人| 欧美成人在线影院| 久久久久这里只有精品| 欧美巨乳在线观看| 亚洲电影影音先锋| 成人免费毛片app| 中文字幕不卡| 无罩大乳的熟妇正在播放| 美女做暖暖视频免费在线观看全部网址91| 日韩久久精品电影| 日韩激情一二三区| 久久久久久久久岛国免费| 国产精选久久| 在线免费观看成年人视频| 91tv在线观看| 国产精品一区专区欧美日韩| 国产女人水真多18毛片18精品视频| 国产日韩欧美一区二区三区四区| 久久久久久久久久久久久久久久久久av| 91精品国产免费| **性色生活片久久毛片| 五月激情婷婷在线| av资源新版天堂在线| 婷婷国产成人精品视频| 久久精品凹凸全集| 亚洲夫妻av| 日韩精品一区二区在线| 日本免费在线视频不卡一不卡二| 久久中文字幕在线| 日韩免费观看一区二区| 538prom精品视频线放| 欧美一区二区三区四区在线观看地址| 久久久精品视频免费| 国产综合欧美| avtt天堂资源网站| 亚洲精品乱码久久久久久| 亚洲黄网在线观看| 欧美图片激情小说| 大地资源网3页在线观看| 欧美人伦禁忌dvd放荡欲情| 国产视频一区二| 国产精品免费久久| 中文字幕永久有效| 亚洲一区影音先锋| 精品亚洲男同gayvideo网站| 18一19gay欧美视频网站| 四川一级毛毛片| 精品国产二区三区| 欧美午夜大胆人体| 国产无人区一区二区三区| 亚洲精品永久免费视频| 国产视频网站一区二区三区| 岛国精品在线观看| 欧洲亚洲精品在线| 黄色一级大片在线免费看产| 秋霞av一区二区三区| 欧美日韩黄色大片| 熟女熟妇伦久久影院毛片一区二区| 亚洲精品一二区| 国产青草视频在线观看| 色成年激情久久综合| 韩日中文字幕第一页| 韩国av一区二区三区在线观看| 国产精品成人免费精品自在线观看| 在线观看黄色国产| 国产黄色免费| 欧美性猛交xxxx| 久久99最新地址| 九色在线91| 亚洲福利影片在线| 欧美aaaaa级| 99国产精品99久久久久久粉嫩| 影音先锋男人看片资源站| 欧美videofree性高清杂交| 日韩一区欧美| 伊人影院在线观看视频| 欧美一级爽aaaaa大片| 午夜国产精品视频免费体验区| 懂色aⅴ精品一区二区三区蜜月| 91香蕉视频污在线| 日韩在线精品一区| 天堂www中文在线资源| 噼里啪啦国语在线观看免费版高清版| 91精品国产高清一区二区三区| 日本三级久久| 亚洲精品国偷拍自产在线观看蜜桃| 日韩av在线导航| 欧美久久成人| 黄色国产一级视频| 国产一区玩具在线观看| 一道精品视频一区二区三区图片| 人妻精品无码一区二区| 亚洲国产精品高清| 五月婷婷中文字幕| 一级毛片久久久| 久草资源在线| 成人黄色在线视频| 欧美日韩精品在线一区二区| 韩国三级视频在线观看| 欧美日韩播放| 93在线视频精品免费观看| 免费看黄裸体一级大秀欧美| 亚洲人成在线免费观看| 九九热在线视频免费观看| 日本香蕉视频在线观看| 欧美三级电影在线播放| 日韩久久中文字幕| 欧美三级视频在线观看| 精品视频久久| 日韩av一区二区三区在线观看| 国产69精品久久99不卡| 一个人免费观看日本www视频| 国产精品com| 二区三区中文字幕| 久久精品这里都是精品| 国产成人久久久久| 欧美一区 二区 三区| 播五月开心婷婷综合| av成人天堂| 亚洲激情视频网站| 色多多视频在线观看| 亚洲图片在区色| 成年人在线视频免费观看| 成人在线一区二区三区| 欧美一区二区麻豆红桃视频| 欧洲金发美女大战黑人| 国产成人手机高清在线观看网站| 欧美在线1区| 国产精品九九久久久久久久| 麻豆av一区二区三区| 99免费精品在线观看| 久久久久久久久久久久久久久99| 蜜桃久久av| 色777狠狠综合秋免鲁丝| 亚欧激情乱码久久久久久久久| av三级在线播放| 色婷婷**av毛片一区| www.xxx亚洲| 国产又黄又爽视频|