婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

熱門標(biāo)簽:上海正規(guī)的外呼系統(tǒng)最新報(bào)價(jià) 預(yù)覽式外呼系統(tǒng) 如何地圖標(biāo)注公司 外賣地址有什么地圖標(biāo)注 煙臺電話外呼營銷系統(tǒng) 電銷機(jī)器人錄音要學(xué)習(xí)什么 銀川電話機(jī)器人電話 企業(yè)彩鈴地圖標(biāo)注 長春極信防封電銷卡批發(fā)

scrapy 框架結(jié)構(gòu)

思考

  • scrapy 為什么是框架而不是庫?
  • scrapy是如何工作的?

項(xiàng)目結(jié)構(gòu)

在開始爬取之前,必須創(chuàng)建一個新的Scrapy項(xiàng)目。進(jìn)入您打算存儲代碼的目錄中,運(yùn)行下列命令:

注意:創(chuàng)建項(xiàng)目時(shí),會在當(dāng)前目錄下新建爬蟲項(xiàng)目的目錄。

這些文件分別是:

  • scrapy.cfg:項(xiàng)目的配置文件
  • quotes/:該項(xiàng)目的python模塊。之后您將在此加入代碼
  • quotes/items.py:項(xiàng)目中的item文件
  • quotes/middlewares.py:爬蟲中間件、下載中間件(處理請求體與響應(yīng)體)
  • quotes/pipelines.py:項(xiàng)目中的pipelines文件
  • quotes/settings.py:項(xiàng)目的設(shè)置文件
  • quotes/spiders/:放置spider代碼的目錄

Scrapy原理圖

各個組件的介紹

1.Engine。引擎,處理整個系統(tǒng)的數(shù)據(jù)流處理、觸發(fā)事務(wù),是整個框架的核心。

2.ltem。項(xiàng)目,它定義了爬取結(jié)果的數(shù)據(jù)結(jié)構(gòu),爬取的數(shù)據(jù)會被賦值成該ltem對象。

3.Scheduler。調(diào)度器,接受引擎發(fā)過來的請求并將其加入隊(duì)列中,在引擎再次請求的時(shí)候?qū)⒄埱筇峁┙o引擎。

4.Downloader。下載器,下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給蜘蛛。

5.Spiders。蜘蛛,其內(nèi)定義了爬取的邏輯和網(wǎng)頁的解析規(guī)則,它主要負(fù)責(zé)解析響應(yīng)并生成提結(jié)果和新的請求。

6.Item Pipeline。項(xiàng)目管道,負(fù)責(zé)處理由蜘蛛從網(wǎng)頁中抽取的項(xiàng)目,它的主要任務(wù)是清洗、驗(yàn)證和存儲數(shù)據(jù)。

7.Downloader Middlewares。下載器中間件,位于引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請求及響應(yīng)。

8.Spider Middlewares。蜘蛛中間件,位于引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應(yīng)和輸出的結(jié)果及新的請求。

數(shù)據(jù)的流動

  • Scrapy Engine(引擎):負(fù)責(zé)Spider、ltemPipeline、Downloader、Scheduler中間的通訊,信號、數(shù)據(jù)傳遞等。
  • Scheduler(調(diào)度器):負(fù)責(zé)接受引擎發(fā)送過來的Request請求,并按照一定的方式進(jìn)行整理排列,入隊(duì),當(dāng)引擎需要時(shí),交還給引擎。
  • Downloader(下載器):負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,
  • Spider(爬蟲)︰負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù),獲取ltem字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎,再次進(jìn)入Scheduler(調(diào)度器),
  • ltem Pipeline(管道):負(fù)責(zé)處理Spider中獲取到的ltem,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析、過濾、存儲等)的地方.
  • Downloader Middlewares(下載中間件):你可以當(dāng)作是一個可以自定義擴(kuò)展下載功能的組件。
  • Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴(kuò)展和操作引擎和Spider中間通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)的文章就介紹到這了,更多相關(guān)scrapy的框架結(jié)構(gòu)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲基礎(chǔ)講解之scrapy框架
  • python爬蟲scrapy框架的梨視頻案例解析
  • 簡述python Scrapy框架
  • Python Scrapy框架第一個入門程序示例

標(biāo)簽:珠海 潮州 盤錦 佳木斯 湖北 上饒 西寧 宜昌

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)》,本文關(guān)鍵詞  Python,爬蟲,基礎(chǔ),之簡,單說,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 吉首市| 方正县| 唐河县| 繁昌县| 同心县| 丘北县| 扶绥县| 习水县| 吉木萨尔县| 凤山市| 璧山县| 武功县| 古田县| 神农架林区| 敦煌市| 玛纳斯县| 常宁市| 成安县| 锡林浩特市| 武山县| 安塞县| 重庆市| 酉阳| 土默特右旗| 呼伦贝尔市| 平遥县| 汝州市| 博兴县| 崇州市| 桂东县| 辽阳县| 灵石县| 庆云县| 娱乐| 石门县| 房山区| 萍乡市| 平远县| 邵阳市| 宣汉县| 雷州市|