婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python爬蟲基礎之初次使用scrapy爬蟲實例

Python爬蟲基礎之初次使用scrapy爬蟲實例

熱門標簽:電銷機器人錄音要學習什么 煙臺電話外呼營銷系統 上海正規的外呼系統最新報價 企業彩鈴地圖標注 銀川電話機器人電話 長春極信防封電銷卡批發 外賣地址有什么地圖標注 如何地圖標注公司 預覽式外呼系統

項目需求

在專門供爬蟲初學者訓練爬蟲技術的網站(http://quotes.toscrape.com)上爬取名言警句。

創建項目

在開始爬取之前,必須創建一個新的Scrapy項目。進入您打算存儲代碼的目錄中,運行下列命令:

(base) λ scrapy startproject quotes
New scrapy project 'quotes ', using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in:
    D:\XXX
You can start your first spider with :
    cd quotes
    scrapy genspider example example. com

首先切換到新建的爬蟲項目目錄下,也就是/quotes目錄下。然后執行創建爬蟲文件的命令:

D:\XXX(master)
(base) λ cd quotes\

  
D:\XXX\quotes (master)
(base) λ scrapy genspider quotes quotes.com
cannot create a spider with the same name as your project
 
D :\XXX\quotes (master)
(base) λ scrapy genspider quote quotes.com
created spider 'quote' using template 'basic' in module:quotes.spiders.quote

該命令將會創建包含下列內容的quotes目錄:

robots.txt

robots協議也叫robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的網絡蜘蛛,此網站中的哪些內容是不應被搜索引擎的爬蟲獲取的,哪些是可以被爬蟲獲取的。

robots協議并不是一個規范,而只是約定俗成的。

#filename : settings.py
#obey robots.txt rules
ROBOTSTXT__OBEY = False

分析頁面

編寫爬蟲程序之前,首先需要對待爬取的頁面進行分析,主流的瀏覽器中都帶有分析頁面的工具或插件,這里我們選用Chrome瀏覽器的開發者工具(Tools→Developer tools)分析頁面。

數據信息

在Chrome瀏覽器中打開頁面http://lquotes.toscrape.com,然后選擇"Elements",查看其HTML代碼。

可以看到每一個標簽都包裹在

編寫spider

分析完頁面后,接下來編寫爬蟲。在Scrapy中編寫一個爬蟲, 在scrapy.Spider中編寫代碼Spider是用戶編寫用于從單個網站(或者-些網站)爬取數據的類。

其包含了-個用于下載的初始URL,如何跟進網頁中的鏈接以及如何分析頁面中的內容,提取生成item的方法。

為了創建一個Spider, 您必須繼承scrapy.Spider類,且定義以下三個屬性:

  • name:用于區別Spider。該名字必須是唯一-的, 您不可以為不同的Spider設定相同的名字。
  • start _urls:包含了Spider在啟動時進行爬取的ur列表。因此, 第一個被獲取到的頁面將是其中之一。后續的URL則從初始的URL獲取到的數據中提取。
  • parse():是spider的一一個方法。被調用時,每個初始URL完成下載后生成的Response對象將會作為唯一的參數傳遞給該函數。該方法負責解析返回的數據(response data),提取數據(生成item)以及生成需要進一步處理的URL 的Request對象。
import scrapy
 
class QuoteSpi der(scrapy . Spider):
    name ='quote'
    allowed_ domains = [' quotes. com ']
    start_ urls = ['http://quotes . toscrape . com/']
    
    def parse(self, response) :
        pass

下面對quote的實現做簡單說明。

  • scrapy.spider :爬蟲基類,每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。
  • name是爬蟲的名字,是在genspider的時候指定的。
  • allowed_domains是爬蟲能抓取的域名,爬蟲只能在這個域名下抓取網頁,可以不寫。
  • start_ur1s是Scrapy抓取的網站,是可迭代類型,當然如果有多個網頁,列表中寫入多個網址即可,常用列表推導式的形式。
  • parse稱為回調函數,該方法中的response就是start_urls 網址發出請求后得到的響應。當然也可以指定其他函數來接收響應。一個頁面解析函數通常需要完成以下兩個任務:

1.提取頁面中的數據(re、XPath、CSS選擇器)
2.提取頁面中的鏈接,并產生對鏈接頁面的下載請求。
頁面解析函數通常被實現成一個生成器函數,每一項從頁面中提取的數據以及每一個對鏈接頁面的下載請求都由yield語句提交給Scrapy引擎。

解析數據

import scrapy
 
def parse(se1f,response) :
    quotes = response.css('.quote ')
    for quote in quotes:
        text = quote.css( '.text: :text ' ).extract_first()
        auth = quote.css( '.author : :text ' ).extract_first()
        tages = quote.css('.tags a: :text' ).extract()
        yield dict(text=text,auth=auth,tages=tages)

重點:

  • response.css(直接使用css語法即可提取響應中的數據。
  • start_ur1s 中可以寫多個網址,以列表格式分割開即可。
  • extract()是提取css對象中的數據,提取出來以后是列表,否則是個對象。并且對于
  • extract_first()是提取第一個

運行爬蟲

在/quotes目錄下運行scrapycrawlquotes即可運行爬蟲項目。
運行爬蟲之后發生了什么?

Scrapy為Spider的start_urls屬性中的每個URL創建了scrapy.Request對象,并將parse方法作為回調函數(callback)賦值給了Request。

Request對象經過調度,執行生成scrapy.http.Response對象并送回給spider parse()方法進行處理。

完成代碼后,運行爬蟲爬取數據,在shell中執行scrapy crawl SPIDER_NAME>命令運行爬蟲'quote',并將爬取的數據存儲到csv文件中:

(base) λ scrapy craw1 quote -o quotes.csv
2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)

等待爬蟲運行結束后,就會在當前目錄下生成一個quotes.csv的文件,里面的數據已csv格式存放。

-o支持保存為多種格式。保存方式也非常簡單,只要給上文件的后綴名就可以了。(csv、json、pickle等)

到此這篇關于Python爬蟲基礎之初次使用scrapy爬蟲實例的文章就介紹到這了,更多相關Python scrapy框架內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲框架-scrapy的使用
  • python scrapy項目下spiders內多個爬蟲同時運行的實現
  • python爬蟲scrapy基本使用超詳細教程
  • 在python3.9下如何安裝scrapy的方法
  • python實現scrapy爬蟲每天定時抓取數據的示例代碼
  • python Scrapy爬蟲框架的使用

標簽:宜昌 上饒 珠海 盤錦 西寧 湖北 潮州 佳木斯

巨人網絡通訊聲明:本文標題《Python爬蟲基礎之初次使用scrapy爬蟲實例》,本文關鍵詞  Python,爬蟲,基礎,之,初次,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬蟲基礎之初次使用scrapy爬蟲實例》相關的同類信息!
  • 本頁收集關于Python爬蟲基礎之初次使用scrapy爬蟲實例的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    中文字幕在线一区二区三区| 国产精品久久久久影院老司 | 国产精品天天看| 久久99精品国产.久久久久久 | 色天天综合久久久久综合片| 中文乱码免费一区二区| 成人av在线观| 亚洲三级免费观看| 欧美性一二三区| 视频在线观看91| 精品国产免费人成电影在线观看四季 | 3d动漫精品啪啪| 美脚の诱脚舐め脚责91 | 欧美一级电影网站| 久热成人在线视频| 中文在线免费一区三区高中清不卡| 成人免费av资源| 亚洲国产精品欧美一二99| 欧美精品丝袜久久久中文字幕| 天堂一区二区在线| 久久久91精品国产一区二区精品| 国产成人av电影在线观看| 亚洲美女区一区| 日韩欧美一区电影| 91蜜桃在线免费视频| 日韩精品国产精品| 国产精品乱码久久久久久| 欧美日韩一区久久| 岛国精品在线观看| 日韩va亚洲va欧美va久久| 中文字幕不卡在线| 欧美一级日韩不卡播放免费| 99国产精品视频免费观看| 日韩激情在线观看| 国产精品久久久久影视| 欧美一区二区三区四区视频| 国产又黄又大久久| 天堂av在线一区| 亚洲精品成人天堂一二三| 久久久精品欧美丰满| 91精品国产综合久久精品麻豆 | 国产日韩欧美一区二区三区乱码 | av电影在线观看不卡| 亚洲天堂免费看| 欧美日韩精品欧美日韩精品| 精品在线一区二区三区| 中文字幕中文字幕在线一区 | 免费成人美女在线观看| 亚洲品质自拍视频网站| 精品电影一区二区| 欧美一区二区三区四区视频| 欧美日韩综合在线免费观看| 9久草视频在线视频精品| 精品一区二区三区蜜桃| 国产精品电影院| 久久久久久夜精品精品免费| 欧美日韩在线一区二区| 一本到一区二区三区| 高清视频一区二区| 午夜精品免费在线观看| 国产精品成人免费精品自在线观看| 精品久久久久久亚洲综合网| 欧美日韩aaaaaa| 9191久久久久久久久久久| 国产成人精品亚洲777人妖| 蜜臀精品久久久久久蜜臀| 免费xxxx性欧美18vr| 亚洲一区二区视频在线观看| 亚洲欧美电影一区二区| 亚洲欧美在线aaa| 国产精品国产三级国产a| 亚洲色图丝袜美腿| 中文字幕在线一区二区三区| 亚洲日本va午夜在线影院| 久久久久久久精| 欧美精品一区二区在线播放| 国产欧美一区视频| 国产欧美一区二区三区沐欲| 中文字幕免费不卡| 国产精品理论片| 亚洲电影在线免费观看| 亚洲国产中文字幕在线视频综合| 亚洲一区二区视频在线观看| 蜜臀av在线播放一区二区三区| 日韩黄色免费网站| 日本不卡视频一二三区| 久久国产免费看| 国产剧情av麻豆香蕉精品| 福利91精品一区二区三区| 不卡一区二区中文字幕| 在线日韩av片| 久久精品人人做人人综合| 国产欧美一区视频| 亚洲美腿欧美偷拍| 日本一区中文字幕 | 亚洲第一激情av| 麻豆一区二区三区| 高清不卡一二三区| 欧美视频中文字幕| 久久日一线二线三线suv| 国产精品成人午夜| 亚洲国产aⅴ天堂久久| 国产乱码精品一区二区三区忘忧草 | 色婷婷精品大在线视频 | 91麻豆国产福利精品| 欧美另类高清zo欧美| 国产亚洲欧美日韩俺去了| 一区二区三区四区在线免费观看| 日韩精品高清不卡| 国产99一区视频免费| 欧美三日本三级三级在线播放| 精品国产凹凸成av人导航| 亚洲天堂av一区| 国产精品91一区二区| 欧美日韩精品系列| 亚洲国产精品成人久久综合一区| 亚洲二区视频在线| 成人午夜看片网址| 欧美一区二区高清| 亚洲三级在线免费| 国产乱码精品一区二区三区五月婷| 欧美午夜一区二区三区免费大片| 精品国产一区二区三区四区四| 一区二区三区中文免费| 国产一区二区三区av电影| 欧美午夜电影一区| 久久一区二区三区国产精品| 婷婷久久综合九色综合伊人色| 国产精品99久久久久久久vr| 欧美一级在线视频| 一区二区三区高清在线| 国产成人综合自拍| 精品久久久久一区| 日韩av在线免费观看不卡| 在线观看91视频| 综合av第一页| 懂色av一区二区三区免费看| 精品久久久久久久久久久久久久久久久| 亚洲成人自拍偷拍| 国产成人小视频| 欧美成人精精品一区二区频| 亚洲国产一区二区视频| 丁香六月综合激情| 日韩欧美精品三级| 日欧美一区二区| 欧美午夜一区二区| 亚洲丝袜制服诱惑| 91国在线观看| 亚洲人成7777| 色系网站成人免费| 亚洲曰韩产成在线| 欧美日韩日本视频| 亚洲成人1区2区| 欧美丰满高潮xxxx喷水动漫| 亚洲午夜成aⅴ人片| 这里是久久伊人| 麻豆极品一区二区三区| 精品美女在线播放| 国产在线日韩欧美| 国产欧美精品一区| 一本到高清视频免费精品| 亚洲精品成人天堂一二三| 欧美私人免费视频| 青草国产精品久久久久久| 亚洲精品在线免费观看视频| av电影在线观看完整版一区二区| 亚洲同性gay激情无套| 欧美色精品在线视频| 免费成人在线影院| 国产精品无码永久免费888| 91国产成人在线| 免费看欧美美女黄的网站| 久久久久亚洲蜜桃| 色中色一区二区| 蜜桃av噜噜一区| 一区二区三区中文字幕精品精品 | 日韩一区二区在线看片| 久久99久久99精品免视看婷婷| 久久精品视频免费观看| 91免费版在线| 开心九九激情九九欧美日韩精美视频电影 | 91热门视频在线观看| 亚洲精品中文在线观看| 91麻豆精品国产无毒不卡在线观看 | 亚洲男同性视频| 51精品视频一区二区三区| 国产高清不卡二三区| 一区二区三区欧美久久| 欧美经典一区二区| 精品视频全国免费看| 国产成人av一区| 日韩电影免费在线| 国产精品美女久久久久久久久| 欧美性一二三区| 国产精品一区二区不卡| 一区二区视频在线| 国产亚洲欧洲997久久综合| 欧美电影一区二区| 成人激情免费网站| 日韩成人dvd|