婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > Python爬蟲(chóng)框架之Scrapy中Spider的用法

Python爬蟲(chóng)框架之Scrapy中Spider的用法

熱門(mén)標(biāo)簽:預(yù)覽式外呼系統(tǒng) 銀川電話(huà)機(jī)器人電話(huà) 電銷(xiāo)機(jī)器人錄音要學(xué)習(xí)什么 如何地圖標(biāo)注公司 企業(yè)彩鈴地圖標(biāo)注 煙臺(tái)電話(huà)外呼營(yíng)銷(xiāo)系統(tǒng) 外賣(mài)地址有什么地圖標(biāo)注 長(zhǎng)春極信防封電銷(xiāo)卡批發(fā) 上海正規(guī)的外呼系統(tǒng)最新報(bào)價(jià)

Scrapy中Spider的用法

Spider類(lèi)定義了如何爬取某個(gè)(或某些)網(wǎng)站。包括了爬取的動(dòng)作(例如:是否跟進(jìn)鏈接)以及如何從網(wǎng)頁(yè)的內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)(爬取item)。換句話(huà)說(shuō),Spider就是您定義爬取的動(dòng)作及分析某個(gè)網(wǎng)頁(yè)(或者是有些網(wǎng)頁(yè))的地方。

對(duì)spider來(lái)說(shuō),爬取的循環(huán)類(lèi)似下文:

1.以初始的URL初始化Request,并設(shè)置回調(diào)函數(shù)。當(dāng)該request下載完畢并返回時(shí),將生成response,并作為參數(shù)傳給該回調(diào)函數(shù)。spider中初始的request是通過(guò)調(diào)用start_requests()來(lái)獲取的。start_requests()讀取start_urls中的URL,并以parse為回調(diào)函數(shù)生成Request。

2.在回調(diào)函數(shù)內(nèi)分析返回的(網(wǎng)頁(yè))內(nèi)容,返回ltem對(duì)象或者Request或者一個(gè)包括二者的可迭代容器。返回的Request對(duì)象之后會(huì)經(jīng)過(guò)Scrapy處理,下載相應(yīng)的內(nèi)容,并調(diào)用設(shè)置的callback函數(shù)(函數(shù)可相同)。

3.在回調(diào)函數(shù)內(nèi),您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來(lái)分析網(wǎng)頁(yè)內(nèi)容,并根據(jù)分析的數(shù)據(jù)生成item。

4.最后,由spider返回的item將被存到數(shù)據(jù)庫(kù)(由某些ltem Pipeline處理)或使用Feed exports存入到文件中。

雖然該循環(huán)對(duì)任何類(lèi)型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認(rèn)spider。之后將討論這些spider。

Spider

scrapy.spider.Spider是最簡(jiǎn)單的spider。每個(gè)其他的spider必須繼承自該類(lèi)(包括Scrapy自帶的其他spider以及您自己編寫(xiě)的spider)。其僅僅請(qǐng)求給定的start_urls / start_requests,并根據(jù)返回的結(jié)果(resulting responses)調(diào)用spider的 parse方法。

name

定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化) spider,所以其必須是唯一的。不過(guò)您可以生成多個(gè)相同的spider實(shí)例(instance),這沒(méi)有任何限制。name是spider最重要的屬性,而且是必須的。

如果該spider爬取單個(gè)網(wǎng)站(single domain),一個(gè)常見(jiàn)的做法是以該網(wǎng)站(domain)(加或不加后綴)來(lái)命名spider。例如,如果spider爬取 mywebsite.com,該spider通常會(huì)被命名為mywebsite。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。當(dāng)OffsiteMiddleware啟用時(shí),域名不在列表中的URL不會(huì)被跟進(jìn)。

start_urls

URL列表。當(dāng)沒(méi)有制定特定的URL時(shí),spider將從該列表中開(kāi)始進(jìn)行爬取。因此,第一個(gè)被獲取到的頁(yè)面的URL將是該列表之一。后續(xù)的URL將會(huì)從獲取到的數(shù)據(jù)中提取。

start_requests()

該方法必須返回一個(gè)可迭代對(duì)象(iterable)。該對(duì)象包含了spider用于爬取的第一個(gè)Request。

當(dāng)spider啟動(dòng)爬取并且未制定URL時(shí),該方法被調(diào)用。當(dāng)指定了URL時(shí),make_requests_from_url()將被調(diào)用來(lái)創(chuàng)建Request對(duì)象。該方法僅僅會(huì)被Scrapy調(diào)用一次,因此您可以將其實(shí)現(xiàn)為生成器。

該方法的默認(rèn)實(shí)現(xiàn)是使用start_urls的url生成Request。

如果您想要修改最初爬取某個(gè)網(wǎng)站的Request對(duì)象,您可以重寫(xiě)(override)該方法。例如,如果您需要在啟動(dòng)時(shí)以POST登錄某個(gè)網(wǎng)站,你可以這么寫(xiě):

def start_requests(self) :
    return [scrapy.FormRequest("http : / /ww. example.com/login",
        formdata={ 'user' : 'john', ' pass ' : 'secret'},
        ca77back=se1f.1ogged_in)]
 
def logged_in(self,response) :
## here you would extract links to follow and return Requests for
## each of them,with another ca77back
pass

parse

當(dāng)response沒(méi)有指定回調(diào)函數(shù)時(shí),該方法是Scrapy處理下載的response的默認(rèn)方法。

parse負(fù)責(zé)處理response并返回處理的數(shù)據(jù)以及(/或)跟進(jìn)的URL。Spider對(duì)其他的Request的回調(diào)函數(shù)也有相同的要求。

該方法及其他的Request回調(diào)函數(shù)必須返回一個(gè)包含Request 及(或) ltem的可迭代的對(duì)象。

參數(shù): response-用于分析的response

啟動(dòng)方式

start_urls

start_urls是一個(gè)列表

start_requests

使用start_requests()重寫(xiě)start_ur1s,要使用Request()方法自己發(fā)送請(qǐng)求:

def start_requests(se7f):
    """重寫(xiě)start_urls 規(guī)則"""
    yield scrapy.Request(ur1='http://quotes.toscrape.com/page/1/'cal1back=self.parse)

scrapy.Request

scrapy.Request是一個(gè)請(qǐng)求對(duì)象,創(chuàng)建時(shí)必須制定回調(diào)函數(shù)。

數(shù)據(jù)保存

可以使用-o將數(shù)據(jù)保存為常見(jiàn)的格式(根據(jù)后綴名保存)
支持的格式有下面幾種:

  • json
  • jsonlines
  • jl
  • csv
  • xml
  • marshal
  • pickle

使用方式:

scrapy crawl quotes2 -o a.json

案例: Spider樣例

##一*- coding: utf-8 -*-
 
import scrapy
 
clTass Quotes2spider(scrapy.spider):
    name = 'quotes2'
    a7lowed_domains = [ 'toscrape.com ' ]
    start_urls = [ ' http: //quotes.toscrape.com/ page/2/ ']
 
    def parse(self,response):
        quotes = response.css('.quote ' )
        for quote in quotes:
            text = quote.css( '.text: : text ' ).extract_first()
            auth = quote.css( '.author : :text ').extract_first()
            tages = quote.css('.tags a: :text' ).extract()
            yield dict(text=text , auth=auth, tages=tages)

到此這篇關(guān)于Python爬蟲(chóng)框架之Scrapy中Spider的用法的文章就介紹到這了,更多相關(guān)Spider的用法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 上手簡(jiǎn)單,功能強(qiáng)大的Python爬蟲(chóng)框架——feapder
  • python爬蟲(chóng)框架feapder的使用簡(jiǎn)介
  • Python爬蟲(chóng)框架-scrapy的使用
  • 一文讀懂python Scrapy爬蟲(chóng)框架
  • python Scrapy爬蟲(chóng)框架的使用
  • 詳解Python的爬蟲(chóng)框架 Scrapy
  • python3 Scrapy爬蟲(chóng)框架ip代理配置的方法
  • Python使用Scrapy爬蟲(chóng)框架全站爬取圖片并保存本地的實(shí)現(xiàn)代碼
  • Python爬蟲(chóng)框架Scrapy實(shí)例代碼
  • Python之Scrapy爬蟲(chóng)框架安裝及簡(jiǎn)單使用詳解
  • 爬蟲(chóng)框架 Feapder 和 Scrapy 的對(duì)比分析

標(biāo)簽:西寧 湖北 潮州 盤(pán)錦 佳木斯 宜昌 上饒 珠海

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲(chóng)框架之Scrapy中Spider的用法》,本文關(guān)鍵詞  Python,爬蟲(chóng),框架,之,Scrapy,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲(chóng)框架之Scrapy中Spider的用法》相關(guān)的同類(lèi)信息!
  • 本頁(yè)收集關(guān)于Python爬蟲(chóng)框架之Scrapy中Spider的用法的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 泽普县| 庆安县| 汝城县| 甘泉县| 昭通市| 鹤峰县| 苍山县| 萨迦县| 绥芬河市| 台湾省| 北票市| 东丽区| 许昌县| 个旧市| 郁南县| 六枝特区| 揭东县| 顺义区| 济阳县| 左权县| 武冈市| 五峰| 湘潭市| 义乌市| 江阴市| 原阳县| 菏泽市| 阳朔县| 东安县| 昔阳县| 昌都县| 冀州市| 苏尼特左旗| 大港区| 祁门县| 松江区| 太保市| 五莲县| 邵东县| 云霄县| 昆山市|