婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

熱門標(biāo)簽:儋州電話機(jī)器人 朝陽(yáng)手機(jī)外呼系統(tǒng) 地圖標(biāo)注面積 所得系統(tǒng)電梯怎樣主板設(shè)置外呼 北瀚ai電銷機(jī)器人官網(wǎng)手機(jī)版 北京電銷外呼系統(tǒng)加盟 小蘇云呼電話機(jī)器人 市場(chǎng)上的電銷機(jī)器人 佛山400電話辦理

使用Scrapy爬取豆瓣某影星的所有個(gè)人圖片

以莫妮卡·貝魯奇為例

1.首先我們?cè)诿钚羞M(jìn)入到我們要?jiǎng)?chuàng)建的目錄,輸入 scrapy startproject banciyuan 創(chuàng)建scrapy項(xiàng)目

創(chuàng)建的項(xiàng)目結(jié)構(gòu)如下

2.為了方便使用pycharm執(zhí)行scrapy項(xiàng)目,新建main.py

from scrapy import cmdline

cmdline.execute("scrapy crawl banciyuan".split())

再edit configuration

然后進(jìn)行如下設(shè)置,設(shè)置后之后就能通過(guò)運(yùn)行main.py運(yùn)行scrapy項(xiàng)目了

3.分析該HTML頁(yè)面,創(chuàng)建對(duì)應(yīng)spider

from scrapy import Spider
import scrapy

from banciyuan.items import BanciyuanItem


class BanciyuanSpider(Spider):
    name = 'banciyuan'
    allowed_domains = ['movie.douban.com']
    start_urls = ["https://movie.douban.com/celebrity/1025156/photos/"]
    url = "https://movie.douban.com/celebrity/1025156/photos/"

    def parse(self, response):
        num = response.xpath('//div[@class="paginator"]/a[last()]/text()').extract_first('')
        print(num)
        for i in range(int(num)):
            suffix = '?type=Cstart=' + str(i * 30) + 'sortby=likesize=asubtype=a'
            yield scrapy.Request(url=self.url + suffix, callback=self.get_page)

    def get_page(self, response):
        href_list = response.xpath('//div[@class="article"]//div[@class="cover"]/a/@href').extract()
        # print(href_list)
        for href in href_list:
            yield scrapy.Request(url=href, callback=self.get_info)

    def get_info(self, response):
        src = response.xpath(
            '//div[@class="article"]//div[@class="photo-show"]//div[@class="photo-wp"]/a[1]/img/@src').extract_first('')
        title = response.xpath('//div[@id="content"]/h1/text()').extract_first('')
        # print(response.body)
        item = BanciyuanItem()
        item['title'] = title
        item['src'] = [src]
        yield item

4.items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class BanciyuanItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()
    title = scrapy.Field()

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import scrapy

class BanciyuanPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield scrapy.Request(url=item['src'][0], meta={'item': item})

    def file_path(self, request, response=None, info=None, *, item=None):
        item = request.meta['item']
        image_name = item['src'][0].split('/')[-1]
        # image_name.replace('.webp', '.jpg')
        path = '%s/%s' % (item['title'].split(' ')[0], image_name)

        return path

settings.py

# Scrapy settings for banciyuan project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'banciyuan'

SPIDER_MODULES = ['banciyuan.spiders']
NEWSPIDER_MODULE = 'banciyuan.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}


# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'banciyuan.middlewares.BanciyuanSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'banciyuan.middlewares.BanciyuanDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'banciyuan.pipelines.BanciyuanPipeline': 1,
}
IMAGES_STORE = './images'

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

5.爬取結(jié)果

reference

源碼

到此這篇關(guān)于Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關(guān)Scrapy爬取豆瓣圖片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲(chóng)之教你利用Scrapy爬取圖片
  • Python爬取網(wǎng)站圖片并保存的實(shí)現(xiàn)示例
  • python制作微博圖片爬取工具
  • python繞過(guò)圖片滑動(dòng)驗(yàn)證碼實(shí)現(xiàn)爬取PTA所有題目功能 附源碼
  • 利用python批量爬取百度任意類別的圖片的實(shí)現(xiàn)方法
  • Python使用xpath實(shí)現(xiàn)圖片爬取
  • Python Scrapy圖片爬取原理及代碼實(shí)例
  • Python3直接爬取圖片URL并保存示例
  • python爬取某網(wǎng)站原圖作為壁紙
  • 用Python做一個(gè)嗶站小姐姐詞云跳舞視頻

標(biāo)簽:金融催收 云南 酒泉 寧夏 江蘇 商丘 龍巖 定西

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片》,本文關(guān)鍵詞  Python,爬蟲(chóng),實(shí)戰(zhàn),之,使用,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    99re这里都是精品| 麻豆成人久久精品二区三区小说| 成人一区二区三区视频在线观看 | 日韩亚洲欧美成人一区| 爽好久久久欧美精品| 精品日韩一区二区三区| 成人性生交大片免费| 亚洲欧美日韩国产综合| 69精品人人人人| 国产专区综合网| 亚洲免费毛片网站| 欧美精品tushy高清| 国产精品一区二区久久精品爱涩| 成人欧美一区二区三区黑人麻豆| 在线观看日韩精品| 国内精品写真在线观看| 亚洲欧美日韩在线不卡| 日韩亚洲欧美一区二区三区| 豆国产96在线|亚洲| 亚洲成人动漫一区| 久久综合久久综合亚洲| 一本一道久久a久久精品 | 国产伦理精品不卡| 亚洲精品国产品国语在线app| 欧美一区二区三区系列电影| 成人午夜视频福利| 日本在线观看不卡视频| 国产精品欧美精品| 欧美嫩在线观看| av一区二区久久| 美国十次了思思久久精品导航| 中文字幕人成不卡一区| 欧美成人vps| 欧美日韩精品二区第二页| 成人免费看的视频| 免费精品视频在线| 亚洲亚洲精品在线观看| 亚洲国产高清不卡| 日韩三级.com| 欧美日产在线观看| 91麻豆国产自产在线观看| 国内精品写真在线观看| 日日欢夜夜爽一区| 亚洲精选在线视频| 国产精品进线69影院| 欧美大片顶级少妇| 欧美日韩电影一区| 色婷婷激情综合| www.日本不卡| 国产精品一区二区久久精品爱涩| 日本美女一区二区三区视频| 亚洲小少妇裸体bbw| 亚洲欧美另类综合偷拍| 国产精品三级av在线播放| 精品国产一区二区三区四区四| 欧美日韩高清一区| 欧美日韩国产一级二级| 欧美在线影院一区二区| 91丨porny丨蝌蚪视频| 成人av高清在线| 成人美女视频在线观看18| 国产乱码一区二区三区| 国产美女一区二区三区| 久久99精品久久只有精品| 日韩av电影天堂| 天天爽夜夜爽夜夜爽精品视频| 一区二区三区四区亚洲| 亚洲精品中文在线观看| 尤物av一区二区| 亚洲永久精品国产| 香蕉加勒比综合久久| 亚洲成在人线在线播放| 亚洲成人第一页| 日韩制服丝袜先锋影音| 日韩影视精彩在线| 欧美a级一区二区| 九色|91porny| 国产成人精品一区二| 国产成人aaa| 99在线视频精品| 在线一区二区三区做爰视频网站| 在线观看日韩国产| 欧美一区二区三区思思人| 欧美成人a∨高清免费观看| 精品国产一区二区在线观看| 中文字幕国产精品一区二区| 亚洲天堂成人网| 水野朝阳av一区二区三区| 久久精品国产免费| 高清不卡在线观看| 色妞www精品视频| 欧美日韩国产不卡| xf在线a精品一区二区视频网站| 日本一区二区三区电影| 亚洲男人天堂一区| 琪琪一区二区三区| 国产精品一区二区在线播放| 成人av在线电影| 精品视频全国免费看| 久久亚洲一级片| 亚洲人成精品久久久久| 蜜桃av一区二区在线观看| 国产福利精品导航| 欧美优质美女网站| 精品盗摄一区二区三区| 亚洲色图另类专区| 麻豆精品一区二区av白丝在线| 国产高清精品网站| 欧美日韩一区二区不卡| 国产人成亚洲第一网站在线播放 | 性久久久久久久| 国产麻豆欧美日韩一区| 欧美性一二三区| 久久综合精品国产一区二区三区 | 午夜精品福利一区二区三区蜜桃| 狠狠色综合播放一区二区| 成人高清免费在线播放| 日韩一区二区在线观看视频播放| 亚洲国产精品精华液2区45| 五月婷婷久久综合| 99精品久久久久久| 精品久久久久久亚洲综合网| 亚洲乱码日产精品bd| 激情综合网激情| 欧美最猛黑人xxxxx猛交| 国产拍揄自揄精品视频麻豆| 视频在线观看一区| 色哟哟欧美精品| 国产免费久久精品| 麻豆成人av在线| 欧美性大战久久久久久久蜜臀| 国产日韩av一区二区| 久久国产人妖系列| 欧美午夜影院一区| 中文字幕一区不卡| 国产乱码精品一区二区三区av | 麻豆精品一区二区综合av| 色哟哟国产精品| 中文字幕在线视频一区| 国精产品一区一区三区mba视频| 欧美亚洲国产一区二区三区| 亚洲区小说区图片区qvod| 国产成人自拍在线| 欧美va在线播放| 日本不卡不码高清免费观看| 色八戒一区二区三区| 国产精品久久久久久妇女6080| 国产美女娇喘av呻吟久久| 精品av久久707| 免费高清在线视频一区·| 欧美一区欧美二区| 日本vs亚洲vs韩国一区三区 | 亚洲国产成人av网| av电影一区二区| 亚洲人成在线观看一区二区| www.成人在线| 最好看的中文字幕久久| 91色九色蝌蚪| 一区二区欧美精品| 在线观看成人免费视频| 伊人色综合久久天天| 在线日韩一区二区| 亚洲午夜精品在线| 4438亚洲最大| 久久99久久久欧美国产| 久久久久国产精品麻豆ai换脸 | 午夜精品在线看| 欧美精品777| 精品中文av资源站在线观看| 久久免费午夜影院| 99精品欧美一区二区三区小说 | 久久久777精品电影网影网| 国产精品伊人色| 国产精品欧美久久久久一区二区| 99久久综合色| 亚洲超碰精品一区二区| 欧美一区二区在线播放| 蜜桃在线一区二区三区| 久久久久亚洲综合| 94-欧美-setu| 日韩电影一区二区三区四区| 精品久久久网站| 国产成人亚洲综合色影视| 1000精品久久久久久久久| 在线精品观看国产| 久久99久久99| 国产精品美女久久久久久久网站| 色国产精品一区在线观看| 免费精品视频最新在线| 中文字幕第一页久久| 欧美日韩中文字幕精品| 国内欧美视频一区二区| 亚洲人成亚洲人成在线观看图片 | 欧美日韩精品福利| 狠狠色丁香久久婷婷综合_中| 国产精品久久久久一区二区三区共 | 日韩精品每日更新| 国产精品天天摸av网| 欧美日韩免费一区二区三区视频 | 亚洲自拍欧美精品|