婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 一文讀懂python Scrapy爬蟲框架

一文讀懂python Scrapy爬蟲框架

熱門標簽:外呼系統前面有錄音播放嗎 申請辦個400電話號碼 千呼ai電話機器人免費 400電話辦理費用收費 柳州正規電銷機器人收費 騰訊地圖標注有什么版本 高德地圖標注字母 深圳網絡外呼系統代理商 鎮江人工外呼系統供應商

Scrapy是什么?

先看官網上的說明,http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。

其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy是一個非常好用的爬蟲框架,它不僅提供了一些開箱即用的基礎組件,還提供了強大的自定義功能。

# Scrapy 安裝

Scrapy 官網:https://scrapy.org/

各位同學的電腦環境應該和小編的相差不遠(如果是使用 win10 的話) 安裝過程需要10分鐘左右

安裝命令:

pip install scrapy

由于 Scrapy 依賴了大量的第三方的包,所以在執行上面的命令后并不會馬上就下載 Scrapy ,而是會先不斷的下載第三方包,包括并不限于以下幾種:

  • pyOpenSSL:Python 用于支持 SSL(Security Socket Layer)的包。
  • cryptography:Python 用于加密的庫。
  • CFFI:Python 用于調用 C 的接口庫。
  • zope.interface:為 Python 缺少接口而提供擴展的庫。
  • lxml:一個處理 XML、HTML 文檔的庫,比 Python 內置的 xml 模塊更好用。
  • cssselect:Python 用于處理 CSS 選擇器的擴展包。
  • Twisted:為 Python 提供的基于事件驅動的網絡引擎包。
  • ……

如果安裝不成功多試兩次 或者 執行pip install --upgrade pip 后再執行 pip install scrapy

等待命令執行完成后,直接輸入 scrapy 進行驗證。

C:\Users\Administrator>scrapy
Scrapy 2.4.0 - no active project
Available commands:
bench   Run quick benchmark test
...

版本號可能會有差別,不用太在意

如果能正常出現以上內容,說明我們已經安裝成功了。

理論上 Scrapy 安裝出現各種問題才算正常情況

三、Scrapy創建項目

Scrapy 提供了一個命令來創建項目 scrapy 命令,在命令行上運行:

scrapy startproject jianshu

我們創建一個項目jianshu用來爬取簡書首頁熱門文章的所有信息。

jianshu/
 scrapy.cfg
 jianshu/
  __init__.py
  items.py
  pipelines.py
  settings.py
  spiders/
   __init__.py
   ...

spiders文件夾下就是你要實現爬蟲功能(具體如何爬取數據的代碼),爬蟲的核心。在spiders文件夾下自己創建一個spider,用于爬取簡書首頁熱門文章。

scrapy.cfg是項目的配置文件。

settings.py用于設置請求的參數,使用代理,爬取數據后文件保存等。

items.py 自己預計需要爬取的內容

middlewares.py自定義中間件的文件

pipelines.py 管道,保持數據

項目的目錄就用網圖來展示一下吧

image Scrapy爬取簡書首頁熱門文章

cd到Jianshu項目中,生成一個爬蟲:

scrapy genspider jianshublog www.jianshu.com

這種方式生成的是常規爬蟲

1)新建jianshuSpider

import scrapy
class JianshublogSpider(scrapy.Spider):
 name = 'jianshublog'
 allowed_domains = ['www.jianshu.com']
 start_urls = ['http://www.jianshu.com/']
 
 def parse(self, response):
  pass

可以看到,這個類里面有三個屬性 name 、 allowed_domains 、 start_urls 和一個parse()方法。

name,它是每個項目唯一的名字,用來區分不同的 Spider。

allowed_domains,它是允許爬取的域名,如果初始或后續的請求鏈接不是這個域名下的,則請求鏈接會被過濾掉。
start_urls,它包含了 Spider 在啟動時爬取的 url 列表,初始請求是由它來定義的。

parse,它是 Spider 的一個方法。默認情況下,被調用時 start_urls 里面的鏈接構成的請求完成下載執行后,返回的響應就會作為唯一的參數傳遞給這個函數。該方法負責解析返回的響應、提取數據或者進一步生成要處理的請求。

到這里我們就清楚了,parse() 方法中的 response 是前面的 start_urls中鏈接的爬取結果,所以在 parse() 方法中,我們可以直接對爬取的結果進行解析。

修改USER_AGENT

打開settings.py 添加 UA 頭信息

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36'

修改`parse`方法解析網頁

我們打開簡書首頁  右鍵檢查(ctrl+shift+I)發現所有的博客頭條都放在類名.note-list .content 的div 節點里面

修改jianshublog.py代碼如下

jianshublog.py

import scrapy
 
class JianshublogSpider(scrapy.Spider):
 name = 'jianshublog'
 allowed_domains = ['www.jianshu.com']
 start_urls = ['http://www.jianshu.com/']
 
 def parse(self, response):
  blogs = response.css('.note-list .content')
  # 獲取博客列表
  for blog in blogs: # 遍歷博客列表
   title = blog.css('.title::text').extract_first() # 提取標題
   link = blog.css('.title::attr(href)').extract_first() # 提取鏈接
   nickname = blog.css('.nickname::text').extract_first() # 提作者
   print("標題:",title) # 打印標題
   # print("鏈接:", link)
   # print("作者:", nickname)

最后別忘了執行爬蟲命令

scrapy crawl jianshublog

整個項目就完成啦

下一講我們把文章數據爬取出來,存儲在csv文件里面

到此這篇關于一文讀懂python Scrapy爬蟲框架的文章就介紹到這了,更多相關python Scrapy爬蟲框架內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python Scrapy爬蟲框架的使用
  • Python3環境安裝Scrapy爬蟲框架過程及常見錯誤
  • Python使用Scrapy爬蟲框架全站爬取圖片并保存本地的實現代碼
  • Python之Scrapy爬蟲框架安裝及使用詳解
  • python實戰之Scrapy框架爬蟲爬取微博熱搜

標簽:海南 哈爾濱 烏蘭察布 平頂山 合肥 大慶 郴州 烏蘭察布

巨人網絡通訊聲明:本文標題《一文讀懂python Scrapy爬蟲框架》,本文關鍵詞  一文,讀懂,python,Scrapy,爬蟲,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《一文讀懂python Scrapy爬蟲框架》相關的同類信息!
  • 本頁收集關于一文讀懂python Scrapy爬蟲框架的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    精品国产一区二区精华| 国产呦萝稀缺另类资源| 国产精品毛片a∨一区二区三区| 欧美大白屁股肥臀xxxxxx| 欧美三级视频在线| 91成人免费网站| 欧美三级在线播放| 欧美日韩你懂得| 91精品国产入口在线| 欧美理论在线播放| 欧美一区二区人人喊爽| 日韩美一区二区三区| 精品国产亚洲在线| 久久精品日韩一区二区三区| 91精品国产欧美一区二区成人| 日韩欧美一区二区免费| 久久精品网站免费观看| 中国av一区二区三区| 亚洲靠逼com| 日韩专区在线视频| 国产乱子轮精品视频| 风间由美性色一区二区三区| 色综合视频在线观看| 欧美视频一区二区三区在线观看| 日韩一二在线观看| 精品国产免费一区二区三区四区 | 粉嫩在线一区二区三区视频| 成人毛片视频在线观看| 欧美亚洲一区二区在线观看| 精品久久人人做人人爰| 国产精品视频你懂的| 亚洲综合在线第一页| 麻豆精品精品国产自在97香蕉| 成人性生交大合| 日本电影亚洲天堂一区| 日韩三级电影网址| 日韩一区有码在线| 麻豆国产精品777777在线| 成人免费三级在线| 欧美一个色资源| 日韩国产精品久久| av电影天堂一区二区在线观看| 欧美美女激情18p| 国产精品久久久久影视| 久久精品国产一区二区三区免费看 | 中文字幕一区二区三中文字幕| 一区二区欧美视频| 国产成人自拍高清视频在线免费播放| 欧美中文字幕一二三区视频| 欧美国产精品一区二区| 理论电影国产精品| 欧美精品一二三| 亚洲女子a中天字幕| 国产一区二区三区四区五区美女| 欧美午夜理伦三级在线观看| 中文字幕不卡一区| 国产一区二区三区美女| 51午夜精品国产| 亚洲欧美日韩人成在线播放| 风间由美中文字幕在线看视频国产欧美| 欧美精品亚洲二区| 亚洲国产日韩在线一区模特| 91麻豆福利精品推荐| 国产亚洲精品7777| 国产精品一区二区91| 精品捆绑美女sm三区| 久久精品国产99| 欧美一卡二卡三卡| 丝袜亚洲另类欧美综合| 欧美精品一卡二卡| 天天做天天摸天天爽国产一区| 91在线视频官网| 一区在线观看视频| 一本大道久久a久久精二百| 1024亚洲合集| 欧美在线观看你懂的| 亚洲一区二区三区小说| 欧美日韩久久一区| 视频一区视频二区在线观看| 欧美一区三区二区| 六月丁香婷婷色狠狠久久| 欧美tk—视频vk| 国产一区二区三区蝌蚪| 中文字幕精品三区| 色综合一个色综合| 亚洲大片免费看| 欧美一区二区三区播放老司机| 麻豆91在线看| 欧美激情中文字幕| 欧洲一区在线观看| 六月丁香婷婷久久| 国产精品久久久久久久久果冻传媒 | 欧洲国内综合视频| 亚洲成av人片一区二区三区| 欧美一区二区精品| 国产一区二区h| 亚洲欧美一区二区三区孕妇| 欧美午夜电影一区| 毛片av一区二区| 国产精品毛片久久久久久| 91香蕉视频mp4| 久久电影国产免费久久电影| 国产精品欧美久久久久无广告| 色噜噜偷拍精品综合在线| 裸体健美xxxx欧美裸体表演| 中文字幕一区二区日韩精品绯色| 884aa四虎影成人精品一区| 国产一区二区精品久久| 亚欧色一区w666天堂| 国产亚洲自拍一区| 欧美日本一区二区三区四区| 国产成人综合网站| 视频一区中文字幕| 亚洲免费色视频| 国产午夜精品久久久久久久| 欧美日韩精品欧美日韩精品一综合| 国产麻豆视频一区二区| 亚洲一二三区不卡| 中文字幕在线观看不卡| 日韩欧美你懂的| 欧美优质美女网站| 丁香网亚洲国际| 美腿丝袜在线亚洲一区| 一区二区三区高清| 久久噜噜亚洲综合| 欧美精品第1页| 91论坛在线播放| 成人午夜大片免费观看| 精品一区二区免费在线观看| 婷婷夜色潮精品综合在线| 最新高清无码专区| 精品乱人伦一区二区三区| eeuss鲁片一区二区三区在线看| 一本大道久久a久久综合婷婷| 亚洲精品中文在线影院| 久久亚洲二区三区| 欧美色图激情小说| 国产不卡一区视频| 免播放器亚洲一区| 亚洲成人一二三| 亚洲日本韩国一区| 一区二区三区在线观看视频| 国产精品二区一区二区aⅴ污介绍| 国产香蕉久久精品综合网| 久久婷婷国产综合精品青草| 欧美变态tickling挠脚心| 日韩欧美激情在线| 精品久久久三级丝袜| 精品国产乱码久久久久久1区2区| 日韩一区二区三区免费观看| 777欧美精品| 日韩一级视频免费观看在线| 日韩欧美一区在线观看| 欧美成人三级电影在线| 欧美成人欧美edvon| 欧美成人福利视频| 精品裸体舞一区二区三区| 精品国产在天天线2019| 久久蜜桃一区二区| 国产天堂亚洲国产碰碰| 成人欧美一区二区三区黑人麻豆| 综合久久久久久| 一区二区三区四区av| 日欧美一区二区| 国产精品一线二线三线| 波多野洁衣一区| 欧美视频在线观看一区二区| 欧美一级片在线看| 精品国产欧美一区二区| 国产精品卡一卡二| 亚洲成a人片在线不卡一二三区| 偷偷要91色婷婷| 国产制服丝袜一区| av激情成人网| 欧美日韩精品一区二区天天拍小说 | 欧美午夜精品一区二区三区| 欧美丰满嫩嫩电影| 久久久九九九九| 一区二区三区不卡视频在线观看 | 国产亚洲欧美色| 亚洲日本在线天堂| 免费观看在线色综合| 不卡电影一区二区三区| 欧美精品久久久久久久多人混战 | 欧美一区二区大片| www精品美女久久久tv| 亚洲欧洲精品一区二区三区不卡| 亚洲午夜精品一区二区三区他趣| 美腿丝袜亚洲综合| 91欧美激情一区二区三区成人| 日韩欧美区一区二| 亚洲一区二区三区四区五区黄| 国产成人a级片| 欧美丰满高潮xxxx喷水动漫| 国产精品进线69影院| 美日韩黄色大片| 欧美丝袜自拍制服另类| 国产精品久久久久9999吃药| 精品一区二区在线免费观看| 欧美日本免费一区二区三区|