目錄
- 常見的協議
- 常見的請求方式
- 常見的請求頭參數:
- 常見的相應狀態碼
- HTTP的請求相應過程
- 使用瀏覽器進行網站分析
- session 與cookie
常見的協議
http和https
http協議:
超文本傳輸協議,是一個發布和接受HTML頁面的方法,端口是80
https 協議:http協議的加密版本,在HTTP下加上了ssl層,端口是443
下面訪問的是美團的官網:
可以看到端口是443

URL和RUI
常見的請求方式
http協議規定了瀏覽器與服務器進行數據交互過程中必須要選擇一種交互方式
在http協議中定義了8中請求方式,常見的是get和post請求
get請求: 一般只從服務器獲取數據下來,并不會對服務器資源產生任何的影響。

請求的時候關注:
url請求方式請求頭
post請求: 向服務器發送數據(登陸),上傳文件等,會對服務器資源產生影響的時候,會使用post請求。
不過有些網站做了反爬蟲機制,你去查看信息,也是使用post請求,所以我們寫爬蟲的時候,一定要分析網站。
常見的請求頭參數:
http協議中,向服務器發送一個請求,數據分為三部分:
- 把數據放在url中
- 數據放在body中,(post請求)
- 數據放在head中
常見的請求頭參數:
- user-agent :瀏覽器名稱
- referer: 當前這個請求從哪個url過來的
- cookie:http 協議是無狀態的,也就是一個人發送了兩次請求,服務器沒有能力知道這兩個請求是否來自同一個人。

常見的相應狀態碼
- 200 請求正常,服務器正常返回數據
- 301 永久重定向
- 404 請求的url在服務器上找不到
- 418 發送請求遇到服務器端的反爬蟲,服務器拒絕相應數據
- 500 服務器內部錯誤,可能是服務器出現了bug
HTTP的請求相應過程

使用瀏覽器進行網站分析
我們要分析的網站為: movie.douban.com

在頁面上的呈現的內容,在Elements都會有相應的元素。


- Sources
- Network : 在顯示頁面的時候,產生的所有請求
headers 頭部信息
session 與cookie
session代表的是服務器和瀏覽器的一次會話過程
session 是一種服務器端的機制,用來存儲特定用戶的會話所需要的信息,保存在內存,緩存,或者數據庫中。
cookie
cooke是由服務器端生成后發送給客戶端,cookie是保存在客戶端的
cookie原理:
1) 創建cookie
2) 設置存儲cookie
3) 發送cookie
4) 讀取cookie
到此這篇關于學習Python爬蟲前,需要先掌握哪些知識內容的文章就介紹到這了,更多相關學習Python爬蟲掌握知識內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- 利用Python網絡爬蟲爬取各大音樂評論的代碼
- 使用Selenium實現微博爬蟲(預登錄、展開全文、翻頁)
- 一文讀懂python Scrapy爬蟲框架
- Python爬蟲分析微博熱搜關鍵詞的實現代碼
- 用python爬蟲爬取CSDN博主信息