婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識(shí)庫 > 使用Python爬取小姐姐圖片(beautifulsoup法)

使用Python爬取小姐姐圖片(beautifulsoup法)

熱門標(biāo)簽:千呼ai電話機(jī)器人免費(fèi) 鎮(zhèn)江人工外呼系統(tǒng)供應(yīng)商 深圳網(wǎng)絡(luò)外呼系統(tǒng)代理商 400電話辦理費(fèi)用收費(fèi) 申請(qǐng)辦個(gè)400電話號(hào)碼 外呼系統(tǒng)前面有錄音播放嗎 騰訊地圖標(biāo)注有什么版本 高德地圖標(biāo)注字母 柳州正規(guī)電銷機(jī)器人收費(fèi)

Python有許多強(qiáng)大的庫用于爬蟲,如beautifulsoup、requests等,本文將以網(wǎng)站https://www.xiurenji.cc/XiuRen/為例(慎點(diǎn)?。。?,講解網(wǎng)絡(luò)爬取圖片的一般步驟。
為什么選擇這個(gè)網(wǎng)站?其實(shí)與網(wǎng)站的內(nèi)容無關(guān)。主要有兩項(xiàng)技術(shù)層面的原因:①該網(wǎng)站的頁面構(gòu)造較有規(guī)律,適合新手對(duì)爬蟲的技巧加強(qiáng)認(rèn)識(shí)。②該網(wǎng)站沒有反爬蟲機(jī)制,可以放心使用爬蟲。

第三方庫需求

  •  beautifulsoup
  • requests

 步驟

打開網(wǎng)站,點(diǎn)擊不同的頁面:
發(fā)現(xiàn)其首頁是https://www.xiurenji.cc/XiuRen/,而第二頁是https://www.xiurenji.cc/XiuRen/index2.html,第三頁第四頁以此類推。為了爬蟲代碼的普適性,我們不妨從第二頁以后進(jìn)行構(gòu)造url。

選中封面圖片,點(diǎn)擊檢查:

可以發(fā)現(xiàn),圖片的信息,都在'div',class_='dan'里,而鏈接又在a標(biāo)簽下的href里。據(jù)此我們可以寫一段代碼提取出每一個(gè)封面圖片的url:

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網(wǎng)站每一個(gè)首頁的網(wǎng)址
  res=requests.get(url)#發(fā)送請(qǐng)求
  res.encoding="gbk"#設(shè)置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整
  return urls#返回該主頁每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

點(diǎn)擊封面圖片,打開不同的頁面,可以發(fā)現(xiàn),首頁的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二頁的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四頁同理。同樣為了普適性,我們從第二頁開始爬取。

右鍵,點(diǎn)擊“檢查”:

可以發(fā)現(xiàn)所有的圖片信息都儲(chǔ)存在'div',class_='img'中,鏈接、標(biāo)題分別在img標(biāo)簽中的srcalt中,我們同樣也可以將它們提取出來。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網(wǎng)站每一個(gè)首頁的網(wǎng)址
  res=requests.get(url)#發(fā)送請(qǐng)求
  res.encoding="gbk"#設(shè)置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整
  return urls#返回該主頁每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

完整代碼

import requests
from bs4 import BeautifulSoup

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網(wǎng)站每一個(gè)首頁的網(wǎng)址
  res=requests.get(url)#發(fā)送請(qǐng)求
  res.encoding="gbk"#設(shè)置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整
  return urls#返回該主頁每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下載頁面內(nèi)的圖片
  print("all pictures in "+url1+"are downloaded")
  
def getEveryPage(url1):
 total=0#total的作用:對(duì)屬于每一個(gè)封面內(nèi)的圖片一次編號(hào)
 for n in range (1,11):#每一個(gè)封面對(duì)應(yīng)下載10張圖,可自行調(diào)整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#獲得每一內(nèi)部頁面的網(wǎng)址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#儲(chǔ)存圖片的路徑
  
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#獲取圖片及其標(biāo)題
   picurl='https://www.xiurenji.cc'+url#獲取完整的圖片標(biāo)題
   picture=requests.get(picurl).content#下載圖片
   address='D:\pythonimages'+'\\'#自定義保存圖片的路徑
   with open(address+title+str(total)+'.jpg','wb') as file:#保存圖片
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
    

if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

本文僅供學(xué)習(xí)參考,切勿用作其他用途!

到此這篇關(guān)于Python爬取小姐姐圖片(beautifulsoup法)的文章就介紹到這了,更多相關(guān)Python爬取小姐姐圖片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片
  • Python爬蟲之教你利用Scrapy爬取圖片
  • Python爬取網(wǎng)站圖片并保存的實(shí)現(xiàn)示例
  • python制作微博圖片爬取工具
  • python繞過圖片滑動(dòng)驗(yàn)證碼實(shí)現(xiàn)爬取PTA所有題目功能 附源碼
  • 利用python批量爬取百度任意類別的圖片的實(shí)現(xiàn)方法
  • Python使用xpath實(shí)現(xiàn)圖片爬取
  • Python Scrapy圖片爬取原理及代碼實(shí)例
  • Python3直接爬取圖片URL并保存示例
  • python爬取某網(wǎng)站原圖作為壁紙

標(biāo)簽:平頂山 烏蘭察布 哈爾濱 烏蘭察布 大慶 合肥 郴州 海南

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《使用Python爬取小姐姐圖片(beautifulsoup法)》,本文關(guān)鍵詞  使用,Python,爬取,小,姐姐,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《使用Python爬取小姐姐圖片(beautifulsoup法)》相關(guān)的同類信息!
  • 本頁收集關(guān)于使用Python爬取小姐姐圖片(beautifulsoup法)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 凉城县| 拜城县| 册亨县| 靖宇县| 恭城| 诸暨市| 句容市| 桦甸市| 韩城市| 汉沽区| 苍南县| 方城县| 通江县| 高唐县| 鄂伦春自治旗| 昌黎县| 博罗县| 淮北市| 扶风县| 荆门市| 滦南县| 临泉县| 五河县| 西城区| 崇义县| 聊城市| 石柱| 汽车| 万宁市| 土默特左旗| 常山县| 通榆县| 商水县| 保亭| 新丰县| 景洪市| 屯门区| 云阳县| 汉中市| 麻江县| 博乐市|