婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜

Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜

熱門標簽:蘇州電銷機器人十大排行榜 遼寧400電話辦理多少錢 悟空智電銷機器人6 電信營業(yè)廳400電話申請 荊州云電銷機器人供應商 外呼不封號系統(tǒng) 江蘇房產(chǎn)電銷機器人廠家 溫州旅游地圖標注 幫人做地圖標注收費算詐騙嗎

一、bs4解析

import requests
from bs4 import BeautifulSoup
import datetime
if __name__=='__main__':
    url = 'https://www.bilibili.com/v/popular/rank/all'
    headers = {
       //設置自己瀏覽器的請求頭
    }
    page_text=requests.get(url=url,headers=headers).text
    soup=BeautifulSoup(page_text,'lxml')
    li_list=soup.select('.rank-list > li')
    with open('bZhanRank_bs4.txt','w',encoding='utf-8') as fp:
        fp.write('當前爬取熱榜的時間為:'+str(datetime.datetime.now())+'\n\n')
        for li in li_list:
            #解析視頻排行
            li_rank=li.find('div',class_='num').string
            li_rank='視頻排行為:'+li_rank+','
            #解析視頻標題
            li_title=li.find('div',class_='info').a.string.strip()
            li_title='視頻標題為:'+li_title+','
            #解析視頻播放量
            li_viewCount=li.select('.detail>span')[0].text.strip()
            li_viewCount='視頻播放量為:'+li_viewCount+', '
            #解析彈幕數(shù)量
            li_danmuCount = li.select('.detail>span')[1].text.strip()
            li_danmuCount='視頻彈幕數(shù)量為:'+li_danmuCount+', '
            #解析視頻作者
            li_upName=li.find('span',class_='data-box up-name').text.strip()
            li_upName='視頻up主:'+li_upName+', '
            #解析綜合評分
            li_zongheScore=li.find('div',class_='pts').div.string
            li_zongheScore='視頻綜合得分為:'+li_zongheScore
            fp.write(li_rank+li_title+li_viewCount+li_danmuCount+li_upName+li_zongheScore+'\n')

爬取結果如下:

二、xpath解析

import requests
from lxml import etree
import datetime
if __name__ == "__main__":
    #設置請求頭
    headers = {
       //設置自己瀏覽器的請求頭
    }
    #設置url
    url = 'https://www.bilibili.com/v/popular/rank/all'
    #爬取主頁面的源碼文件
    page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
    #使用etree對象進行實例化
    tree = etree.HTML(page_text)
    #爬取各視頻的標簽所在位置
    li_list = tree.xpath('//ul[@class="rank-list"]/li')
    #對爬取到的內(nèi)容進行存儲
    with open('./bZhanRank.txt', 'w', encoding='utf-8') as fp:
        #記錄爬取數(shù)據(jù)的時間
        fp.write('時間:'+str(datetime.datetime.now())+'\n\n')
        # 使用循環(huán)結構,提取各標簽中的所需信息
        for li in li_list:
            #讀取視頻排名
            li_rank=li.xpath('.//div[@class="num"]/text()')
            #[0]使用索引從列表中拿出字符串
            li_rank='視頻排行:'+li_rank[0]+'\n'
            #讀取視頻標題
            li_title = li.xpath('.//a/text()')
            li_title='視頻標題:'+li_title[0]+'\n'
            #讀取視頻播放量
            li_viewCount=li.xpath('.//div[@class="detail"]/span[1]/text()')
            #.strip()去掉字符串中多余的空格
            li_viewCount='視頻播放量:'+li_viewCount[0].strip()+'\n'
            #讀取視頻彈幕數(shù)量
            li_barrageCount = li.xpath('.//div[@class="detail"]/span[2]/text()')
            li_barrageCount='視頻彈幕數(shù)量:'+li_barrageCount[0].strip()+'\n'
            #讀取視頻up主昵稱
            li_upName=li.xpath('.//span[@class="data-box up-name"]//text()')
            li_upName='視頻up主:'+li_upName[0].strip()+'\n'
            #讀取視頻的綜合評分
            li_score=li.xpath('.//div[@class="pts"]/div/text()')
            li_score='視頻綜合評分:'+li_score[0]+'\n\n'
            #存儲文件
            fp.write(li_rank+li_title+li_viewCount+li_barrageCount+li_upName+li_score)
            print(li_rank+'爬取成功!!!!')

爬取結果如下:

三、xpath解析(二值化處理后展示圖片)

#----------第三方庫導入----------
import requests#爬取網(wǎng)頁源代碼
from lxml import etree#使用xpath進行數(shù)據(jù)解析
import datetime#添加爬取數(shù)據(jù)的時刻
from PIL import Image#用于打開和重加載圖片
from cv2 import cv2#對圖片進行二值化處理
from io import BytesIO#對圖片進行格式轉換
import re#對源代碼進行正則處理
#----------函數(shù)----------
def dJpg(url,title):
    """
    輸入url 然后對b站webp格式的圖片 進行格式轉換為jpeg后 進行保存
    :param url:(url)
    :return:(null+保存圖片文件)
    """
    headers = {
            //設置自己瀏覽器的請求頭
        }
    resp = requests.get(url, headers=headers)
    byte_stream = BytesIO(resp.content)
    im = Image.open(byte_stream)
    if im.mode == "RGBA":
        im.load()
        background = Image.new("RGB", im.size, (255, 255, 255))
        background.paste(im, mask=im.split()[3])
    im.save(title+'.jpg', 'JPEG')
def handle_image(img_path):
    """
    對RGB三通道圖片進行二值化處理
    :param img_path:(圖片路徑)
    :return:(返回處理后的圖片)
    """
    # 讀取圖片
    img = cv2.imread(img_path)
    # 將圖片轉化成灰度圖
    gray = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)
    # 將灰度圖轉化成二值圖,像素值超過127的都會被重新賦值成255
    ret, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
    return binary
 
#----------程序主入口----------
if __name__ == "__main__":
    #-----變量存放-----
    list_rank = []  # 存放視頻標題的列表
    list_pic_url = []  # 存放圖片網(wǎng)址的列表
 
    #-----數(shù)據(jù)解析(除圖片外)-----
 
    #設置請求頭
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.2261 SLBChan/10'
    }
    #設置url
    url = 'https://www.bilibili.com/v/popular/rank/all'
    #爬取主頁面的源碼文件
    page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
    #使用etree對象進行實例化
    tree = etree.HTML(page_text)
    #爬取各視頻的標簽所在位置
    li_list = tree.xpath('//ul[@class="rank-list"]/li')
 
    #-----數(shù)據(jù)解析(圖片)-----
 
    # 由于無法對圖片的網(wǎng)址進行標簽定位,現(xiàn)對源代碼進行正則處理
    others_ex = r'"others".*?"tid"(.*?)]'
    list_others = re.findall(others_ex, page_text, re.S)
    # 使用循環(huán)替換掉源代碼中others部分
    for l in list_others:
        page_text = page_text.replace(l, '')
    pic_ex = r'"copyright":.*?,"pic":"(.*?)","title":".*?"'
    list_pic = re.findall(pic_ex, page_text, re.S)
    # 獲取圖片url組成部分的索引
    index = list_pic[0].rfind('u002F')
    #對爬取到的url關鍵字進行拼接組成一個完整的url
    for i in list_pic:
        pic_url = 'http://i1.hdslb.com/bfs/archive/' + i[index + 5:] + '@228w_140h_1c.webp'
        list_pic_url.append(pic_url)
 
    #-----數(shù)據(jù)保存-----
    #對爬取到的內(nèi)容進行存儲
    with open('./bZhanRank2.txt', 'w', encoding='utf-8') as fp:
        #記錄爬取數(shù)據(jù)的時間
        fp.write('b站視頻排行榜,'+'時間:'+str(datetime.datetime.now())+'\n')
        fp.write('作者:MB\n')
        fp.write('*'*10+'以下為排行榜內(nèi)容'+'*'*10+'\n\n')
 
        # 使用循環(huán)結構,提取各標簽中的所需信息
        for i in range(len(li_list)):
            #讀取視頻排名
            li_rank=li_list[i].xpath('.//div[@class="num"]/text()')
            pic_title=li_rank#將不含中文的視頻排行作為圖片名稱進行賦值
            #[0]使用索引從列表中拿出字符串
            li_rank='視頻排行:'+li_rank[0]+'\n'
            #讀取視頻標題
            li_title =li_list[i].xpath('.//a/text()')
            li_title='視頻標題:'+li_title[0]+'\n'
            #讀取視頻播放量
            li_viewCount=li_list[i].xpath('.//div[@class="detail"]/span[1]/text()')
            #.strip()去掉字符串中多余的空格
            li_viewCount='視頻播放量:'+li_viewCount[0].strip()+'\n'
            #讀取視頻彈幕數(shù)量
            li_barrageCount = li_list[i].xpath('.//div[@class="detail"]/span[2]/text()')
            li_barrageCount='視頻彈幕數(shù)量:'+li_barrageCount[0].strip()+'\n'
            #讀取視頻up主昵稱
            li_upName=li_list[i].xpath('.//span[@class="data-box up-name"]//text()')
            li_upName='視頻up主:'+li_upName[0].strip()+'\n'
            #讀取視頻的綜合評分
            li_score=li_list[i].xpath('.//div[@class="pts"]/div/text()')
            li_score='視頻綜合評分:'+li_score[0]+'\n\n'
            # 存儲視頻信息(除圖片外)
            fp.write(li_rank + li_title + li_viewCount + li_barrageCount + li_upName + li_score)
 
            #使用函數(shù)處理圖片的url并且保存為jpeg格式
            dJpg(list_pic_url[i], str(pic_title))
            #使用函數(shù)對jpeg格式的餓圖片進行二值化處理
            img = handle_image(str(pic_title) + '.jpg')
 
            # 強制設置圖片大小(為防止記事本的行列大小溢出)
            img = cv2.resize(img, (120, 40))
            height, width = img.shape
            for row in range(0, height):
                for col in range(0, width):
                    # 像素值為0即黑色,那么將字符‘1'寫入到txt文件
                    if img[row][col] == 0:
                        ch = '1'
                        fp.write(ch)
                    # 否則寫入空格
                    else:
                        fp.write(' ')
                fp.write('*\n')
            fp.write('\n\n\n')
            print(li_rank + '爬取成功!!!!')

在記事本進行顯示結果之前需要對記事本的格式進行下列更改以獲得更好的視覺效果:

爬取結果如下:(圖片展示,是下載網(wǎng)頁中的的封面圖片(webp格式),首先對其進行格式轉換為jpg格式,然后對其進行二值化處理(對于像素值大于127的像素點直接賦值為0,對于像素值大于127的像素點直接賦值為1)。然后遍歷所有的像素點,對于像素值為0的像素點(即為黑色),寫入“1”,對于像素值為1的像素點(即為白色),寫入“空格”,實現(xiàn)簡單的圖片模擬顯示。)


水平線上和水平線下的圖片并非一個時間點進行爬取。

上述圖片為了均衡文字顯示與圖像顯示之間的關系,所以圖片大小強制設定為較小的尺寸,圖片顯示并不清晰。要讓圖片顯示清晰,可以不考慮文字顯現(xiàn)效果,將圖片的尺寸設置較大并且更改記事本中的字體大小(以防串行),可以進行圖片較為清晰的展示,如下圖所示。

四、分析過程

(1)獲取url——獲取b站視頻排行榜的網(wǎng)址

(2)獲取請求頭——(右擊—檢查),打開開發(fā)者工具,點擊Network,隨便選擇一個數(shù)據(jù)包,復制其中的請求頭即可

(3)網(wǎng)頁分析——點擊開發(fā)者工具左上角的抓手工具,選中頁面中視頻,發(fā)現(xiàn)每個不同的視頻都存放在不同的li標簽中

(4)網(wǎng)頁分析——選中頁面中視頻的標題,發(fā)現(xiàn)標題內(nèi)容存放在一個a標簽的文本內(nèi)容中,剩下的視頻信息尋找方式同上述。

(5)網(wǎng)頁分析——在查看到視頻播放量信息時,發(fā)現(xiàn)其存放在span標簽下,含有空格,在編寫代碼時,使用strip()方法進行去除空格

 (6)調(diào)試代碼——調(diào)試代碼時,爬取的圖片url的列表為空

(7)排錯——檢查圖片url存放標簽位置,發(fā)現(xiàn)位置正確

(8)排錯——爬取信息為空,可能網(wǎng)頁為減輕加載負擔,使用的是JavaScript異步加載,在開發(fā)者工具中,點擊XHR,在數(shù)據(jù)包中尋找存放圖片url的數(shù)據(jù)包,發(fā)現(xiàn)并不存在

(9)排錯——(右鍵—查看網(wǎng)頁源代碼),在源代碼中搜索圖片的url,發(fā)現(xiàn)所有圖片的url全部存放在網(wǎng)頁源代碼的最后面,可以考慮使用正則表達式進行解析

(10)排錯——使用正則解析的過程中,返現(xiàn)others列表,此列表為部分視頻下方的視頻推薦,需進行刪除,否則影響正則表達式進行解析

到此這篇關于Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜的文章就介紹到這了,更多相關Python爬取B站排行榜內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python爬蟲請求庫httpx和parsel解析庫的使用測評
  • Python爬蟲之爬取最新更新的小說網(wǎng)站
  • 用Python爬蟲破解滑動驗證碼的案例解析
  • Python爬蟲爬取愛奇藝電影片庫首頁的實例代碼
  • 上手簡單,功能強大的Python爬蟲框架——feapder
  • python爬蟲之bs4數(shù)據(jù)解析
  • python爬蟲之爬取百度翻譯
  • python爬蟲基礎之簡易網(wǎng)頁搜集器
  • python爬蟲之利用selenium模塊自動登錄CSDN
  • python爬蟲之爬取筆趣閣小說
  • python爬蟲之利用Selenium+Requests爬取拉勾網(wǎng)
  • python基礎之爬蟲入門

標簽:臺灣 三沙 景德鎮(zhèn) 宿遷 黃山 濟南 喀什 欽州

巨人網(wǎng)絡通訊聲明:本文標題《Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜》,本文關鍵詞  Python,爬蟲,之爬,取嗶,哩嗶,;如發(fā)現(xiàn)本文內(nèi)容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜》相關的同類信息!
  • 本頁收集關于Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜的相關信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    欧美精选在线播放| 精品综合久久久久久8888| 日韩欧美中文字幕精品| 成人中文字幕合集| 秋霞电影一区二区| 欧美日韩国产另类一区| 色综合中文字幕| 97se亚洲国产综合自在线不卡| 国产精品久久久久婷婷二区次| 91精品久久久久久久99蜜桃 | 国产精品99精品久久免费| 国产精品一二三在| 国产一区二区毛片| 国产精品911| 99久久免费视频.com| 日本乱人伦aⅴ精品| 日本久久一区二区三区| 欧美激情资源网| 亚洲卡通动漫在线| 国产一区二区三区四区五区美女| 一区二区三区小说| 免费成人美女在线观看.| 国产成人免费视频精品含羞草妖精| 国产sm精品调教视频网站| 91影视在线播放| 欧美一级欧美三级| 亚洲欧美在线观看| 亚洲精品ww久久久久久p站 | 久久久美女毛片| 日本sm残虐另类| 精品欧美一区二区在线观看| 精品国精品自拍自在线| 国产精品久久久久影视| 三级欧美在线一区| 91麻豆国产香蕉久久精品| 日韩视频一区在线观看| 国产欧美日产一区| 男人的天堂亚洲一区| 夜夜操天天操亚洲| 另类小说综合欧美亚洲| 91国内精品野花午夜精品| wwww国产精品欧美| 免费成人美女在线观看.| 91精品国产色综合久久ai换脸 | 美女任你摸久久| 欧美综合视频在线观看| 一区二区三区在线看| 成人国产亚洲欧美成人综合网| 91精品国产手机| 天堂成人国产精品一区| 日韩一区二区三区三四区视频在线观看| 国产精品日韩精品欧美在线| 国产91精品精华液一区二区三区| 成人av在线资源| 久久精品亚洲麻豆av一区二区| 国产成人综合在线| 日本一区二区成人| 26uuu另类欧美| 亚洲日本青草视频在线怡红院| 国产电影一区二区三区| 欧美激情艳妇裸体舞| 狠狠狠色丁香婷婷综合激情| 欧美日韩国产一二三| 亚洲乱码国产乱码精品精的特点 | 一区二区三区四区国产精品| 不卡一区在线观看| 欧美一卡在线观看| 麻豆精品视频在线观看免费| 久久一留热品黄| 欧洲精品一区二区三区在线观看| 久久久久久久性| 欧美日韩一区不卡| 综合久久给合久久狠狠狠97色| 在线观看av一区| 91玉足脚交白嫩脚丫在线播放| 亚洲6080在线| √…a在线天堂一区| 欧美成人猛片aaaaaaa| 色88888久久久久久影院按摩| 国产久卡久卡久卡久卡视频精品| 玉米视频成人免费看| 国产调教视频一区| 8x8x8国产精品| 免费在线看成人av| 欧美在线免费视屏| 99久久精品费精品国产一区二区| 日韩1区2区日韩1区2区| 欧美一卡在线观看| 欧美午夜理伦三级在线观看| 国产91精品一区二区麻豆网站 | 首页欧美精品中文字幕| 亚洲天堂免费在线观看视频| 精品国产乱码久久久久久久久| 五月婷婷综合激情| 成人av资源在线| 国产成人精品一区二| 激情综合网天天干| 激情亚洲综合在线| 国产乱码一区二区三区| 激情小说亚洲一区| 盗摄精品av一区二区三区| 成人毛片老司机大片| 91蝌蚪porny| 在线成人免费观看| 久久综合九色综合97婷婷女人| 国产揄拍国内精品对白| 国产一区二区剧情av在线| 久久99精品久久久久久国产越南 | 久久国产精品区| 久热成人在线视频| 国产一区二区三区久久悠悠色av| 午夜精品视频一区| 国产在线播放一区二区三区| 成人福利视频网站| 欧美日韩久久久久久| 欧美性xxxxxx少妇| 欧美性视频一区二区三区| 欧美成人一级视频| 亚洲黄色性网站| 国产在线播放一区二区三区| 色嗨嗨av一区二区三区| 日韩亚洲欧美一区| 亚洲精品一二三| 日本在线播放一区二区三区| 国产精品看片你懂得| 亚洲国产综合人成综合网站| 国产风韵犹存在线视精品| 7777精品伊人久久久大香线蕉| 色哟哟一区二区| 亚洲国产精品传媒在线观看| 午夜精品福利视频网站| 成人福利视频在线看| 亚洲一二三四区不卡| 亚洲一区二区三区美女| 国产精品一区二区在线观看网站 | 亚洲色图都市小说| 免费的成人av| 欧美日韩一本到| 久久久久青草大香线综合精品| 亚洲国产精品一区二区尤物区| 91精品国产91热久久久做人人 | 国产东北露脸精品视频| 欧美蜜桃一区二区三区| 欧美性生活大片视频| 国产欧美日韩另类视频免费观看| 秋霞影院一区二区| 欧美日韩日日骚| 亚洲成人高清在线| 欧美日韩在线综合| 亚洲成人动漫在线免费观看| 欧美男人的天堂一二区| 免费高清在线视频一区·| 亚洲精品一区二区三区福利| 亚洲一区二区不卡免费| 欧美大胆一级视频| 成人综合在线视频| 亚洲最大成人网4388xx| 日韩视频永久免费| 国产在线精品一区二区| 欧美国产一区在线| 欧美在线影院一区二区| 久久精品国产亚洲一区二区三区| 91精品国模一区二区三区| 国产一区视频网站| 一区二区三区国产| 久久尤物电影视频在线观看| 波多野结衣在线一区| 亚洲成人一区二区在线观看| 麻豆精品一区二区av白丝在线 | 欧美伦理视频网站| 九九国产精品视频| 亚洲人精品午夜| 国产视频911| 5566中文字幕一区二区电影| 国产精品亚洲一区二区三区妖精| 亚洲国产精品精华液2区45| 欧美三级三级三级| 成人免费毛片app| 精品一区二区在线免费观看| 亚洲无线码一区二区三区| 天堂成人国产精品一区| 91福利精品第一导航| 成人综合在线观看| 国产九色精品成人porny| 久久精品国产亚洲高清剧情介绍| 一区二区三区资源| 一区二区日韩电影| 午夜精品成人在线| 婷婷久久综合九色国产成人| 一区二区国产视频| 日韩精品电影在线观看| 777午夜精品视频在线播放| 一本到三区不卡视频| av在线综合网| 在线免费不卡视频| 美女一区二区三区| 韩国av一区二区三区四区| 成人蜜臀av电影| 亚洲一卡二卡三卡四卡| 香蕉久久一区二区不卡无毒影院|