婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python爬取你好李煥英豆瓣短評生成詞云的示例代碼

Python爬取你好李煥英豆瓣短評生成詞云的示例代碼

熱門標簽:正安縣地圖標注app 遼寧智能外呼系統需要多少錢 螳螂科技外呼系統怎么用 電銷機器人系統廠家鄭州 地圖地圖標注有嘆號 400電話申請資格 舉辦過冬奧會的城市地圖標注 qt百度地圖標注 阿里電話機器人對話

爬取過程:

你好,李煥英 短評的URL:

https://movie.douban.com/subject/34841067/comments?start=20limit=20status=Psort=new_score

分析要爬取的URL;
34841067:電影ID
start=20:開始頁面
limit=20:每頁評論條數

代碼:

url = 'https://movie.douban.com/subject/%s/comments?start=%slimit=20sort=new_scorestatus=P % (movie_id, (i - 1) * 20)

在谷歌瀏覽器中按F12進入開發者調試模式,查看源代碼,找到短評的代碼位置,查看位于哪個div,哪個標簽下:

可以看到評論在div[id=‘comments']下的div[class=‘comment-item']中的第一個span[class=‘short']中,使用正則表達式提取短評內容,即代碼為:

url = 'https://movie.douban.com/subject/%s/comments?start=%slimit=20sort=new_scorestatus=P' \

     % (movie_id, (i - 1) * 20)

   req = requests.get(url, headers=headers)
   req.encoding = 'utf-8'
   comments = re.findall('span class="short">(.*)/span>', req.text)

背景圖:

生成的詞云:

完整代碼:

import re
from PIL import Image
import requests
import jieba
import matplotlib.pyplot as plt
import numpy as np

from os import path

from wordcloud import WordCloud, STOPWORDS

headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'
}

d = path.dirname(__file__)

def spider_comment(movie_id, page):
 """
 爬取評論
 :param movie_id: 電影ID
 :param page: 爬取前N頁
 :return: 評論內容
 """
 comment_list = []
 for i in range(page):
  url = 'https://movie.douban.com/subject/%s/comments?start=%slimit=20sort=new_scorestatus=Ppercent_type=' \

    % (movie_id, (i - 1) * 20)

  req = requests.get(url, headers=headers)
  req.encoding = 'utf-8'
  comment_list = re.findall('span class="short">(.*)/span>', req.text)


  print("當前頁數:%s,總評論數:%s" % (i, len(comment_list)))

 return comment_list

def wordcloud(comment_list):

 wordlist = jieba.lcut(' '.join(comment_list))
 text = ' '.join(wordlist)

 print(text)

 # 調用包PIL中的open方法,讀取圖片文件,通過numpy中的array方法生成數組
 backgroud_Image = np.array(Image.open(path.join(d, "wordcloud.png")))

 wordcloud = WordCloud(
  font_path="simsun.ttc",
  background_color="white",

  mask=backgroud_Image, # 設置背景圖片
  stopwords=STOPWORDS,
  width=2852,
  height=2031,
  margin=2,
  max_words=6000, # 設置最大顯示的字數
  #stopwords={'企業'}, # 設置停用詞,停用詞則不再詞云圖中表示
  max_font_size=250, # 設置字體最大值
  random_state=1, # 設置有多少種隨機生成狀態,即有多少種配色方案
  scale=1) # 設置生成的詞云圖的大小

 # 傳入需畫詞云圖的文本
 wordcloud.generate(text)

 wordcloud.to_image()
 wordcloud.to_file("cloud.png")

 plt.imshow(wordcloud)
 plt.axis("off")
 plt.show()

# 主函數
if __name__ == '__main__':
 movie_id = '34841067'
 page = 11
 comment_list = spider_comment(movie_id, page)
 wordcloud(comment_list)

WordCloud各含義參數如下:

font_path : string #字體路徑,需要展現什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf'

width : int (default=400) #輸出的畫布寬度,默認為400像素

height : int (default=200) #輸出的畫布高度,默認為200像素

prefer_horizontal : float (default=0.90) #詞語水平方向排版出現的頻率,默認 0.9 (所以詞語垂直方向排版出現頻率為 0.1 )

mask : nd-array or None (default=None) #如果參數為空,則使用二維遮罩繪制詞云。如果 mask 非空,設置的寬高值將被忽略,遮罩形狀被 mask 取代。除全白(#FFFFFF)的部分將不會繪制,其余部分會用于繪制詞云。如:bg_pic = imread('讀取一張圖片.png'),背景圖片的畫布一定要設置為白色(#FFFFFF),然后顯示的形狀為不是白色的其他顏色。可以用ps工具將自己要顯示的形狀復制到一個純白色的畫布上再保存,就ok了。

scale : float (default=1) #按照比例進行放大畫布,如設置為1.5,則長和寬都是原來畫布的1.5倍

min_font_size : int (default=4) #顯示的最小的字體大小

font_step : int (default=1) #字體步長,如果步長大于1,會加快運算但是可能導致結果出現較大的誤差

max_words : number (default=200) #要顯示的詞的最大個數

stopwords : set of strings or None #設置需要屏蔽的詞,如果為空,則使用內置的STOPWORDS

background_color : color value (default=”black”) #背景顏色,如background_color='white',背景顏色為白色

max_font_size : int or None (default=None) #顯示的最大的字體大小

mode : string (default=”RGB”) #當參數為“RGBA”并且background_color不為空時,背景為透明

relative_scaling : float (default=.5) #詞頻和字體大小的關聯性

color_func : callable, default=None #生成新顏色的函數,如果為空,則使用 self.color_func

regexp : string or None (optional) #使用正則表達式分隔輸入的文本

collocations : bool, default=True #是否包括兩個詞的搭配

colormap : string or matplotlib colormap, default=”viridis” #給每個單詞隨機分配顏色,若指定color_func,則忽略該方法

random_state : int or None #為每個單詞返回一個PIL顏色


fit_words(frequencies) #根據詞頻生成詞云
generate(text) #根據文本生成詞云
generate_from_frequencies(frequencies[, ...]) #根據詞頻生成詞云
generate_from_text(text) #根據文本生成詞云
process_text(text) #將長文本分詞并去除屏蔽詞(此處指英語,中文分詞還是需要自己用別的庫先行實現,使用上面的 fit_words(frequencies) )
recolor([random_state, color_func, colormap]) #對現有輸出重新著色。重新上色會比重新生成整個詞云快很多
to_array() #轉化為 numpy array
to_file(filename) #輸出到文件

到此這篇關于Python爬取你好李煥英豆瓣短評生成詞云的文章就介紹到這了,更多相關Python爬取豆瓣短評內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 教你如何用python爬取王者榮耀月收入流水線
  • python爬取企查查企業信息之selenium自動模擬登錄企查查
  • python爬取梨視頻生活板塊最熱視頻
  • Python爬取動態網頁中圖片的完整實例
  • python爬取之json、pickle與shelve庫的深入講解
  • python爬取股票最新數據并用excel繪制樹狀圖的示例
  • Python爬取酷狗MP3音頻的步驟
  • python爬取2021貓眼票房字體加密實例
  • 使用Python爬取小姐姐圖片(beautifulsoup法)
  • python爬蟲之教你如何爬取地理數據

標簽:淘寶好評回訪 昭通 合肥 隨州 阜新 信陽 興安盟 濟源

巨人網絡通訊聲明:本文標題《Python爬取你好李煥英豆瓣短評生成詞云的示例代碼》,本文關鍵詞  Python,爬取,你好,李煥英,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬取你好李煥英豆瓣短評生成詞云的示例代碼》相關的同類信息!
  • 本頁收集關于Python爬取你好李煥英豆瓣短評生成詞云的示例代碼的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    日韩一区国产二区欧美三区| 91久久精品网| 波多野结衣中文字幕一区| 色94色欧美sute亚洲线路二| 九九国产精品视频| 日韩福利视频导航| 亚洲韩国精品一区| 亚洲精品免费播放| 亚洲蜜臀av乱码久久精品| 国产精品久久毛片a| 337p日本欧洲亚洲大胆精品| 精品欧美久久久| 亚洲精品在线一区二区| 日韩一区二区三区精品视频| 91精品婷婷国产综合久久性色| 欧美日免费三级在线| 日本一区二区三区高清不卡| 首页国产欧美日韩丝袜| 国产亚洲成aⅴ人片在线观看| av中文字幕不卡| 亚洲3atv精品一区二区三区| 精品国产一区a| 色综合夜色一区| 精品无人区卡一卡二卡三乱码免费卡| 国产欧美日韩亚州综合| 欧洲亚洲精品在线| 天堂av在线一区| 狠狠久久亚洲欧美| 91一区在线观看| 久久久一区二区三区捆绑**| 一区二区三区欧美| 不卡欧美aaaaa| 精品美女被调教视频大全网站| 亚洲色欲色欲www在线观看| 免费高清不卡av| 欧美三级午夜理伦三级中视频| 久久久久久毛片| 久久66热re国产| 欧美精品vⅰdeose4hd| 国产精品午夜久久| 成人免费视频视频| 国产午夜精品福利| 国产精品影音先锋| 久久综合九色综合97婷婷女人 | 亚洲最大成人网4388xx| 97国产一区二区| 中文欧美字幕免费| 成人免费高清在线| 亚洲欧洲精品一区二区三区不卡| 国产精品1024| 欧美激情中文不卡| 亚洲精选视频在线| 亚洲欧洲www| 99久久er热在这里只有精品66| 欧美日本一区二区三区四区| xnxx国产精品| 亚洲成人手机在线| 粉嫩13p一区二区三区| 欧美日韩mp4| 亚洲视频免费观看| 国产一区二区成人久久免费影院| 欧美中文字幕不卡| 91蜜桃免费观看视频| 99re这里都是精品| 成人h动漫精品一区二| www.66久久| 91在线视频观看| 91国内精品野花午夜精品| 色欲综合视频天天天| 色网综合在线观看| 欧美日韩在线三级| 91精品国产综合久久国产大片| 欧美日韩大陆在线| 99久久精品国产一区| 精品国精品国产| 波多野结衣亚洲一区| 亚洲国产日韩在线一区模特 | 午夜视频一区二区| 精品国产乱码久久久久久1区2区 | 成人福利电影精品一区二区在线观看 | 国产亚洲一区二区三区在线观看 | 亚洲精品自拍动漫在线| 欧美久久高跟鞋激| 国产精品一区二区三区网站| 亚洲男人的天堂在线aⅴ视频| 欧美日韩精品电影| 国产盗摄精品一区二区三区在线| 亚洲日本在线看| 日韩三级电影网址| av福利精品导航| 美腿丝袜亚洲三区| 亚洲人成电影网站色mp4| 欧美精品视频www在线观看| 粉嫩蜜臀av国产精品网站| 色老头久久综合| 欧美mv日韩mv国产网站app| 蜜臀久久99精品久久久画质超高清| 精品视频一区 二区 三区| 午夜精品久久久久久久久久久| 欧美日韩精品一区二区| 日韩精品乱码免费| 亚洲欧美aⅴ...| 91老司机福利 在线| 成人欧美一区二区三区黑人麻豆| 成人va在线观看| 欧美人妖巨大在线| 国产成人综合亚洲网站| 婷婷综合另类小说色区| 亚洲色图视频网站| 26uuu欧美日本| 欧美一区二区三区在| 色拍拍在线精品视频8848| 国产精品一区二区在线观看网站| 日韩电影网1区2区| 亚洲综合一区二区三区| 国产精品午夜久久| 久久久精品综合| 欧美成人官网二区| 91精品国产色综合久久不卡蜜臀 | 国产成人综合在线观看| 国产精品系列在线观看| 精品剧情在线观看| 日韩极品在线观看| 欧美日韩一级视频| 亚洲综合久久久| 成人91在线观看| 欧美国产成人精品| 国产乱码精品一区二区三 | 欧美成人精品高清在线播放| 亚洲大片精品永久免费| 成人午夜av影视| 国产精品麻豆久久久| 国产成人免费xxxxxxxx| 9191精品国产综合久久久久久| 一区二区三区不卡视频| 色偷偷88欧美精品久久久| 国产精品不卡一区二区三区| 成人黄色在线看| 久久精品在这里| 国产美女精品一区二区三区| 精品国产欧美一区二区| 婷婷六月综合网| 日韩欧美的一区| 精品一区二区在线看| 欧美一区二区高清| 美女免费视频一区| 美女久久久精品| 亚洲国产va精品久久久不卡综合| 91精品国产入口在线| 成人av在线一区二区三区| 免费在线看一区| 亚洲乱码中文字幕综合| 国产欧美一区二区三区在线老狼| 欧美三级日韩三级| 色综合久久久久综合99| 国产精品自拍毛片| 婷婷久久综合九色国产成人| 久久精品国产久精国产| 亚洲妇女屁股眼交7| 国产精品久久久久久久蜜臀 | 国产aⅴ综合色| 久久综合狠狠综合久久激情| 国产一区激情在线| 亚洲欧美日韩一区二区三区在线观看| 99re热这里只有精品免费视频| 亚洲精品亚洲人成人网在线播放| 色偷偷一区二区三区| 日本欧美在线看| 国产精品视频一区二区三区不卡| 91色porny| 日韩电影在线一区二区三区| 精品美女在线观看| 丝袜诱惑亚洲看片| 一区二区三区成人| 韩国欧美国产1区| 91在线视频免费观看| 欧美色国产精品| 久久九九久精品国产免费直播| 国产精品电影一区二区三区| 亚洲福利电影网| 国产盗摄精品一区二区三区在线| 91视频91自| 日韩精品一区二区三区中文不卡| 亚洲欧美日韩中文播放 | 欧美美女直播网站| 欧美精品一区二区三| 一区二区视频免费在线观看| 婷婷国产在线综合| 高清国产一区二区| 欧美视频在线观看一区| 26uuu欧美| 艳妇臀荡乳欲伦亚洲一区| 国产毛片精品视频| 欧美中文字幕不卡| 精品久久国产字幕高潮| 蜜桃视频在线观看一区| 日本高清成人免费播放| 欧美va亚洲va香蕉在线| 一区二区三区在线视频播放| 成人午夜精品在线|