精品视频在线你懂得,中文字幕av免费专区久久,欧美黑粗硬大

1. 收集數據

1.1 爬取晉江文學城收藏排行榜前50頁的小說信息

獲取收藏榜前50頁的小說列表，第一頁網址為 ‘http://www.jjwxc.net/bookbase.php?fw0=0fbsj=0ycx0=0xx2=2mainview0=0sd0=0lx0=0fg0=0sortType=0isfinish=0collectiontypes=orssearchkeywords=page=1' , 第二頁網址中page=2，以此類推，直到第50頁中page=50。爬取每個小說的ID，小說名字，小說作者。將爬取到的信息存儲到晉江排行榜【按收藏數】.txt文件中。

import requests
from bs4 import BeautifulSoup
import bs4
import re
import csv
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import jieba
import seaborn as sns
import xlrd
from xlutils.copy import copy
# 一些魔法命令，使得matplotlib畫圖時嵌入單元中而不是新開一個窗口
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
%load_ext autoreload
%autoreload 2
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection  import train_test_split

爬取小說基本信息 ，主要思路；
找到需要爬取的所有信息主體tbody；
分別找到每個信息對應的小標簽td(a)，數清楚在所有標簽中的順序；
存進txt文檔時按順序存儲。

headers = {"User-Agent": "Mozilla/5.0"}
for n in range(1,50):
    url = 'http://www.jjwxc.net/bookbase.php?fw0=0fbsj=0ycx0=0xx2=2mainview0=0sd0=0lx0=0fg0=0sortType=0isfinish=0collectiontypes=orssearchkeywords=page={}'.format(n)
    html = requests.get(url,headers=headers)
    html.encoding = html.apparent_encoding
    soup = BeautifulSoup(html.text, 'html.parser')
    for tr in soup.find_all('tbody'):
            tds=tr('td')  
            a = tr('a') 
            count=0
            id=[]
            for u in tr.find_all('a'):
                    count=count+1
                    book_url=u.get('href') # 獲取小說主頁的url
                    p = re.compile(r'\d+')
                    book_id = p.findall(book_url)[0]  # 獲取小說ID
                    if(count%2==0):
                        id.append(book_id)
            for n in range(0,100):
                    with open('./data/晉江排行榜【按收藏數】.txt','a+',encoding='utf-8') as f:
                            print("{0}\t{1}\t{2}".format(id[n],a[n*2+1].string,a[n*2].string),file=f)  # 序號 書名 作者

1.2 查看爬蟲結果

分別查看前8部小說的ID和名字

# 查看收藏榜前8部小說的ID
with open('./data/晉江排行榜【按收藏數】.txt','r',encoding='utf-8',errors='ignore') as f:
    book_list = f.readlines()
    id_list = [item.split('\t')[0] for item in book_list]
print(id_list[:8])

# 查看收藏榜前8部小說的名字
name_list = [item.split('\t')[1] for item in book_list]
print(name_list[:8])

1.3 爬取每部小說的評論。

找到小說的評論區，第一部小說《天官賜福》的第一頁評論網址為 ‘http://www.jjwxc.net/comment.php?novelid=3200611huati=1' ,3200611是小說ID，1是評論頁數，這部小說第二頁網址為'http://www.jjwxc.net/comment.php?novelid=3200611huati=2' 。下一部小說《撒野》的ID是2956313，它的第一頁評論網址為'http://www.jjwxc.net/comment.php?novelid=2956313huati=1' ,以此類推，爬取所有小說的評論和打分。為了避免有一些小說評論數不夠多，自己設定每部小說只爬取5頁的評論。

爬取思路與爬取小說信息大致相同，不同的是將爬取到的信息存儲到xls文件中。

headers = {"User-Agent": "Mozilla/5.0"}
with open('./data/晉江排行榜【按收藏數】.txt','r',encoding='utf-8') as f:
            book_list = f.readlines()
            id_list = [item.split('\t')[0] for item in book_list]
for book_id in id_list:
    for page in range(1,6):
        url="http://www.jjwxc.net/comment.php?novelid={}huati=1page={}".format(book_id,page)
        html = requests.get(url,headers=headers)
        html.encoding = html.apparent_encoding
        soup = BeautifulSoup(html.text, 'html.parser')
        scores=[]
        comments=[]
        for item1 in soup.find_all('span',"coltext"):
            score=item1('span')
            scores.append(score[2].string)
        for item2 in soup.find_all('div',"readbody"):
            comment=item2('span')
            comments.append(comment[0].string)
        for i in range(0,len(comments)):
            excel = xlrd.open_workbook('./data/jjwxc1.xls')
            wb = copy(excel)
            w_sheet = wb.get_sheet(0)
            sheet = excel.sheets()[0]
            nrow = sheet.nrows # 文件行數
            w_sheet.write(nrow, 0, book_id)
            w_sheet.write(nrow, 1, comments[i])
            w_sheet.write(nrow, 2, scores[i])
            wb.save('./data/jjwxc1.xls')

2. 數據加載和預處理

預處理包括：

格式轉化；上一步將爬取信息存到了xls文件，將xls格式文件轉化為csv格式文件方便下一步加載。
數據去重；爬取過程中某些頁面爬取了多次，導致csv文件包含重復的行。
短評去重；對同一部小說，或者不同的小說，可能存在評論內容相同的行。
添加情緒標簽
去除停用詞和分詞
短評可視化

2.1 格式轉化

使用pandas模塊可以快速將xls文件轉換為.csv

# 格式轉化
ex=pd.read_excel("./data/jjwxc.xls")
ex.to_csv("./data/jjwxc.csv",encoding="gb18030")

# 加載評論
review = pd.read_csv("./data/jjwxc.csv",names=['ID','comment','score'],encoding='gb18030')

2.2 數據去重

去除重復的行

# 去重
review = review.drop_duplicates()

2.3 短評去重

去除評論相同的行

# 刪除評論內容重復的行
review= review.drop_duplicates('comment')
review.shape

2.4 添加情緒標簽

根據打分的分數來添加情緒標簽，觀察晉江文學城的打分機制發現，打分區間在[-2,2]內，且打2分的人數占大多數，于是將分數為2的評論看作是好評，情緒標簽為1，而低于2分的看作是差評，情緒標簽為0。

# 添加情緒標簽
review['emotion'] = (review.score ==2) * 1

# 打亂順序
review = review.sample(frac=1).reset_index(drop=True)
print(review.shape)

2.5 去除停用詞和分詞

短評內容進行分詞并去掉停用詞

def review_without_stop(review):
    # 打開停用詞文件
    with open("./data/emotion_stopwords.txt","r",encoding="utf-8") as f:
        stop_word = [x.strip() for x in f.readlines()] 
    all_stop_words = set(stop_word) # 刪除停用詞中重復的項
    # 短評中的非中文字符替換為''
    review = re.sub("[^\u4e00-\u9fa5]",'',review)
    # 去除全角空白字符
    review = review.replace("\u3000","") 
    # 分詞
    review = jieba.cut(review)
    # 過濾一個字的詞
    review = filter(lambda x: len(x)>1,review)
    # 去除停用詞
    review = filter(lambda x: x not in all_stop_words,review)
    return ' '.join(review)

# 自定義分詞字典
jieba.load_userdict("./data/emotion_userdict.txt")
review['cut_jieba'] = review.comment.apply(review_without_stop)

【注】停用詞和分詞文件需要自己定義

# 查看一些評論
review.head()

# 好評中一些評論包含“不想”，“不喜歡”
review[(review['cut_jieba'] == '不想')  (review['emotion'] == 1)]

review[(review['cut_jieba'] == '不喜歡')  (review['emotion'] == 1)]

# 好評中出現的消極情緒詞，去除這些評論
def change_negtive_like(cut_text):
    word_list = cut_text.split()
    if "不喜歡" in word_list:
        for i in range(len(word_list)):
            if word_list[i] == "不喜歡":
                word_list[i] = ""
        return " ".join(word_list)
    elif "不想" in word_list:
        for i in range(len(word_list)):
            if word_list[i] == "不想":
                word_list[i] = ""
        return " ".join(word_list)
    else:
        return cut_text

review.loc[review['emotion'] == 1,'cut_jieba'] = review[review['emotion'] == 1].cut_jieba.apply(change_negtive_like)

# 一些評論內容為空，去除這些為空的評論
review = review[~(review['cut_jieba'] == '')]
review.shape

2.6 短評可視化

對所有短評進行可視化

from wordcloud import WordCloud
from imageio import imread
mask = imread("./data/cloud.jpg")
font = './data/FZSTK.TTF'
wc = WordCloud(
    font_path= font,
    max_words=2000, # 設置最大現實的字數
    max_font_size=250,# 設置字體最大值
    background_color = "white",
    random_state=30,
    mask = mask)
wc.generate(''.join(review['cut_jieba'])) # 生成詞云
plt.imshow(wc)
plt.axis('off')

對emotion為1的短評進行可視化

from wordcloud import WordCloud
from imageio import imread
mask = imread("./data/piggy.jpg")
font = './data/FZSTK.TTF'
wc1 = WordCloud(
    font_path= font,
    max_words=2000, # 設置最大現實的字數
    max_font_size=300,# 設置字體最大值
    background_color = "white",
    random_state=30,
    mask = mask)
wc1.generate(''.join(review['cut_jieba'][review['emotion']==1]))
plt.imshow(wc1)
plt.axis('off')

對score為-2的短評進行可視化

wc1.generate(''.join(review['cut_jieba'][review['score']==-2])) # 生成詞云
plt.imshow(wc1)
plt.axis('off')

【注】詞云和字體自己定義

3. 訓練模型

3.1 建立訓練數據集和測試數據集

由于已經為分析準備好了數據，所以現在需要將數據分成訓練數據集和測試數據集。將數據分成兩部分：75%的訓練數據和25%的測試數據。

x, y = review['cut_jieba'], review['emotion']
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.25)

print(x_train.shape)
print(y_train.shape)

print(x_test.shape)
print(y_test.shape)

3.2 特征提取

使用 sklearn 包中的 TfidfVectorizer 方法進行特征提取。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer(decode_error='ignore',
                             token_pattern=r"\b[^\d\W]\w+\b", # 剔除向量化結果中的數字
                             analyzer='word',
                             ngram_range=(2,4),
                            max_df = 0.8,
                            min_df = 3)
Xtrain = tfidf_vect.fit_transform(x_train)
Xtest = tfidf_vect.transform(x_test)

print(Xtrain.shape)
print(Xtest.shape)

3.3 用樸素貝葉斯完成中文文本分類器

from sklearn.naive_bayes import MultinomialNB

review_classifier = MultinomialNB()
review_classifier.fit(Xtrain,y_train)

# 對測試集的樣本進行預測
y_pred = review_classifier.predict(Xtest)
metrics.confusion_matrix(y_test, y_pred) # 混淆矩陣

# 利用 sns 模塊查看測試值和預測值構成的熱圖
colorMetrics = metrics.confusion_matrix(y_test, y_pred)
sns.heatmap(colorMetrics,annot=True,fmt='d')

# 分類報告
# 給出每個類的準確率，召回率和F值，以及這三個參數和宏平均值
print(metrics.classification_report(y_test,y_pred))

print(metrics.accuracy_score(y_test,y_pred))

from sklearn.model_selection import cross_val_score
score1 = cross_val_score(review_classifier,Xtrain,y_train,cv=10,scoring="accuracy").mean()
print(score1)

3.4 用邏輯回歸完成中文文本分類

from sklearn.linear_model import LogisticRegression  
LR_model = LogisticRegression(penalty='l2',max_iter=3000)  
LR_model.fit(Xtrain,y_train)

# 對測試集的樣本進行預測
y_pred = LR_model.predict(Xtest)
metrics.confusion_matrix(y_test, y_pred) # 混淆矩陣

print(LR_model.score(Xtest,y_test))

# 給出每個類的準確率，召回率和F值，以及這三個參數和宏平均值
print(metrics.classification_report(y_test,y_pred))

4. 結果分析

（1）詞云分析：

詞云1中最明顯的詞匯是“喜歡”；
詞云2中的詞匯與詞云1區別不大，因為所有短評中好評占大多數；
由差評生成的詞云3出現了“不好”、“一般”、“硬傷”等負面色彩的詞語。

（2）影響情感分析準確性的原因：

獲取到的短評數量比較少；
由于小說中對主角討論比較多，一些小說角色名字會重復出現在短評內，一定程度影響對評論的感情分析；
沒有刪除過于短小的評論；
分詞后中發現代表積極或消極情緒的詞匯往往不會成為單獨短評，而是和別的詞一起出現，對于查找差評中的積極詞匯和好評中的消極詞匯造成一定困難。
短評中出現明顯代表正面色彩和負面色彩的詞匯較少。

到此這篇關于爬取晉江文學城小說評論(情緒分析)的文章就介紹到這了,希望對你有所幫助,更多相關python爬取內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章，希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python爬蟲之爬取最新更新的小說網站
python使用XPath解析數據爬取起點小說網數據
python爬蟲之爬取筆趣閣小說
Python爬蟲入門教程02之筆趣閣小說爬取
python 爬取小說并下載的示例
python爬取”頂點小說網“《純陽劍尊》的示例代碼
Python scrapy爬取小說代碼案例詳解
Python爬取365好書中小說代碼實例
python爬蟲爬取筆趣網小說網站過程圖解
Python實現的爬取小說爬蟲功能示例
Python制作爬蟲采集小說
python 爬取國內小說網站

標簽：貴州雙鴨山日照克拉瑪依金華陽泉臨汾赤峰

巨人網絡通訊聲明：本文標題《python爬取晉江文學城小說評論(情緒分析)》，本文關鍵詞 python,爬取,晉江,文學,城,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《python爬取晉江文學城小說評論(情緒分析)》相關的同類信息！

python爬取晉江文學城小說評論(情緒分析)

1. 收集數據 1.1 爬取晉江文學城收藏排行榜前50頁的小說信息獲取收藏榜前50頁的小說列表，第一頁網址為 ‘http://www.jjwxc.net/bookbase.phpfw0=0fbsj=0ycx0=0xx2=2mainview0=0sd0=0lx0=0fg0=0sortType=0isfini...

10-18

$[city_name]電銷卡哪里購買好（電銷電話卡哪個比較便宜）

今天給各位分享電銷卡哪里購買好的知識，其中也會對電銷電話卡哪個比較便宜進行解釋，如果能碰巧解決你現在面臨的問題...

06-02

長沙電銷外呼系統介紹（呼叫中心電銷系統）

本篇文章給大家談談長沙電銷外呼系統介紹，以及呼叫中心電銷系統對應的知識點，希望對各位有所幫助，不要忘了收藏本站...

11-06

加速AI應用，思必馳在2019全球人工智能產品應用博覽會

5月9日，由蘇州市人民政府、新一代人工智能產業技術創新戰略聯盟共同主辦的2019全球人工智能產品應用博覽會（以下簡稱全...

10-19

黑龍江電銷外呼系統好用嗎（電銷外呼系統哪個

本文目錄一覽：1、外呼體系好用嗎？2、電銷客外呼體系這個體系好用么？3、外呼體系怎么？好用么？4、外呼體系好用不?哪...

11-29

蘇州電銷機器人哪家有賣（蘇州家用機器人）

本文目錄一覽： 1、電話銷售機器人哪個好2、電銷機器人都有哪些性價比高的品牌？3、電話ai機器人在哪能買4、電銷機器人...

11-27

400電話中國移動移動400電話怎么樣

移動400業務就是互聯網上提到的400電話，類似于800電話，都是提供給企業的直線電話業務。與800不同的是，400電話是一項業...

01-13

化妝品商標注冊

化妝品作為一種品牌盈利能力很強的產品，商標注冊顯然是最重要的。銷售的作用反而是其次，生產環節的盈利能力最差。從...

10-23

上海電銷公司外呼用什么軟件

上海電銷公司外呼用什么軟件,辦理上海電銷外呼軟件,上海電銷軟件辦理防封號電銷軟件，提供多種防封解決方案，支持各地...

12-03

觀察呼叫中心外包運營有感

09年6月下旬的某日，盆地中的臺北天氣悶熱，電腦慣例地持續收到各方郵件。剛巧公務纏身，本想只要不是緊急狀況就先擱著...

10-22

centos安裝php5、卸載php、安裝php7的教程

首先安裝php5很簡單 yum install php 然后如果不想用php5的話那就卸載吧注意只使用yum remove命令是行不通的那我們先 yum remove p...

10-16

鄭州防封卡外呼系統是什么（外呼防封號系統）

本文目錄一覽： 1、什么是網絡電話外呼體系？2、外呼體系是什么?3、外呼體系是怎樣用的？什么是網絡電話外呼體系？你加...

11-28

Javascript中使用exec進行正則表達式全局匹配時的注意事項

本文就是介紹在使用 Javascript 中使用 exec 進行正則表達式全局匹配時的注意事項。先看一下常見的用法：復制代碼代碼如下...

10-18

伊娃機器人效果怎么樣

時代在發展，科技在進步，無論你的企業在行業中處于什么樣的地位，無論你的企業在市場上占多大的份額，無論你的企業在...

10-31

網上購買物聯卡靠譜嗎

在這個萬物互聯的時代，針對于企業設備聯網的物聯卡就顯得格外重要了，而共享單車，移動支付，智慧城市，自動售賣機等...

11-07

保定市防封高頻電話卡便宜

全國建“合伙人”制分公司有了戰略和產品，開拓用戶是分享通信集團下一步的重心。據了解，分享通信集團以“分享”的理...

02-15

如何獲得沒有地圖標注商家信息？如何獲得位置信息？

C#如何獲得百度地圖點上的信息框？百度地圖是提供了一個js API 你需要什么需要用js獲取，在ajax發到后臺去如何采集百度地...

11-26

關于大都會人壽電銷是外包么的信息

本篇文章給大家談談大都會人壽電銷是外包么，以及對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。本文目錄...

08-28

東莞財稅專用ai電話機器人價格-哪家專業？

東莞財稅專用ai電話機器人價格反正我是無法理解的。值得一提的是在這份榜單中，呼叫中心系統服務商的表現給人眼前一亮...

05-17

400電話，走進行業領先的推廣

400電話，這是一個選擇永久性號碼的平臺，也是很多行業進入到發展階段過程中所需要把握的一種宣傳模式，到底怎么樣才能...

03-12

佛山銷售外呼系統收費（外呼營銷違法嗎）

本文目錄一覽： 1、外呼體系多少錢一個月？2、電銷外呼體系多少錢一個月？3、電銷外呼體系一個月貴嗎？4、外呼體系裝置...

04-22

為什么企業對 400 電話感興趣？（企業對400電話感興趣原因是什么）

很多企業都非常重視電話業務，所以選擇一個非常合適的電話號碼對企業來說也很重要企業對400電話感興趣原因是什么在掌...

07-21

商務部與加拿大中國貿易理事會服務外包合作交流會成功舉行

10月4日，商務部與加中貿易理事會在加拿大多倫多舉辦了2013年中加服務外包合作交流會。加中貿易理事會Neil Tait副主席和中...

10-22

電話機器人有法律效應（電話機器人違法嗎）

本文目錄一覽：1、076912345打電話是機器人會不會坐牢2、公司老板把電話號碼數據給我導入到電話機器人群呼系,我會涉嫌違法...

06-20

linux學習筆記

linux目錄架構 / 根目錄 /bin 常用的命令 binary file 的目錄 /boot 存放系統啟動時必須讀取的檔案，包括核心 (kernel) 在內 /boot/gr...

10-20

麗水電銷機器人廠家

匯港通科技組裝于2018年，是一家潛心于大中小企業精準經營銷售和企業管理效勞處置計劃的供給商。呼叫中心經營管理，巨...

10-31

中牟百應電銷機器人加盟（中牟百應電銷機器人

本文目錄一覽：1、跟電話機器人公司協作,上圈套了怎么辦2、為什么越來越多的人挑選電話機器人項目創業3、電話機器人...

11-29

許昌手機外呼系統（電銷手機外呼系統）

本文目錄一覽：1、外呼體系是怎樣用的？2、外呼體系怎樣用？我也是做電銷的，打電話打多了就會被封號3、什么是網絡電話...

11-29

PowerShell ISE自動化簡單示例

PowerShell ISE的自動化不依賴與任何第三方的框架和工具，因為PowerShell ISE本身就是可編程的。非常高大上地被稱作為PowerShell抽...

10-18

外呼系統外地手機號（外呼電話號碼）

本文目錄一覽： 1、外埠手機號碼一天撥打20個外埠號碼會封號么？ 2、外呼體系若何用？我也是做電銷的，打電話打多了就會...

11-26

南京房產外呼電話一企嗨呼叫系統,AXB線路廠家-實力認證

一企嗨電話營銷系統 1．當前的電銷場景有哪些困擾？ 1）手機.卡頻繁被封，電銷業務難以啟動； 2）銷售人員號碼被標注，...

12-17

新一線城市研究所、ofo聯合發布：南京每天超2千人騎車起點為新街口地鐵

第一財經·新一線城市研究所與ofo小黃車最新聯合發布了“共享單車城市出行大數據”，并解讀了南京整座城市的共享單車出...

10-16

400電話續費的套餐還是和以前一樣的吧？

400電話新續費的套餐跟之前簽訂的合同是一樣的，除非您要提高續費的標準，只能提高不能降低。...

12-22

極光大數據：國內手機市場年中大盤點

2017 年第二季度，蘋果十周年新機型蓄勢待發。安卓陣營華為衛冕銷量冠軍，vivo則登上亞軍寶座。中國領先的移動大數據辦事...

10-16

電銷團隊怎么抓人（電銷團隊犯法嗎）

今天給各位分享電銷團隊怎么抓人的知識，其中也會對電銷團隊犯法嗎進行解釋，如果能碰巧解決你現在面臨的問題，別忘了...

08-27

云呼叫中心年增近20% 獲電商企業青睞

中國軟件資訊網消息，近期，基于云計算技術的呼叫中心受到業界的關注，并逐步成為了企業發展電子商務的新動力。由于云...

10-22

電銷外呼線路都有哪些

電銷外呼線路都有哪些優質的電銷線路，全國套餐可選。企業呼叫中心、業務系統統一接入。解決封號難題，提供呼出率！...

12-03

中高端服務外包人才來錫創業可獲安家費補貼

無錫服務外包企業若獲得世界500強企業的大額外包合同，本地工業企業若向123計劃企業發包，符合這樣的條件都將得到獎勵。...

10-22

電銷團隊海報手繪（電銷團隊名稱和激勵口號）

本文目錄一覽： 1、海報怎樣畫手繪2、制造手繪POP海報的6大過程與技巧3、手繪POP海報的過程及技巧4、怎樣手繪pop海報5、手...

04-22

蘇州電銷機器人免費領（智能電銷機器人購買）

本篇文章給我們談談姑蘇電銷機器人免費領，以及智能電銷機器人購買對應的知識點，期望對各位有所協助，不要忘了保藏本...

11-06

電銷防封軟件真的可以防封號嗎?

現在的電銷行業越來越難做了，原因無他，就是運營商封號太嚴重了。每天打不了多少電話就會有封號的危險。這對電銷業務...

12-03

南通高頻電銷卡批發

南通高頻電銷卡批發本公司目前已經與多家虛擬運營商聯簽約，共創虛商大業，提供了業務整合的平臺！服務宗旨：只給客...

11-15

400電話資費400元電話資費標準

400電話資費400元電話資費標準以下內容由巨人小編整理發布。 50元/月，83元/月，138元/月。400電話已經成為企業的必須品，...

02-20

智呼寶ai電話機器人（電話智能機器人）

本文目次一覽： 1、什么是AI智能德律風呆板人？ 2、智能德律風呆板人可行嗎？ 3、AI智能德律風呆板人 4、ai智能德律風呆板...

11-25

聯通400電話固定費用400電話辦理具體的收費標準是什么？

作為全國統一的強大虛擬總機，400電話號碼沒有9位數字，都是從400開始的，但是運營商不同，數字段不同。聯通400電話目前...

01-13

微軟頒布頒發為Win10秋季更新10586延長6個月更新支持

目前，Windows10 共計有 5 個正式版，從Version 1507(Build 10240)到最新的1709(Build16299 秋季創意者更新)。因為敦促升級的緣故，微軟...

10-15

電銷機器人對電銷行業有著積極的促進作用

電銷機器人對電銷行業有著積極的促進作用，電銷機器人，讓客戶服務體驗更順暢。電銷機器人外呼系統顛覆傳統自動外呼只...

10-31

杭州電話外呼系統價格（杭州呼叫中心）

本文目次一覽： 1、外呼零碎幾何錢一個月？ 2、德律風外呼零碎幾何錢？ 3、電銷外呼零碎幾何錢一個月？ 4、外呼零碎一個...

11-25

品牌商標轉讓一般要多少天才能進行使用？

現在要以什么樣的方式，才可以快速完成品牌商標轉讓流程呢？對此有疑問的朋友，只要不斷了解相關的事情，很快就會知...

10-23

徐州電話機器人廠家招聘（江蘇機器人廠招聘）

本文目錄一覽： 1、怎么查詢個人征信報告？ 2、越來越多人做電銷機器人了，電銷機器人哪家好呢？ 3、沒有用的比較好的電...

11-25

辦理400電話打破企業“生死劫”（企業400電話辦理怎樣做）

11-07

python爬取晉江文學城小說評論(情緒分析)

10-18

本頁收集關于python爬取晉江文學城小說評論(情緒分析)的相關信息資訊供網民參考！

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

python爬取晉江文學城小說評論(情緒分析)

1. 收集數據

1.1 爬取晉江文學城收藏排行榜前50頁的小說信息

1.2 查看爬蟲結果

1.3 ** 爬取每部小說的評論** 。

2. 數據加載和預處理

2.1 格式轉化

2.2 數據去重

2.3 短評去重

2.4 添加情緒標簽

2.5 去除停用詞和分詞

2.6 短評可視化

3. 訓練模型

3.1 建立訓練數據集和測試數據集

3.2 特征提取

3.3 用樸素貝葉斯完成中文文本分類器

3.4 用邏輯回歸完成中文文本分類

4. 結果分析

1.3 爬取每部小說的評論。