欧美日韩免费高清一区色橹橹,91精品店在线,亚洲国产精品第一区二区

主頁 > 知識庫 > 機器深度學習二分類電影的情感問題

機器深度學習二分類電影的情感問題

二分類問題可能是應用最廣泛的機器學習問題。今天我們將學習根據電影評論的文字內容將其劃分為正面或負面。

一、數據集來源

我們使用的是IMDB數據集，它包含來自互聯網電影數據庫（IMDB）的50000條嚴重兩極分化的評論。為了避免模型過擬合只記住訓練數據，我們將數據集分為用于訓練的25000條評論與用于測試的25000條評論，訓練集和測試集都包含50%的正面評論和50%的負面評論。

與MNIST數據集一樣，IMDB數據集也內置于Keras庫。它已經過預處理：評論（單詞序列）已經被轉換為整數序列，其中每個整數代表字典中的某個單詞。

通過以下代碼加載數據集并限制每條評論最多取前一萬個常用的word，以便于我們進行向量處理。

import tensorflow as tf
imdb = tf.keras.datasets.imdb
(train_data, train_labels),(test_data, test_labels) = imdb.load_data(num_words=10000)
print(train_data[0])
print(train_labels[0])

通過輸出可以看到，train_data和test_data是評論記錄的集合，每條評論記錄又是由眾多的單詞索引組成的集合。
train_labels和test_labels是針對評論的分類的集合，其中0表示負面評論，1表示正面評論。

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 2, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 2, 8, 4, 107, 117, 5952, 15, 256, 4, 2, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 2, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]
1

我們可以通過word與編號的映射關系將評論的內容轉化為具體的文本

def get_text(comment_num):
    """將數字形式的評論轉化為文本"""
    # word_index = tf.keras.datasets.imdb.get_word_index()
    word_index = imdb.get_word_index()
    reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
    text = ' '.join([reverse_word_index.get(i - 3, '?') for i in comment_num])
    return text
comment = get_text(train_data[0])
print(comment)

第一條電影評論的內容

? this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert ? is an amazing actor and now the same being director ?

二、格式化輸入數據

由于我們無法直接將整數序列輸入神經網絡，所以需要將其轉換為張量。可以通過以下兩種方式進行轉化

填充列表，使其具有相同的長度，然后將列表轉化為(samples, word_index)的2D形狀的整數張量。對列表進行one-hot編碼，將其轉化為0和1組成的向量。

這里我們采用one-hot進行編碼處理

def vectorize_sequences(sequences, diamension = 10000):
    results = np.zeros((len(sequences), diamension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1
    return results
x_train = vectorize_sequences(train_data)
print(x_train[0])
print(len(x_train[0]))
x_test = vectorize_sequences(test_data)
print(x_test[0])
print(len(x_test[0]))

轉化完成的輸入結果

[0. 1. 1. ... 0. 0. 0.]

10000

[0. 1. 1. ... 0. 0. 0.]

將標簽進行向量化處理

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

三、構建神經網絡

針對這里二分類單標簽，我們可以直接使用帶有relu激活函數的全連接層的簡單堆疊。
我們使用了兩個具有16個隱藏單元的中間層和具有一個隱藏單元的層。中間層使用的relu激活函數負責將所有的負值歸零，最后一層使用sigmoid函數將任意值壓縮到[0,1]之間并作為預測結果的概率。

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

這里的Dense層實現了如下的張量計算,傳入Dense層的參數16表示隱藏單元的個數，同時也表示這個層輸出的數據的維度數量。隱藏單元越多，網絡越能夠學習到更加復雜的表示，但是網絡計算的代價就越高。

output = relu(dot(W, input) + b)

我們使用rmsprop優化器和binary_crossentropy損失函數來配置模型。

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])

四、訓練模型

將訓練數據分出一小部分作為校驗數據，同時將512個樣本作為一批量處理，并進行20輪的訓練，同時出入validation_data來監控校驗樣本上的損失和計算精度。

x_val = x_train[:10000]
partial_x_train = x_train[10000:]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]
history = model.fit(partial_x_train, partial_y_train, epochs= 20, batch_size=512, validation_data=(x_val, y_val))

調用fit()返回的history對象包含訓練過程的所有數據

history_dict = history.history
print(history_dict.keys())

字典中包含4個條目，對應訓練過程和校驗過程的指標，其中loss是訓練過程中損失指標，accuracy是訓練過程的準確性指標，而val_loss是校驗過程的損失指標，val_accuracy是校驗過程的準確性指標。

dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])

我們使用Matplotlib畫出訓練損失和校驗損失的情況

loss_values = history_dict['loss']
val_loss_values = history_dict['val_loss']
epochs = range(1, len(loss_values) + 1)
plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

從圖中可以看到整個訓練過程，損失函數值一直在不斷的變小，但是校驗過程的損失函數值卻先變小后變大，在2.5-5之間的某個點達到最小值。

我們使用Matplotlib畫出訓練精度和校驗精度的情況

plt.clf()
acc = history_dict['accuracy']
val_acc = history_dict['val_accuracy']
plt.plot(epochs, acc, 'bo', label='Training accuracy')
plt.plot(epochs, val_acc, 'b', label='Validation accuracy')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

從圖中可以看到整個訓練過程，準確度值一直在不斷的升高，但是校驗過程的精度數值卻在不斷的進行波動，在2.5-5之間的某個點達到最大值。

通過對訓練和校驗指標的分析，可以看到訓練的損失每輪都在降低，訓練的精度每輪都在提升。但是校驗損失和校驗精度基本上在第4輪左右達到最佳值。為了防止這種過擬合的情況，我們可以在第四輪完成之后直接停止訓練。

history = model.fit(partial_x_train, partial_y_train, epochs= 4, batch_size=512, validation_data=(x_val, y_val))
results = model.evaluate(x_test, y_test)
print(results)

重新執行可以看到模型的精度可以達到87%

782/782 [==============================] - 1s 876us/step - loss: 0.3137 - accuracy: 0.8729
[0.3137112557888031, 0.8728799819946289]

五、使用測試數據預測結果

使用訓練的模型對test數據集進行預測

result = model.predict(x_test)
print(result)

[[0.31683978]

[0.9997941 ]

[0.9842608 ]

...

[0.18170357]

[0.23360077]

六、小結

需要對原始數據進行預處理并轉化為符合要求的張量。
對于二分類問題，最后一層使用sigmoid作為激活函數，并輸出0-1的標量來表示結果出現的概率。
對于二分類問題的sigmoid標量輸出，應該使用binary_crossentropy損失函數。
隨著訓練過程的進行，很容易出現過擬合現象，我們需要時刻監控模型在非訓練數據集的表現。

到此這篇關于機器深度學習之電影的二分類情感問題的文章就介紹到這了,更多相關深度學習內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

深度學習詳解之初試機器學習
深度學習小工程練習之tensorflow垃圾分類詳解
深度學習tensorflow基礎mnist
吳恩達機器學習練習:神經網絡(反向傳播)

標簽：畢節江蘇衡水湖州股票呼和浩特駐馬店中山

巨人網絡通訊聲明：本文標題《機器深度學習二分類電影的情感問題》，本文關鍵詞機器,深度,學習,二,分類,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《機器深度學習二分類電影的情感問題》相關的同類信息！

機器深度學習二分類電影的情感問題

二分類問題可能是應用最廣泛的機器學習問題。今天我們將學習根據電影評論的文字內容將其劃分為正面或負面。一、數據集來源我們使用的是IMDB數據集，它包含來自互聯網電影數據...

10-18

靈活實用VBS入門教程應用篇

上一篇文章我們了解了VBS編程的一些基礎知識，要更深入地學習還要學習選擇結構和循環結構。選擇結構選擇結構，即是對...

10-18

Windows7雙顯卡手動切換到獨立顯卡的步驟

小編的電腦是Win7系統，擁有集成和獨顯雙顯卡。相信很多友友都和小編一樣，覺得集成顯卡的運行速度太慢了，喜歡切換到...

10-20

電銷卡被封可以解封嗎？

我們都知道，在三大傳統運營商營業廳辦理的電話卡，如果用于電話營銷，很容易因為出現高頻外呼而停卡，如果電話使用過...

11-16

江蘇電銷卡外呼系統（江蘇電銷卡外呼系統怎么用）

本文目錄一覽： 1、外呼系統跟電銷卡比起來，有哪些優勢和劣勢？2、電銷卡問什么要使用外呼系統?3、外呼系統是什么?4、...

11-27

vmware虛擬機安裝ubuntu14.10系統的過程

ubuntu14.10的正式版本已經出來了，針對Bata版的漏洞進行了各種更新，也有了一些新的功能，界面上看起來更加美觀，操作起來...

10-19

北京聯通AI線路專賣-請看!

北京聯通AI線路專賣撥打3個多電銷人員的電話量，比人工節省成本。減少企業損失銷售行業人員流量大，很多人打電話比較頻...

01-15

電話機器人的正確打開方式

電話機器人的正確打開方式，相信已經有很多或者企業已經聽說過有電話機器人或者電銷機器人這一類的人工智能產品，或者...

10-31

把RS.GetRows看得更清楚

用過Rs.GetRow的兄弟都知道Rs.GetRow可以更有效率地獲取小容量數據（不適合大容量數據，尤其涉及大對象的時候，容易暴掉，我...

10-18

Win10周年更新系統凍結?2招硬解Win10周年更新BUG

雖然經過了長達一年的全民BUG測試，但在周年更新之后，Windows 10依舊問題不斷。就拿最近普遍遇到的問題來說吧，經常性之...

10-19

蜂語電話機器人怎么樣（蜂語app）

本文目錄一覽：1、重慶的智能電話機器人哪家好用啊2、電話機器人多少錢?貴嘛?3、那么多電話機器人,我們怎么測試誰家的好...

08-28

智千呼電銷機器人（電銷人工智能機器人）

本篇文章給大家談談智千呼電銷機器人，以及電銷人工智能機器人對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔...

11-06

國內電銷卡虛擬商（虛擬商電話卡是什么意思）

本文目錄一覽：1、朗瑪電銷卡是哪個公司的2、哪些電銷卡?3、華云互聯卡是什么卡4、虛擬運營商的電話是從哪兒打出來的...

07-10

百度地圖標注LBS位置軌跡服務解決方案

1 月 23 日音訊，百度地圖標注 LBS 敞開渠道今日宣告，通過聯合 MTK，將在百度地圖標注鷹眼商品中，為可穿戴設備供給了一整...

04-13

這就尷尬了！劉強東暗暗把昨天力挺賈躍亭的話刪除了

站長之家（Chinaz.com）近日，樂視被爆出的資金鏈問題在圈內鬧得沸沸揚揚。昨日下午，京東集團創始人劉強東在微頭條發文...

10-16

黑客利用“權力的游戲”劇透郵件傳播惡意軟件

據國外媒體TheVerge報道，網絡安適公司Proofpoint的一份陳訴說，它不雅觀察到一個“有針對性的電子郵件活動”，黑客們正在利...

10-16

物聯網卡定向流量是什么意思(物聯卡的流量和正規卡的流量有什么區別)

1.通用流量的純流量卡，都是動態IP的，是直接使用的運營商的正規流量包，這種卡網速快，網絡延遲低，網絡穩定！網速和...

11-07

北京電銷系統都有什么功能

北京電銷系統都有什么功能從我開始做銷售系統開始，每個客戶都給我留下了深刻的印象！其中一個客戶做軟件銷售，每天...

12-15

CSIP賽普測評中心成都分中心落戶天府軟件園

9月8日，國家工業和信息化部軟件與集成電路促進中心(CSIP)賽普測評中心成都分中心在成都高新區天府軟件園正式揭牌。國家...

10-22

吉林省聯通電商品牌-終于知道

吉林省聯通電商品牌在客戶有問題時，對問題進行匹配，然后回答出對應的答案。電銷機器人會先對的信號進行分析處理，截...

01-15

柳州銷售電銷機器人招商（柳州銷售電銷機器人招商群）

本文目錄一覽： 1、方大智能管家AI電銷機器人智能電話出售機器人怎么樣？2、有沒有哪種電話機器人能夠做招商項目的啊？...

11-28

科大訊飛即將推出新一代語音合成芯片XF-S4041

51callcenter 04月29日消息: 近日，為持續提升語音合成芯片的產品性能，增強二次開發廠商產品的市場賣點，科大訊飛在廣受好...

10-22

400和800電話是否可以做企業彩鈴？

400電話經測試可以加載到400綁定的固話中，撥打400電話及綁定的固話均可聽到企業彩鈴，但400電話無法直接加載。800電話不能...

12-22

南京房產群呼機器人辦理-熱點

南京房產群呼機器人辦理他在與客戶交流時也無法準確地發現客戶的需求，更無法實時記錄客戶對公司的態度，更無法發現潛...

01-16

寧夏電銷軟件-蘭州的***蘭州電銷軟件推薦

寧夏電銷軟件，蘭州的***蘭州電銷軟件推薦，甘肅企贏慧科技有限公司以“智在創新，躍在前沿”為信念，以全力打造優異自...

01-13

天津餐飲加盟外呼機器人辦理多少錢-質優價廉

天津餐飲加盟外呼機器人辦理多少錢主動聯系現有客戶或潛在客戶進行溝通、宣傳和介紹。對于客戶的主動呼叫，點名的問題...

05-18

服務外包成中國經濟轉型新亮點需求有增無減

商務部國際貿易經濟合作研究院首席經濟學家陳文敬今天在接受記者采訪時表示，雖然目前世界市場低迷，對出口貿易等造成...

10-22

易貨公司電銷機器人（易貨銷售員怎么干）

今天給各位分享易貨公司電銷機器人的知識，其中也會對易貨銷售員怎么干進行解釋，如果能碰巧解決你現在面臨的問題，別...

05-17

有口碑的電話機器人加盟（電話機器人怎么加盟）

本文目錄一覽：1、AI智能外呼機器人系統哪家公司定制做得好?2、機器人代理加盟哪家好3、電銷機器人公司排名,電銷機器人...

06-20

C# 定義常量兩種實現方法

在C#中定義常量的方式有兩種，一種叫做靜態常量（Compile-time constant），另一種叫做動態常量（Runtime constant）。前者用“co...

10-18

智創良品外呼系統官網（智創app真的假的）

今天給各位分享智創良品外呼系統官網的知識，其中也會對智創app真的假的進行解釋，如果能碰巧解決你現在面臨的問題，別...

08-28

WebProxy.exe - WebProxy是什么進程

進程文件： WebProxy or WebProxy.exe 進程名稱： Panda Software Web Proxy 進程類別：存在安全風險的進程英文描述： WebProxy.exeis assoc...

10-19

電銷的號碼是如何來的使用介紹

最后，在完成整個呼叫工作后，您可以查看此次呼叫工作的各項數據報告和數據詳細信息，如接通成功率、高意向客戶數、中...

10-30

武漢營銷電話機器人軟件（武漢營銷電話機器人軟件公司）

今日給各位共享武漢營銷電話機器人軟件的常識，其間也會對武漢營銷電話機器人軟件公司進行解說，假如能可巧處理你現在...

05-17

華為打造適應數據時代發展要求的新型客戶服務中心

2015華為中國合作伙伴大會剛剛落下帷幕，華為大服務的理念、產品架構、生態系統和商業模式，以及華為堅持以客戶為中心...

10-19

Win10系統開機出現兩個用戶賬戶卻無法刪除的原因及解決方法圖文教程

最近有用戶反應，在啟動win10系統的時候，出現了2個用戶賬戶，一個是自己正在使用賬戶，另外一個則是英文名administrator的...

10-19

如何贏得一位挑剔型客戶的滿意

在客戶服務工作中，有的客戶很健談。一般這種客戶的談話內容可分為兩類：一是對服務人員及商品本身的駁斥與懷疑，嘮嘮...

10-19

寧港進出口聚焦高新技術外包業務總額逐年增長

2015年，南京市對香港進出口28.7億美元，同比下降12.5%；其中出口15.1億美元，下降1.7%，進口13.5億美元，下降22.1%。對港進出口...

10-22

全國400電話介紹,電信400業務400電話電信號段

中國有6個400電話號碼，屬于不同的運營商。經過多年的市場發展，目前只有中國聯通、中國移動、中國電信三家運營商。...

01-12

ai智能語音外呼系統目的和意義（智能語音外呼系統方案）

今日給各位共享ai智能語音外呼體系意圖和含義的常識，其間也會對智能語音外呼體系計劃進行解說，如果能可巧處理你現在...

05-18

廣州電銷防封外呼軟件真的好用嗎

外呼軟件是銷售贏單的利器，聯系客戶快人一步！線路穩定，提升電銷效率！提供多種外呼線路解決方案，高頻外呼不封號...

11-18

百度地圖標注2019春運深圳上演“空城計”重慶打卡游客多

1820 哪個城市新年遷徙人口最多？春運期間最易擁堵的高速路段有哪些？人們春運出行獨愛去哪里？近來，百度地圖標注聯...

04-14

北京語音電銷機器人費用（北京語音電銷機器人費用多少）

今天給各位分享北京語音電銷機器人費用的知識，其中也會對北京語音電銷機器人費用多少進行解釋，如果能碰巧解決你現在...

05-16

400電話號碼全國免費辦理400電話手機撥打免費嗎？

400電話是一個先進的企業通信管理系統。一部400電話可以統一管理成千上萬的固定電話和手機，包括接聽方式設置、接聽人...

01-13

湖州房產電話系統供應商,電銷線路什么價格-你知道嗎

湖州房產電話系統供應商,電銷線路什么價格幫助企業進行客服工作質檢，對機器接待和人工接待的過程錄音、自動轉寫為文...

12-17

400電話辦理的途徑更加受到關注

400電話是全國統一接入這個號碼，這樣的號碼現在在很多企事業單位或者是訂餐電話當中都可以使用，我們可以發現它能夠全...

05-04

400電話和1010電話有什么區別

400電話和1010電話都是企業常用的服務熱線電話業務，很多企業都不知道1010是什么電話，和400電話有什么區別，也不知道企業...

05-09

pos機物聯卡怎么充值，pos機物聯卡流量充值

pos機物聯卡流量怎么充值? 物聯卡都是通過公眾號,或者充值鏈接充值的,每家的卡都有專門的充值鏈接,先賣給你卡的人就好了...

10-13

惠州防封電銷系統有什么功能

惠州防封電銷系統有什么功能電銷系統：完善的數據報表，企業相關數據可以完成標準化沉淀。為相關服務質量提升、企業...

12-15

PHP實現的函數重載功能示例

本文實例講述了PHP實現的函數重載功能。分享給大家供大家參考，具體如下：由于PHP是弱類型語言，因此函數的輸入參數類...

10-18

用什么方法可代替電話營銷

2.銷售難找，離職率居高不下【用什么方法可代替電話營銷】除此之外還有一些O2O服務類通知等，智能外呼也可以代替人工進...

10-24

機器深度學習二分類電影的情感問題

10-18

本頁收集關于機器深度學習二分類電影的情感問題的相關信息資訊供網民參考！

推薦文章

上一篇：python Requsets下載開源網站的代碼(帶索引數據)

下一篇：Python實現簡單的索引排序與搜索功能

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

機器深度學習二分類電影的情感問題

一、數據集來源

二、格式化輸入數據

三、構建神經網絡

四、訓練模型

五、使用測試數據預測結果

六、小結