婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > 采用機(jī)器學(xué)習(xí)方式對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的經(jīng)驗(yàn)指南

采用機(jī)器學(xué)習(xí)方式對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的經(jīng)驗(yàn)指南

熱門標(biāo)簽:機(jī)器人電銷哪個(gè)牌子好 清遠(yuǎn)語(yǔ)音外呼系統(tǒng)平臺(tái) 廣西防封卡外呼系統(tǒng)原理是什么 地圖標(biāo)注銷售好做嗎 浙江呼叫中心外呼系統(tǒng)多少錢 地圖標(biāo)注標(biāo)記位置導(dǎo)航 電銷外呼系統(tǒng)罵人 地圖標(biāo)注操作方法 阿里機(jī)器人電銷

前言
隨著大數(shù)據(jù)時(shí)代的到來,機(jī)器學(xué)習(xí)成為解決問題的一種重要且關(guān)鍵的工具。不管是工業(yè)界還是學(xué)術(shù)界,機(jī)器學(xué)習(xí)都是一個(gè)炙手可熱的方向,但是學(xué)術(shù)界和工業(yè)界對(duì)機(jī)器學(xué)習(xí)的研究各有側(cè)重,學(xué)術(shù)界側(cè)重于對(duì)機(jī)器學(xué)習(xí)理論的研究,工業(yè)界側(cè)重于如何用機(jī)器學(xué)習(xí)來解決實(shí)際問題。我們結(jié)合美團(tuán)在機(jī)器學(xué)習(xí)上的實(shí)踐,進(jìn)行一個(gè)實(shí)戰(zhàn)(InAction)系列的介紹(帶“機(jī)器學(xué)習(xí)InAction系列”標(biāo)簽的文章),介紹機(jī)器學(xué)習(xí)在解決工業(yè)界問題的實(shí)戰(zhàn)中所需的基本技術(shù)、經(jīng)驗(yàn)和技巧。本文主要結(jié)合實(shí)際問題,概要地介紹機(jī)器學(xué)習(xí)解決實(shí)際問題的整個(gè)流程,包括對(duì)問題建模、準(zhǔn)備訓(xùn)練數(shù)據(jù)、抽取特征、訓(xùn)練模型和優(yōu)化模型等關(guān)鍵環(huán)節(jié);另外幾篇?jiǎng)t會(huì)對(duì)這些關(guān)鍵環(huán)節(jié)進(jìn)行更深入地介紹。

下文分為1)機(jī)器學(xué)習(xí)的概述,2)對(duì)問題建模,3)準(zhǔn)備訓(xùn)練數(shù)據(jù),4)抽取特征,5)訓(xùn)練模型,6)優(yōu)化模型,7)總結(jié) 共7個(gè)章節(jié)進(jìn)行介紹。

機(jī)器學(xué)習(xí)的概述:


###什么是機(jī)器學(xué)習(xí)?
隨著機(jī)器學(xué)習(xí)在實(shí)際工業(yè)領(lǐng)域中不斷獲得應(yīng)用,這個(gè)詞已經(jīng)被賦予了各種不同含義。在本文中的“機(jī)器學(xué)習(xí)”含義與wikipedia上的解釋比較契合,如下:
Machine learning is a scientific discipline that deals with the construction and study of algorithms that can learn from data.

機(jī)器學(xué)習(xí)可以分為無監(jiān)督學(xué)習(xí)(unsupervised learning)和有監(jiān)督學(xué)習(xí)(supervised learning),在工業(yè)界中,有監(jiān)督學(xué)習(xí)是更常見和更有價(jià)值的方式,下文中主要以這種方式展開介紹。如下圖中所示,有監(jiān)督的機(jī)器學(xué)習(xí)在解決實(shí)際問題時(shí),有兩個(gè)流程,一個(gè)是離線訓(xùn)練流程(藍(lán)色箭頭),包含數(shù)據(jù)篩選和清洗、特征抽取、模型訓(xùn)練和優(yōu)化模型等環(huán)節(jié);另一個(gè)流程則是應(yīng)用流程(綠色箭頭),對(duì)需要預(yù)估的數(shù)據(jù),抽取特征,應(yīng)用離線訓(xùn)練得到的模型進(jìn)行預(yù)估,獲得預(yù)估值作用在實(shí)際產(chǎn)品中。在這兩個(gè)流程中,離線訓(xùn)練是最有技術(shù)挑戰(zhàn)的工作(在線預(yù)估流程很多工作可以復(fù)用離線訓(xùn)練流程的工作),所以下文主要介紹離線訓(xùn)練流程。

###什么是模型(model)?
模型,是機(jī)器學(xué)習(xí)中的一個(gè)重要概念,簡(jiǎn)單的講,指特征空間到輸出空間的映射;一般由模型的假設(shè)函數(shù)和參數(shù)w組成(下面公式就是Logistic Regression模型的一種表達(dá),在訓(xùn)練模型的章節(jié)做稍詳細(xì)的解釋);一個(gè)模型的假設(shè)空間(hypothesis space),指給定模型所有可能w對(duì)應(yīng)的輸出空間組成的集合。工業(yè)界常用的模型有Logistic Regression(簡(jiǎn)稱LR)、Gradient Boosting Decision Tree(簡(jiǎn)稱GBDT)、Support Vector Machine(簡(jiǎn)稱SVM)、Deep Neural Network(簡(jiǎn)稱DNN)等。

模型訓(xùn)練就是基于訓(xùn)練數(shù)據(jù),獲得一組參數(shù)w,使得特定目標(biāo)最優(yōu),即獲得了特征空間到輸出空間的最優(yōu)映射,具體怎么實(shí)現(xiàn),見訓(xùn)練模型章節(jié)。

###為什么要用機(jī)器學(xué)習(xí)解決問題?

目前處于大數(shù)據(jù)時(shí)代,到處都有成T成P的數(shù)據(jù),簡(jiǎn)單規(guī)則處理難以發(fā)揮這些數(shù)據(jù)的價(jià)值;
廉價(jià)的高性能計(jì)算,使得基于大規(guī)模數(shù)據(jù)的學(xué)習(xí)時(shí)間和代價(jià)降低;
廉價(jià)的大規(guī)模存儲(chǔ),使得能夠更快地和代價(jià)更小地處理大規(guī)模數(shù)據(jù);
存在大量高價(jià)值的問題,使得花大量精力用機(jī)器學(xué)習(xí)解決問題后,能獲得豐厚收益。


###機(jī)器學(xué)習(xí)應(yīng)該用于解決什么問題?

目標(biāo)問題需要價(jià)值巨大,因?yàn)闄C(jī)器學(xué)習(xí)解決問題有一定的代價(jià);
目標(biāo)問題有大量數(shù)據(jù)可用,有大量數(shù)據(jù)才能使機(jī)器學(xué)習(xí)比較好地解決問題(相對(duì)于簡(jiǎn)單規(guī)則或人工);
目標(biāo)問題由多種因素(特征)決定,機(jī)器學(xué)習(xí)解決問題的優(yōu)勢(shì)才能體現(xiàn)(相對(duì)于簡(jiǎn)單規(guī)則或人工);
目標(biāo)問題需要持續(xù)優(yōu)化,因?yàn)闄C(jī)器學(xué)習(xí)可以基于數(shù)據(jù)自我學(xué)習(xí)和迭代,持續(xù)地發(fā)揮價(jià)值。
對(duì)問題建模
本文以DEAL(團(tuán)購(gòu)單)交易額預(yù)估問題為例(就是預(yù)估一個(gè)給定DEAL一段時(shí)間內(nèi)賣了多少錢),介紹使用機(jī)器學(xué)習(xí)如何解決問題。首先需要:

收集問題的資料,理解問題,成為這個(gè)問題的專家;
拆解問題,簡(jiǎn)化問題,將問題轉(zhuǎn)化機(jī)器可預(yù)估的問題。
深入理解和分析DEAL交易額后,可以將它分解為如下圖的幾個(gè)問題:

###單個(gè)模型?多個(gè)模型?如何來選擇?
按照上圖進(jìn)行拆解后,預(yù)估DEAL交易額就有2種可能模式,一種是直接預(yù)估交易額;另一種是預(yù)估各子問題,如建立一個(gè)用戶數(shù)模型和建立一個(gè)訪購(gòu)率模型(訪問這個(gè)DEAL的用戶會(huì)購(gòu)買的單子數(shù)),再基于這些子問題的預(yù)估值計(jì)算交易額。

不同方式有不同優(yōu)缺點(diǎn),具體如下:

選擇哪種模式?
1)問題可預(yù)估的難度,難度大,則考慮用多模型;
2)問題本身的重要性,問題很重要,則考慮用多模型;
3)多個(gè)模型的關(guān)系是否明確,關(guān)系明確,則可以用多模型。


如果采用多模型,如何融合?
可以根據(jù)問題的特點(diǎn)和要求進(jìn)行線性融合,或進(jìn)行復(fù)雜的融合。以本文問題為例,至少可以有如下兩種:

###模型選擇
對(duì)于DEAL交易額這個(gè)問題,我們認(rèn)為直接預(yù)估難度很大,希望拆成子問題進(jìn)行預(yù)估,即多模型模式。那樣就需要建立用戶數(shù)模型和訪購(gòu)率模型,因?yàn)闄C(jī)器學(xué)習(xí)解決問題的方式類似,下文只以訪購(gòu)率模型為例。要解決訪購(gòu)率問題,首先要選擇模型,我們有如下的一些考慮:

主要考慮
1)選擇與業(yè)務(wù)目標(biāo)一致的模型;
2)選擇與訓(xùn)練數(shù)據(jù)和特征相符的模型。

訓(xùn)練數(shù)據(jù)少,High Level特征多,則使用“復(fù)雜”的非線性模型(流行的GBDT、Random Forest等);
訓(xùn)練數(shù)據(jù)很大量,Low Level特征多,則使用“簡(jiǎn)單”的線性模型(流行的LR、Linear-SVM等)。


補(bǔ)充考慮
1)當(dāng)前模型是否被工業(yè)界廣泛使用;
2)當(dāng)前模型是否有比較成熟的開源工具包(公司內(nèi)或公司外);
3)當(dāng)前工具包能夠的處理數(shù)據(jù)量能否滿足要求;
4)自己對(duì)當(dāng)前模型理論是否了解,是否之前用過該模型解決問題。
為實(shí)際問題選擇模型,需要轉(zhuǎn)化問題的業(yè)務(wù)目標(biāo)為模型評(píng)價(jià)目標(biāo),轉(zhuǎn)化模型評(píng)價(jià)目標(biāo)為模型優(yōu)化目標(biāo);根據(jù)業(yè)務(wù)的不同目標(biāo),選擇合適的模型,具體關(guān)系如下:

通常來講,預(yù)估真實(shí)數(shù)值(回歸)、大小順序(排序)、目標(biāo)所在的正確區(qū)間(分類)的難度從大到小,根據(jù)應(yīng)用所需,盡可能選擇難度小的目標(biāo)進(jìn)行。對(duì)于訪購(gòu)率預(yù)估的應(yīng)用目標(biāo)來說,我們至少需要知道大小順序或真實(shí)數(shù)值,所以我們可以選擇Area Under Curve(AUC)或Mean Absolute Error(MAE)作為評(píng)估目標(biāo),以Maximum likelihood為模型損失函數(shù)(即優(yōu)化目標(biāo))。綜上所述,我們選擇spark版本 GBDT或LR,主要基于如下考慮:
1)可以解決排序或回歸問題;
2)我們自己實(shí)現(xiàn)了算法,經(jīng)常使用,效果很好;
3)支持海量數(shù)據(jù);
4)工業(yè)界廣泛使用。

準(zhǔn)備訓(xùn)練數(shù)據(jù)
深入理解問題,針對(duì)問題選擇了相應(yīng)的模型后,接下來則需要準(zhǔn)備數(shù)據(jù);數(shù)據(jù)是機(jī)器學(xué)習(xí)解決問題的根本,數(shù)據(jù)選擇不對(duì),則問題不可能被解決,所以準(zhǔn)備訓(xùn)練數(shù)據(jù)需要格外的小心和注意:

###注意點(diǎn):

待解決問題的數(shù)據(jù)本身的分布盡量一致;
訓(xùn)練集/測(cè)試集分布與線上預(yù)測(cè)環(huán)境的數(shù)據(jù)分布盡可能一致,這里的分布是指(x,y)的分布,不僅僅是y的分布;
y數(shù)據(jù)噪音盡可能小,盡量剔除y有噪音的數(shù)據(jù);
非必要不做采樣,采樣常??赡苁箤?shí)際數(shù)據(jù)分布發(fā)生變化,但是如果數(shù)據(jù)太大無法訓(xùn)練或者正負(fù)比例嚴(yán)重失調(diào)(如超過100:1),則需要采樣解決。


###常見問題及解決辦法

待解決問題的數(shù)據(jù)分布不一致:
1)訪購(gòu)率問題中DEAL數(shù)據(jù)可能差異很大,如美食DEAL和酒店DEAL的影響因素或表現(xiàn)很不一致,需要做特別處理;要么對(duì)數(shù)據(jù)提前歸一化,要么將分布不一致因素作為特征,要么對(duì)各類別DEAL單獨(dú)訓(xùn)練模型。
數(shù)據(jù)分布變化了:
1)用半年前的數(shù)據(jù)訓(xùn)練模型,用來預(yù)測(cè)當(dāng)前數(shù)據(jù),因?yàn)閿?shù)據(jù)分布隨著時(shí)間可能變化了,效果可能很差。盡量用近期的數(shù)據(jù)訓(xùn)練,來預(yù)測(cè)當(dāng)前數(shù)據(jù),歷史的數(shù)據(jù)可以做降權(quán)用到模型,或做transfer learning。
y數(shù)據(jù)有噪音:
1)在建立CTR模型時(shí),將用戶沒有看到的Item作為負(fù)例,這些Item是因?yàn)橛脩魶]有看到才沒有被點(diǎn)擊,不一定是用戶不喜歡而沒有被點(diǎn)擊,所以這些Item是有噪音的??梢圆捎靡恍┖?jiǎn)單規(guī)則,剔除這些噪音負(fù)例,如采用skip-above思想,即用戶點(diǎn)過的Item之上,沒有點(diǎn)過的Item作為負(fù)例(假設(shè)用戶是從上往下瀏覽Item)。
采樣方法有偏,沒有覆蓋整個(gè)集合:
1)訪購(gòu)率問題中,如果只取只有一個(gè)門店的DEAL進(jìn)行預(yù)估,則對(duì)于多門店的DEAL無法很好預(yù)估。應(yīng)該保證一個(gè)門店的和多個(gè)門店的DEAL數(shù)據(jù)都有;
2)無客觀數(shù)據(jù)的二分類問題,用規(guī)則來獲得正/負(fù)例,規(guī)則對(duì)正/負(fù)例的覆蓋不全面。應(yīng)該隨機(jī)抽樣數(shù)據(jù),進(jìn)行人工標(biāo)注,以確保抽樣數(shù)據(jù)和實(shí)際數(shù)據(jù)分布一致。


###訪購(gòu)率問題的訓(xùn)練數(shù)據(jù)

收集N個(gè)月的DEAL數(shù)據(jù)(x)及相應(yīng)訪購(gòu)率(y);
收集最近N個(gè)月,剔除節(jié)假日等非常規(guī)時(shí)間 (保持分布一致);
只收集在線時(shí)長(zhǎng)>T 且 訪問用戶數(shù) > U的DEAL (減少y的噪音);
考慮DEAL銷量生命周期 (保持分布一致);
考慮不同城市、不同商圈、不同品類的差別 (保持分布一致)。


抽取特征
完成數(shù)據(jù)篩選和清洗后,就需要對(duì)數(shù)據(jù)抽取特征,就是完成輸入空間到特征空間的轉(zhuǎn)換(見下圖)。針對(duì)線性模型或非線性模型需要進(jìn)行不同特征抽取,線性模型需要更多特征抽取工作和技巧,而非線性模型對(duì)特征抽取要求相對(duì)較低。

通常,特征可以分為High Level與Low Level,High Level指含義比較泛的特征,Low Level指含義比較特定的特征,舉例來說:

    DEAL A1屬于POIA,人均50以下,訪購(gòu)率高;
    DEAL A2屬于POIA,人均50以上,訪購(gòu)率高;
    DEAL B1屬于POIB,人均50以下,訪購(gòu)率高;
    DEAL B2屬于POIB,人均50以上,訪購(gòu)率底;
基于上面的數(shù)據(jù),可以抽到兩種特征,POI(門店)或人均消費(fèi);POI特征則是Low Level特征,人均消費(fèi)則是High Level特征;假設(shè)模型通過學(xué)習(xí),獲得如下預(yù)估:

如果DEALx 屬于POIA(Low Level feature),訪購(gòu)率高;
如果DEALx 人均50以下(High Level feature),訪購(gòu)率高。
所以,總體上,Low Level 比較有針對(duì)性,單個(gè)特征覆蓋面小(含有這個(gè)特征的數(shù)據(jù)不多),特征數(shù)量(維度)很大。High Level比較泛化,單個(gè)特征覆蓋面大(含有這個(gè)特征的數(shù)據(jù)很多),特征數(shù)量(維度)不大。長(zhǎng)尾樣本的預(yù)測(cè)值主要受High Level特征影響。高頻樣本的預(yù)測(cè)值主要受Low Level特征影響。

對(duì)于訪購(gòu)率問題,有大量的High Level或Low Level的特征,其中一些展示在下圖:

非線性模型的特征
1)可以主要使用High Level特征,因?yàn)橛?jì)算復(fù)雜度大,所以特征維度不宜太高;
2)通過High Level非線性映射可以比較好地?cái)M合目標(biāo)。
線性模型的特征
1)特征體系要盡可能全面,High Level和Low Level都要有;
2)可以將High Level轉(zhuǎn)換Low Level,以提升模型的擬合能力。
###特征歸一化
特征抽取后,如果不同特征的取值范圍相差很大,最好對(duì)特征進(jìn)行歸一化,以取得更好的效果,常見的歸一化方式如下:

Rescaling:
歸一化到[0,1] 或 [-1,1],用類似方式:

Standardization:
設(shè)為x分布的均值,為x分布的標(biāo)準(zhǔn)差;

Scaling to unit length:
歸一化到單位長(zhǎng)度向量

###特征選擇
特征抽取和歸一化之后,如果發(fā)現(xiàn)特征太多,導(dǎo)致模型無法訓(xùn)練,或很容易導(dǎo)致模型過擬合,則需要對(duì)特征進(jìn)行選擇,挑選有價(jià)值的特征。

Filter:
假設(shè)特征子集對(duì)模型預(yù)估的影響互相獨(dú)立,選擇一個(gè)特征子集,分析該子集和數(shù)據(jù)Label的關(guān)系,如果存在某種正相關(guān),則認(rèn)為該特征子集有效。衡量特征子集和數(shù)據(jù)Label關(guān)系的算法有很多,如Chi-square,Information Gain。
Wrapper:
選擇一個(gè)特征子集加入原有特征集合,用模型進(jìn)行訓(xùn)練,比較子集加入前后的效果,如果效果變好,則認(rèn)為該特征子集有效,否則認(rèn)為無效。
Embedded:
將特征選擇和模型訓(xùn)練結(jié)合起來,如在損失函數(shù)中加入L1 Norm ,L2 Norm。
訓(xùn)練模型
完成特征抽取和處理后,就可以開始模型訓(xùn)練了,下文以簡(jiǎn)單且常用的Logistic Regression模型(下稱LR模型)為例,進(jìn)行簡(jiǎn)單介紹。
設(shè)有m個(gè)(x,y)訓(xùn)練數(shù)據(jù),其中x為特征向量,y為label,


;w為模型中參數(shù)向量,即模型訓(xùn)練中需要學(xué)習(xí)的對(duì)象。
所謂訓(xùn)練模型,就是選定假說函數(shù)和損失函數(shù),基于已有訓(xùn)練數(shù)據(jù)(x,y),不斷調(diào)整w,使得損失函數(shù)最優(yōu),相應(yīng)的w就是最終學(xué)習(xí)結(jié)果,也就得到相應(yīng)的模型。

###模型函數(shù)
1)假說函數(shù),即假設(shè)x和y存在一種函數(shù)關(guān)系:


2)損失函數(shù),基于上述假設(shè)函數(shù),構(gòu)建模型損失函數(shù)(優(yōu)化目標(biāo)),在LR中通常以(x,y)的最大似然估計(jì)為目標(biāo):


###優(yōu)化算法

梯度下降(Gradient Descent)
即w沿著損失函數(shù)的負(fù)梯度方向進(jìn)行調(diào)整,示意圖見下圖,的梯度即一階導(dǎo)數(shù)(見下式),梯度下降有多種類型,如隨機(jī)梯度下降或批量梯度下降。


隨機(jī)梯度下降(Stochastic Gradient Descent),每一步隨機(jī)選擇一個(gè)樣本,計(jì)算相應(yīng)的梯度,并完成w的更新,如下式,


批量梯度下降(Batch Gradient Descent),每一步都計(jì)算訓(xùn)練數(shù)據(jù)中的所有樣本對(duì)應(yīng)的梯度,w沿著這個(gè)梯度方向迭代,即


牛頓法(Newton’s Method)
牛頓法的基本思想是在極小點(diǎn)附近通過對(duì)目標(biāo)函數(shù)做二階Taylor展開,進(jìn)而找到L(w)的極小點(diǎn)的估計(jì)值。形象地講,在wk處做切線,該切線與L(w)=0的交點(diǎn)即為下一個(gè)迭代點(diǎn)wk+1(示意圖如下)。w的更新公式如下,其中目標(biāo)函數(shù)的二階偏導(dǎo)數(shù),即為大名鼎鼎的Hessian矩陣。

擬牛頓法(Quasi-Newton Methods):計(jì)算目標(biāo)函數(shù)的二階偏導(dǎo)數(shù),難度較大,更為復(fù)雜的是目標(biāo)函數(shù)的Hessian矩陣無法保持正定;不用二階偏導(dǎo)數(shù)而構(gòu)造出可以近似Hessian矩陣的逆的正定對(duì)稱陣,從而在"擬牛頓"的條件下優(yōu)化目標(biāo)函數(shù)。
BFGS: 使用BFGS公式對(duì)H(w)進(jìn)行近似,內(nèi)存中需要放H(w),內(nèi)存需要O(m2)級(jí)別;
L-BFGS:存儲(chǔ)有限次數(shù)(如k次)的更新矩陣

,用這些更新矩陣生成新的H(w),內(nèi)存降至O(m)級(jí)別;
OWLQN: 如果在目標(biāo)函數(shù)中引入L1正則化,需要引入虛梯度來解決目標(biāo)函數(shù)不可導(dǎo)問題,OWLQN就是用來解決這個(gè)問題。


Coordinate Descent
對(duì)于w,每次迭代,固定其他維度不變,只對(duì)其一個(gè)維度進(jìn)行搜索,確定最優(yōu)下降方向(示意圖如下),公式表達(dá)如下:

優(yōu)化模型
經(jīng)過上文提到的數(shù)據(jù)篩選和清洗、特征設(shè)計(jì)和選擇、模型訓(xùn)練,就得到了一個(gè)模型,但是如果發(fā)現(xiàn)效果不好?怎么辦?
【首先】
反思目標(biāo)是否可預(yù)估,數(shù)據(jù)和特征是否存在bug。
【然后】
分析一下模型是Overfitting還是Underfitting,從數(shù)據(jù)、特征和模型等環(huán)節(jié)做針對(duì)性優(yōu)化。

###Underfitting Overfitting
所謂Underfitting,即模型沒有學(xué)到數(shù)據(jù)內(nèi)在關(guān)系,如下圖左一所示,產(chǎn)生分類面不能很好的區(qū)分X和O兩類數(shù)據(jù);產(chǎn)生的深層原因,就是模型假設(shè)空間太小或者模型假設(shè)空間偏離。
所謂Overfitting,即模型過渡擬合了訓(xùn)練數(shù)據(jù)的內(nèi)在關(guān)系,如下圖右一所示,產(chǎn)生分類面過好地區(qū)分X和O兩類數(shù)據(jù),而真實(shí)分類面可能并不是這樣,以至于在非訓(xùn)練數(shù)據(jù)上表現(xiàn)不好;產(chǎn)生的深層原因,是巨大的模型假設(shè)空間與稀疏的數(shù)據(jù)之間的矛盾。

在實(shí)戰(zhàn)中,可以基于模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)來確定當(dāng)前模型到底是Underfitting還是Overfitting,判斷方式如下表:

###怎么解決Underfitting和Overfitting問題?

總結(jié)
綜上所述,機(jī)器學(xué)習(xí)解決問題涉及到問題建模、準(zhǔn)備訓(xùn)練數(shù)據(jù)、抽取特征、訓(xùn)練模型和優(yōu)化模型等關(guān)鍵環(huán)節(jié),有如下要點(diǎn):

理解業(yè)務(wù),分解業(yè)務(wù)目標(biāo),規(guī)劃模型可預(yù)估的路線圖。
數(shù)據(jù):
y數(shù)據(jù)盡可能真實(shí)客觀;
訓(xùn)練集/測(cè)試集分布與線上應(yīng)用環(huán)境的數(shù)據(jù)分布盡可能一致。
特征:
利用Domain Knowledge進(jìn)行特征抽取和選擇;
針對(duì)不同類型的模型設(shè)計(jì)不同的特征。
模型:
針對(duì)不同業(yè)務(wù)目標(biāo)、不同數(shù)據(jù)和特征,選擇不同的模型;
如果模型不符合預(yù)期,一定檢查一下數(shù)據(jù)、特征、模型等處理環(huán)節(jié)是否有bug;
考慮模型Underfitting和Qverfitting,針對(duì)性地優(yōu)化。

標(biāo)簽:臺(tái)灣 包頭 伊春 沈陽(yáng) 江蘇 廊坊 德宏 雅安

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《采用機(jī)器學(xué)習(xí)方式對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的經(jīng)驗(yàn)指南》,本文關(guān)鍵詞  采用,機(jī)器,學(xué)習(xí),方式,對(duì),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《采用機(jī)器學(xué)習(xí)方式對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的經(jīng)驗(yàn)指南》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于采用機(jī)器學(xué)習(xí)方式對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的經(jīng)驗(yàn)指南的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    一区二区视频在线| 欧美国产精品久久| 奇米影视一区二区三区| 午夜久久久久久久久| 免费av成人在线| 麻豆一区二区99久久久久| 免费成人在线影院| 久久国产三级精品| 99re热视频精品| 欧美私模裸体表演在线观看| 91精品国产乱码| 成人免费一区二区三区视频 | 欧美专区在线观看一区| 欧美日韩午夜在线视频| 久久久www免费人成精品| 国产精品人人做人人爽人人添| 亚洲高清免费观看| 国产乱人伦偷精品视频不卡| 欧美综合一区二区三区| 精品黑人一区二区三区久久| 综合久久久久久| 国产专区欧美精品| 在线成人免费观看| 亚洲欧洲成人av每日更新| 久久国产福利国产秒拍| 91蝌蚪国产九色| 欧美韩国日本不卡| 国内精品伊人久久久久影院对白| 欧美午夜一区二区三区| 亚洲精品视频在线| 99久久99久久精品免费观看 | 日韩一级片网址| 性久久久久久久久| 91精品国产品国语在线不卡| 日韩avvvv在线播放| 97久久精品人人澡人人爽| 久久久久久免费毛片精品| 另类小说一区二区三区| 欧美四级电影在线观看| 天天综合天天做天天综合| 欧美区一区二区三区| 日韩国产成人精品| 精品视频色一区| 免费成人在线观看| 欧美一区二区三区在| 久久电影网电视剧免费观看| 国产亚洲综合av| 精品电影一区二区三区| 激情国产一区二区| 中文av字幕一区| 欧美视频一区二区在线观看| 日本aⅴ亚洲精品中文乱码| 精品国精品国产尤物美女| 成人免费视频一区| 午夜久久久久久| 日本一区二区免费在线 | 欧美无人高清视频在线观看| 日韩精品亚洲专区| 18成人在线观看| 夜夜精品浪潮av一区二区三区| 亚洲第一在线综合网站| 国产成人在线免费观看| 色8久久人人97超碰香蕉987| av中文字幕不卡| 制服丝袜在线91| 国产亲近乱来精品视频| 午夜激情一区二区三区| 99国产精品久久久久久久久久久 | 欧美精品高清视频| 精品国产自在久精品国产| 毛片av中文字幕一区二区| 91久久精品一区二区二区| 久久免费的精品国产v∧| 日本成人在线不卡视频| 欧美亚洲精品一区| 综合电影一区二区三区 | 欧美伦理视频网站| 中文字幕亚洲精品在线观看| 高清在线观看日韩| 精品sm在线观看| 美女任你摸久久| 精品久久久久久亚洲综合网| 亚洲国产视频a| 91精品国产福利| 国产麻豆91精品| 国产亚洲精品中文字幕| 日本少妇一区二区| 久久精品网站免费观看| 99久久精品国产观看| 18欧美亚洲精品| 欧美老女人第四色| 国产91清纯白嫩初高中在线观看| 国产精品私人自拍| 91在线视频网址| 婷婷夜色潮精品综合在线| 欧美高清视频一二三区| 日韩电影网1区2区| 国产日韩视频一区二区三区| 综合av第一页| 日韩国产精品大片| 久久国产生活片100| 色国产综合视频| 精品婷婷伊人一区三区三| 国产三级精品视频| 亚洲一区二区三区激情| 蜜桃久久精品一区二区| 99精品热视频| 久久亚洲一区二区三区明星换脸 | 蜜臀av在线播放一区二区三区| 国产一区二区三区蝌蚪| 欧美一区二区三区啪啪| 国产片一区二区| 麻豆成人免费电影| 欧美写真视频网站| 亚洲在线视频一区| 欧美四级电影网| 亚洲国产婷婷综合在线精品| 欧美午夜影院一区| 亚洲精品国产a| 欧美性大战久久久久久久| 久久亚洲影视婷婷| 极品美女销魂一区二区三区免费| 69堂精品视频| 精品一区二区三区影院在线午夜| 欧美大黄免费观看| 久久精品免费看| 国产欧美一区二区三区在线老狼 | 精品久久久久久久久久久久久久久 | 久久综合九色综合97婷婷女人 | 国产91精品露脸国语对白| 精品国产乱码久久久久久影片| 国产乱子轮精品视频| 中文在线免费一区三区高中清不卡| av午夜一区麻豆| 午夜国产精品影院在线观看| 中文天堂在线一区| 91精品国产综合久久久久久| 高清免费成人av| 日韩国产在线观看| 久久久精品国产免大香伊| 日本电影欧美片| 国产成人在线电影| 精品综合久久久久久8888| 国产精品毛片久久久久久| 欧美日韩不卡一区| 成人丝袜高跟foot| 视频在线在亚洲| 夜夜嗨av一区二区三区| 久久久蜜桃精品| 色狠狠桃花综合| 91免费观看在线| bt欧美亚洲午夜电影天堂| 国产精品香蕉一区二区三区| 久久国产乱子精品免费女| 午夜伦欧美伦电影理论片| 亚洲一区二区三区四区的| 亚洲日本在线天堂| 国产精品二区一区二区aⅴ污介绍| 欧美精品一区在线观看| 欧美一区二区三区在线观看视频| 在线视频你懂得一区二区三区| 韩国欧美国产一区| 玖玖九九国产精品| 午夜精品福利一区二区三区av| 一区二区欧美国产| 最新国产精品久久精品| 久久久www成人免费毛片麻豆| 精品三级在线观看| 国产欧美日韩久久| 18成人在线视频| 亚洲一二三四在线观看| 蜜桃视频在线一区| 国产成人综合亚洲网站| 色综合色狠狠天天综合色| 欧美色男人天堂| 日韩女同互慰一区二区| 1区2区3区国产精品| 日韩在线卡一卡二| 日韩亚洲欧美高清| 国产香蕉久久精品综合网| 亚洲特黄一级片| 国产一区欧美二区| 欧美日韩午夜影院| 国产精品福利在线播放| 日韩制服丝袜av| 91在线看国产| 日韩精品中文字幕一区二区三区| 亚洲色图视频网| 寂寞少妇一区二区三区| 欧美日韩在线播放三区四区| 国产精品乱子久久久久| 蜜臀av性久久久久蜜臀av麻豆| 91麻豆福利精品推荐| 国产日本亚洲高清| 日韩精品一区第一页| 欧美色图第一页| 日韩不卡免费视频| 成人av网站大全| 欧美午夜在线观看| 日韩一区二区三区观看|