婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > 利用Python如何實(shí)現(xiàn)K-means聚類算法

利用Python如何實(shí)現(xiàn)K-means聚類算法

熱門標(biāo)簽:ai電銷機(jī)器人源碼 西藏房產(chǎn)智能外呼系統(tǒng)要多少錢 湛江智能外呼系統(tǒng)廠家 宿遷星美防封電銷卡 長(zhǎng)沙高頻外呼系統(tǒng)原理是什么 ai電話機(jī)器人哪里好 地圖標(biāo)注審核表 百度地圖標(biāo)注沒有了 外呼并發(fā)線路

前言

K-Means 是一種非常簡(jiǎn)單的聚類算法(聚類算法都屬于無(wú)監(jiān)督學(xué)習(xí))。給定固定數(shù)量的聚類和輸入數(shù)據(jù)集,該算法試圖將數(shù)據(jù)劃分為聚類,使得聚類內(nèi)部具有較高的相似性,聚類與聚類之間具有較低的相似性。

算法原理

1. 初始化聚類中心,或者在輸入數(shù)據(jù)范圍內(nèi)隨機(jī)選擇,或者使用一些現(xiàn)有的訓(xùn)練樣本(推薦)

2. 直到收斂

  • 將每個(gè)數(shù)據(jù)點(diǎn)分配到最近的聚類。點(diǎn)與聚類中心之間的距離是通過(guò)歐幾里德距離測(cè)量得到的。
  • 通過(guò)將聚類中心的當(dāng)前估計(jì)值設(shè)置為屬于該聚類的所有實(shí)例的平均值,來(lái)更新它們的當(dāng)前估計(jì)值。

目標(biāo)函數(shù)

聚類算法的目標(biāo)函數(shù)試圖找到聚類中心,以便數(shù)據(jù)將劃分到相應(yīng)的聚類中,并使得數(shù)據(jù)與其最接近的聚類中心之間的距離盡可能小。

給定一組數(shù)據(jù)X1,...,Xn和一個(gè)正數(shù)k,找到k個(gè)聚類中心C1,...,Ck并最小化目標(biāo)函數(shù):

其中是質(zhì)心,計(jì)算表達(dá)式為

上圖a表達(dá)了初始的數(shù)據(jù)集,假設(shè)k=2。在圖b中,我們隨機(jī)選擇了兩個(gè)k類所對(duì)應(yīng)的類別質(zhì)心,即圖中的紅色質(zhì)心和藍(lán)色質(zhì)心,然后分別求樣本中所有點(diǎn)到這兩個(gè)質(zhì)心的距離,并標(biāo)記每個(gè)樣本的類別為和該樣本距離最小的質(zhì)心的類別,如圖c所示,經(jīng)過(guò)計(jì)算樣本和紅色質(zhì)心和藍(lán)色質(zhì)心的距離,我們得到了所有樣本點(diǎn)的第一輪迭代后的類別。此時(shí)我們對(duì)我們當(dāng)前標(biāo)記為紅色和藍(lán)色的點(diǎn)分別求其新的質(zhì)心,如圖4所示,新的紅色質(zhì)心和藍(lán)色質(zhì)心的位置已經(jīng)發(fā)生了變動(dòng)。圖e和圖f重復(fù)了我們?cè)趫Dc和圖d的過(guò)程,即將所有點(diǎn)的類別標(biāo)記為距離最近的質(zhì)心的類別并求新的質(zhì)心。最終我們得到的兩個(gè)類別如圖f。當(dāng)然在實(shí)際K-Mean算法中,我們一般會(huì)多次運(yùn)行圖c和圖d,才能達(dá)到最終的比較優(yōu)的類別。

算法流程

注意點(diǎn):

  1. 對(duì)于K-Means算法,首先要注意的是k值的選擇,一般來(lái)說(shuō),我們會(huì)根據(jù)對(duì)數(shù)據(jù)的先驗(yàn)經(jīng)驗(yàn)選擇一個(gè)合適的k值,如果沒有什么先驗(yàn)知識(shí),則可以通過(guò)交叉驗(yàn)證選擇一個(gè)合適的k值
  2. 在確定了k的個(gè)數(shù)后,我們需要選擇k個(gè)初始化的質(zhì)心,就像上圖b中的隨機(jī)質(zhì)心。由于我們是啟發(fā)式方法,k個(gè)初始化的質(zhì)心的位置選擇對(duì)最后的聚類結(jié)果和運(yùn)行時(shí)間都有很大的影響,因此需要選擇合適的k個(gè)質(zhì)心,最好這些質(zhì)心不能太近。

流程:

輸入是樣本集D={x1,x2,...xm},聚類的簇樹k,最大迭代次數(shù)N

輸出是簇劃分C={C1,C2,...Ck}

    1) 從數(shù)據(jù)集D中隨機(jī)選擇k個(gè)樣本作為初始的k個(gè)質(zhì)心向量: {μ1,μ2,...,μk}

    2)對(duì)于n=1,2,...,N

      a) 將簇劃分C初始化為Ct=∅  t=1,2...k

      b) 對(duì)于i=1,2...m,計(jì)算樣本xi和各個(gè)質(zhì)心向量μj(j=1,2,...k)的距離:,將xixi標(biāo)記最小的為所對(duì)應(yīng)的類別。此時(shí)更新

      c) 對(duì)于j=1,2,...,k,對(duì)Cj中所有的樣本點(diǎn)重新計(jì)算新的質(zhì)心

      e) 如果所有的k個(gè)質(zhì)心向量都沒有發(fā)生變化,則轉(zhuǎn)到步驟3)

    3) 輸出簇劃分C={C1,C2,...Ck}

 Python實(shí)現(xiàn)

import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs
np.random.seed(123)
from sklearn.cluster import KMeans
class Kmeans:
    def __init__(self,data,k):
        self.data=data
        self.k = k
    def cluster_data_Bysklearn(self):
        kmeans_model = KMeans(self.k,random_state=1)
        labels = kmeans_model.fit(self.data).labels_
        print(labels)
        return labels
 
    def kmeans(self):
        # 獲取4個(gè)隨機(jī)數(shù)
        rarray = np.random.random(size=self.k)
        # 乘以數(shù)據(jù)集大小——>數(shù)據(jù)集中隨機(jī)的4個(gè)點(diǎn)
        rarray = np.floor(rarray * len(self.data))
        # 轉(zhuǎn)為int
        rarray = rarray.astype(int)
        print('數(shù)據(jù)集中隨機(jī)索引', rarray)
        # 隨機(jī)取數(shù)據(jù)集中的4個(gè)點(diǎn)作為初始中心點(diǎn)
        center = data[rarray]
        # 測(cè)試比較偏、比較集中的點(diǎn),效果依然完美,測(cè)試需要?jiǎng)h除以上代碼
        # center = np.array([[4.6,-2.5],[4.4,-1.7],[4.3,-0.7],[4.8,-1.1]])
        # 1行80列的0數(shù)組,標(biāo)記每個(gè)樣本所屬的類(k[i])
        cls = np.zeros([len(self.data)], np.int)
        print('初始center=\n', center)
        run = True
        time = 0
        n = len(self.data)
        while run:
            time = time + 1
            for i in range(n):
                # 求差
                tmp = data[i] - center
                # 求平方
                tmp = np.square(tmp)
                # axis=1表示按行求和
                tmp = np.sum(tmp, axis=1)
                # 取最小(最近)的給該點(diǎn)“染色”(標(biāo)記每個(gè)樣本所屬的類(k[i]))
                cls[i] = np.argmin(tmp)
            # 如果沒有修改各分類中心點(diǎn),就結(jié)束循環(huán)
            run = False
            # 計(jì)算更新每個(gè)類的中心點(diǎn)
            for i in range(self.k):
                # 找到屬于該類的所有樣本
                club = data[cls == i]
                # axis=0表示按列求平均值,計(jì)算出新的中心點(diǎn)
                newcenter = np.mean(club, axis=0)
                # 如果新舊center的差距很小,看做他們相等,否則更新之。run置true,再來(lái)一次循環(huán)
                ss = np.abs(center[i] - newcenter)
                if np.sum(ss, axis=0) > 1e-4:
                    center[i] = newcenter
                    run = True
            print('new center=\n', center)
        print('程序結(jié)束,迭代次數(shù):', time)
        # 按類打印圖表,因?yàn)槊看蛴∫淮危伾疾灰粯樱钥蓞^(qū)分出來(lái)
        # for i in range(self.k):
        #     club = data[cls == i]
        #     self.showtable(club)
        # 打印最后的中心點(diǎn)
        self.showtable(center)
        #打印聚類標(biāo)簽
        print(cls)
 
    def showtable(self,data):
        x = data.T[0]
        y = data.T[1]
        plt.scatter(x, y)
        plt.show()
 
if __name__ == '__main__':
    data = np.random.rand(10,2)
    K = 4
    model = Kmeans(data,K)
 
    model.kmeans()
    model.cluster_data_Bysklearn()

結(jié)果:

自寫得出的    [0 2 0 0 0 2 3 2 1 2]
調(diào)用模型的出的[0 2 0 1 0 2 3 2 3 0]

jupyter notebook實(shí)現(xiàn)

import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs
 
 
%matplotlib inline
X, y = make_blobs(centers=6, n_samples=1000)
print(f'Shape of dataset: {X.shape}')
 
fig = plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], c=y)
plt.title("Dataset with 6 clusters")
plt.xlabel("First feature")
plt.ylabel("Second feature")
plt.show()

 

class KMeans():
    def __init__(self, n_clusters=6):
        self.k = n_clusters
 
    def fit(self, data):
        """
        Fits the k-means model to the given dataset
        """
        n_samples, _ = data.shape
        # initialize cluster centers
        self.centers = np.array(random.sample(list(data), self.k))
        self.initial_centers = np.copy(self.centers)
 
        # We will keep track of whether the assignment of data points
        # to the clusters has changed. If it stops changing, we are 
        # done fitting the model
        old_assigns = None
        n_iters = 0
 
        while True:
            new_assigns = [self.classify(datapoint) for datapoint in data]
 
            if new_assigns == old_assigns:
                print(f"Training finished after {n_iters} iterations!")
                return
 
            old_assigns = new_assigns
            n_iters += 1
 
            # recalculate centers
            for id_ in range(self.k):
                points_idx = np.where(np.array(new_assigns) == id_)
                datapoints = data[points_idx]
                self.centers[id_] = datapoints.mean(axis=0)
 
    def l2_distance(self, datapoint):
        dists = np.sqrt(np.sum((self.centers - datapoint)**2, axis=1))
        return dists
 
    def classify(self, datapoint):
        """
        Given a datapoint, compute the cluster closest to the
        datapoint. Return the cluster ID of that cluster.
        """
        dists = self.l2_distance(datapoint)
        return np.argmin(dists)
 
    def plot_clusters(self, data):
        plt.figure(figsize=(12,10))
        plt.title("Initial centers in black, final centers in red")
        plt.scatter(data[:, 0], data[:, 1], marker='.', c='y')
        plt.scatter(self.centers[:, 0], self.centers[:,1], c='r')
        plt.scatter(self.initial_centers[:, 0], self.initial_centers[:,1], c='k')
        plt.show()
X = np.random.randn(10,100)
kmeans = KMeans(n_clusters=6)
kmeans.fit(X)
for data in X:
    print(kmeans.classify(data))

總結(jié)

K-Means的主要優(yōu)點(diǎn):

1)原理簡(jiǎn)單,容易實(shí)現(xiàn)

2)可解釋度較強(qiáng)

K-Means的主要缺點(diǎn):

1)K值很難確定

2)局部最優(yōu)

3)對(duì)噪音和異常點(diǎn)敏感

4)需樣本存在均值(限定數(shù)據(jù)種類)

5)聚類效果依賴于聚類中心的初始化

6)對(duì)于非凸數(shù)據(jù)集或類別規(guī)模差異太大的數(shù)據(jù)效果不好

到此這篇關(guān)于利用Python如何實(shí)現(xiàn)K-means聚類算法的文章就介紹到這了,更多相關(guān)Python實(shí)現(xiàn)K-means聚類算法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python中實(shí)現(xiàn)k-means聚類算法詳解
  • python實(shí)現(xiàn)鳶尾花三種聚類算法(K-means,AGNES,DBScan)
  • python基于K-means聚類算法的圖像分割
  • K-means聚類算法介紹與利用python實(shí)現(xiàn)的代碼示例
  • Python機(jī)器學(xué)習(xí)之K-Means聚類實(shí)現(xiàn)詳解
  • 在Python中使用K-Means聚類和PCA主成分分析進(jìn)行圖像壓縮
  • Python機(jī)器學(xué)習(xí)算法之k均值聚類(k-means)
  • python實(shí)現(xiàn)k-means聚類算法
  • Python用K-means聚類算法進(jìn)行客戶分群的實(shí)現(xiàn)
  • k-means 聚類算法與Python實(shí)現(xiàn)代碼

標(biāo)簽:普洱 大同 南平 林芝 寧夏 海南 漯河 盤錦

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《利用Python如何實(shí)現(xiàn)K-means聚類算法》,本文關(guān)鍵詞  利用,Python,如何,實(shí)現(xiàn),K-means,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《利用Python如何實(shí)現(xiàn)K-means聚類算法》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于利用Python如何實(shí)現(xiàn)K-means聚類算法的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    蜜乳av一区二区三区| 亚洲丶国产丶欧美一区二区三区| 国产精品视频观看| 亚洲男人都懂的| 狠狠色丁香久久婷婷综合丁香| 欧美一区二区三区系列电影| 日本不卡一区二区| 日韩久久精品一区| 国产综合久久久久影院| 日本一区二区三区国色天香| 1区2区3区精品视频| 波多野结衣91| 亚洲综合色成人| 欧美精选一区二区| 蜜桃精品视频在线观看| 久久精品人人做人人综合| 粉嫩嫩av羞羞动漫久久久| 亚洲精品国久久99热| 欧美一区二区视频免费观看| 国精产品一区一区三区mba视频| 国产欧美精品一区二区色综合| 91免费看视频| 美女一区二区视频| 亚洲女子a中天字幕| 69精品人人人人| 国产高清不卡二三区| 亚洲一区在线免费观看| 2023国产精品| 欧美性高清videossexo| 国产一区二区在线免费观看| 一卡二卡三卡日韩欧美| 久久九九影视网| 欧美人伦禁忌dvd放荡欲情| 国产福利精品一区二区| 亚洲亚洲精品在线观看| 国产欧美日韩在线看| 51午夜精品国产| 99精品国产视频| 国产在线国偷精品产拍免费yy | 成人免费福利片| 五月天一区二区| 亚洲欧洲精品一区二区三区 | 欧美人伦禁忌dvd放荡欲情| 狠狠色丁香久久婷婷综合_中| 亚洲欧美在线高清| 精品国产3级a| 欧美日韩国产综合一区二区| 大尺度一区二区| 免费看日韩精品| 日韩精品亚洲专区| 一区二区不卡在线播放| 国产精品三级av| 欧美精品一区二区蜜臀亚洲| 欧美精品久久99| aaa亚洲精品一二三区| 国产一区二区三区高清播放| 爽爽淫人综合网网站| 亚洲影院免费观看| 国产人妖乱国产精品人妖| 日韩欧美一级片| 欧美电影免费提供在线观看| 精品视频1区2区3区| 欧美综合一区二区| 色爱区综合激月婷婷| 91麻豆福利精品推荐| eeuss鲁一区二区三区| 福利一区福利二区| caoporen国产精品视频| 99久久伊人久久99| thepron国产精品| thepron国产精品| 色综合久久久久综合99| 色先锋资源久久综合| 91污在线观看| 在线精品亚洲一区二区不卡| 色哟哟亚洲精品| 5566中文字幕一区二区电影| 日韩精品一区二区三区中文精品| 日韩一二三区不卡| 精品毛片乱码1区2区3区| 欧美变态tickle挠乳网站| 亚洲乱码精品一二三四区日韩在线| 亚洲欧洲无码一区二区三区| 国产精品久久久久四虎| 一区二区三区在线影院| 亚洲成人av中文| 久久国产乱子精品免费女| 国产精品主播直播| 国产91精品欧美| 欧美在线999| 精品国产一区二区三区久久久蜜月 | 久久久久久久久岛国免费| 久久日韩粉嫩一区二区三区| 亚洲欧美日韩小说| 亚洲第一搞黄网站| 国内精品伊人久久久久av一坑 | 色综合天天性综合| 欧美性大战久久久久久久| 欧美成人三级电影在线| 欧美激情一区在线观看| 亚洲成人1区2区| 国产在线视频一区二区三区| 在线视频国内自拍亚洲视频| 久久久精品tv| 香蕉乱码成人久久天堂爱免费| 国产永久精品大片wwwapp| 在线免费一区三区| 精品对白一区国产伦| 亚洲一区二区视频在线观看| 久久66热re国产| 欧美日韩专区在线| 国产精品传媒视频| 久久国产生活片100| 99精品国产99久久久久久白柏| 日韩欧美亚洲国产精品字幕久久久| 中文字幕一区二区三区蜜月| 国产一区三区三区| 欧美一区二区三区在线视频| 国产一二三精品| 欧美美女一区二区三区| 亚洲欧洲精品一区二区精品久久久 | 中日韩免费视频中文字幕| 首页综合国产亚洲丝袜| av中文一区二区三区| 久久婷婷色综合| 美女视频网站久久| 欧美乱妇15p| 亚洲小少妇裸体bbw| 不卡电影免费在线播放一区| www国产成人免费观看视频 深夜成人网 | 91精品国产色综合久久不卡蜜臀 | 色婷婷精品久久二区二区蜜臀av | 欧美精彩视频一区二区三区| 久久av资源站| 欧美成人精品福利| 免费在线观看精品| 日韩欧美中文字幕公布| 日韩激情一区二区| 91精品国产高清一区二区三区| 亚洲1区2区3区4区| 69久久99精品久久久久婷婷 | 久久久久久久久97黄色工厂| 精品系列免费在线观看| 精品国产自在久精品国产| 黄色资源网久久资源365| 精品国产91洋老外米糕| 韩国一区二区三区| 国产目拍亚洲精品99久久精品| 国产成人高清视频| 中文字幕色av一区二区三区| 91亚洲精品久久久蜜桃| 一区二区三区资源| 在线观看国产日韩| 日本午夜一本久久久综合| 日韩欧美的一区二区| 国产一区二区三区四区五区美女| 天堂影院一区二区| 7777精品伊人久久久大香线蕉的| 免费高清在线视频一区·| 久久综合九色综合97婷婷女人| 成人免费视频app| 亚洲线精品一区二区三区| 日韩午夜在线播放| 国产成人自拍网| 亚洲一区二区中文在线| 欧美一级日韩免费不卡| 从欧美一区二区三区| 亚洲在线视频免费观看| 久久综合久色欧美综合狠狠| 91免费看视频| 精品亚洲成a人在线观看| 欧美国产乱子伦| 欧美美女一区二区| 国产成人三级在线观看| 亚洲一级片在线观看| 久久先锋影音av| 91成人国产精品| 国产成a人亚洲| 亚洲一区二区三区在线| 欧美一区二区黄| 丁香婷婷综合网| 亚洲va欧美va天堂v国产综合| 久久综合九色综合欧美98| 欧美在线不卡一区| 国产精品综合二区| 日韩影视精彩在线| 一区二区三区 在线观看视频| 久久综合中文字幕| 日韩欧美一二区| 欧美精品日韩精品| 91女神在线视频| 国产精品 日产精品 欧美精品| 亚洲国产日韩在线一区模特| 亚洲国产电影在线观看| 欧美电影免费观看高清完整版在 | 欧美日韩三级视频| 99久久777色| av电影在线不卡| 国产成人免费视频| 亚洲高清视频的网址|