婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python機器學習入門(二)之Python數據理解

Python機器學習入門(二)之Python數據理解

熱門標簽:ai電話機器人哪里好 宿遷星美防封電銷卡 長沙高頻外呼系統原理是什么 百度地圖標注沒有了 湛江智能外呼系統廠家 西藏房產智能外呼系統要多少錢 ai電銷機器人源碼 地圖標注審核表 外呼并發線路

統計學是什么?概率與數學。用概率與數學來分析人,分析的永遠不是人。用永遠不是人的結論指導人實在是一種偏誤。在這個意義上講,解讀強于技術。

——劉德寰

1.數據導入

在訓練機器學習的模型時,需要大量的數據,最常用的方法是利用歷史數據來訓練模型。這些歷史數據通常是以csv文件儲存,或者能夠方便地轉化為csv文件。在開始機器學習時,我們首先要導入csv數據文件。

csv文件是用逗號(,)分隔的文本文件。在csv文件中注釋是以(#)開頭。

在接下來的文章中,將使用Pima Indians數據集,它是從UCI機器學習倉庫(https://archive.ics.uci.edu/ml/index.php)中獲取的。也可到網盤中下載(https://pan.baidu.com/s/1nv2xuVpXWHC1HUdS1c5QaQ)提取碼:d4im。

Pima Indians是一個分類問題的數據集,主要記錄了印第安人最近五年內是否患有糖尿病的醫療數據。

1.1使用標準Python類庫導入數據

Python提供了一個標準的類庫CSV,用來處理CSV文件。

from csv import reader
 
#python標準庫導入數據
 
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    readers = reader(raw_data, delimiter=",")
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

代碼比較簡單,此處不做過多贅述。

運行結果:

(768, 9)

1.2使用Numpy導入數據

使用numpy的loadtxt()方法導入數據。使用這個函數處理的數據沒有文件頭,并且所有的數據結構都一樣,也就是說,數據類型都一樣。

import numpy as np
#使用Numpy導入數據
from numpy import loadtxt
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    data = loadtxt(raw_data, delimiter=',')
    print(data.shape)

loadtxt中的第一個參數為數據實例,第二個參數為分隔符。

輸出結果同上

(768, 9)

1.3使用Pandas導入數據

通過Pandas來導入CSV文件要使用pandas.read_csv()函數。這個函數的返回值使Data Frame。在機器學習的項目中,經常利用pandas來做數據處理和準備工作。因此,推薦使用Pandas來導入數據。

#推薦使用!!!!
#使用Pandas導入數據
from pandas import read_csv
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
#設置文件頭
data = read_csv(filename, names=names)
print(data.shape)
print(data.head(10))

使用Pandas導入數據可以設置文件頭,便于后續數據理解。read_csv()方法有兩個參數,一個是文件名,一個是文件頭數組。

輸出結果同上

(768, 9)

2.數據理解

為了得到更準確的結果,必須理解數據的特征、分布情況,以及需要解決的問題,一邊建立相關的算法模型并進行優化。

2.1數據基本屬性

對數據的簡單審視,是加強對數據理解最有效的方法之一。通過對數據的觀察,可以發現數據的內在關系。這些發現有助于對數據進行整理。

2.1.1查看前10行數據

使用的數據集依然是Pima Indians數據集:

from pandas import read_csv
 
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass', 'pedi','age','class']
data = read_csv(filename,names=names)
#查看前十行數據
print(data.head(10))

先使用pandas導入數據集,再使用print函數數據data的head屬性以查看前10行數據。

輸出結果:

preg plas pres skin test mass pedi age class
0 6 148 72 35 0 33.6 0.63 50 1
1 1 85 66 29 0 26.6 0.35 31 0
2 8 183 64 0 0 23.3 0.67 32 1
3 1 89 66 23 94 28.1 0.17 21 0
4 0 137 40 35 168 43.1 2.29 33 1
5 5 116 74 0 0 25.6 0.20 30 0
6 3 78 50 32 88 31.0 0.25 26 1
7 10 115 0 0 0 35.3 0.13 29 0
8 2 197 70 45 543 30.5 0.16 53 1
9 8 125 96 0 0 0.0 0.23 54 1

2.1.2查看數據維度,數據屬性和類型:

'''
數據維度
'''
#查看數據維度
#通過DATa Frame的shape屬性來查看數據集中有多少行多少列
print(data.shape)
 
 
'''
數據屬性和類型
'''
#查看數據屬性和類型
#通過DATa Frame的Type屬性來查看每一個字段的數據類型
print(data.dtypes)

運行結果:

(768, 9)
preg int64
plas int64
pres int64
skin int64
test int64
mass float64
pedi float64
age int64
class int64
dtype: object

2.1.3查看數據描述性統計

通過DataFrame的describe()方法來查看描述性統計的內容。包括:數據數量、平均值、標準方差、最小值、下四分位數、中位數、上四分位數、最大值。(省略前方讀取數據部分)

from pandas import set_option
 
'''
描述性統計
'''
#通過DATa frame的describe()方法來查看描述性統計
#數據記錄數、平均住、標準方差、最小值、下四分位數、中位數、上四分位數、最大值
set_option('display.width',100)
#設置數據的精確度
set_option('precision',2)
print("數據描述性分析:")
print(data.describe())

運行結果:

數據描述性分析:
preg plas pres skin test mass pedi age class
count 768.00 768.00 768.00 768.00 768.00 768.00 768.00 768.00 768.00
mean 3.85 120.89 69.11 20.54 79.80 31.99 0.47 33.24 0.35
std 3.37 31.97 19.36 15.95 115.24 7.88 0.33 11.76 0.48
min 0.00 0.00 0.00 0.00 0.00 0.00 0.08 21.00 0.00
25% 1.00 99.00 62.00 0.00 0.00 27.30 0.24 24.00 0.00
50% 3.00 117.00 72.00 23.00 30.50 32.00 0.37 29.00 0.00
75% 6.00 140.25 80.00 32.00 127.25 36.60 0.63 41.00 1.00
max 17.00 199.00 122.00 99.00 846.00 67.10 2.42 81.00 1.00

2.2數據相關性和分布分析

2.2.1數據相關矩陣

數據屬性的相關性是指數據的兩個屬性是否相互影響,以及這種影響是何種方式。常用皮爾遜相關系數來表示兩個屬性之間的關聯性,它介于(-1,1)。當數據的關聯性比較高時,有些算法(如Liner、邏輯回歸算法等)的性能會降低。所以需要查看一下算法的關聯性。使用Data Frame的corr()方法來計算數據屬性之間的相關矩陣。

print("數據屬性的相關性:")
print(data.corr(method='pearson'))

結果如下:

數據屬性的相關性:
preg plas pres skin test mass pedi age class
preg 1.00 0.13 0.14 -0.08 -0.07 0.02 -0.03 0.54 0.22
plas 0.13 1.00 0.15 0.06 0.33 0.22 0.14 0.26 0.47
pres 0.14 0.15 1.00 0.21 0.09 0.28 0.04 0.24 0.07
skin -0.08 0.06 0.21 1.00 0.44 0.39 0.18 -0.11 0.07
test -0.07 0.33 0.09 0.44 1.00 0.20 0.19 -0.04 0.13
mass 0.02 0.22 0.28 0.39 0.20 1.00 0.14 0.04 0.29
pedi -0.03 0.14 0.04 0.18 0.19 0.14 1.00 0.03 0.17
age 0.54 0.26 0.24 -0.11 -0.04 0.04 0.03 1.00 0.24
class 0.22 0.47 0.07 0.07 0.13 0.29 0.17 0.24 1.00

2.2.2數據分布分析

通過分析數據的高斯分布情況來確認數據的偏離情況。使用Data Frame的skew()方法來計算所有數據屬性的高斯分布偏離情況。

print("數據的高斯分布偏離情況:")
print(data.skew())

結果如下:

數據的高斯分布偏離情況:
preg 0.90
plas 0.17
pres -1.84
skin 0.11
test 2.27
mass -0.43
pedi 1.92
age 1.13
class 0.64
dtype: float64

3.數據可視化

對數據進行理解最快、最有效的方式是通過數據的可視化。我們將使用Matplotlib來可視化數據以更好地理解數據。

3.1單一圖表

3.1.1直方圖

直方圖使用較多,此處不做過多介紹。

from pandas import read_csv
import matplotlib.pyplot as plt
 
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass', 'pedi','age','class']
data = read_csv(filename,names=names)
 
'''
直方圖
'''
data.hist()
plt.show()

3.1.2密度圖

密度圖是一種表現與數據值對應的邊界或域對象的圖形表示方法,一般用于呈現連續變量。密度圖類似于對直方圖進行抽象,用平滑的線來描述數據的分布。

'''
密度圖
'''
data.plot(kind='density',subplots=True,layout=(3,3),sharex=False,sharey=False)
plt.show()

3.1.3箱線圖

箱線圖又稱盒須圖、盒式圖或箱行圖,是一種用于顯示一組數據分散情況的統計圖。

'''
箱線圖
'''
data.plot(kind='box',subplots=True,layout=(3,3),sharex=False,sharey=False)
plt.show()

3.2多重圖表

3.2.1相關矩陣圖

from pandas import read_csv
import matplotlib.pyplot as plt
import numpy as np
 
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names=names)
 
#相關矩陣圖
correlations = data.corr()
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = np.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

3.2.2散點矩陣圖

from pandas import read_csv
import matplotlib.pyplot as plt
import numpy as np
from pandas.plotting import scatter_matrix
 
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names=names)
 
scatter_matrix(data)
plt.show()

總結

本文主要講了機器學習項目開始前的一些準備工作:導入數據,數據理解和數據可視化。導入數據有三種方法:Python庫函數,Numpy和Pandas導入,推薦使用Panads導入CSV文件。數據理解包括查看數據的一些基本屬性以及查看數據相關矩陣和高斯分布情況。數據可視化主要介紹了Matplotlib的一些常用方法。

到此這篇關于Python機器學習(二)數據理解的文章就介紹到這了,更多相關Python機器學習(二)內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 詳解python數據結構之隊列Queue
  • 詳解python數據結構之棧stack
  • python數據類型相關知識擴展
  • Python數據類型最全知識總結
  • python數據處理——對pandas進行數據變頻或插值實例
  • python入門課程第四講之內置數據類型有哪些

標簽:大同 南平 林芝 寧夏 海南 漯河 普洱 盤錦

巨人網絡通訊聲明:本文標題《Python機器學習入門(二)之Python數據理解》,本文關鍵詞  Python,機器,學習,入門,二,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python機器學習入門(二)之Python數據理解》相關的同類信息!
  • 本頁收集關于Python機器學習入門(二)之Python數據理解的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产精品视频第一区| 成人aa视频在线观看| 91麻豆免费看片| 欧美一区二区三区不卡| 精品久久一二三区| 国产精品美女久久久久久| 亚洲午夜电影在线观看| 国产在线播精品第三| 91丝袜美女网| 精品福利在线导航| 亚洲资源中文字幕| 国产盗摄精品一区二区三区在线| 色94色欧美sute亚洲13| 精品人在线二区三区| 亚洲精品视频一区二区| 国内偷窥港台综合视频在线播放| 91高清视频在线| 日本一区二区视频在线| 日本伊人午夜精品| 日本乱码高清不卡字幕| 国产日韩欧美不卡| 蜜桃视频免费观看一区| 一本在线高清不卡dvd| 欧美精品一区二| 午夜影院在线观看欧美| av午夜一区麻豆| 精品国产免费人成电影在线观看四季 | 欧美xxx久久| 伊人夜夜躁av伊人久久| 国产福利91精品| 欧美一区午夜精品| 亚洲电影你懂得| 色悠悠亚洲一区二区| 国产日韩欧美不卡在线| 麻豆91免费看| 宅男噜噜噜66一区二区66| 亚洲精品免费在线| 99精品视频免费在线观看| 久久久91精品国产一区二区三区| 欧美性色黄大片手机版| 国产精品理论在线观看| 国产永久精品大片wwwapp | 视频一区二区三区中文字幕| 99国产精品久| 亚洲素人一区二区| 99视频精品全部免费在线| 国产婷婷色一区二区三区四区| 免费观看日韩av| 日韩欧美的一区| 美国av一区二区| 欧美tk—视频vk| 九九**精品视频免费播放| 欧美成人vr18sexvr| 久久精品国产一区二区三| 日韩欧美国产成人一区二区| 奇米在线7777在线精品| 日韩你懂的在线播放| 久久99国产精品尤物| 久久这里只有精品首页| 国产精品一卡二卡在线观看| 国产日韩视频一区二区三区| 成年人午夜久久久| 亚洲精品第1页| 欧美日韩精品一区视频| 免费成人结看片| 久久精品视频免费| 99视频精品全部免费在线| 一级日本不卡的影视| 欧美一区在线视频| 国产成a人亚洲精| 中文字幕一区免费在线观看| 在线看不卡av| 麻豆精品在线视频| 中文字幕欧美日韩一区| 欧洲色大大久久| 久久国产三级精品| 中文字幕字幕中文在线中不卡视频| 日本高清不卡视频| 韩国成人精品a∨在线观看| 国产精品理伦片| 欧美午夜寂寞影院| 精品一区二区三区蜜桃| 国产精品污污网站在线观看| 欧美亚洲高清一区| 国内精品在线播放| 一区二区三区中文字幕精品精品| 欧美一区二区精品在线| 国产成人夜色高潮福利影视| 亚洲一区二区三区在线看| 日韩美女视频在线| 波多野结衣在线aⅴ中文字幕不卡 波多野结衣在线一区 | 久久一二三国产| 99精品欧美一区二区三区小说| 亚洲一区二区三区在线看| 欧美精品一区二区三区视频| 色香蕉久久蜜桃| 精品中文av资源站在线观看| 亚洲精品乱码久久久久久黑人| 欧美大片一区二区| 91久久人澡人人添人人爽欧美| 国产一区二区三区电影在线观看| 亚洲一二三区不卡| 国产精品久久久久久久久搜平片| 69p69国产精品| 91麻豆视频网站| 国产精品一区二区三区网站| 午夜精品久久久久久久久| 日本一区二区三区久久久久久久久不 | 91黄色免费网站| 国产麻豆一精品一av一免费 | 日本不卡一二三| 日韩理论片网站| 精品国产一二三区| 欧美日韩免费观看一区二区三区| 国产成人在线观看| 精彩视频一区二区三区| 图片区小说区国产精品视频| 亚洲美女一区二区三区| 国产精品视频一二| 久久久激情视频| 欧美电视剧在线看免费| 欧美丰满一区二区免费视频| 欧美最猛性xxxxx直播| 99re这里只有精品视频首页| 国产成人av电影| 国产美女精品一区二区三区| 久久99精品久久久久久动态图| 日韩vs国产vs欧美| 婷婷夜色潮精品综合在线| 亚洲成人av一区| 亚洲444eee在线观看| 亚洲午夜在线视频| 亚洲成av人片在线观看| 亚洲午夜在线电影| 亚洲欧美国产77777| 国产精品沙发午睡系列990531| 久久中文娱乐网| 亚洲国产精品v| 欧美激情一二三区| 国产精品福利一区| 国产精品久久久久7777按摩| 欧美极品另类videosde| 国产日韩欧美一区二区三区乱码| 久久久久久电影| 欧美国产欧美亚州国产日韩mv天天看完整 | 国产精品一区二区免费不卡| 国产一区视频在线看| 国产精品18久久久久久久网站| 国产精品综合二区| 国产v综合v亚洲欧| 99久久久免费精品国产一区二区| 一本到不卡免费一区二区| 色天使久久综合网天天| 欧美人牲a欧美精品| 日韩欧美高清dvd碟片| 久久久久久免费网| 国产精品家庭影院| 亚洲成av人片在线| 国产制服丝袜一区| heyzo一本久久综合| 91国偷自产一区二区三区观看 | 欧美久久久久中文字幕| 欧美一个色资源| 日韩欧美一区二区在线视频| 久久综合九色综合97婷婷女人 | 国产精品剧情在线亚洲| 一区二区三区在线免费观看 | 欧美美女直播网站| 日韩色在线观看| 国产欧美一区二区精品性| 亚洲激情av在线| 久久精品男人天堂av| 亚洲色图在线视频| 日本欧美大码aⅴ在线播放| 国产电影精品久久禁18| 欧美综合色免费| 久久综合色播五月| 一区二区在线观看视频| 久久国产精品99久久久久久老狼 | 国产欧美精品一区| 亚洲成人先锋电影| 国产成人鲁色资源国产91色综| 欧美性淫爽ww久久久久无| 2020日本不卡一区二区视频| 一区2区3区在线看| 国产成人av一区二区三区在线观看| 欧美图区在线视频| 中文av一区特黄| 毛片av一区二区| 欧美日韩综合在线免费观看| 中文成人av在线| 久久99深爱久久99精品| 91麻豆视频网站| 国产日产欧产精品推荐色| 日韩二区三区在线观看| 91麻豆免费观看| 国产精品欧美一区二区三区| 九九在线精品视频| 91精品国产综合久久国产大片| 亚洲精品欧美激情|