婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較

淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較

熱門標(biāo)簽:廣東旅游地圖標(biāo)注 京華圖書館地圖標(biāo)注 淮安呼叫中心外呼系統(tǒng)如何 看懂地圖標(biāo)注方法 打印谷歌地圖標(biāo)注 佛山通用400電話申請 電話機(jī)器人貸款詐騙 蘇州人工外呼系統(tǒng)軟件 電話外呼系統(tǒng)招商代理

數(shù)據(jù)修改主要以增刪改差為主,這里比較幾種寫法在數(shù)據(jù)處理時(shí)間上的巨大差別。

數(shù)據(jù)量大概是500萬行級別的數(shù)據(jù),文件大小為100M。

1.iloc

iloc是一種速度極其慢的寫法。這里我們對每個(gè)csv文件中的每一行循環(huán)再用iloc處理,示例代碼如下:

for index in range(len(df)):
   df.iloc['attr'][index] = xxx

使用這種方法對五百萬行的數(shù)據(jù)進(jìn)行處理大概需要5個(gè)小時(shí),實(shí)在是很慢。

2.at

at相比于iloc有了很大的性能提升,也是for循環(huán)處理,示例代碼如下:

for i in range(len(df)):
  if df.at[i,'attr'] > 0:
    sum_positive += df.at[i,'attr']
  else:
    sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的,用at,程序的速度會有大幅提高,大概10分鐘,但是還不夠。

3.apply(lambda x:...)

想說apply是因?yàn)槲矣X得for循環(huán)速度太慢,想在循環(huán)上對程序進(jìn)行優(yōu)化。然后網(wǎng)上有人說apply可以大幅度提升速度,然而經(jīng)過測試發(fā)現(xiàn)在我的程序里,使用apply和for差不多吧,性能也一般。

4.直接用series處理

這才是真正優(yōu)化for循環(huán)的方法,以上面at的程序?yàn)槔梢愿膶憺椋?/p>

sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr  0].sum()

將程序都改為series處理,快了很多,最后500萬行的數(shù)據(jù)大概需要37秒能跑完,基本符合預(yù)期。

這里提兩句關(guān)于dataframe屬性篩選,也就是上面df.attr > 0這一部分。首先pandas這個(gè)屬性篩選實(shí)在是很強(qiáng)大,很方便。

其次是我們屬性篩選的時(shí)候不要去修改屬性,而是修改后面的數(shù)字,比如,我們不要這樣寫:

float(df.attr )> 0,而是這樣寫:

df.attr > str(0),因?yàn)閐f.attr作為屬性是不能隨便動的。

補(bǔ)充:pandas中DataFrame單個(gè)數(shù)據(jù)提取效率與修改效率

目標(biāo)

使用pandas處理金融數(shù)據(jù)及建模中經(jīng)常需要按時(shí)間序列順序循DataFrame數(shù)據(jù),讀取具體位置的數(shù)據(jù)判斷或修改。經(jīng)驗(yàn)上這種操作要比直接對二維列表或者np.array格式數(shù)據(jù)慢的多,原因可能在于index及columns層次的查找(兩個(gè)字典,都不是連續(xù)數(shù)組,每次查找定位都需要時(shí)間)和DataFrame中數(shù)據(jù)的內(nèi)存布局,有機(jī)會以后再深入研究。

這里做一組數(shù)值實(shí)驗(yàn)對比幾種方法的效率。

生成數(shù)據(jù)

先生成一個(gè)二維數(shù)組隨機(jī)數(shù)作為DataFrame數(shù)據(jù),不失一般性,并把列名、行名設(shè)為標(biāo)記順序的字符串。

import numpy as np
import pandas as pd

from copy import deepcopy
from time import time

np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_normal((I, I)),
   columns=['c'+str(_) for _ in range(I)],
         index=['i'+str(_) for _ in range(I)])

然后從限定范圍內(nèi)隨機(jī)生成取值位置,為了方便對比,把隨機(jī)坐標(biāo)與字符串名對應(yīng)起來

columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)

columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]

讀取測試

首先傳統(tǒng)方法,直接取columns及index中名稱定位

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df[m][n]
print(time()-t0)

6.789840459823608

先columns列名后在values中取行坐標(biāo),速度快了一些

t0 = time()
for m in columns_str:
  for n in index_num:
    c = df[m].values[n]
print(time()-t0)

1.9697318077087402

loc方法,速度和直接取columns及index中名稱定位差不多

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.loc[n, m]
print(time()-t0)

5.661889314651489

at方法,比loc快一點(diǎn),畢竟loc可以切片的

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.at[m, n]
print(time()-t0)

3.3770089149475098

假設(shè)知道具體橫縱坐標(biāo)后,我們再比較:

還是從取values開始,也很慢,看來每次從df中取values很耗時(shí)

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.values[n][m]
print(time()-t0)

6.041872024536133

iloc試一下,沒什么區(qū)別

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iloc[n, m]
print(time()-t0)

6.103677034378052

iat做對比,提升不大,有點(diǎn)失望

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iat[n, m]
print(time()-t0)

4.375299692153931

最后最高效的方法,還是先取二維數(shù)組來再定位

t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.6402544975280762

修改測試

重復(fù)剛才的過程,把對應(yīng)值改為0作為簡單測試方式,別忘了原始數(shù)據(jù)要備份

取columns及index中名稱定位

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup[m][n] = 0.0
print(time()-t0)

41.99269938468933

先columns列名后在values中取行坐標(biāo)

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_num:
    df_backup[m].values[n] = 0.0
print(time()-t0)

2.215076208114624

loc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.loc[n, m] = 0.0
print(time()-t0)

134.39290761947632

at方法,在修改數(shù)值上竟然比loc快這么多

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.at[n, m] = 0.0
print(time()-t0)

4.7453413009643555

在values上改,也是不錯(cuò)的,和讀取相近,看來還都是在每次提取values上耗時(shí)

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.values[n][m] = 0.0
print(time()-t0)

6.346027612686157

iloc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iloc[n, m] = 0.0
print(time()-t0)

122.33384037017822

iat方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iat[n, m] = 0.0
print(time()-t0)

5.381632328033447

取二維數(shù)組來再定位

df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.4298992156982422

總結(jié)

效率上肯定是直接取數(shù)值最優(yōu)的,這次系統(tǒng)性比較做個(gè)記錄。代碼寫的有點(diǎn)啰嗦了,不過方便復(fù)制實(shí)驗(yàn)。在建模級別的代碼上我還是習(xí)慣于用第2種方法,主要是鑒于代碼可讀性、維護(hù)和修改上。代碼會在key上告訴我這里是什么,直觀易讀。

以前也曾為了提高代碼運(yùn)行效率寫過先提取二維數(shù)組的,但columns多了就很費(fèi)勁,重讀還需要轉(zhuǎn)譯一遍。當(dāng)然也可以把數(shù)據(jù)寫成類,但是感覺和pandas不好融合,從建模和研究效率上沒有太好的解決方案。之后會找時(shí)間再研究DataFrame內(nèi)部機(jī)制。

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。

您可能感興趣的文章:
  • Python基礎(chǔ)之pandas數(shù)據(jù)合并
  • python-pandas創(chuàng)建Series數(shù)據(jù)類型的操作
  • Python數(shù)據(jù)分析之pandas函數(shù)詳解
  • python基于Pandas讀寫MySQL數(shù)據(jù)庫
  • pandas讀取excel時(shí)獲取讀取進(jìn)度的實(shí)現(xiàn)
  • pandas中.loc和.iloc以及.at和.iat的區(qū)別說明
  • 解決使用pandas聚類時(shí)的小坑
  • pandas 使用merge實(shí)現(xiàn)百倍加速的操作
  • 詳細(xì)介紹在pandas中創(chuàng)建category類型數(shù)據(jù)的幾種方法
  • python中pandas.read_csv()函數(shù)的深入講解
  • pandas 顛倒列順序的兩種解決方案
  • pandas調(diào)整列的順序以及添加列的實(shí)現(xiàn)
  • pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作
  • Python基礎(chǔ)之教你怎么在M1系統(tǒng)上使用pandas

標(biāo)簽:中山 股票 駐馬店 衡水 湖州 呼和浩特 江蘇 畢節(jié)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較》,本文關(guān)鍵詞  淺談,Pandas,dataframe,數(shù)據(jù)處理,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較》相關(guān)的同類信息!
  • 本頁收集關(guān)于淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产福利一区二区三区在线视频| 91精品国产一区二区三区蜜臀| 日本韩国一区二区| 久久尤物电影视频在线观看| 一区二区三区不卡视频在线观看| 国产精品一区二区在线播放| 欧美日韩高清一区| 亚洲日本护士毛茸茸| 国内久久精品视频| 91麻豆精品久久久久蜜臀| 亚洲视频 欧洲视频| 国产成人免费视频网站| 欧美r级在线观看| 午夜视频久久久久久| 91丨porny丨蝌蚪视频| 国产三级精品在线| 国产呦萝稀缺另类资源| 欧美一级黄色大片| 午夜不卡av在线| 欧美色视频在线| 亚洲一区在线观看免费观看电影高清| 国产91丝袜在线播放0| 国产视频在线观看一区二区三区| 免费亚洲电影在线| 欧美电影精品一区二区| 日本成人在线网站| 日韩三级伦理片妻子的秘密按摩| 亚洲777理论| 在线综合+亚洲+欧美中文字幕| 亚洲国产日韩一级| 欧美一区二区三区电影| 美女性感视频久久| 精品999在线播放| 国产精品1024| 国产精品家庭影院| 91同城在线观看| 亚洲中国最大av网站| 欧美亚洲综合网| 日韩国产在线一| 日韩一区二区三区视频在线| 美脚の诱脚舐め脚责91 | 综合久久久久久| 91在线观看免费视频| 一区二区三区在线观看国产| 欧美午夜精品一区二区蜜桃| 首页国产欧美日韩丝袜| 欧美一级片在线观看| 国产一区日韩二区欧美三区| 日本一区二区视频在线观看| 99视频精品全部免费在线| 一区二区三区四区五区视频在线观看| 欧美性生活久久| 日韩av二区在线播放| 久久久精品国产99久久精品芒果 | 成人av网站大全| 一区二区国产盗摄色噜噜| 日韩一级黄色大片| 成人激情校园春色| 婷婷综合在线观看| 欧美激情在线一区二区| 在线观看日韩国产| 国内一区二区视频| 亚洲激情五月婷婷| 亚洲精品在线观| 色婷婷国产精品| 激情成人综合网| 亚洲在线一区二区三区| 久久久影视传媒| 在线视频你懂得一区| 国产一区二区三区在线看麻豆| 综合中文字幕亚洲| 精品国产髙清在线看国产毛片| 成人不卡免费av| 久久成人综合网| 亚洲色图20p| 精品国产亚洲一区二区三区在线观看| av中文一区二区三区| 久久国产精品无码网站| 亚洲一区在线免费观看| 欧美激情中文不卡| 精品欧美乱码久久久久久| 欧美亚洲国产一卡| 91论坛在线播放| 国产成人午夜精品影院观看视频| 天天综合日日夜夜精品| 亚洲免费观看视频| 国产欧美精品一区二区色综合朱莉 | 91网上在线视频| 韩国午夜理伦三级不卡影院| 亚洲高清三级视频| 亚洲美女偷拍久久| 国产精品看片你懂得| 欧美精品一区二区三区高清aⅴ | 韩国成人福利片在线播放| 亚洲bt欧美bt精品| 亚洲丶国产丶欧美一区二区三区| 最好看的中文字幕久久| 欧美经典三级视频一区二区三区| 欧美一区二区三区免费视频| 欧美精品高清视频| 欧美日韩在线综合| 欧美日韩成人一区二区| 欧美性高清videossexo| 色婷婷av一区二区三区gif| 北条麻妃一区二区三区| 成人18精品视频| 91免费看片在线观看| 91香蕉视频污| 色婷婷一区二区| 在线视频观看一区| 欧美日韩国产一级二级| 欧美日韩精品一区二区在线播放| 欧美无砖专区一中文字| 欧美日韩精品福利| 日韩欧美国产1| 亚洲精品在线电影| 国产区在线观看成人精品 | av一本久道久久综合久久鬼色| 国产不卡在线播放| 91蝌蚪国产九色| 欧美日韩激情一区| 日韩欧美高清在线| 国产欧美视频在线观看| 亚洲视频网在线直播| 亚洲电影欧美电影有声小说| 蜜桃av一区二区三区| 国产一本一道久久香蕉| 成人免费高清视频在线观看| 一本一道久久a久久精品| 欧美精品日韩精品| 欧美精品一区二区蜜臀亚洲| 国产精品国产自产拍高清av | 国产精品美女久久久久av爽李琼| 亚洲欧美乱综合| 蜜臀91精品一区二区三区| 国产jizzjizz一区二区| 欧洲亚洲精品在线| 亚洲精品一区二区三区99| 中文字幕亚洲在| 天天色天天操综合| 国产成人午夜精品5599| 欧美三级视频在线观看| ww久久中文字幕| 一区二区三区四区av| 奇米综合一区二区三区精品视频| 国产一区二区看久久| 99久久99久久精品国产片果冻| 欧美精品一二三区| 国产精品久久免费看| 视频一区二区欧美| 99久久精品情趣| 久久一日本道色综合| 亚洲国产精品一区二区尤物区| 大桥未久av一区二区三区中文| 欧美性猛交xxxxxx富婆| 国产精品女人毛片| 久久99精品久久久| 欧美日韩视频在线一区二区| 欧美韩日一区二区三区四区| 日本91福利区| 在线观看区一区二| 国产精品久久久久久久久免费樱桃| 日韩电影在线免费看| 一本色道久久综合精品竹菊| 欧美精品一区二区久久久| 亚洲大片在线观看| 色婷婷综合久久| 国产精品久久久久影视| 国产福利精品一区二区| 欧美成人精精品一区二区频| 香蕉成人啪国产精品视频综合网| av动漫一区二区| 欧美激情综合在线| 狠狠色丁香久久婷婷综合_中| 7799精品视频| 舔着乳尖日韩一区| 欧美午夜理伦三级在线观看| 亚洲欧美日韩国产综合| 成人激情动漫在线观看| 国产欧美一区二区精品忘忧草| 免费av成人在线| 欧美一级黄色大片| 蜜乳av一区二区| 日韩欧美的一区| 久久超碰97中文字幕| 日韩免费性生活视频播放| 蜜臀av一区二区| 精品国产一区久久| 国产综合色视频| 久久久久久黄色| 国产成人在线网站| 中文字幕av一区二区三区高| 国产成人精品一区二区三区四区 | 午夜一区二区三区在线观看| 99九九99九九九视频精品| 中文字幕一区二区三区四区不卡 | 亚洲美女视频一区| 99久久婷婷国产综合精品电影| 中文字幕一区二区三区不卡在线| 99久久精品免费看国产|