婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > pandas提升計算效率的一些方法匯總

pandas提升計算效率的一些方法匯總

熱門標簽:所得系統電梯怎樣主板設置外呼 地圖標注面積 朝陽手機外呼系統 佛山400電話辦理 市場上的電銷機器人 北瀚ai電銷機器人官網手機版 儋州電話機器人 小蘇云呼電話機器人 北京電銷外呼系統加盟

前言

Pandas是為一次性處理整個行或列的矢量化操作而設計的,循環遍歷每個單元格、行或列并不是它的設計用途。所以,在使用Pandas時,你應該考慮高度可并行化的矩陣運算。

一、避免使用for循環

盡量使用列號或者行號進行矩陣檢索,避免使用for循環。

1.1使用for循環

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
    b = a.iloc[i]
end_time = datetime.datetime.now()

print(end_time-start_time)

耗時:0:00:02.455211

1.2使用行號檢索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

b = a.iloc[10000]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時:0:00:00.464756

二、使用for循環的條件下提高效率

2.0 如果必須使用for循環如何提高效率

我們可以做的最簡單但非常有價值的加速是使用Pandas的內置 .iterrows() 函數。

在上一節中編寫for循環時,我們使用了 range() 函數。然而,當我們在Python中對大范圍的值進行循環時,生成器往往要快得多。

Pandas的 .iterrows() 函數在內部實現了一個生成器函數,該函數將在每次迭代中生成一行Dataframe。更準確地說,.iterrows() 為DataFrame中的每一行生成(index, Series)的對(元組)。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的,但運行速度要快得多!

生成器(Generators)
生成器函數允許你聲明一個行為類似迭代器的函數,也就是說,它可以在for循環中使用。這大大簡化了代碼,并且比簡單的for循環更節省內存。

當你想要處理一個龐大的列表時,比如10億個浮點數,問題就出現了。使用for循環,在內存中創建了大量的內存huge列表,并不是每個人都有無限的RAM來存儲這樣的東西!

生成器將創建元素時,僅在需要時將它們存儲在內存中。一次一個。這意味著,如果必須創建10億個浮點數,那么只能一次將它們存儲在內存中。Python中的range()函數使用生成器來構建列表。

也就是說,如果你想多次迭代列表并且它足夠小以適應內存,那么使用for循環和range函數會更好。這是因為每次訪問list值時,生成器和range都會重新生成它們,而range是一個靜態列表,并且內存中已存在整數以便快速訪問。

2.1使用range

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for data_row in range(a.shape[0]):
    b = a.iloc[data_row]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時:0:00:07.642816

2.2使用 .iterrows() 代替 range

import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for index,data_row in a.iterrows():
    b = data_row

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時:0:00:03.513161

三、使用.apply

iterrows()函數極大地提高了速度,但我們還遠遠沒有完成。請始終記住,當使用為向量操作設計的庫時,可能有一種方法可以在完全沒有for循環的情況下最高效地完成任務。

為我們提供此功能的Pandas功能是 .apply() 函數。apply()函數接受另一個函數作為輸入,并沿著DataFrame的軸(行、列等)應用它。在傳遞函數的這種情況下,lambda通常可以方便地將所有內容打包在一起。

參考鏈接

四、其他方式

博客鏈接

總結

到此這篇關于pandas提升計算效率的文章就介紹到這了,更多相關pandas計算效率內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Pandas數據分析的一些常用小技巧
  • python之pandas用法大全
  • Python pandas用法最全整理
  • Python Pandas常用函數方法總結
  • Python遍歷pandas數據方法總結
  • Python pandas常用函數詳解
  • Python使用Pandas庫常見操作詳解
  • 11個Python Pandas小技巧讓你的工作更高效(附代碼實例)
  • 詳解pandas獲取Dataframe元素值的幾種方法
  • python數據分析必會的Pandas技巧匯總

標簽:商丘 龍巖 江蘇 寧夏 金融催收 酒泉 云南 定西

巨人網絡通訊聲明:本文標題《pandas提升計算效率的一些方法匯總》,本文關鍵詞  pandas,提升,計算,效率,的,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《pandas提升計算效率的一些方法匯總》相關的同類信息!
  • 本頁收集關于pandas提升計算效率的一些方法匯總的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 辽中县| 甘肃省| 平原县| 滕州市| 清涧县| 兰考县| 门头沟区| 定日县| 许昌市| 包头市| 侯马市| 常山县| 绥棱县| 崇义县| 东乌珠穆沁旗| 天峻县| 榆中县| 南澳县| 泾川县| 张北县| 灵宝市| 宿迁市| 聂荣县| 疏附县| 娱乐| 田林县| 宿州市| 原阳县| 连山| 蒲城县| 呼图壁县| 蒲江县| 喀什市| 罗平县| 长治市| 张家口市| 汝州市| 临汾市| 四会市| 安岳县| 舞阳县|