婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > pytorch 如何使用amp進行混合精度訓練

pytorch 如何使用amp進行混合精度訓練

熱門標簽:武漢外呼系統平臺 外呼系統哪些好辦 沈陽防封電銷卡品牌 江西省地圖標注 如何申請400電話費用 富錦商家地圖標注 沈陽人工外呼系統價格 沈陽外呼系統呼叫系統 池州外呼調研線路

簡介

AMP:Automatic mixed precision,自動混合精度,可以在神經網絡推理過程中,針對不同的層,采用不同的數據精度進行計算,從而實現節省顯存和加快速度的目的。

在Pytorch 1.5版本及以前,通過NVIDIA提供的apex庫可以實現amp功能。但是在使用過程中會伴隨著一些版本兼容和奇怪的報錯問題。

從1.6版本開始,Pytorch原生支持自動混合精度訓練,并已進入穩定階段,AMP 訓練能在 Tensor Core GPU 上實現更高的性能并節省多達 50% 的內存。

環境

Python 3.8

Pytorch 1.7.1

CUDA 11 + cudnn 8

NVIDIA GeFore RTX 3070

ps:后續使用移動端的3070,或者3080結合我目前訓練的分類網絡來測試實際效果

原理

關于低精度計算

當前的深度學習框架大都采用的都是FP32來進行權重參數的存儲,比如Python float的類型為雙精度浮點數 FP64,PyTorch Tensor的默認類型為單精度浮點數FP32。

隨著模型越來越大,加速訓練模型的需求就產生了。在深度學習模型中使用FP32主要存在幾個問題,第一模型尺寸大,訓練的時候對顯卡的顯存要求高;第二模型訓練速度慢;第三模型推理速度慢。

其解決方案就是使用低精度計算對模型進行優化。

推理過程中的模型優化目前比較成熟的方案就是FP16量化和INT8量化,NVIDIA TensorRT等框架就可以支持,這里不再贅述。訓練方面的方案就是混合精度訓練,它的基本思想很簡單: 精度減半(FP32→ FP16) ,訓練時間減半。

與單精度浮點數float32(32bit,4個字節)相比,半精度浮點數float16僅有16bit,2個字節組成。

可以很明顯的看到,使用FP16可以解決或者緩解上面FP32的兩個問題:顯存占用更少:通用的模型FP16占用的內存只需原來的一半,訓練的時候可以使用更大的batchsize。

計算速度更快:有論文指出半精度的計算吞吐量可以是單精度的 2-8 倍。

從上到下依次為 fp16、fp32 、fp64

當前很多NVIDIA GPU搭載了專門為快速FP16矩陣運算設計的特殊用途Tensor Core,比如Tesla P100,Tesla V100、Tesla A100、GTX 20XX 和RTX 30XX等。

Tensor Core是一種矩陣乘累加的計算單元,每個Tensor Core每個時鐘執行64個浮點混合精度操作(FP16矩陣相乘和FP32累加),英偉達宣稱使用Tensor Core進行矩陣運算可以輕易的提速,同時降低一半的顯存訪問和存儲。

隨著Tensor Core的普及FP16計算也一步步走向成熟,低精度計算也是未來深度學習的一個重要趨勢。

Tensor Core 的 4x4x4 矩陣乘法與累加

Volta GV100 Tensor Core 流程圖

自動混合精度訓練

不同于在推理過程中直接削減權重精度,在模型訓練的過程中,直接使用半精度進行計算會導致的兩個問題的處理:舍入誤差(Rounding Error)和溢出錯誤(Grad Overflow / Underflow)。

舍入誤差: float16的最大舍入誤差約為 (~2 ^-10 ),比float32的最大舍入誤差(~2 ^-23) 要大不少。 對足夠小的浮點數執行的任何操作都會將該值四舍五入到零,在反向傳播中很多甚至大多數梯度更新值都非常小,但不為零。 在反向傳播中舍入誤差累積可以把這些數字變成0或者 nan, 這會導致不準確的梯度更新,影響網絡的收斂。

溢出錯誤: 由于float16的有效的動態范圍約為 ( 5.96×10^-8 ~ 6.55×10^4),比單精度的float32(1.4x10^-45 ~ 1.7x10^38)要狹窄很多,精度下降(小數點后16相比較小數點后8位要精確的多)會導致得到的值大于或者小于fp16的有效動態范圍,也就是上溢出或者下溢出。

在深度學習中,由于激活函數的的梯度往往要比權重梯度小,更易出現下溢出的情況。2018年ICLR論文 Mixed Precision Training 中提到,簡單的在每個地方使用FP16會損失掉梯度更新小于2^-24的值——大約占他們的示例網絡所有梯度更新的5%。

解決方案就是使用混合精度訓練(Mixed Precision)和損失縮放(Loss Scaling):

1、混合精度訓練:

混合精度訓練是一種通過在FP16上執行盡可能多的操作來大幅度減少神經網絡訓練時間的技術,在像線性層或是卷積操作上,FP16運算較快,但像Reduction運算又需要 FP32的動態范圍。通過混合精度訓練的方式,便可以在部分運算操作使用FP16,另一部分則使用 FP32,混合精度功能會嘗試為每個運算使用相匹配的數據類型,在內存中用FP16做儲存和乘法從而加速計算,用FP32做累加避免舍入誤差。這樣在權重更新的時候就不會出現舍入誤差導致更新失敗,混合精度訓練的策略有效地緩解了舍入誤差的問題。

2、損失縮放:

即使用了混合精度訓練,還是會存在無法收斂的情況,原因是激活梯度的值太小,造成了下溢出。損失縮放是指在執行反向傳播之前,將損失函數的輸出乘以某個標量數(論文建議從8開始)。 乘性增加的損失值產生乘性增加的梯度更新值,提升許多梯度更新值到超過FP16的安全閾值2^-24。 只要確保在應用梯度更新之前撤消縮放,并且不要選擇一個太大的縮放以至于產生inf權重更新(上溢出) ,從而導致網絡向相反的方向發散。

使用Pytorch AMP

Pytorch原生的amp模式使用起來相當簡單,只需要從torch.cuda.amp導入GradScaler和 autocast這兩個函數即可。torch.cuda.amp的名字意味著這個功能只能在cuda上使用,事實上,這個功能正是NVIDIA的開發人員貢獻到PyTorch項目中的。

Pytorch在amp模式下維護兩個權重矩陣的副本,一個主副本用 FP32,一個半精度副本用 FP16。 梯度更新使用FP16矩陣計算,但更新于 FP32矩陣。 這使得應用梯度更新更加安全。

autocast上下文管理器實現了 FP32到FP16的轉換,它會自動判別哪些層可以進行FP16哪些層不可以。 GradScaler對梯度更新計算(檢查是否溢出)和優化器(將丟棄的batches轉換為 no-op)進行控制,通過放大loss的值來防止梯度的溢出。

在訓練中的具體使用方法如下所示:

def train():
    batch_size = 8
    epochs = 10
    lr = 1e-3
    size = 256
    num_class = 35
    use_amp = True 
    device = 'cuda' if torch.cuda.is_available() else 'cpu' 
    print('torch version: {}'.format(torch.__version__))
    print('amp:           {}'.format(use_amp))
    print('device:        {}'.format(device))
    print('epochs:        {}'.format(epochs))
    print('learn rate:    {}'.format(lr))
    print('batch size:    {}'.format(batch_size))
 
    net = ERFNet(num_classes=num_class).to(device) 
    train_data = CityScapesDataset('D:\\dataset\\cityscapes',
                                   'D:\\dataset\\cityscapes\\trainImages.txt',
                                   'D:\\dataset\\cityscapes\\trainLabels.txt',
                                   size, num_class)
    val_data = CityScapesDataset('D:\\dataset\\cityscapes',
                                 'D:\\dataset\\cityscapes\\valImages.txt',
                                 'D:\\dataset\\cityscapes\\valLabels.txt',
                                 size, num_class)
 
    train_dataloader = DataLoader(train_data, batch_size=batch_size, shuffle=False, num_workers=8)
    val_dataloader = DataLoader(val_data, batch_size=batch_size, shuffle=False, num_workers=4)
 
    opt = torch.optim.Adam(net.parameters(), lr=lr)
    criterion = torch.nn.CrossEntropyLoss(ignore_index=255)
 
    if use_amp:
        scaler = torch.cuda.amp.GradScaler() 
    writer = SummaryWriter("summary") 
    train_loss = AverageMeter()
    val_acc = AverageMeter()
    val_miou = AverageMeter()
 
    for epoch in range(0, epochs):
        train_loss.reset()
        val_acc.reset()
        val_miou.reset()
 
        with tqdm(total=train_data.__len__(), unit='img', desc="Epoch {}/{}".format(epoch + 1, epochs)) as pbar:
            # train
            net.train()
            for img, mask in train_dataloader:
                img = img.to(device)
                mask = mask.to(device)
                n = img.size()[0] 
                opt.zero_grad()
 
                if use_amp:
                    with torch.cuda.amp.autocast():
                        output = net(img)
                        loss = criterion(output, mask)
 
                    scaler.scale(loss).backward()
                    scaler.step(opt)
                    scaler.update()
                else:
                    output = net(img)
                    loss = criterion(output, mask)
                    loss.backward()
                    opt.step() 
                train_loss.update(loss.item(), n)
 
                pbar.set_postfix(**{"loss": train_loss.avg})
                pbar.update(img.size()[0])
 
            writer.add_scalar('train_loss', train_loss.avg, epoch)
            # eval
            net.eval()
            for img, mask in val_dataloader:
                img = img.to(device)
                mask = mask
                n = img.size()[0] 
                output = net(img) 
                pred_mask = torch.softmax(output, dim=1)
                pred_mask = pred_mask.detach().cpu().numpy()
                pred_mask = np.argmax(pred_mask, axis=1)
                true_mask = mask.numpy()
                acc, acc_cls, mean_iu, fwavacc = evaluate(pred_mask, true_mask, num_class)
 
                val_acc.update(acc)
                val_miou.update(mean_iu)
 
            writer.add_scalar('val_acc', val_acc.avg, epoch)
            writer.add_scalar('val_miou', val_miou.avg, epoch) 
            pbar.set_postfix(**{"loss": train_loss.avg, "val_acc": val_acc.avg, "val_miou": val_miou.avg})

實驗

硬件使用NVIDIA Geforce RTX 3070作為測試卡,這塊卡有184個Tensor Core,能比較好的支持amp模式。

模型使用ERFNet分割模型作為基準,cityscapes作為測試數據,10個epoch下的測試效果如下所示:

在模型的訓練性能方面,amp模式下的平均訓練時間并沒有明顯節省,甚至還略低于正常模式。

顯存的占用大約節省了25%,對于需要大量顯存的模型來說這個提升還是相當可觀的。

理論上訓練速度應該也是有提升的,到Pytorch的GitHub issue里翻了一下,好像30系顯卡會存在速度提不上來的問題,不太清楚是驅動支持不到位還是軟件適配不到位。

Metrics time memory
AMP 66.72s 2.5G
NO_AMP 65.64s 3.3G

amp

no_amp

在模型的精度方面,在不進行數據shuffle的情況下統計了10個epoch下兩種模式的train_loss和val_acc,可以看出不管是訓練還是推理,amp模式并沒有帶來明顯的精度損失。

cmp

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • pytorch隨機采樣操作SubsetRandomSampler()
  • 一文弄懂Pytorch的DataLoader, DataSet, Sampler之間的關系
  • pytorch sampler對數據進行采樣的實現
  • 在Pytorch中使用樣本權重(sample_weight)的正確方法

標簽:銅川 阿里 黑龍江 潛江 株洲 常德 呂梁 通遼

巨人網絡通訊聲明:本文標題《pytorch 如何使用amp進行混合精度訓練》,本文關鍵詞  pytorch,如何,使用,amp,進行,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《pytorch 如何使用amp進行混合精度訓練》相關的同類信息!
  • 本頁收集關于pytorch 如何使用amp進行混合精度訓練的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    欧日韩精品视频| 色噜噜狠狠成人中文综合| 欧亚洲嫩模精品一区三区| 国产女主播在线一区二区| 日韩女优视频免费观看| 国产精品色哟哟网站| 一区二区成人在线观看| 亚洲精品欧美综合四区| 三级影片在线观看欧美日韩一区二区| 国产精品乱人伦一区二区| 一区二区三区在线影院| 国产精品一区一区三区| 国产成人欧美日韩在线电影| 国内一区二区在线| 成人动漫一区二区三区| 成人美女在线视频| 成人免费视频caoporn| 欧美日韩视频第一区| 国产亚洲成av人在线观看导航| 欧美一区二区福利视频| 国产精品成人一区二区三区夜夜夜| 麻豆91精品视频| 精品毛片乱码1区2区3区 | 精品乱人伦一区二区三区| 亚洲网友自拍偷拍| 欧美亚洲国产一区在线观看网站 | 久久国产日韩欧美精品| 国产91对白在线观看九色| 精品剧情在线观看| 日本午夜精品一区二区三区电影| 99精品在线免费| 久久久亚洲精华液精华液精华液| 免费观看在线色综合| 国产精品天美传媒| 欧美老年两性高潮| 国产一区二区美女诱惑| 综合久久久久久久| 欧美日韩黄色一区二区| 亚洲自拍偷拍图区| www久久久久| www.日本不卡| 五月婷婷激情综合网| 欧美日韩中文另类| 婷婷激情综合网| 国产亚洲视频系列| 日韩一级片在线播放| 国产激情视频一区二区三区欧美| 亚洲男人都懂的| 国产精品久99| 国产欧美一区二区精品秋霞影院 | 国产精品国产三级国产有无不卡| 欧美专区亚洲专区| 成人97人人超碰人人99| 激情av综合网| 久久99久久99| 免费看欧美女人艹b| 五月激情综合网| 亚洲福利国产精品| 亚洲成人动漫在线免费观看| 亚洲人成人一区二区在线观看| 欧美激情综合在线| 亚洲人成网站影音先锋播放| 亚洲色大成网站www久久九九| 欧美xxx久久| 久久综合色一综合色88| 日本一区二区三区在线不卡| 国产亚洲欧美色| ...xxx性欧美| 久久成人精品无人区| 成人亚洲精品久久久久软件| 色一情一乱一乱一91av| 欧美高清www午色夜在线视频| 日韩一区二区三区电影在线观看 | 亚洲精品美国一| 亚洲国产精品久久久久婷婷884| 男女男精品网站| 99这里只有久久精品视频| 欧美亚洲一区二区在线| 中文字幕乱码亚洲精品一区| 天天色天天操综合| 不卡区在线中文字幕| 日韩一区二区三区四区| 一区二区在线观看视频| 极品美女销魂一区二区三区免费| 一本色道a无线码一区v| 国产精品欧美一级免费| 国产一区在线不卡| 欧美成人女星排名| 日精品一区二区| 宅男在线国产精品| 亚洲成a人v欧美综合天堂下载| 色婷婷综合久久久| 亚洲国产精品综合小说图片区| 成人黄色av电影| 国产欧美精品一区| 成人av免费在线观看| 一区二区三区.www| 欧美色欧美亚洲另类二区| 亚洲成人午夜影院| 日韩一级片在线观看| 韩国精品免费视频| 久久精品夜色噜噜亚洲aⅴ| 免费av成人在线| 国产日韩欧美不卡| 色吊一区二区三区| 奇米精品一区二区三区在线观看| 欧美日韩在线播| 国产精品18久久久久久久久久久久| 欧美日韩一区二区三区不卡| 久久国产精品露脸对白| 久久精品日产第一区二区三区高清版| 久久99热99| 亚洲永久精品国产| 欧美高清在线一区二区| 欧美高清hd18日本| 欧美在线观看视频一区二区 | 99久久精品免费看国产免费软件| 欧美激情综合五月色丁香小说| 欧美高清视频www夜色资源网| 国产精品456| 蜜臀国产一区二区三区在线播放| 亚洲区小说区图片区qvod| 亚洲精品一区二区精华| 欧美日本国产一区| 在线电影一区二区三区| 国产日韩精品一区二区三区在线| 国产精品美女久久久久久 | 欧美无人高清视频在线观看| 欧美mv日韩mv| 亚洲成人av在线电影| 成人一区二区三区视频| 91精品一区二区三区在线观看| 久久九九国产精品| 一区二区三区国产精华| 国产成人综合亚洲网站| 欧美日韩和欧美的一区二区| 国产日韩综合av| 亚洲午夜私人影院| 97久久超碰精品国产| 久久婷婷国产综合精品青草 | 久久99热国产| 日韩一区和二区| 欧美午夜精品久久久久久孕妇| 色偷偷久久人人79超碰人人澡 | 日韩经典中文字幕一区| 成人免费高清视频在线观看| 色香蕉久久蜜桃| ...av二区三区久久精品| 亚洲国产日韩a在线播放| 精品一区二区三区免费播放| 国产成人av一区二区三区在线 | 国产精品国产三级国产aⅴ原创| 26uuuu精品一区二区| 国产欧美日韩三区| 秋霞电影一区二区| 成人精品一区二区三区四区| 欧美日韩精品一二三区| 欧美激情中文字幕| 国产麻豆精品在线| 精品免费视频一区二区| 亚洲18影院在线观看| 91成人免费在线| 国产精品久久久久久久裸模| 国产精品538一区二区在线| 91老司机福利 在线| 中文字幕精品在线不卡| 国产一区欧美二区| 欧美电影免费观看高清完整版在 | 色哟哟国产精品免费观看| 久久综合九色综合97婷婷女人 | 婷婷夜色潮精品综合在线| 欧洲一区在线观看| 午夜精品久久久久久久蜜桃app| 欧美综合亚洲图片综合区| 天天爽夜夜爽夜夜爽精品视频| 777午夜精品免费视频| 亚洲午夜av在线| 国产精品欧美一区喷水| 东方欧美亚洲色图在线| 亚洲一区二区精品久久av| 日韩一区二区三区视频在线| 精品一区二区免费视频| 中文字幕一区在线观看视频| 欧洲一区二区三区在线| 伦理电影国产精品| 国产亲近乱来精品视频| 一本久久a久久精品亚洲| 精品一区二区av| 蜜臀av性久久久久蜜臀aⅴ四虎| 91在线视频网址| 国产乱色国产精品免费视频| 视频一区欧美日韩| 亚洲成人久久影院| 悠悠色在线精品| 亚洲欧洲国产日韩| 亚洲午夜视频在线观看| 伊人婷婷欧美激情| 国产精品视频在线看| 中文字幕欧美日韩一区| 国产精品国产成人国产三级 |