Python深度學(xué)習pytorch神經(jīng)網(wǎng)絡(luò)Dropout應(yīng)用詳解解
擾動的魯棒性
在之前我們討論權(quán)重衰減(L2正則化)時看到的那樣,參數(shù)的范數(shù)也代表了一種有用的簡單性度量。簡單性的另一個有用角度是平滑性,即函數(shù)不應(yīng)該對其輸入的微笑變化敏感。例如,當我們對圖像進行分類時,我們預(yù)計向像素添加一些隨機噪聲應(yīng)該是基本無影響的。
dropout在正向傳播過程中,計算每一內(nèi)部層同時注入噪聲,這已經(jīng)成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的標準技術(shù)。這種方法之所以被稱為dropout,因為我們從表面上看是在訓(xùn)練過程中丟棄(drop out)一些神經(jīng)元。在整個訓(xùn)練過程的每一次迭代中,dropout包括在計算下一層之前將當前層中的一些節(jié)點置零。
那么關(guān)鍵的挑戰(zhàn)就是如何注入這種噪聲,一種想法是以一種無偏的方式注入噪聲。這樣在固定住其他層時,每一層的期望值等于沒有噪音時的值。
實踐中的dropout
之前多層感知機是帶有一個隱藏層和5個隱藏單元的。當我們將dropout應(yīng)用到隱藏層時,以 p的概率將隱藏單元置為零時,結(jié)果可以看作是一個只包含原始神經(jīng)元子集的網(wǎng)絡(luò)。右圖中,刪除了 h2和 h5。因此,輸出的計算不再依賴于 h2或 h5,并且它們各自的梯度在執(zhí)行反向傳播時也會消失。這樣,輸出層的計算不能過度依賴于 h1,…,h5的任何一個元素。
通常,我們在測試時僅用dropout。給定一個訓(xùn)練好的模型和一個新的樣本,我們不會丟棄任何節(jié)點,因此不需要標準化。
簡潔實現(xiàn)
對于高級API,我們所需要做的就是在每個全連接層之后添加一個Dropout層,將丟棄概率作為唯一的參數(shù)傳遞給它的構(gòu)造函數(shù)。在訓(xùn)練過程中,Dropout層將根據(jù)指定的丟棄概率隨機丟棄上一層的輸出(相當于下一層的輸入)。當不處于訓(xùn)練模式時,Dropout層僅在測試時傳遞數(shù)據(jù)。
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 256), nn.ReLU(), # 在第一個全連接層之后添加一個dropout層 nn.Dropout(dropout1), nn.Linear(256, 256), nn.ReLU(), # 在第二個全連接層之后添加一個dropout層 nn.Dropout(dropout2), nn.Linear(256, 10)) def init_weights(m): if type(m) == nn.Linear: nn.init.normal_(m.weight, std=0.01) net.apply(init_weights)
接下來,我們對模型進行訓(xùn)練和測試。
trainer = torch.optim.SGD(net.parameters(), lr=lr) d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
以上就是Python深度學(xué)習pytorch神經(jīng)網(wǎng)絡(luò)Dropout應(yīng)用詳解解的詳細內(nèi)容,更多關(guān)于pytorch神經(jīng)網(wǎng)絡(luò)Dropout應(yīng)用的資料請關(guān)注本站其它相關(guān)文章!
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。