Python編程pytorch深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet詳解
2012年,AlexNet橫空出世。它首次證明了學習到的特征可以超越手工設(shè)計的特征。它一舉打破了計算機視覺研究的現(xiàn)狀。AlexNet使用了8層卷積神經(jīng)網(wǎng)絡(luò),并以很大的優(yōu)勢贏得了2012年的ImageNet圖像識別挑戰(zhàn)賽。
下圖展示了從LeNet(左)到AlexNet(right)的架構(gòu)。
AlexNet和LeNet的設(shè)計理念非常相似,但也有如下區(qū)別:
- AlexNet比相對較小的LeNet5要深得多。
- AlexNet使用ReLU而不是sigmoid作為其激活函數(shù)。
容量控制和預處理
AlexNet通過dropout控制全連接層的模型復雜度,而LeNet只使用了權(quán)重衰減。為了進一步擴充數(shù)據(jù),AlexNet在訓練時增加了大量的圖像增強數(shù)據(jù),如翻轉(zhuǎn)、裁剪和變色。這使得模型更加健壯,更大的樣本量有效地減少了過擬合。
import torch from torch import nn from d2l import torch as d2l net = nn.Sequential( # 這里,我們使用一個11*11的更大窗口來捕捉對象 # 同時,步幅為4,以減少輸出的高度和寬度 # 另外,輸出通道的數(shù)目遠大于LeNet nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(), nn.MaxPool2d(kernel_size=3, stride=2) # 減少卷積窗口,使用填充為2來使得輸入與輸出的高和寬一致,且增大輸出通道數(shù) nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(), nn.MaxPool2d(kernel_size=3, stride=2) # 使用三個連續(xù)的卷積層和較小的卷積窗口 # 除了最后的卷積層,輸出通道的數(shù)量進一步增加 # 在前兩個卷積層之后,匯聚層不用于減少輸入的高度和寬度 nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(), nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(), nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool2d(kernel_size=3, stride=2), nn.Flatten(), # 這里,全連接層的輸出數(shù)量是LeNet中的好幾倍。使用dropout層來減輕過度擬合 nn.Linear(6400, 4096), nn.ReLU(), nn.Dropout(p=0.5), nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(p=0.5), # 最后是輸出層。由于這里使用Fashion-MNIST,所以用類別數(shù)位10 nn.Linear(4096, 10) )
我們構(gòu)造一個高度和寬度都為224的單通道數(shù)據(jù),來觀察每一層輸出的形狀。它與上面離得最近的圖中的AlexNet架構(gòu)相匹配。
X = torch.randn(1, 1, 224, 224) for layer in net: X = layer(X) print(layer.__class__.__name__,'Output shape:\t', X.shape)
Conv2d Output shape: torch.Size([1, 96, 54, 54]) ReLU Output shape: torch.Size([1, 96, 54, 54]) MaxPool2d Output shape: torch.Size([1, 96, 26, 26]) Conv2d Output shape: torch.Size([1, 256, 26, 26]) ReLU Output shape: torch.Size([1, 256, 26, 26]) MaxPool2d Output shape: torch.Size([1, 256, 12, 12]) Conv2d Output shape: torch.Size([1, 384, 12, 12]) ReLU Output shape: torch.Size([1, 384, 12, 12]) Conv2d Output shape: torch.Size([1, 384, 12, 12]) ReLU Output shape: torch.Size([1, 384, 12, 12]) Conv2d Output shape: torch.Size([1, 256, 12, 12]) ReLU Output shape: torch.Size([1, 256, 12, 12]) MaxPool2d Output shape: torch.Size([1, 256, 5, 5]) Flatten Output shape: torch.Size([1, 6400]) Linear Output shape: torch.Size([1, 4096]) ReLU Output shape: torch.Size([1, 4096]) Dropout Output shape: torch.Size([1, 4096]) Linear Output shape: torch.Size([1, 4096]) ReLU Output shape: torch.Size([1, 4096]) Dropout Output shape: torch.Size([1, 4096]) Linear Output shape: torch.Size([1, 10])
讀取數(shù)據(jù)集
在這里將AlexNet直接應用于Fashion-MNIST的識別,但這里有一個問題,那就是Fashion-MNIST圖像的分辨率( 28 × 28 28\times28 28×28像素)低于ImageNet圖像。為了解決這個問題,我們將它們增加到 224 × 224 224\times224 224×224(通常來講這不是一個明智的做法,但我們在這里這樣做是為了有效使用AlexNet結(jié)構(gòu))。我們使用d2l.load_data_fashion_mnist函數(shù)中的resize參數(shù)執(zhí)行此調(diào)整。
batch_size = 128 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
現(xiàn)在,我們可以開始訓練AlexNet了,與LeNet相比,這里的主要變化是使用更小的學習速率訓練,這是因為網(wǎng)絡(luò)更深更廣、圖像分辨率更高,訓練卷積伸進網(wǎng)絡(luò)就更昂貴。
lr, num_epochs = 0.01, 10 d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
loss 0.330, train acc 0.879, test acc 0.877 4163.0 examples/sec on cuda:0
以上就是Python編程pytorch深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet詳解的詳細內(nèi)容,更多關(guān)于pytorch卷積神經(jīng)網(wǎng)絡(luò)的資料請關(guān)注本站其它相關(guān)文章!
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。