Python深度學(xué)習(xí)pytorch神經(jīng)網(wǎng)絡(luò)塊的網(wǎng)絡(luò)之VGG
與芯片設(shè)計中工程師從放置晶體管到邏輯元件再到邏輯塊的過程類似,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計也逐漸變得更加抽象。研究人員開始從單個神經(jīng)元的角度思考問題,發(fā)展到整個層次,現(xiàn)在又轉(zhuǎn)向模塊,重復(fù)各層的模式。
使用塊的想法首先出現(xiàn)在牛津大學(xué)的視覺幾何組(visualgeometry Group)(VGG)的VGG網(wǎng)絡(luò)中。通過使用循環(huán)和子程序,可以很容易地在任何現(xiàn)代深度學(xué)習(xí)框架的代碼中實現(xiàn)這些重復(fù)的結(jié)構(gòu)。
VGG塊
經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的基本組成部分是下面的這個序列:
1.帶填充以保持分辨率的卷積層
2.非線性激活函數(shù),如ReLU
3.匯聚層,如最大匯聚層
而一個VGG塊與之類似,由一系列卷積層組成,后面再加上用于空間下采樣的最大匯聚層。
在最初的VGG論文中,作者使用了帶有 3 × 3卷積核、填充為1(保持高度和寬度)的卷積層,和帶有 2 × 2 池化窗口、步幅為2(每個塊后的分辨率減半)的最大匯聚層。
在下面的代碼中,我們定義了一個名為vgg_block的函數(shù)來實現(xiàn)VGG塊。
該函數(shù)有三個參數(shù),分別對應(yīng)于卷積層的數(shù)量num_convs、輸入通道的數(shù)量in_channels和輸出通道的數(shù)量out_channels。
import torch from torch import nn from d2l import torch as d2l def vgg_block(num_convs, in_channels, out_channels): layers = [] for _ in range(num_convs): layers.append(nn.Conv2d(in_channels, out_channels, kernel_size = 3, padding=1)) leyers.append(nn.ReLU()) in_channels = out_channels layers.append(nn.MaxPool2d(kernel_size=2, stride=2)) return nn.Sequential(*layers)
VGG網(wǎng)絡(luò)
與AlexNet、LeNet一樣,VGG網(wǎng)絡(luò)可以分為兩個部分:第一部分主要由卷積層和匯聚層組成,第二部分由全連接層組成。如下圖所示:
VGG神經(jīng)網(wǎng)絡(luò)連續(xù)連接上圖的幾個VGG塊(在vgg_block函數(shù)中定義)。其中有超參數(shù)變量conv_arch。該變量指定了每個VGG塊里的卷積層的個數(shù)和輸出通道數(shù)。全連接模塊則與AlexNet中的相同。
原始VGG網(wǎng)絡(luò)中有5個卷積塊,其中前兩個塊各有一個卷積層,后三個塊包含兩個卷積層。第一個模塊有64個輸出通道,每個后續(xù)模塊將輸出通道數(shù)量翻倍,直到數(shù)字達(dá)到512。由于該網(wǎng)絡(luò)使用8個卷積層和3個全連接層,因此它通常被稱為VGG-11。
conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))
下面的代碼實現(xiàn)了VGG-11。可以通過在conv_arch上執(zhí)行for循環(huán)來簡單實現(xiàn)。
def vgg(conv_arch): conv_blks = [] in_channels = 1 # 卷積層部分 for (num_convs, out_channels) in conv_arch: conv_blks.append(vgg_block(num_convs, in_cannels, out_channels)) in_channels = out_channels return nn.Sequential( *conv_blks, nn.Flatten(), # 全連接層部分 nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5), nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5), nn.Linear(4096, 10) ) net = vgg(conv_arch)
接下來,我們將構(gòu)建一個高度和寬度為224的單通道數(shù)據(jù)樣本,以觀察每個層輸出的形狀。
X = torch.randn(size=(1, 1, 224, 224)) for blk in net: X = blk(X) print(blk.__class__.__name__, 'output shape: \t', X.shape)
Sequential output shape: torch.Size([1, 64, 112, 112]) Sequential output shape: torch.Size([1, 128, 56, 56]) Sequential output shape: torch.Size([1, 256, 28, 28]) Sequential output shape: torch.Size([1, 512, 14, 14]) Sequential output shape: torch.Size([1, 512, 7, 7]) Flatten output shape: torch.Size([1, 25088]) Linear output shape: torch.Size([1, 4096]) ReLU output shape: torch.Size([1, 4096]) Dropout output shape: torch.Size([1, 4096]) Linear output shape: torch.Size([1, 4096]) ReLU output shape: torch.Size([1, 4096]) Dropout output shape: torch.Size([1, 4096]) Linear output shape: torch.Size([1, 10])
我們在每個塊的高度和寬度減半,最終高度和寬度都為7。最后再展平表示,送入全連接層處理。
訓(xùn)練模型
由于VGG-11比AlexNet計算量更大,因此我們構(gòu)建了一個通道數(shù)較少的網(wǎng)絡(luò),足夠用于訓(xùn)練Fashion-MNIST數(shù)據(jù)集。
ratio = 4 small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch] net = vgg(small_conv_arch)
除了使用略高的學(xué)習(xí)率外,模型訓(xùn)練過程與AlexNet類似。
lr, num_epochs, batch_size = 0.05, 10, 128 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224) d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
loss 0.175, train axx 0.935, test acc 0.917 2559.6 examples/sec on cuda:0
以上就是Python神經(jīng)網(wǎng)絡(luò)塊的網(wǎng)絡(luò)之VGG深度學(xué)習(xí)的詳細(xì)內(nèi)容,更多關(guān)于Python神經(jīng)網(wǎng)絡(luò)VGG塊的網(wǎng)絡(luò)的資料請關(guān)注本站其它相關(guān)文章!
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。