99久久99久久久精品齐齐,国产A级毛片

人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

隱藏層

我們在前面描述了仿射變換，它是一個帶有偏置項的線性變換。首先，回想下之前下圖中所示的softmax回歸的模型結(jié)構(gòu)。該模型通過單個仿射變換將我們的輸入直接映射到輸出，然后進行softmax操作。如果我們的標簽通過仿射變換后確實與我們的輸入數(shù)據(jù)相關，那么這種方法就足夠了。但是，仿射變換中的線性是一個很強的假設。

我們的數(shù)據(jù)可能會有一種表示，這種表示會考慮到我們的特征之間的相關交互作用。在此表示的基礎上建立一個線性模型可能會是合適的，但我們不知道如何手動計算這么一種表示。對于深度神經(jīng)網(wǎng)絡，我們使用觀測數(shù)據(jù)來聯(lián)合學習隱藏層表示和應用于該表示的線性預測器。

我們可以通過在網(wǎng)絡中加入一個或多個隱藏層來克服線性模型的限制，使其能處理更普遍的函數(shù)關系類型。要做到這一點，最簡單的方法是將許多全連接層堆疊在一起。每一層都輸出到上面的層，直到生成最后的輸出。我們可以把前L−1層看作表示，把最后一層看作線性預測器。這種架構(gòu)通常稱為多層感知機（multilayer perceptron），通?？s寫為MLP。下面，我們以圖的方式描述了多層感知機。

這個多層感知機有4個輸入，3個輸出，其隱藏層包含5個隱藏單元。輸入層不涉及任何計算，因此使用此網(wǎng)絡產(chǎn)生輸出只需要實現(xiàn)隱藏層和輸出層的計算；因此，這個多層感知機的層數(shù)為2。注意，這個層都是全連接的。每個輸入都會影響隱藏層中的每個神經(jīng)元，而隱藏層中的每個神經(jīng)元又會影響輸出層的每個神經(jīng)元。

然而，具有全連接層的多層感知機的參數(shù)開銷可能會高得令人望而卻步，即使在不改變輸入和輸出大小的情況下，也可能促使在參數(shù)節(jié)約和模型有效性之間進行權(quán)衡。

從線性到非線性

注意，在添加隱藏層之后，模型現(xiàn)在需要跟蹤和更新額外的參數(shù)。
可我們能從中得到什么好處呢？這里我們會驚訝地發(fā)現(xiàn)：在上面定義的模型里，我們沒有好處。上面的隱藏單元由輸入的仿射函數(shù)給出，而輸出（softmax操作前）只是隱藏單元的仿射函數(shù)。仿射函數(shù)的仿射函數(shù)本身就是仿射函數(shù)。但是我們之前的線性模型已經(jīng)能夠表示任何仿射函數(shù)。

由于 X中的每一行對應于小批量中的一個樣本，處于記號習慣的考量，我們定義非線性函數(shù) σ也以按行的方式作用于其輸入，即一次計算一個樣本。我們在之前以相同的方式使用了softmax符號來表示按行操作。但是在本節(jié)中，我們應用于隱藏層的激活函數(shù)通常不僅僅是按行的，而且也是按元素。這意味著在計算每一層的線性部分之后，我們可以計算每個激活值，而不需要查看其他隱藏單元所取的值。對于大多數(shù)激活函數(shù)都是這樣。

激活函數(shù)

激活函數(shù)通過計算加權(quán)和并加上偏置來確定神經(jīng)元是否應該被激活。它們是輸入信號轉(zhuǎn)換為輸出的可微運算。大多數(shù)激活函數(shù)都是非線性的。由于激活函數(shù)是深度學習的基礎，下面簡要介紹一些常見的激活函數(shù)。

import torch
from d2l import torch as d2l

ReLU函數(shù)

最受歡迎的選擇是線性整流單元，因為它實現(xiàn)簡單，同時在各種預測任務中表現(xiàn)良好。ReLU提供了一種非常簡單的非線性變換。給定元素x ，ReLU函數(shù)被定義為該元素與0的最大值：

通俗地說，ReLU函數(shù)通過將相應的激活值設為0來僅保留正元素并丟棄所有負元素。為了直觀感受下，我們可以畫出函數(shù)的曲線圖。下圖所示，激活函數(shù)是分段線性的。

x = torch.arange(-8, 8, 0.1, requires_grad=True)
y = torch.relu(x)
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))

注意，當輸入值精確等于0時，ReLU函數(shù)不可導。在此時，我們默認使用左側(cè)的導數(shù)，即當輸入為0時導數(shù)為0。我們可以忽略這種情況，因為輸入可能永遠都不會是0。這里用上一句古老的諺語，“如果微妙的邊界條件很重要，我們很可能是在研究數(shù)學而非工程”，這個觀點正好適用于這里。下面我們繪制ReLU函數(shù)的導數(shù)。

y.backward(torch.ones_ilke(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of relu', figsize=(5, 2.5))

使用ReLU的原因是，它求導表現(xiàn)得特別好，要么讓參數(shù)消失，要么讓參數(shù)通過。這使得優(yōu)化表現(xiàn)得更好，并且ReLU減輕了困擾以往神經(jīng)網(wǎng)絡梯度消失問題。

注意，ReLU函數(shù)有許多變體，包括參數(shù)化ReLU函數(shù)（Parameterized ReLU）。該變體為ReLU添加了一個線性項，因此即使參數(shù)是負的，某些信息仍然可以通過：

sigmoid函數(shù)

在最早的神經(jīng)網(wǎng)絡中，科學家們感興趣的是對“激發(fā)”或“不激發(fā)”的生物神經(jīng)元進行建模。因此，這一領域的先驅(qū)，如人工神經(jīng)元的發(fā)明者麥卡洛克和皮茨，從他們開始就專注于閾值單元。閾值單元在其輸入低于某個閾值時取值為0，當輸入超過閾值時取1。

當人們的注意力逐漸轉(zhuǎn)移到梯度的學習時，sigmoid函數(shù)是一個自然的選擇，因為它是一個平滑的、可微的閾值單元近似。當我們想要將輸出視作二分類問題的概率時，sigmoid仍然被廣泛用作輸出單元上的激活函數(shù)（可以將sigmoid視為softmax的特例）。然而， sigmoid在隱藏層中已經(jīng)較少使用，它在大部分時候已經(jīng)被更簡單、更容易訓練的ReLU所取代。

tanh函數(shù)

與sigmoid函數(shù)類似，tanh（雙曲正切）函數(shù)也能將其輸入壓縮轉(zhuǎn)換到區(qū)間(-1,1)上。tanh函數(shù)的公式如下：

下面我們繪制tanh函數(shù)。注意，當輸入在0附近時，tanh函數(shù)接近線性變換。函數(shù)的形狀類似于sigmoid函數(shù)，不同的是tanh函數(shù)關于坐標系原點中心對稱。

以上就是Python機器學習多層感知機原理解析的詳細內(nèi)容，更多關于Python機器學習多層感知機的資料請關注本站其它相關文章！

版權(quán)聲明：本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像，否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學習參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

動態(tài)撥號：關鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢