[ML] Back propagation 推導

我們來推導一下 Back propagtion 的公式,
首先先設想一個只有兩層的 Neural network 如下:



從上圖我們先列出公式如下:

Z = a * W'
hx = sigmoid( Z )

由前面的經驗我們可以得到,
當我們要對 W 進行更新來最小化分類誤差時, 使用 Gradient descent 來更新 W.

那麼如何求出 W 的 Gradient 呢?
我們可以把這個式子使用連鎖律展開!

第一個跟你的Cost function直接相關的是 output layer (a)
而 a 又是經過 sigmoid (z) 得到的
那 z 就可以跟Wij扯上關係啦!
這樣就可以把式子展開如下:

第一層的微分項, 也就是你的 Cost function 對 prediction value 微分, 可以得到 (y - a)
第二層的微分項, 可以得到 a * (1-a)
第三層的微分項則是可以得到再上一層的output layer a

那麼如果再看到上一層的 Wij 呢?
我們看到回到上述第三層的 partial z 部分, 我們知道它是由前一層的 a * Wij 來的,
所以我們在這邊使用連鎖律再把它展開, 可以得到下面的式子

 

依此類推就可以得到每一層權重 W 的 gradient 項了~

沒有留言:

張貼留言

OpenGL 閱讀筆記 (二) OpenGL基本操作

這邊虎喵跳過glfw/glew的初始化, 先來提一下OpenGL的基本操作方式 前面也提到過, OpenGL是一個類C的語言, 因此使用C/C++的攻城獅們應該會感到很熟悉. OpenGL的基本動作循環如下: 每一行code的解釋如下: // 本地變數,...