損失函數(loss function)用來表示當前的神經網絡對訓練數據不擬合的程度。這個損失函數有很多,但是一般使用均方誤差和交叉熵誤差等。
1.均方誤差(mean squared error)
先來看一下表達式:
用于將
的求導結果變成
,
是神經網絡的輸出,
是訓練數據的標簽值,k表示數據的維度。
用python實現:
def MSE(y, t):
return 0.5 * np.sum((y - t)**2)
使用這個函數來具體計算以下:
t = [0, 1, 0, 0]
y = [0.1, 0.05, 0.05, 0.8]
print(MSE(np.array(y), np.array(t)))
t = [0, 1, 0, 0]
y = [0.1, 0.8, 0.05, 0.05]
print(MSE(np.array(y), np.array(t)))
輸出結果為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
這里正確標簽用one-hot編碼,y用softmax輸出表示。第一個例子的正確標簽為2,對應的概率為0.05,第二個例子對應標簽為0.8.可以發現第二個例子的損失函數的值更小,和訓練數據更吻合。
2.交叉熵誤差(cross entropy error)
除了均方誤差之外,交叉熵誤差也常被用做損失函數。表達式為:
這里,log表示以e為底的自然對數(
)。
是神經網絡的輸出,
是訓練數據的標簽值。并且,
中只有正確解標簽的索引為1,其他均為0(one-hot)表示。因此這個式子實際上只計算對應正確解標簽的輸出的自然對數。
自然對數的圖像為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
所以輸出的概率越大對應損失函數的值越低。
代碼實現交叉熵誤差:
def cross_entropy_error(y, t):
delta = 1e-7
return -np.sum(t * np.log(y + delta))
這里設置delta,是因為當出現log(0)時,np.log(0)會變為負無窮大。所以添加一個微小值可以防止負無窮大的發生。
還用剛剛那個例子:
t = [0, 1, 0, 0]
y = [0.1, 0.05, 0.05, 0.8]
print(cross_entropy_error(np.array(y), np.array(t)))
t = [0, 1, 0, 0]
y = [0.1, 0.8, 0.05, 0.05]
print(cross_entropy_error(np.array(y), np.array(t)))
輸出為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
可以看出輸出值的概率越大損失值就越小。
?
-
交叉熵誤差的改進:
前面介紹了損失函數的實現都是針對單個數據。如果要求所有訓練數據的損失函數的總和,以交叉熵為例,可以寫成下面的式子:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
這里,假設數據有N個,
表示第n個數據的第k個元素的值。式子雖然看起來復雜,其實只是把求單個數據的損失函數擴大到了N份數據,不過最后要除以N進行正規化。
通過除以N,可以求單個數據的“平均損失函數”。通過這樣的平均化,可以獲得和訓練數據的數量無關的統一指標。比如,即使訓練數據有100或1000個,也可以求得單個數據的平均損失函數。
所以對之前計算單個數據交叉熵進行改進,可以同時處理單個數據和批量數據:
def cross_entropy_error(y, t):
if y.ndim == 1:
t = t.reshape(1, t.size)
y = y.reshape(1, y.size)
batch_size = y.shape[0]
delta = 1e-7
return -np.sum(t * np.log(y + delta)) / batch_size
但是,對于訓練數據不是one-hot表示,而是普通標簽表示怎么辦呢(例如一批處理5個數據的 標簽值 為[2,5,7,3,4])。輸出的數組是5行N列的,這里以手寫數字識別為例所以N=10。 所以我們計算的交叉熵誤差其實計算的是對應每一行,其中某一列的對數之和 。例如標簽值[2,5,7,3,4],選擇的是 輸出結果 的第一行第2個,第二行第5個,第三行第7個...可能表達的不是很清楚,看下代碼實現應該好多了。
def cross_entropy_error(y, t):
if y.ndim == 1:
t = t.reshape(1, t.size)
y = y.reshape(1, y.size)
batch_size = y.shape[0]
delta = 1e-7
return -np.sum(np.log(y[np.arange(batch_size), t] + delta)) / batch_size
也就是說,這里的標簽值是作為輸出數組的索引,用于定位。
?
?
?
?
?
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
