为了理解这一概念, 首先回顾下最大似然估计的概念:
最大似然估计常用于利用已知的样本结果, 反推最有可能导致这一结果产生的参数值, 往往模型结果已经确定, 用于反推模型中的参数. 即在参数空间中选择最有可能导致样本结果发生的参数. 因为结果已知, 则某一参数使得结果产生的概率最大, 则该参数为最优参数.
似然函数:\[ l(\theta) = p(x_1,x_2,...,x_N|\theta) = \prod_{i=1}^{N}{p(x_i|\theta)}\]
为了便于分析和计算, 常使用对数似然函数:\[ H(\theta) = ln[l(\theta)]\]
1. logistics regression 中常用的 loss function:
在 logistic regression 中常定义的 loss function 为:\[ l(w) = -(ylog\hat y+(1-y)log(1-\hat y))\]
为什么选择这个函数作为 loss function? 一个原因是相比于误差平方和函数的非凸性, 交叉熵函数是凸的, 因此可以通过梯度下降法求得全局最优点, 详细原理请参考凸优化相关理论.
此处重点介绍另一个原因, 即从最大似然估计得的角度来理解 loss function 的选择, Andrew Ng 也是从这个角度进行解释的. 对于 logsitic regression 问题, 我们实际上做出了如下假设, 即训练样本 (x,y) 服从以下分布:
\[ P(x,y|\theta) = \begin{cases}\sigma(z),&y=1 \\ 1-\sigma(z),&y=0\end{cases}\]
其中,\(z = w^Tx+b\), 意思是, 在参数 \(\theta\)下, 训练样本 (x,y) 出现的概率为 \(P(x,y|\theta)\).
上面的概率分布函数也可以写为整体的形式:
\[p(x,y|\theta) = \sigma(z)^y(1-\sigma(z))^{1-y}\]
对于极大似然估计而言, 我们的目的就是在参数空间中, 寻找使得 \(p(x,y|\theta)\)取得最大的 w 和 b, 因为因为训练样本 (x,y) 已经经过采样得到了, 所以使得他们出现概率最大 (越接近 1) 的参数就是最优的参数.
对于单个样本 \((x_i,y_i)\), 其对应的对数似然函数为 \(ln[p(x_i,y_i|\theta)]= y_iln(\sigma(z_i))+(1-y_i)ln(1-\sigma(z_i))\)(即在参数 \(\theta(w,b)\)下,\((x_i,y_i)\)出现的概率), 其中,\(\sigma(z_i)=w^Tx_i+b\).
因为 cost function 一般向小的方向优化, 所以在似然函数前加上负号, 就变为 loss function
对于整个样本集来说, 对应的似然函数为 \[ln(\prod_{i=1}^{N} p(x_i,y_i|\theta)) = \sum_{i=1}^N{y_iln(\sigma(z_i))+(1-y_i)ln(1-\sigma(z_i))}\]
2. softmax regression 中常用的 loss function:
softmax regression 中常使用如下 loss 函数:
\[ l(w) = -\sum_{i=1}^{C}y_ilog\hat y_i\]
此处, C 指的是样本 y 的维度 (分类的数目),\(y_i\) 指的是样本标签第 i 个分量,\(\hat y_i\)同义.
接下来, 同样从最大似然估计的角度进行理解. 对于 softmax regression, 我们实际上也做出了假设, 即训练样本 (x,y) 服从以下分布:\[P(x,y|\theta) = \hat y_l = \sum_{i=1}^{C}y_i\hat y_i\], 其中 l 是样本标签 y 中唯一为 1 的序号
对于单个训练样本, 其对数似然函数为 \(ln[p(x_i,y_i|\theta)] = ln(\sum_{i=1}^{C}y_i\hat y_i)\), 可以进一步写为 \(ln[p(x_i,y_i|\theta)] = \sum_{i=1}^{C}y_iln(\hat y_i)\), 因为 y 中只有唯一的一个维度等于 1, 其余全为 0, 通过简单的推理就可以得到化简后的结果. 取负号后, 得到单样本的 loss 函数.
对于整个训练样本集而言, 其对数似然函数为 \[ln(\prod_{i=1}^{N} p(x_i,y_i|\theta)) =\sum_{j=1}^{m}\sum_{i=1}^{C}y_i^{(j)}ln(\hat y_i^{(j)})\]
其中,\(y_i^{(j)}\)指的是训练样本集中第 j 个训练样本标签的第 i 个维度的值,\(\hat y_i^{(j)}\)同理. 取负号求平均后, 得到整个训练样本集的 coss 函数.
来源: https://www.cnblogs.com/hello-ai/p/11000899.html