分类问题之损失函数

此条目需要编修，以确保文法、用词、语气、格式、标点等使用恰当。 (2022年6月1日)
请按照校对指引，帮助编辑这个条目。（帮助、讨论）

此条目包含过多行话或专业术语，可能需要简化或提出进一步解释。 (2022年6月1日)
请在讨论页中发表对于本议题的看法，并移除或解释本条目中的行话。

在机器学习和最佳化领域中，分类问题之损失函数可以用来表达预测不准确之程度，其中分类问题主要是用来判断所侦测到的物件属于什么类别。将一个向量空间 $X$ 做为所有的输入值，而向量空间 $Y=\{-1,1\}$ 做为所有的输出值。我们希望能够找到最佳的公式 $f:X\rightarrow \Re$ 将 ${\vec {x}}$ 映射到 $y$ ^[1]。然而，由于信息不完整、噪声、计算过程中的非确定性模块等因素，有可能会有相同的输入值 ${\vec {x}}$ 映射到不同的输出值 $y$ ^[2]。因此，这个学习过程的目的就是要最小化预期风险（更详细的介绍参见统计学习理论），预期风险之定义为：

各种代理损失函数的曲线。蓝色为0–1指示函数，绿色为平方损失函数，紫色为铰链损失函数，黄色为逻辑损失函数。注意所有代理损失函数对 $y = f (x = 0)$ 均给出1的惩罚。

I[f]=\textstyle \int _{X\times Y}^{}\displaystyle V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy

其中 $V(f({\vec {x}},y))$ 即损失函数，而 $p({\vec {x}},y)$ 为几率密度函数。而实作上概率分布 $p({\vec {x}},y)$ 通常是未知的，因此我们使用由数据样本空间中取出的 $n$ 个独立且同分布（i.i.d.）的样本点

S=\{({\vec {x_{1}}},y_{1}),...,({\vec {x_{n}}},y_{n})\}

作为训练集，将样本空间所得到的经验风险做为预期风险的替代，其定义为：

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x_{i}}},y_{i}))

基于分类问题的二元性，可定义0-1函数做为匹配值之基准。因此损失函数为：

V(f({\vec {x}},y))=H(-yf({\vec {x}}))

其中 $H$ 为步阶函数。然而损失函数并不是凸函数或平滑函数，是一种NP-hard的问题，因此做为替代，需要使用可以追踪的机器学习算法（透过凸损失函数）。

分类问题之界线

使用贝式定理，可以基于问题的二元性最佳化映射公式 $f^{*}$ 为：

f^{*}({\vec {x}})={\begin{cases}1,&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1,&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

当 $p(1\mid {\vec {x}})\neq p(-1\mid {\vec {x}})$

简化分类问题预期风险

{\begin{alignedat}{4}I[f(x)]&=\int _{X\times Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy\\&=\int _{X}^{}\int _{Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)p({\vec {x}})dyd{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})p(-1\mid x)]p({\vec {x}})d{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})(1-p(1\mid x))]p({\vec {x}})d{\vec {x}}\end{alignedat}}

平方损失

V(f({\vec {x}},y))=(1-yf({\vec {x}}))^{2}

平方损失凸且平滑，但容易过度惩罚错误预测，导致收敛速度比逻辑损失和链接损失慢。它的优点为有助于简化交叉验证之正则化（regularization）。

最小化预期风险之映射函数为：

f_{Square}^{*}=2p(1\mid x)-1

链接损失

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=|1-yf({\vec {x}})|_{+}

链接损失公式等同于支持向量机（SVM）的损失公式。链接损失凸但不平滑（在 $yf({\vec {x}}))=1$ 不可微分），因此不适用于梯度下降法和随机梯度下降法，但适用次梯度下降法。最小化预期风险之映射函数为：

f_{Square}^{*}=2p(1\mid x)-1

广义平滑链接损失

f_{\alpha }^{*}(z)\;=\;{\begin{cases}{\frac {\alpha }{\alpha +1}}&{\text{if }}z<0\\{\frac {1}{\alpha +1}}z^{\alpha +1}-z+{\frac {\alpha }{\alpha +1}}&{\text{if }}0<z<1\\0&{\text{if }}z\geq 1\end{cases}}

其中 $z=yf({\vec {x}})$

逻辑损失

V(f({\vec {x}}),y)={\frac {1}{\ln 2}}\ln(1+e^{-yf({\vec {x}})})

适用于梯度下降法，但不会对错误预测做惩罚。最小化预期风险之映射函数为：

f_{\text{Logistic}}^{*}=\ln \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

交叉熵损失

V(f({\vec {x}}),t)=-t\ln(f({\vec {x}}))-(1-t)\ln(1-f({\vec {x}}))

其中 $t=(1+y)/2$ so that $t\in \{0,1\}$ 属于凸函数，适用于随机梯度下降法。

指数损失

V(f({\vec {x}}),y)=e^{-\beta yf({\vec {x}})}

参考资料

^ Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], （原始内容存档 (PDF)于2019-06-14）
^ Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

检索自“https://zh.wikipedia.org/w/index.php?title=分類問題之損失函數&oldid=78562539”