Softmax-Funktion

In der Mathematik ist die sogenannte Softmax-Funktion oder normalisierte Exponentialfunktion[1]^:198 eine Verallgemeinerung der logistischen Funktion, die einen $K$ -dimensionalen Vektor $\mathbf {z}$ mit reellen Komponenten in einen $K$ -dimensionalen Vektor $\sigma (\mathbf {z} )$ ebenfalls als Vektor reeller Komponenten in den Wertebereich $(0,1)$ transformiert, wobei sich die Komponenten zu $1$ aufsummieren. Der Wert $1$ kommt nur im Sonderfall $K=1$ vor. Die Funktion ist gegeben durch:

{\displaystyle \sigma

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}

für j = 1, …, K.

In der Wahrscheinlichkeitstheorie kann die Ausgabe der Softmax-Funktion genutzt werden, um eine kategoriale Verteilung – also eine Wahrscheinlichkeitsverteilung über $K$ unterschiedliche mögliche Ereignisse – darzustellen. Tatsächlich entspricht dies der gradient-log-Normalisierung der kategorialen Wahrscheinlichkeitsverteilung. Somit ist die Softmax-Funktion der Gradient der LogSumExp-Funktion.

Die Softmax-Funktion wird in verschiedenen Methoden der Multiklassen-Klassifikation verwendet, wie bspw. bei der multinomialen logistischen Regression (auch bekannt als Softmax-Regression)[1]^:206–209[2], der multiklassen-bezogenen linearen Diskriminantenanalyse, bei naiven Bayes-Klassifikatoren und künstlichen neuronalen Netzen. Insbesondere in der multinomialen logistischen Regression sowie der linearen Diskriminantenanalyse entspricht die Eingabe der Funktion dem Ergebnis von $K$ distinkten linearen Funktionen, und die ermittelte Wahrscheinlichkeit für die $j$ -te Klasse gegeben ein Stichprobenvektor $x$ und einem Gewichtsvektor $w$ entspricht:

P(y=j\mid \mathbf {x} )={\frac {e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{j}}}{\sum _{k=1}^{K}e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{k}}}}

Dies kann angesehen werden als Komposition von $K$ linearen Funktionen $\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{1},\ldots ,\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{K}$ und der Softmax-Funktion (wobei $\mathbf {x} ^{\mathsf {T}}\mathbf {w}$ das innere Produkt von $\mathbf {x}$ und $\mathbf {w}$ bezeichnet). Die Ausführung ist äquivalent zur Anwendung eines linearen Operators definiert durch $\mathbf {w}$ bei Vektoren $\mathbf {x}$ , so dass dadurch die originale, möglicherweise hochdimensionale Eingabe in Vektoren im $K$ -dimensionalen Raum $\mathbb {R} ^{K}$ transformiert wird.

Einzelnachweise

Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer, 2006.
Computer Science Department: Unsupervised Feature Learning and Deep Learning Tutorial. Stanford University, abgerufen am 30. Januar 2019 (englisch).

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.

[bishop-1] Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer, 2006.

[2] Computer Science Department: Unsupervised Feature Learning and Deep Learning Tutorial. Stanford University, abgerufen am 30. Januar 2019 (englisch).