Neuronale Netze

Eine mathematische Abhandlung über künstliche neuronale Netze: Von fundamentalen Prinzipien zu modernen Architekturen

Abstrakt

Diese Abhandlung legt die mathematischen Grundlagen künstlicher neuronaler Netze dar. Beginnend mit der formalen Definition des künstlichen Neurons als linearem Klassifikator, leiten wir die Architektur von Multi-Layer Perceptrons (MLPs) als universelle Funktionsapproximatoren her. Der Kern der Abhandlung widmet sich der Optimierungstheorie 1, wobei Verlustfunktionen probabilistisch als Instanziierungen der Maximum-Likelihood-Schätzung (MLE) interpretiert werden. Der Backpropagation-Algorithmus wird rigoros von der multivariaten Kettenregel abgeleitet, sowohl in der Index- als auch in der Matrixnotation. Eine Analyse der Gradientenabstiegsdynamik (SGD, RMSprop, Adam) und der Regularisierungstheorie (L1/L2, Dropout) legt die mathematischen Mechanismen für Konvergenz und Generalisierung offen. Darauf aufbauend werden spezialisierte Architekturen als spezifische Tensoroperationen analysiert: Convolutional Neural Networks (CNNs) für räumliche Daten, Recurrent Neural Networks (RNNs) und Long Short-Term Memory (LSTM) für sequentielle Abhängigkeiten, einschließlich einer Analyse des Vanishing-Gradient-Problems. Die Abhandlung schließt mit der Herleitung des Transformer-Modells, wobei der Self-Attention-Mechanismus als eine Reihe von Matrixoperationen (Query, Key, Value) dekonstruiert wird, und bietet einen Ausblick auf probabilistische Frameworks wie Bayessche Neuronale Netze.

I. Grundlagen: Das künstliche Neuron als mathematisches Konstrukt

1.1 Formale Definition des künstlichen Neurons (Perzeptron)

Das grundlegende Fundament künstlicher neuronaler Netze ist das künstliche Neuron, ein mathematisches Modell, das lose von der Informationsverarbeitung biologischer Neuronen inspiriert ist.2 Das früheste und einfachste Modell ist das Perzeptron, das als fundamentale Recheneinheit dient.2 Es führt eine mathematische Transformation eines Eingabevektors $x$ aus dem $n$ -dimensionalen reellen Raum ( $\mathbb{R}^n$ ) zu einem skalaren Ausgang $y$ durch. Diese Transformation ist konzeptionell in zwei Stufen unterteilt: eine lineare Transformation, die die Eingaben aggregiert, und eine nichtlineare Aktivierungsfunktion, die über den Ausgang des Neurons entscheidet.4

1.2 Die lineare Transformation (Affine Abbildung)

Die erste Stufe ist eine lineare Aggregation, oft als "gewichtete Summe" oder "Netzeingabe" (net input) bezeichnet und mit $z$ symbolisiert. Diese wird formal als das Skalarprodukt (dot product) des Eingabevektors $x = (x_1,..., x_n)^T$ und eines Vektors von gelernten Gewichten $w = (w_1,..., w_n)^T$ definiert. Zu dieser Summe wird ein skalarer "Bias" (oder "Offset") $b$ addiert.3 Die mathematische Formel für diese affine Abbildung lautet:

z = w^T x + b = \left(\sum_{i=1}^{n} w_i x_i\right) + b

Die Gewichte $w_i$ repräsentieren die "synaptische Stärke" oder Wichtigkeit des $i$ -ten Eingangsmerkmals $x_i$ , während der Bias $b$ die Aktivierungsschwelle des Neurons verschiebt, unabhängig von der Eingabe.4

1.3 Die Rolle der nichtlinearen Aktivierungsfunktion

Die Netzeingabe $z$ wird anschließend durch eine (typischerweise nichtlineare) Aktivierungsfunktion $f_{akt}$ (auch $g$ oder $\sigma$ genannt) geleitet, um den finalen Ausgang $y$ des Neurons zu erzeugen 3:

y = f_{akt}(z) = f_{akt}(w^T x + b)

Die Nichtlinearität ist mathematisch von entscheidender Bedeutung. Wäre die Aktivierungsfunktion $f_{akt}$ selbst linear (z.B. $f(z) = az$ ), so wäre die gesamte Operation $y = a(w^T x + b)$ ebenfalls eine lineare Transformation. Eine Verkettung (Komposition) solcher linearen Schichten, wie sie in einem tiefen Netzwerk auftritt, wäre mathematisch äquivalent zu einer einzigen linearen Schicht.7 Die Nichtlinearität ist es, die neuronalen Netzen die Fähigkeit verleiht, komplexe, nichtlineare Zusammenhänge in Daten zu modellieren.6 Gängige Aktivierungsfunktionen sind in Tabelle 1 definiert. Tabelle 1: Mathematische Definitionen gängiger Aktivierungsfunktionen

Aktivierungsfunktion Mathematische Formel Anwendungsbereich und Eigenschaften Quellen Heaviside-Sprungfunktion

f(z) := \begin{cases} 1 & : z \ge 0 \\ 0 & : z < 0 \end{cases}

Das ursprüngliche Perzeptron-Modell; erzeugt binäre Ausgaben. Nicht differenzierbar bei $z=0$ , was für gradientenbasierte Optimierung problematisch ist. 3 Sigmoid-Funktion

f_{Sig}(z) := \frac{1}{1 + e^{-z}}

Bildet $\mathbb{R}$ auf $(0, 1)$ ab. Nützlich für binäre Klassifikation zur Interpretation als Wahrscheinlichkeit. Stetig differenzierbar. Leidet an "sättigenden" Gradienten (nahe 0) für große $ z Rectified Linear Unit (ReLU)

f_{RELU}(z) := \max(0, z) = \begin{cases} z & : z > 0 \\ 0 & : z \le 0 \end{cases}

Die De-facto-Standard-Aktivierungsfunktion in modernen tiefen Netzen. Rechnerisch sehr effizient und löst das Problem der sättigenden Gradienten für $z > 0$ . 3 Softmax-Funktion

f(z)_j = \frac{e^{z_j}}{\sum_{k=1}^{K} e^{z_k}}

(Für Vektoreingabe $z \in \mathbb{R}^K$ ) Verallgemeinert die Sigmoid-Funktion auf $K$ Klassen. Erzeugt eine Wahrscheinlichkeitsverteilung über $K$ Ausgaben. Wird in der Ausgabeschicht für Mehrklassen-Klassifikation verwendet. 9

1.4 Geometrische Interpretation: Das Perzeptron als linearer Klassifikator

Die mathematische Struktur des Perzeptrons hat eine direkte und fundamentale geometrische Interpretation. Das Perzeptron (insbesondere mit der Heaviside-Aktivierungsfunktion) ist ein linearer Klassifikator.11 Die Entscheidungsgrenze ist die Menge aller Punkte $x$ im Eingangsraum $\mathbb{R}^n$ , an der das Neuron seinen Zustand "wechselt" – also dort, wo die Netzeingabe $z$ exakt gleich der Schwelle (typischerweise Null) ist.11 Dies definiert eine Hyperebene:

\{x \in \mathbb{R}^n \mid z = w^T x + b = 0\}

Punkte auf der einen Seite der Hyperebene ( $w^T x + b > 0$ ) werden als Klasse 1 klassifiziert, Punkte auf der anderen Seite ( $w^T x + b < 0$ ) als Klasse 0. Die Rolle des Gewichtsvektors $w$ ist entscheidend: $w$ ist der Normalenvektor dieser Hyperebene. Ein Normalenvektor steht senkrecht (orthogonal) auf der Ebene. Der Vektor $w$ zeigt von der Ebene weg in die Region des Raumes, die als Klasse 1 (positiv) klassifiziert wird.11 Das Training eines Perzeptrons besteht also geometrisch darin, die Orientierung ( $w$ ) und die Position ( $b$ ) dieser trennenden Hyperebene zu finden.

1.5 Die Beschränkung der linearen Separabilität

Aus dieser geometrischen Interpretation ergibt sich die fundamentale Beschränkung des Perzeptrons: Es kann nur Datenpunkte klassifizieren, die linear separierbar sind, d.h., die durch eine einzelne Hyperebene getrennt werden können.8 Das kanonische Beispiel für die Beschränkung ist das XOR-Problem (Exklusiv-Oder). Ein XOR-Problem mit zwei binären Eingängen $(x_1, x_2)$ hat die Ausgänge: $(0,0) \to 0$ ; $(0,1) \to 1$ ; $(1,0) \to 1$ ; $(1,1) \to 0$ . Es ist geometrisch unmöglich, eine einzelne Gerade (eine Hyperebene in 2D) zu zeichnen, die die Punkte $(0,1)$ und $(1,0)$ von den Punkten $(0,0)$ und $(1,1)$ trennt. Diese Unfähigkeit, ein einfaches XOR-Problem zu lösen, wie von Minsky und Papert aufgezeigt 12, ist nicht trivial. Sie ist die direkte mathematische Konsequenz der linearen Algebra, die dem Perzeptron zugrunde liegt. Diese Einschränkung war die primäre mathematische Motivation für die Entwicklung von Multi-Layer Perceptrons (MLPs), die durch die Hinzufügung von "versteckten Schichten" (hidden layers) und Nichtlinearität in der Lage sind, solche nichtlinearen Entscheidungsgrenzen zu konstruieren.7

II. Feedforward-Netzwerke: Universelle Approximation und Vektorkalkül

2.1 Definition des Multi-Layer Perceptron (MLP)

Um die Beschränkung der linearen Separabilität zu überwinden, werden einzelne Neuronen zu einem Multi-Layer Perceptron (MLP) zusammengesetzt. Ein MLP ist ein Feedforward-Netzwerk (feed-forward network), was bedeutet, dass die Informationsverarbeitung streng gerichtet von der Eingabe zur Ausgabe verläuft, ohne zyklische Verbindungen.2 Architektonisch besteht ein MLP aus einer Komposition (Verkettung) mehrerer Schichten von Neuronen: einer Eingabeschicht (input layer), einer oder mehreren versteckten Schichten (hidden layers) und einer Ausgabeschicht (output layer).7 In den meisten Standard-MLPs sind diese Schichten vollständig verknüpft (fully connected oder dense). Das bedeutet, dass jedes Neuron in einer Schicht $l$ mit jedem Neuron in der folgenden Schicht $l+1$ verbunden ist.3

2.2 Der Forward Propagation Pass: Von der Index- zur Matrixnotation

Der Prozess der Berechnung der Ausgabe eines MLPs für eine gegebene Eingabe $x$ wird als Forward Propagation Pass (oder Forward Pass) bezeichnet.14 Die mathematische Beschreibung dieses Prozesses offenbart eine entscheidende Abstraktionsebene. Neuron-für-Neuron-Sicht (Index-Notation): Auf der detailliertesten Ebene wird die Aktivierung $a^l_j$ des $j$ -ten Neurons in der $l$ -ten Schicht berechnet, indem die gewichtete Summe der Aktivierungen $a^{l-1}_k$ aus der vorherigen Schicht gebildet wird. Unter Verwendung der Index-Notation (oft als "Index-Hölle" bezeichnet) lautet die Gleichung 16:

a^{l}_j = \sigma\left( \sum_k w^{l}_{jk} a^{l-1}_k + b^l_j \right) \tag{23}

Hierbei ist $w^l_{jk}$ das Gewicht, das das $k$ -te Neuron in Schicht $l-1$ mit dem $j$ -ten Neuron in Schicht $l$ verbindet, und $\sigma$ ist die Aktivierungsfunktion.16 Vektorisierte Sicht (Globale Transformation): Die obige Summe $\sum_k w^{l}_{jk} a^{l-1}_k$ ist mathematisch identisch mit der $j$ -ten Komponente eines Matrix-Vektor-Produkts. Wir können den Forward Pass für eine gesamte Schicht auf einmal ausdrücken, indem wir Vektoren und Matrizen definieren: $a^l$ : Der Aktivierungsvektor für Schicht $l$ (dessen Komponenten $a^l_j$ sind). $W^l$ : Die Gewichtsmatrix für Schicht $l$ (deren Eintrag $(j,k)$ $w^l_{jk}$ ist). $b^l$ : Der Biasvektor für Schicht $l$ (dessen Komponenten $b^l_j$ sind). Mit dieser Notation kollabiert die komplexe indizierte Summe in eine "schöne und kompakte vektorisierte Form" 16:

a^{l} = \sigma(W^l a^{l-1}+b^l) \tag{25}

Der Vektor $z^l \equiv W^l a^{l-1}+b^l$ wird als die gewichtete Eingabe (weighted input) der Schicht $l$ bezeichnet.16 Die Funktion $\sigma$ wird hierbei elementweise auf den Vektor $z^l$ angewendet.16 Diese Vektorisierung ist mehr als eine notationelle Vereinfachung. Sie ist die zentrale mathematische Abstraktion, die ein MLP als eine Kette von affinen Transformationen (lineare Algebra) gefolgt von elementweisen nichtlinearen Projektionen (Kalkül) darstellt.17 Diese spezifische mathematische Struktur ist der Grund, warum sich neuronale Netze hocheffizient auf Grafikprozessoren (GPUs) berechnen lassen. GPUs sind massiv parallele Hardware, die exakt für die Beschleunigung von Matrix- und Vektoroperationen – den Kernoperationen von Gleichung (25) – konzipiert wurden.16

2.3 Formale Herleitung des Forward Pass (1 Hidden Layer)

Betrachten wir den Forward Pass für ein MLP mit einer versteckten Schicht (hidden layer) $h$ und einer Ausgabeschicht (output layer) $o$ . Gegeben sei ein Eingabevektor $x \in \mathbb{R}^d$ (der als $a^{(0)}$ betrachtet werden kann).19 Berechnung der gewichteten Eingabe der Hidden Layer ( $z^{(1)}$ ): Die erste affine Transformation bildet $x \in \mathbb{R}^d$ auf den Hidden-Layer-Raum $\mathbb{R}^h$ ab (wobei $h$ die Anzahl der Neuronen in der Hidden Layer ist).

z^{(1)} = W^{(1)}x + b^{(1)}

(Hier ist $W^{(1)} \in \mathbb{R}^{h \times d}$ und $b^{(1)} \in \mathbb{R}^h$ ). Berechnung der Aktivierung der Hidden Layer ( $h$ oder $a^{(1)}$ ): Die Nichtlinearität wird elementweise auf $z^{(1)}$ angewendet.

h = \phi(z^{(1)})

(wobei $\phi$ die Aktivierungsfunktion ist, z.B. ReLU).19 Berechnung der gewichteten Eingabe der Output Layer ( $z^{(2)}$ ): Die zweite affine Transformation bildet den Hidden-Layer-Raum $\mathbb{R}^h$ auf den Output-Raum $\mathbb{R}^q$ ab (wobei $q$ die Anzahl der Ausgabe-Neuronen ist).

z^{(2)} = W^{(2)}h + b^{(2)}

(Hier ist $W^{(2)} \in \mathbb{R}^{q \times h}$ und $b^{(2)} \in \mathbb{R}^q$ ).19 Berechnung der finalen Ausgabe (Output $o$ oder $a^{(2)}$ ): Eine finale Aktivierungsfunktion $\phi_{out}$ wird angewendet, deren Wahl von der Problemstellung abhängt (z.B. Sigmoid für binäre Klassifikation, Softmax für Mehrklassen-Klassifikation 9).

o = \phi_{out}(z^{(2)})

Das gesamte MLP $f(x)$ ist somit die mathematische Komposition dieser Funktionen: $f(x) = \phi_{out}(W^{(2)}\phi(W^{(1)}x + b^{(1)}) + b^{(2)})$ .

2.4 Theoretische Fundierung: Universelles Approximationstheorem

Die durch die Hinzufügung von versteckten Schichten und Nichtlinearität gewonnene Mächtigkeit ist nicht nur empirisch, sondern auch theoretisch fundiert. Das Universelle Approximationstheorem (Universal Approximation Theorem) besagt, dass ein MLP mit nur einer versteckten Schicht (und einer nicht-polynomiellen, sigmoidalen Aktivierungsfunktion) jede stetige Funktion auf einer kompakten Teilmenge von $\mathbb{R}^n$ mit beliebiger Genauigkeit approximieren kann. Dieses Theorem (das mit dem Satz von Stone-Weierstraß 12 oder Resultaten vom Kolmogorov-Typ 12 in Verbindung steht) ist die theoretische Garantie dafür, dass MLPs "universelle Funktionsapproximatoren" sind. Es garantiert, dass eine Architektur existiert, die in der Lage ist, die zugrundeliegende Funktion (das "Muster") in den Daten zu lernen. Die gesamte Disziplin des Deep Learning ist daher weniger eine Suche nach einer prinzipiell fähigen Architektur (das Theorem garantiert dies bereits für flache Netze), sondern vielmehr eine Suche nach der effizientesten Repräsentation (hierarchische, tiefe Architekturen sind oft exponentiell effizienter als flache 2) und einem effizienten Optimierungsalgorithmus, um die optimalen Parameter $\theta = \{W^l, b^l\}$ dieser Funktion zu finden.

III. Das Optimierungsziel: Probabilistische Interpretationen von Verlustfunktionen

Nachdem die Architektur (das MLP) als eine parametrisierte Funktion $f(x; \theta)$ definiert ist, besteht das Ziel des "Lernens" darin, die optimalen Parameter $\theta$ (alle Gewichte $W$ und Biases $b$ ) zu finden. Um "optimal" zu definieren, benötigen wir eine mathematische Zielfunktion, die Verlustfunktion (Loss Function) $J(\theta)$ .

3.1 Definition der Verlustfunktion

Eine Verlustfunktion (auch Kostenfunktion oder Zielfunktion genannt) $J(\theta)$ ist eine Funktion, die den Unterschied – den "Fehler" oder "Verlust" – zwischen der Modellvorhersage $\hat{y} = f(x; \theta)$ und dem wahren Zielwert $y$ für einen gegebenen Datensatz quantifiziert.20 Der gesamte Trainingsprozess ist ein mathematisches Optimierungsproblem: Finde den Satz von Parametern $\theta^*$ , der den Wert der Verlustfunktion minimiert 21:

\theta^* = \arg\min_{\theta} J(\theta)

Die Wahl der Verlustfunktion ist nicht willkürlich; sie hängt fundamental von der Art der Aufgabe (Regression oder Klassifikation) ab.

3.2 Verlustfunktionen für Regressionsprobleme

Bei Regressionsproblemen ist das Ziel $y$ ein kontinuierlicher Wert. Mean Squared Error (MSE) / L2-Verlust: Die am häufigsten verwendete Verlustfunktion für Regressionsaufgaben.25 Sie berechnet den Durchschnitt der quadrierten Differenz zwischen Vorhersage und wahrem Wert.

L_{MSE}(\theta) = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 = \frac{1}{N} \sum_{i=1}^{N} (y_i - f(x_i; \theta))^2

Der MSE bestraft große Fehler überproportional stark (quadratisch).22

3.3 Verlustfunktionen für Klassifikationsprobleme

Bei Klassifikationsproblemen ist das Ziel $y$ eine diskrete Klasse (z.B. $y \in \{0, 1\}$ oder $y \in \{1,..., K\}$ ). Die Modellausgabe $\hat{y}$ (oder $a$ ) ist typischerweise eine Wahrscheinlichkeit, die durch eine Sigmoid- 9 oder Softmax-Funktion erzeugt wird. Für diese Art von Aufgabe ist MSE eine schlechte Wahl, sowohl aus probabilistischen als auch aus optimierungstechnischen Gründen.26 Cross-Entropy (Kreuzentropie) / Negative Log-Likelihood (NLL): Die Standard-Verlustfunktion für Klassifikationsaufgaben.25 Binäre Kreuzentropie (Binary Cross-Entropy, BCE): Wird für binäre Klassifikation (2 Klassen) verwendet, wobei $y_i \in \{0, 1\}$ und die Modellausgabe $a_i \in (0, 1)$ (die Wahrscheinlichkeit für Klasse 1) ist.

L_{BCE}(\theta) = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(a_i) + (1-y_i) \log(1-a_i) \right]

Wenn die wahre Klasse $y_i=1$ ist, überlebt nur der Term $- \log(a_i)$ . Das Modell wird bestraft, wenn $a_i$ (die vorhergesagte Wahrscheinlichkeit für 1) klein ist. Wenn $y_i=0$ , überlebt $- \log(1-a_i)$ , und das Modell wird bestraft, wenn $a_i$ groß ist (d.h. $1-a_i$ klein ist).22 Kategoriale Kreuzentropie (Categorical Cross-Entropy, CCE): Wird für Mehrklassen-Klassifikation ( $K > 2$ ) verwendet. Das wahre Ziel $y_i$ ist ein One-Hot-Vektor der Länge $K$ (z.B. $$), und die Modellausgabe $a_i$ ist ein Vektor der Länge $K$ , der die Wahrscheinlichkeiten für jede Klasse enthält (via Softmax).

L_{CCE}(\theta) = -\frac{1}{N} \sum_{i=1}^{N} \sum_{k=1}^{K} y_{ik} \log(a_{ik})

Da $y_{ik}$ nur für die eine wahre Klasse $k$ gleich 1 und sonst 0 ist, vereinfacht sich die innere Summe zu $-\log(a_{ik^*})$ , wobei $k^*$ die wahre Klasse ist. Der Verlust ist einfach der negative Logarithmus der vorhergesagten Wahrscheinlichkeit für die korrekte Klasse.29

3.4 Probabilistische Fundierung: Das Prinzip der Maximum Likelihood Estimation (MLE)

Die Wahl zwischen MSE und Kreuzentropie erscheint zunächst ad-hoc, hat aber eine tiefe probabilistische Begründung, die auf dem Prinzip der Maximum Likelihood Estimation (MLE) basiert.31 Das Ziel von MLE ist es, die Modellparameter $\theta$ zu finden, die die Likelihood (Wahrscheinlichkeit) $P(Y | X; \theta)$ maximieren, die beobachteten Zieldaten $Y$ gegeben die Eingabedaten $X$ zu erzeugen.32 Unter der Annahme, dass die Datenpunkte unabhängig und identisch verteilt (i.i.d.) sind, ist die Gesamt-Likelihood das Produkt der individuellen Wahrscheinlichkeiten:

L(\theta | D) = P(Y | X; \theta) = \prod_{i=1}^{N} P(y_i | x_i; \theta)

Aufgrund numerischer Instabilität (Multiplikation vieler kleiner Wahrscheinlichkeiten) und zur Vereinfachung der Ableitung (Produkte werden zu Summen) maximiert man stattdessen die Log-Likelihood $\mathcal{L}(\theta)$ (eine monotone Transformation, die das Maximum nicht verändert):

\mathcal{L}(\theta) = \log L(\theta | D) = \sum_{i=1}^{N} \log P(y_i | x_i; \theta)

Das Maximieren von $\mathcal{L}(\theta)$ ist mathematisch exakt äquivalent zum Minimieren der Negativen Log-Likelihood (NLL) 33:

J_{NLL}(\theta) = -\mathcal{L}(\theta) = -\sum_{i=1}^{N} \log P(y_i | x_i; \theta)

Dies ist die Verlustfunktion, die wir minimieren.

3.5 Synthese: Verlustfunktionen als Instanzen der NLL

Die spezifische Form der NLL hängt von der Annahme ab, die wir über die bedingte Wahrscheinlichkeitsverteilung $P(y | x; \theta)$ treffen. Fall 1: Kreuzentropie (Klassifikation) ist NLL für Kategoriale Verteilung Annahme: Wir modellieren $P(y | x)$ als Kategoriale Verteilung (oder Bernoulli für binär). Die Ausgabe $a = f(x; \theta)$ (nach Softmax) ist die parametrisierte Wahrscheinlichkeit dieser Verteilung, d.h. $P(y=k | x; \theta) = a_k$ . Herleitung: Für einen One-Hot-Datenpunkt $(x_i, y_i)$ , bei dem $y_{ik}=1$ für die wahre Klasse $k$ gilt, ist die Wahrscheinlichkeit dieses einen Datenpunkts $P(y_i | x_i; \theta) = a_{ik}$ . Die NLL für diesen Datenpunkt ist $-\log P(y_i | x_i; \theta) = -\log(a_{ik})$ . Wenn wir dies über alle Datenpunkte $N$ und alle Klassen $K$ summieren (unter Verwendung der One-Hot-Notation $y_{ik}$ ), erhalten wir: $J_{NLL} = -\sum_{i=1}^{N} \sum_{k=1}^{K} y_{ik} \log(a_{ik})$ Dies ist exakt die Formel für die Kategoriale Kreuzentropie (CCE).29 Kreuzentropie ist also kein "Trick", sondern die direkte Anwendung von MLE unter der Annahme einer Kategorialen Verteilung. Fall 2: MSE (Regression) ist NLL für Gaußsche Verteilung Annahme: Wir modellieren $y$ als deterministische Vorhersage $\hat{y}$ plus Gaußsches Rauschen $\epsilon$ . Äquivalent: $y$ folgt einer Gauß-Verteilung $\mathcal{N}$ mit dem Mittelwert $\mu = \hat{y} = f(x; \theta)$ und einer (angenommenen) konstanten Varianz $\sigma^2$ .35 Die Wahrscheinlichkeitsdichtefunktion (PDF) für einen Datenpunkt $y_i$ ist:

P(y_i | x_i; \theta) = \mathcal{N}(y_i ; \hat{y}_i, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2}\right)

Herleitung (NLL): Wir minimieren die NLL, also $-\log P(y_i |...)$ 35:

J_{NLL} = -\sum_{i=1}^{N} \log\left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2}\right) \right]

J_{NLL} = -\sum_{i=1}^{N} \left[ \log\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right) + \log\left(\exp\left(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2}\right)\right) \right]

J_{NLL} = -\sum_{i=1}^{N} \left[ -\log(\sqrt{2\pi\sigma^2}) - \frac{(y_i - \hat{y}_i)^2}{2\sigma^2} \right]

J_{NLL} = \underbrace{N \log(\sqrt{2\pi\sigma^2})}_{\text{Konstante 1}} + \underbrace{\frac{1}{2\sigma^2}}_{\text{Konstante 2}} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2

Um $J_{NLL}$ bezüglich $\theta$ zu minimieren, können die additiven und multiplikativen Konstanten (Konstante 1 und 2) ignoriert werden. Der einzige Term, der von $\theta$ (via $\hat{y}_i = f(x_i; \theta)$ ) abhängt, ist $\sum (y_i - \hat{y}_i)^2$ . Die Minimierung der NLL unter der Annahme eines Gaußschen Rauschens ist mathematisch äquivalent zur Minimierung des Mean Squared Error (MSE).35

IV. Der Lernalgorithmus: Mathematische Herleitung der Backpropagation

Nach der Definition der Architektur (Funktion $f(x; \theta)$ ) und des Ziels (Verlustfunktion $J(\theta)$ ) ist der verbleibende Schritt die Definition des Algorithmus, um die Parameter $\theta$ zu finden, die $J(\theta)$ minimieren.

4.1 Das Ziel: Gradientenbasierte Optimierung

Aufgrund der hohen Dimensionalität (Millionen von Parametern) und der Nichtkonvexität der Verlustlandschaft ist eine analytische Lösung (Nullsetzen der Ableitung) unmöglich. Stattdessen werden iterative, gradientenbasierte Optimierungsverfahren eingesetzt.23 Der Gradient $\nabla_{\theta} J(\theta)$ ist ein Vektor, der alle partiellen Ableitungen $\frac{\partial J}{\partial \theta_i}$ enthält. Er zeigt in die Richtung des steilsten Anstiegs der Verlustfunktion. Der Gradientenabstieg (Gradient Descent) aktualisiert die Parameter $\theta$ iterativ, indem er einen kleinen Schritt in die entgegengesetzte Richtung des Gradienten macht 36:

\theta_{t+1} = \theta_t - \eta \nabla_{\theta} J(\theta_t)

wobei $\eta$ die Lernrate (learning rate) ist. Das zentrale Problem des Trainings ist somit auf ein Problem des Kalküls reduziert: Wie berechnet man den Gradienten $\nabla_{\theta} J(\theta)$ für ein tiefes, stark verschachteltes MLP? Die Antwort ist der Backpropagation-Algorithmus.37

4.2 Das Fundament: Die multivariate Kettenregel (Chain Rule)

Backpropagation ist kein "neuer" Algorithmus im mathematischen Sinne; er ist eine algorithmisch effiziente und systematische Anwendung der multivariaten Kettenregel (multivariate chain rule).16 Die Verlustfunktion $J$ ist eine tief verschachtelte Komposition: $J$ hängt von der Ausgabe $a^L$ ab, $a^L$ hängt von $z^L$ ab, $z^L$ hängt von $a^{L-1}$ und $W^L$ ab, $a^{L-1}$ hängt von $z^{L-1}$ ab, und so weiter.37 Um $\frac{\partial J}{\partial W^l}$ zu finden, müssen wir die Kettenregel "rückwärts" durch all diese Abhängigkeiten anwenden, von der Ausgabe $J$ bis zurück zur Schicht $l$ .38

4.3 Herleitung der vier fundamentalen Gleichungen

Zur Herleitung definieren wir eine Schlüsselgröße: den "Fehler" $\delta^l$ der Schicht $l$ . Dieser Fehler ist definiert als die partielle Ableitung der Kostenfunktion $J$ (oder $C$ ) nach der gewichteten Eingabe $z^l = W^l a^{l-1} + b^l$ dieser Schicht 16:

\delta^l_j \equiv \frac{\partial J}{\partial z^l_j}

(Das Symbol $\odot$ bezeichnet das Hadamard-Produkt, d.h. die elementweise Multiplikation zweier Vektoren). Gleichung 1 (BP1): Fehler der Ausgabeschicht ( $L$ ): Der Fehler in der letzten Schicht $L$ ist die Ableitung der Kosten $J$ nach der gewichteten Eingabe $z^L$ . Unter Anwendung der Kettenregel ( $J \to a^L \to z^L$ ) ergibt sich:

\delta^L_j = \frac{\partial J}{\partial z^L_j} = \sum_k \frac{\partial J}{\partial a^L_k} \frac{\partial a^L_k}{\partial z^L_j}

Da $a^L_k = \sigma(z^L_k)$ ist, ist $\frac{\partial a^L_k}{\partial z^L_j} = 0$ für $k \ne j$ . Somit vereinfacht sich dies zu:

\delta^L_j = \frac{\partial J}{\partial a^L_j} \sigma'(z^L_j)

In Vektorform:

\delta^L = \nabla_a J \odot \sigma'(z^L) \tag{BP1}

(BP1) berechnet den Fehler der Ausgabeschicht. $\nabla_a J$ ist die Ableitung der Kostenfunktion (z.B. Kreuzentropie) nach den Ausgängen, und $\sigma'(z^L)$ ist die Ableitung der Aktivierungsfunktion (z.B. Sigmoid-Ableitung).16 Gleichung 2 (BP2): Fehler einer verborgenen Schicht ( $l$ ): Dies ist der Kern der "Rück-Propagation". Wir müssen $\delta^l$ (den Fehler in Schicht $l$ ) durch $\delta^{l+1}$ (den bereits bekannten Fehler in der nächsten Schicht $l+1$ ) ausdrücken. Wir verwenden die Kettenregel, um den Fehler von $z^{l+1}$ nach $z^l$ zurückzuverfolgen:

\delta^l_j = \frac{\partial J}{\partial z^l_j} = \sum_k \frac{\partial J}{\partial z^{l+1}_k} \frac{\partial z^{l+1}_k}{\partial z^l_j}

Der erste Term ist $\delta^{l+1}_k$ . Den zweiten Term leiten wir aus der Forward-Pass-Gleichung $z^{l+1}_k = \sum_j w^{l+1}_{kj} a^l_j + b^{l+1}_k = \sum_j w^{l+1}_{kj} \sigma(z^l_j) + b^{l+1}_k$ ab. $\frac{\partial z^{l+1}_k}{\partial z^l_j} = w^{l+1}_{kj} \sigma'(z^l_j)$ . Einsetzen ergibt:

\delta^l_j = \sum_k \delta^{l+1}_k w^{l+1}_{kj} \sigma'(z^l_j) = \left( \sum_k w^{l+1}_{kj} \delta^{l+1}_k \right) \sigma'(z^l_j)

Die Summe $\sum_k w^{l+1}_{kj} \delta^{l+1}_k$ ist die $j$ -te Komponente des Matrix-Vektor-Produkts $(W^{l+1})^T \delta^{l+1}$ . In Vektorform:

\delta^l = \left((W^{l+1})^T \delta^{l+1}\right) \odot \sigma'(z^l) \tag{BP2}

(BP2) ist die rekursive Formel. Sie zeigt, wie der Fehler $\delta^{l+1}$ durch die transponierte Gewichtsmatrix $(W^{l+1})^T$ "zurückpropagiert" wird, um den Fehler $\delta^l$ zu berechnen.16 Gleichung 3 (BP3): Gradient bezüglich Biases $b$ : Wir suchen $\frac{\partial J}{\partial b^l_j}$ . Über die Kettenregel: $\frac{\partial J}{\partial b^l_j} = \frac{\partial J}{\partial z^l_j} \frac{\partial z^l_j}{\partial b^l_j}$ . Da $z^l_j = \sum_k w^l_{jk} a^{l-1}_k + b^l_j$ , ist $\frac{\partial z^l_j}{\partial b^l_j} = 1$ .

\frac{\partial J}{\partial b^l_j} = \frac{\partial J}{\partial z^l_j} \cdot 1 = \delta^l_j

In Vektorform:

\nabla_{b^l} J = \delta^l \tag{BP3}

Der Gradient für den Bias-Vektor ist einfach der Fehlervektor dieser Schicht.16 Gleichung 4 (BP4): Gradient bezüglich Gewichten $W$ : Wir suchen $\frac{\partial J}{\partial w^l_{jk}}$ . Über die Kettenregel: $\frac{\partial J}{\partial w^l_{jk}} = \frac{\partial J}{\partial z^l_j} \frac{\partial z^l_j}{\partial w^l_{jk}}$ . Der erste Term ist $\delta^l_j$ . Da $z^l_j = \sum_k w^l_{jk} a^{l-1}_k + b^l_j$ , ist die Ableitung nach $w^l_{jk}$ (wobei $k$ der Index für $a$ ist) einfach $a^{l-1}_k$ .

\frac{\partial J}{\partial w^l_{jk}} = \delta^l_j a^{l-1}_k \tag{BP4}

Der Gradient für ein einzelnes Gewicht ist das Produkt der Aktivierung $a^{l-1}_k$ , die in dieses Gewicht "hineinfließt", und des Fehlers $\delta^l_j$ des Neurons, in das es "hinausfließt".16

4.4 Backpropagation in Matrixform

Die Gleichungen (BP3) und (BP4) sind für die Implementierung entscheidend. Während (BP3) bereits in Vektorform vorliegt, muss (BP4) vektorisiert werden, um den Gradienten für die gesamte Gewichtsmatrix $W^l$ zu erhalten. Aus (BP4) wissen wir, dass der Gradient $\nabla_{W^l} J$ eine Matrix ist, deren $(j, k)$ -ter Eintrag $\delta^l_j a^{l-1}_k$ ist. Dies ist exakt die Definition des Outer Product (äußeres Produkt) des Fehlervektors $\delta^l$ und des Aktivierungsvektors $a^{l-1}$ aus der vorherigen Schicht.17

\nabla_{W^l} J = \delta^l (a^{l-1})^T \tag{BP4-Matrix}

(Wenn $\delta^l$ ein $(n \times 1)$ -Vektor und $a^{l-1}$ ein $(m \times 1)$ -Vektor ist, dann ist $\delta^l (a^{l-1})^T$ eine $(n \times m)$ -Matrix, was den Dimensionen von $W^l$ entspricht).17

4.5 Zusammenfassung des Algorithmus

Der vollständige Backpropagation-Algorithmus kombiniert diese Schritte für ein einzelnes Trainingsbeispiel (oder einen Mini-Batch): Forward Pass: Führe die Eingabe $x$ durch das Netz. Berechne und speichere alle Zwischenwerte: $z^l$ und $a^l$ für jede Schicht $l$ .14 Backward Pass (Start): Berechne an der Ausgabeschicht $L$ den Fehlervektor $\delta^L$ unter Verwendung von Gleichung (BP1).14 Backward Pass (Propagation): Iteriere rückwärts von Schicht $l = L-1$ bis $l = 1$ : Berechne den Fehlervektor $\delta^l$ unter Verwendung von Gleichung (BP2) (unter Nutzung des bereits berechneten $\delta^{l+1}$ ).14 Gradientenberechnung: Für jede Schicht $l$ : Berechne den Bias-Gradienten $\nabla_{b^l} J$ mit Gleichung (BP3).16 Berechne den Gewichts-Gradienten $\nabla_{W^l} J$ mit Gleichung (BP4-Matrix).16 Das Ergebnis ist der vollständige Gradient $\nabla_{\theta} J = \{\nabla_{W^l} J, \nabla_{b^l} J\}_l$ , der dann in die Gradientenabstiegsformel $\theta_{t+1} = \theta_t - \eta \nabla_{\theta} J$ eingesetzt wird.

V. Dynamik der Optimierung: Analyse von Gradientenabstiegsalgorithmen

Die Berechnung des Gradienten $\nabla J$ mittels Backpropagation ist nur die halbe Miete. Die Art und Weise, wie dieser Gradient verwendet wird, um die Parameter $\theta$ zu aktualisieren – der Optimierungsalgorithmus – hat tiefgreifende Auswirkungen auf die Konvergenzgeschwindigkeit und die Generalisierungsfähigkeit des Modells.24

5.1 Der Basisalgorithmus: Gradient Descent (GD)

Die grundlegendste Update-Regel ist der (Batch) Gradient Descent.36

\theta_{t+1} = \theta_t - \eta \nabla_{\theta} J(\theta_t)

Hierbei wird der Gradient $\nabla_{\theta} J$ über den gesamten Trainingsdatensatz $N$ berechnet: $\nabla_{\theta} J = \frac{1}{N} \sum_{i=1}^N \nabla_{\theta} J_i$ . Vorteil: Dies ist eine genaue Schätzung des wahren Gradienten, die (mit einer geeigneten Lernrate $\eta$ ) garantiert zu einem lokalen Minimum konvergiert (bzw. zum globalen Minimum, falls $J$ konvex ist).46 Nachteil: Bei modernen Datensätzen (z.B. $N > 1.000.000$ ) ist die Berechnung des Gradienten über alle $N$ Punkte in jedem einzelnen Schritt rechnerisch untragbar.46

5.2 Stochastic Gradient Descent (SGD)

Um das Problem der Skalierbarkeit zu lösen, verwendet die Praxis Stochastic Gradient Descent (SGD), typischerweise in seiner Mini-Batch-Variante.44 Mini-Batch SGD: Anstatt den Gradienten über alle $N$ Datenpunkte zu berechnen, wird der Gradient $J_{\mathcal{B}}$ nur auf einem kleinen, zufällig ausgewählten "Mini-Batch" $\mathcal{B}$ von Daten (z.B. $|\mathcal{B}| = 32$ ) berechnet.48

\theta_{t+1} = \theta_t - \eta \nabla_{\theta} J_{\mathcal{B}}(\theta_t) \quad \text{wobei} \quad \nabla_{\theta} J_{\mathcal{B}} = \frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \nabla_{\theta} J_i

Reines SGD: Der theoretische Fall, bei dem $|\mathcal{B}|=1$ .21 Mathematische Analyse: Der Mini-Batch-Gradient $\nabla_{\theta} J_{\mathcal{B}}$ ist eine erwartungstreue (unbiased), aber rauschende (noisy) Schätzung des wahren Gradienten $\nabla_{\theta} J$ . Das heißt, $\mathbb{E} = \nabla_{\theta} J$ . Vorteile: Effizienz: Deutlich schneller pro Update.46 Regularisierung: Das Rauschen in der Gradientenschätzung wirkt als eine Form der Regularisierung und hilft dem Optimierer, aus "scharfen" lokalen Minima zu entkommen und "flachere" Minima zu finden, die tendenziell besser generalisieren.47

5.3 Adaptive Lernraten-Algorithmen

Ein Problem von (Mini-Batch) SGD ist, dass die Lernrate $\eta$ ein globaler Hyperparameter ist. In der hochdimensionalen und nicht-konvexen Verlustlandschaft eines neuronalen Netzes wäre es jedoch vorteilhaft, wenn sich die Lernrate für jeden Parameter $\theta_i$ individuell anpassen könnte (z.B. eine kleinere Rate für steile Richtungen und eine größere für flache Richtungen).51 RMSprop (Root Mean Square Propagation): RMSprop passt die Lernrate für jeden Parameter individuell an, indem es die jüngste Größenordnung (magnitude) seiner Gradienten berücksichtigt.52 Es unterhält einen exponentiell abklingenden Durchschnitt der quadrierten Gradienten $E[g^2]_t$ . Berechne Gradient: $g_t = \nabla_{\theta_t} J_{\mathcal{B}}(\theta_t)$ Update des 2. Moments (Varianzschätzung):

E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2

(wobei $g_t^2$ die elementweise Quadrierung $g_t \odot g_t$ ist und $\beta$ typischerweise $\approx 0.9$ beträgt).52 Parameter-Update:

\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} \odot g_t

(wobei $\epsilon$ eine kleine Konstante zur Verhinderung der Division durch Null ist).52 Interpretation: Der Term $\frac{\eta}{\sqrt{E[g^2]_t + \epsilon}}$ ist die effektive, per-Parameter Lernrate. Wenn ein Gradient $g_t$ für ein bestimmtes Gewicht konsistent groß ist, wird der Nenner $E[g^2]_t$ ebenfalls groß, was die effektive Lernrate für dieses Gewicht verkleinert. Dies dämpft Oszillationen in steilen Richtungen und beschleunigt die Konvergenz in flachen Tälern.53 Adam (Adaptive Moment Estimation): Adam ist der De-facto-Standard-Optimierer in vielen Bereichen des Deep Learning. Er kombiniert die adaptive Lernrate von RMSprop (basierend auf dem zweiten Moment, der Varianz $v_t$ ) mit dem Momentum-Prinzip (basierend auf dem ersten Moment, dem Mittelwert $m_t$ ).51 Der formale Algorithmus (Algorithm 1 im Originalpaper) ist wie folgt 56: Berechne Gradient: $g_t \leftarrow \nabla_{\theta} J_t(\theta_{t-1})$ Update 1. Moment (Momentum-Mittelwert):

m_t \leftarrow \beta_1 m_{t-1} + (1 - \beta_1) g_t

( $\beta_1 \approx 0.9$ ).56 Update 2. Moment (RMSprop-Varianz):

v_t \leftarrow \beta_2 v_{t-1} + (1 - \beta_2) g_t^2

( $\beta_2 \approx 0.999$ ).56 Bias-Korrektur: Da $m_0$ und $v_0$ mit Null initialisiert werden, sind die Schätzungen $m_t$ und $v_t$ zu Beginn des Trainings (wenn $t$ klein ist) systematisch zu Null hin verzerrt (biased). Adam korrigiert dies:

\hat{m}_t \leftarrow m_t / (1 - \beta_1^t)

\hat{v}_t \leftarrow v_t / (1 - \beta_2^t)

.56 5. Parameter-Update:

\theta_t \leftarrow \theta_{t-1} - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}

(wobei $\alpha$ die globale Lernrate ist, z.B. 0.001).51

5.4 Vergleichende Konvergenzanalyse: Adam vs. SGD

Adam kombiniert die Vorteile von Momentum (schnellere Konvergenz durch "Überrollen" kleiner Gradientenänderungen) und RMSprop (adaptive Per-Parameter-Lernraten). Dies führt in der Praxis oft zu einer signifikant schnelleren initialen Konvergenz als bei SGD.51 Es gibt jedoch eine intensive Debatte über die sogenannte "Generalisierungs-Lücke" (Generalization Gap). Es wurde wiederholt empirisch beobachtet, dass Modelle, die mit adaptiven Methoden wie Adam trainiert wurden, zwar schneller trainieren, aber am Ende eine schlechtere Generalisierungsleistung (d.h. eine höhere Fehlerrate auf dem Test-Set) aufweisen können als Modelle, die mit sorgfältig abgestimmtem SGD (insbesondere SGD mit Momentum) trainiert wurden.58 Die theoretische Begründung hierfür ist, dass die per-Parameter-Normierung von Adam es dem Optimierer ermöglicht, sehr schnell in "scharfe" Minima der Verlustlandschaft zu konvergieren. Das Rauschen und die "einfachere" Dynamik von SGD 47 hingegen begünstigen das Auffinden von "flachen" Minima, die tendenziell robuster sind und besser generalisieren.59 Eine gängige hybride Strategie, um die Vorteile beider Methoden zu nutzen, besteht darin, das Training mit Adam zu beginnen, um schnell in die Nähe eines guten Minimums zu gelangen, und dann zu SGD (oft mit einer reduzierten Lernrate) zu wechseln, um das finale Minimum "fein abzustimmen" und eine bessere Generalisierung zu erreichen.58 Tabelle 2: Analyse und Vergleich von Optimierungsalgorithmen

Aspekt (Mini-Batch) SGD RMSprop Adam Kernidee Rauschende Schätzung des wahren Gradienten. Adaptive Lernraten (basiert auf 2. Moment). Adaptive Lernraten (2. Moment) + Momentum (1. Moment). Update-Regel (Vektorform) $\theta \leftarrow \theta - \eta g_t$ $\theta \leftarrow \theta - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} \odot g_t$ $\theta \leftarrow \theta - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$ Lernrate Global, konstant (oder manuell angepasst). Per-Parameter, adaptiv. Per-Parameter, adaptiv, bias-korrigiert. Konvergenzgeschwindigkeit Langsamer, sehr sensitiv bzgl. $\eta$ . Schneller als SGD. Typischerweise am schnellsten. Generalisierungsfähigkeit Oft am besten (findet flache Minima). Gut. Gut, aber kann schlechter als SGD sein (findet scharfe Minima). Quellen 47 52 51

VI. Theorie der Generalisierung und Regularisierung

Ein zentrales Problem bei Modellen mit hoher Kapazität (viele Parameter $\theta$ ) ist das Overfitting. Das Modell lernt, sich perfekt an die Trainingsdaten anzupassen, einschließlich des zufälligen Rauschens in den Daten. Dadurch verliert es die Fähigkeit, auf neue, ungesehene Daten zu generalisieren.60 Regularisierung ist ein mathematischer Ansatz, um Overfitting zu verhindern, indem die Komplexität des Modells während der Optimierung explizit bestraft wird.

6.2 Regularisierung als Hinzufügen einer Strafe (Penalty)

Die Verlustfunktion wird um einen Regularisierungsterm $R(\theta)$ erweitert, der nur von den Parametern $\theta$ abhängt, nicht von den Daten.61

J_{reg}(\theta) = J_{data}(\theta) + \lambda R(\theta)

$J_{data}$ ist der ursprüngliche Verlust (z.B. MSE oder Kreuzentropie), $R(\theta)$ ist der "Straf-Term" und $\lambda$ ist ein Hyperparameter, der die Stärke der Strafe reguliert.62 Der Optimierer muss nun einen Kompromiss finden zwischen der Minimierung des Trainingsfehlers ( $J_{data}$ ) und der Minimierung der Modellkomplexität ( $R(\theta)$ ).

6.3 L2-Regularisierung (Ridge Regression / Weight Decay)

L2-Regularisierung ist die am häufigsten verwendete Form. Sie bestraft die quadrierte L2-Norm (Euklidische Länge) des Gewichtsvektors.64

R_{L2}(\theta) = \sum_{j} \theta_j^2 = ||\theta||_2^2

Die modifizierte Verlustfunktion ist $J_{L2} = J_{data} + \lambda ||\theta||_2^2$ .62 Analyse der Gradienten (Weight Decay): Der Gradient des L2-Terms bezüglich eines einzelnen Gewichts $\theta_j$ ist: $\nabla_{\theta_j} R_{L2}(\theta) = 2\theta_j$ . Die Gradientenabstiegs-Update-Regel wird zu:

\theta_j \leftarrow \theta_j - \eta \left( \nabla_{\theta_j} J_{data} + \lambda 2\theta_j \right)

\theta_j \leftarrow \theta_j(1 - 2\eta\lambda) - \eta \nabla_{\theta_j} J_{data}

Der Term $(1 - 2\eta\lambda)$ bewirkt eine proportionale Schrumpfung (Decay) des Gewichts $\theta_j$ bei jedem Schritt, unabhängig vom Datengradienten. Dies ist der Grund, warum L2-Regularisierung in tiefen Netzen oft als Weight Decay bezeichnet wird.66 Warum keine Sparsity? Die L2-Strafe $2\lambda\theta_j$ ist proportional zu $\theta_j$ . Wenn ein Gewicht $\theta_j$ klein wird und sich Null nähert, wird auch die "Kraft", die es zu Null drückt, immer kleiner.67 L2-Regularisierung entmutigt Sparsity und führt zu Modellen, bei denen die Gewichte klein, aber fast nie exakt Null sind.68 Sie ist nützlich, um die Varianz zu reduzieren, insbesondere wenn Merkmale stark korreliert (kollinear) sind.71

6.4 L1-Regularisierung (Lasso)

L1-Regularisierung bestraft die L1-Norm (Summe der Absolutbeträge) des Gewichtsvektors.72

R_{L1}(\theta) = \sum_{j} |\theta_j| = ||\theta||_1

Die modifizierte Verlustfunktion ist $J_{L1} = J_{data} + \lambda ||\theta||_1$ .74 Analyse der Gradienten (Sparsity): Die Absolutwertsfunktion $|\theta_j|$ ist bei $\theta_j = 0$ nicht differenzierbar. Wir verwenden stattdessen den Subgradienten: $\nabla_{\theta_j} R_{L1}(\theta) = \text{sign}(\theta_j)$ , wobei $\text{sign}(\theta_j) = 1$ für $\theta_j > 0$ , $-1$ für $\theta_j < 0$ und $\in [-1, 1]$ bei $\theta_j = 0$ . Die Update-Regel lautet (vereinfacht):

\theta_j \leftarrow \theta_j - \eta \left( \nabla_{\theta_j} J_{data} + \lambda \text{sign}(\theta_j) \right)

Im Gegensatz zur L2-Strafe ist der L1-Gradient eine konstante Kraft von $\pm \lambda$ .67 Diese Kraft nimmt nicht ab, wenn sich $\theta_j$ Null nähert. Dieser konstante "Druck" in Richtung Null führt dazu, dass Gewichte die Null-Grenze überschreiten und exakt Null werden.67 Implikation (Feature Selection): Da L1-Regularisierung Gewichte auf exakt Null setzen kann, führt sie zu dünn besetzten (sparse) Modellen. Dies fungiert als eine Form der automatischen Merkmalsauswahl (Feature Selection), da Merkmale mit Gewichten von Null effektiv aus dem Modell entfernt werden.68

6.5 Geometrische Interpretation von L1 vs. L2

Die unterschiedlichen Auswirkungen von L1 und L2 lassen sich elegant geometrisch erklären.78 Die Optimierung von $J_{reg}$ ist äquivalent zur Minimierung von $J_{data}$ unter einer Nebenbedingung (Constraint), dass die Norm der Gewichte $R(\theta)$ einen Schwellenwert $t$ nicht überschreitet. L2-Constraint: $R(\theta) = ||\theta||_2^2 \le t$ . Dies definiert eine Kugel (im 2D-Fall einen Kreis).79 L1-Constraint: $R(\theta) = ||\theta||_1 \le t$ . Dies definiert einen Polyeder (im 2D-Fall einen Diamanten oder ein auf der Spitze stehendes Quadrat).79 Die Konturlinien der Daten-Verlustfunktion $J_{data}$ (ohne Regularisierung) sind typischerweise Ellipsen.81 Die Optimierungslösung ist der Punkt, an dem die kleinste Ellipse (geringster Verlust) die erlaubte Constraint-Region gerade eben berührt. Beim L2-Kreis ist die Krümmung überall gleich. Der Kontaktpunkt wird mit hoher Wahrscheinlichkeit an einer Stelle liegen, an der keine Koordinate Null ist (z.B. $(0.7, 0.7)$ ).82 Beim L1-Diamanten ist die Region "spitz". Aufgrund dieser Ecken, die auf den Achsen liegen (z.B. $(0, 1)$ ), ist es statistisch und geometrisch sehr viel wahrscheinlicher, dass der erste Kontaktpunkt der Ellipse an einer dieser Ecken liegt.80 Ein Punkt auf einer Achse (eine Ecke des Diamanten) bedeutet, dass die andere Koordinate exakt Null ist. Dies ist die geometrische Ursache für Sparsity. Tabelle 3: Mathematische Analyse der L1- vs. L2-Regularisierung

Aspekt L1-Regularisierung (Lasso) L2-Regularisierung (Ridge / Weight Decay) Mathematische Formel $R(\theta) = \lambda

Form des Gradienten $\lambda \cdot \text{sign}(\theta_j)$ (Konstante Kraft) $2 \lambda \cdot \theta_j$ (Proportionale Kraft) Geometrische Constraint-Region Diamant (Polyeder mit "spitzen" Ecken) Kugel (Kreis mit "glatter" Oberfläche) Effekt auf Gewichte Sparsity: Setzt irrelevante Gewichte exakt auf Null. Shrinkage: Schrumpft alle Gewichte in Richtung Null, aber nicht exakt auf Null. Primärer Nutzen Automatische Merkmalsauswahl (Feature Selection). Reduzierung der Varianz, Umgang mit Kollinearität. Quellen 67 64

6.6 Dropout als probabilistische Regularisierung

Dropout ist eine fundamental andere Form der Regularisierung, die speziell für tiefe neuronale Netze entwickelt wurde. Algorithmische Definition: Während des Trainings wird bei jedem Forward Pass jedes Neuron (oder jede Aktivierung $a$ ) mit einer Wahrscheinlichkeit $p$ (der "keep probability", z.B. 0.5) beibehalten oder mit Wahrscheinlichkeit $1-p$ temporär entfernt (d.h. auf Null gesetzt).83 Für jeden Mini-Batch wird eine andere zufällige "Maske" von Neuronen gewählt. Interpretation 1: Verhinderung von Ko-Adaptation / Ensemble-Mittelung: Die primäre Motivation für Dropout war, das Phänomen der Ko-Adaptation zu verhindern, bei dem sich Neuronen zu stark auf das Vorhandensein spezifischer anderer Neuronen verlassen, um korrekte Vorhersagen zu treffen.85 Indem Neuronen zufällig entfernt werden, zwingt Dropout jedes Neuron dazu, "robustere" Features zu lernen, die für sich allein nützlich sind.85 Eine gängige Interpretation ist, dass Dropout dem Training eines exponentiell großen Ensembles von "verdünnten" (thinned) Netzwerken mit geteilten Gewichten (weight sharing) entspricht.84 Jede Dropout-Maske definiert ein einzigartiges Sub-Netzwerk. Beim Testen wird die volle (nicht verdünnte) Architektur verwendet, wobei die Gewichte mit $p$ skaliert werden (das sogenannte "Inverted Dropout" implementiert dies oft schon während des Trainings), was einer Mittelung der Vorhersagen dieses Ensembles entspricht.84 Interpretation 2: Dropout als Bayessche Approximation: Eine tiefere mathematische Analyse liefert eine probabilistische Interpretation. Es wurde gezeigt, dass das Training eines neuronalen Netzes mit Dropout mathematisch äquivalent zu einer approximativen Bayesschen Inferenz in einem tiefen Gauß-Prozess (Deep Gaussian Process) ist.86 In diesem Framework wird Dropout als eine Form der Variational Inference (VI) interpretiert. VI versucht, die wahre, aber intrakatable Posterior-Verteilung über die Gewichte $P(\theta | D)$ (siehe Abschnitt X) durch eine einfachere, parametrisierte Verteilung $q(\theta)$ zu approximieren. Bei Dropout ist $q(\theta)$ implizit durch die stochastische Anwendung von Bernoulli-Masken auf die Gewichte definiert.86 Das Dropout-Training minimiert effektiv die Kullback-Leibler-Divergenz zwischen dieser approximativen Verteilung und der wahren Posterior.86 Diese Bayessche Verbindung 89 ist von immenser praktischer Bedeutung. Standardmäßig wird Dropout zur Testzeit (Inferenz) deaktiviert. Wenn man jedoch Dropout absichtlich zur Inferenzzeit aktiviert und das Modell mehrfach (z.B. 100-mal) mit demselben Input ausführt (dies wird Monte Carlo Dropout genannt), erhält man 100 leicht unterschiedliche Vorhersagen. Die Varianz dieser Vorhersagen kann als Maß für die epistemische Unsicherheit (Modellunsicherheit) interpretiert werden – d.h. wie "sicher" sich das Modell seiner eigenen Vorhersage ist.86

VII. Mathematische Strukturen für räumliche Daten: Convolutional Neural Networks (CNNs)

Während MLPs universelle Approximatoren sind, skalieren sie schlecht auf hochdimensionale Daten mit räumlicher Struktur, wie z.B. Bilder. Ein $256 \times 256$ Farbbild hat $256 \times 256 \times 3 = 196.608$ Dimensionen. Eine einzige fully-connected Schicht zu 1000 Neuronen hätte über 196 Milliarden Parameter, was rechnerisch unmöglich zu trainieren und anfällig für massives Overfitting ist. Convolutional Neural Networks (CNNs) lösen dieses Problem, indem sie a-priori Wissen über die Datenstruktur (räumliche Lokalität) durch spezialisierte mathematische Operationen in die Architektur kodieren.

7.1 Datenrepräsentation: Tensoren

CNNs sind fundamental Tensor-Operationen.91 Ein Bild wird nicht als langer Vektor, sondern als 3D-Tensor (ein n-dimensionales Array) der Form (Höhe $\times$ Breite $\times$ Kanäle) repräsentiert.93 Ein Mini-Batch von Farbbildern ist ein 4D-Tensor: (Batch-Größe $\times$ Höhe $\times$ Breite $\times$ 3).95

7.2 Die Faltungsoperation (Convolutional Layer)

Der Kern des CNNs ist die Faltungsschicht. Sie nutzt zwei mathematische Prinzipien, um die Parameteranzahl drastisch zu reduzieren: Lokale Konnektivität (Neuronen sind nur mit einer kleinen lokalen Region der vorherigen Schicht verbunden) 96 und Parameterteilung (Weight Sharing).97 Anstatt einer riesigen Gewichtsmatrix $W$ (wie im MLP) definiert eine Faltungsschicht einen (oder mehrere) kleine Filter (oder Kernel) $K$ . Ein typischer Kernel $K$ könnte die Dimension $3 \times 3 \times 3$ haben (für ein Farbbild). Dieser kleine Kernel wird im Sinne eines "sliding window" über die gesamte räumliche Dimension des Eingabe-Tensors $X$ bewegt, und an jeder Position wird eine gewichtete Summe berechnet.98 Mathematik der Operation: Faltung vs. Kreuzkorrelation Interessanterweise ist die Operation, die in der Deep-Learning-Literatur als "Faltung" (Convolution) bezeichnet wird, mathematisch gesehen eine Kreuzkorrelation (Cross-Correlation).99 Diskrete Faltung (Theorie): $(I * K)(i, j) = \sum_m \sum_n I(m, n) K(i-m, j-n)$ . Dies erfordert ein "Flippen" (Spiegeln) des Kernels $K$ an beiden Achsen, bevor das "sliding window" angewendet wird.101 Diskrete Kreuzkorrelation (Praxis): $(I \star K)(i, j) = \sum_m \sum_n I(i+m, j+n) K(m, n)$ . Dies ist eine direkte elementweise Multiplikation und Summation des Kernels mit dem Bildausschnitt, ohne Flippen.100 Warum die falsche Nomenklatur? In der Signalverarbeitung ist das Flippen für bestimmte mathematische Eigenschaften (z.B. Kommutativität) wichtig. Im Deep Learning ist der Kernel $K$ jedoch kein fester Filter, sondern der Satz von Parametern, die gelernt werden. Ob der Algorithmus $K$ oder ein gespiegeltes $K'$ lernt, ist für das Ergebnis irrelevant; der Backpropagation-Algorithmus wird einfach die entsprechenden Gewichte lernen.99 Die Kreuzkorrelation ist konzeptionell intuitiver und rechnerisch geringfügig einfacher zu implementieren.99 Eine Faltungsschicht wendet $C_{out}$ dieser Filter an, wobei jeder Filter $K_c$ (Dimension $F \times F \times C_{in}$ ) eine "Aktivierungskarte" (feature map) $Y_c$ erzeugt. Diese $C_{out}$ Karten werden zu einem neuen 3D-Tensor (Dimension $H' \times W' \times C_{out}$ ) gestapelt.104

7.3 Die Pooling-Operation

Nach einer Faltungsoperation (und einer Nichtlinearität wie ReLU) wird üblicherweise eine Pooling-Schicht (Pooling Layer) angewendet. Ihr Zweck ist das Downsampling – die Reduzierung der räumlichen Dimensionen ( $H, W$ ) – was die Anzahl der Parameter in späteren Schichten reduziert und eine Form der lokalen Translationsinvarianz einführt.94 Ein Pooling-Fenster (z.B. $2 \times 2$ ) wird über die Aktivierungskarte geschoben (typischerweise ohne Überlappung, d.h. Stride=2).105 Max Pooling: Wählt den maximalen Wert innerhalb des Fensters aus.106

Y[i,j,k] = \max\left(X[2i:2i+2, 2j:2j+2, k]\right)

Max Pooling "fragt": War das Feature (das der vorherige Filter detektiert hat) in dieser Region überhaupt vorhanden?.106 Average Pooling: Berechnet den Durchschnitt aller Werte innerhalb des Fensters.106 Average Pooling "fragt": Wie stark war das Feature im Durchschnitt in dieser Region vorhanden? Die Pooling-Operation wird auf jeden Kanal (Channel $k$ ) des Tensors unabhängig angewendet.105 Sie reduziert $H$ und $W$ , lässt aber die Kanaltiefe $C$ unverändert.94 Die Architektur eines CNNs ist somit eine Abfolge von mathematischen Tensor-Transformationen: $INPUT \to \to \to \dots \to [\text{FC}] \to \text{OUTPUT}$

VIII. Mathematische Strukturen für sequentielle Daten: Recurrent Neural Networks (RNNs)

Für Daten, bei denen die Reihenfolge von Bedeutung ist (z.B. Zeitreihen, Sprache, Text), sind CNNs und MLPs ungeeignet, da sie keine Informationen über vergangene Eingaben speichern. Recurrent Neural Networks (RNNs) adressieren dies durch die Einführung von Rekurrenz – Schleifen in der Netzwerkstruktur.

8.1 Das Konzept der Rekurrenz

Im Gegensatz zu Feedforward-Netzen, bei denen die Ausgabe $y_t$ nur von der Eingabe $x_t$ abhängt, besitzt ein RNN einen internen versteckten Zustand (hidden state) $h_t$ . Dieser Zustand $h_t$ ist eine Funktion der aktuellen Eingabe $x_t$ und des vorherigen versteckten Zustands $h_{t-1}$ .108

h_t = f(h_{t-1}, x_t)

Dies ermöglicht es dem Netzwerk, Informationen über die Zeit zu "speichern" und zu persistieren.108 Die Standard-RNN-Formulierung (Elman-Netz) definiert diese Funktion $f$ als eine affine Transformation gefolgt von einer Nichtlinearität (typischerweise $\tanh$ ): Die Rekurrenz-Relationen: Hidden State Update: $h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$ 110 Output: $y_t = \phi_{out}(W_{hy} h_t + b_y)$ 110 Hierbei sind $W_{hh}$ (die rekurrente Gewichtsmatrix), $W_{xh}$ (die Eingabe-Gewichtsmatrix) und $W_{hy}$ (die Ausgabe-Gewichtsmatrix) die Parameter, die über die Zeit geteilt (shared) werden.

8.2 Backpropagation Through Time (BPTT)

Um ein RNN zu trainieren, benötigen wir den Gradienten des Gesamtverlusts $J = \sum_t J_t$ (wobei $J_t$ der Verlust zum Zeitschritt $t$ ist). Dies wird durch Backpropagation Through Time (BPTT) erreicht.112 Konzept: BPTT "entfaltet" (unrolls) das rekurrente Netz über die Zeit $T$ in ein sehr tiefes Feedforward-Netzwerk.108 Die Eingabe $x_1$ geht zu Schicht 1 ( $h_1$ ), $x_2$ und $h_1$ gehen zu Schicht 2 ( $h_2$ ), usw. bis $h_T$ . Parameter-Sharing: Dieses entfaltete Netz hat die entscheidende Eigenschaft, dass die Gewichtsmatrizen ( $W_{hh}, W_{xh}, W_{hy}$ ) über alle $T$ "Schichten" (Zeitschritte) identisch sind.112 BPTT ist die Anwendung von Standard-Backpropagation auf dieses entfaltete Netz.111 Der Gesamtgradient für ein geteiltes Gewicht (z.B. $W_{hh}$ ) ist die Summe der Gradienten an jedem Zeitschritt, an dem dieses Gewicht auftritt 110:

\nabla_{W_{hh}} J = \sum_{t=1}^T \nabla_{W_{hh}} J_t

8.3 Das Problem der Langzeitabhängigkeiten: Vanishing & Exploding Gradients

Die Anwendung von BPTT auf die RNN-Rekurrenz-Relation offenbart ein fundamentales mathematisches Problem. Betrachten wir, wie der Gradient des Verlusts $J_t$ zum Zeitpunkt $t$ von einem viel früheren Zustand $h_k$ (mit $k \ll t$ ) abhängt. Nach der Kettenregel 113:

\frac{\partial J_t}{\partial h_k} = \frac{\partial J_t}{\partial h_t} \cdot \frac{\partial h_t}{\partial h_{t-1}} \cdot \frac{\partial h_{t-1}}{\partial h_{t-2}} \cdots \frac{\partial h_{k+1}}{\partial h_k}

Schauen wir uns den zentralen Term $\frac{\partial h_i}{\partial h_{i-1}}$ an. Aus der Rekurrenz-Relation (8.1): $h_i = \tanh(W_{hh} h_{i-1} + W_{xh} x_i + b_h)$ . Die Ableitung (der Jacobi-Matrix) ist: $\frac{\partial h_i}{\partial h_{i-1}} = \text{diag}(\tanh'(z_i)) \cdot W_{hh}^T$ . Setzen wir dies in die Kettenregel ein:

\frac{\partial J_t}{\partial h_k} = \frac{\partial J_t}{\partial h_t} \prod_{i=k+1}^t \left( \text{diag}(\tanh'(z_i)) \cdot W_{hh}^T \right)

Analyse: Der Gradient ist ein Produkt von $t-k$ Matrizen $W_{hh}^T$ .113 Exploding Gradients: Wenn die (Singulär- oder Eigen-)Werte von $W_{hh}$ größer als 1 sind, wächst die Norm des Gradienten exponentiell mit der Zeitspanne $t-k$ .114 Dies führt zu instabilen Updates (NaNs). Die Standardlösung ist Gradient Clipping: Der Gradientenvektor wird künstlich auf einen maximalen Schwellenwert skaliert, falls seine Norm diesen überschreitet.112 Vanishing Gradients: Dies ist das schwerwiegendere Problem. Wenn die Werte von $W_{hh}$ kleiner als 1 sind (oder die Ableitung $\tanh'$ klein ist, was in den Sättigungsbereichen von $\tanh$ der Fall ist 116), schrumpft die Norm des Gradienten exponentiell gegen Null.115 Der Beitrag entfernter Zeitschritte ( $k \ll t$ ) zum Gradienten wird Null. Das Netzwerk wird mathematisch "kurzsichtig" und kann keine Langzeitabhängigkeiten lernen.

8.4 Lösung: Long Short-Term Memory (LSTM)

Long Short-Term Memory (LSTM)-Netzwerke sind eine spezialisierte RNN-Architektur, die explizit entwickelt wurde, um das Vanishing-Gradient-Problem zu lösen.118 Architektur: LSTMs führen einen separaten Zellzustand (Cell State) $C_t$ ein. $C_t$ fungiert als "Gedächtnis-Superhighway", auf dem Informationen fast unverändert über lange Zeiträume fließen können. Der Informationsfluss in und aus $C_t$ wird durch drei adaptive, multiplikative "Tore" (Gates) gesteuert 108: Forget Gate ( $F_t$ ): Entscheidet, welche Informationen aus $C_{t-1}$ verworfen werden sollen. Input Gate ( $I_t$ ): Entscheidet, welche neuen Informationen in $C_t$ gespeichert werden sollen. Output Gate ( $O_t$ ): Entscheidet, welcher Teil von $C_t$ als neuer Hidden State $h_t$ ausgegeben wird. Diese Gates sind Vektoren von Werten zwischen 0 (Information blockieren) und 1 (Information passieren lassen), die von Sigmoid-Funktionen $\sigma$ berechnet werden.120 Formale LSTM-Gleichungen: Gegeben $x_t$ und $h_{t-1}$ , werden die Gates und Zustände wie folgt berechnet (120 - Notation kann variieren): Forget Gate: $F_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$ ( $[h_{t-1}, x_t]$ bezeichnet die Konkatenation der Vektoren). Input Gate: $I_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$ Candidate Cell State: $\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$ (Dies sind die "neuen" Informationen, die hinzugefügt werden könnten). Cell State Update (Der Kern der LSTM):

C_t = F_t \odot C_{t-1} + I_t \odot \tilde{C}_t

(Vergiss den alten Zustand $C_{t-1}$ (elementweise Multiplikation mit $F_t$ ) und addiere die neuen Informationen $\tilde{C}_t$ (elementweise Multiplikation mit $I_t$ )). Output Gate: $O_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$ Final Hidden State: $h_t = O_t \odot \tanh(C_t)$ (Der neue Hidden State $h_t$ ist eine gefilterte Version des Zellzustands $C_t$ ). Mathematische Lösung des Vanishing Gradients: Die brillante Einsicht liegt in Gleichung 4. Betrachten wir den Gradientenfluss durch den Zellzustand (BPTT):

\frac{\partial C_t}{\partial C_{t-1}} = F_t \odot \frac{\partial C_{t-1}}{\partial C_{t-1}} + \dots = F_t

Der Gradient, der durch die Zeit zurückfließt, ist nun ein Produkt der Forget-Gate-Vektoren: $\frac{\partial J_t}{\partial C_k} \propto \prod_{i=k+1}^t F_i$ . Im Gegensatz zur wiederholten Multiplikation mit einer konstanten Matrix $W_{hh}^T$ (dem Problem des RNNs), ist der Gradientenfluss hier durch $F_t$ (einen dynamischen Vektor) gesteuert. Die additive Natur ( $... + I_t \odot \tilde{C}_t$ ) der Zustandsaktualisierung in Gleichung 4 bricht die instabile multiplikative Kette des Standard-RNNs.119 Das Netzwerk kann lernen, $F_t \approx 1$ zu setzen (den "Vergessen"-Wert nahe 1 zu halten), was einen fast ungehinderten "Gradienten-Highway" schafft und es dem Modell ermöglicht, Abhängigkeiten über Tausende von Zeitschritten zu lernen.

IX. Die Mathematik der Attention und Transformer-Architekturen

9.1 Motivation: Die Grenzen von RNNs

Obwohl LSTMs Langzeitabhängigkeiten handhaben können, bleibt die RNN-Architektur inhärent sequentiell. Die Berechnung von $h_t$ erfordert $h_{t-1}$ , was eine Parallelisierung über die Zeitachse verhindert.108 Darüber hinaus muss der Zustand $h_t$ alle relevanten Informationen aus der gesamten Vergangenheit $x_1, \dots, x_{t-1}$ in einem Vektor fester Größe komprimieren – ein "Informationsflaschenhals" (information bottleneck). Der Attention-Mechanismus 123 und die darauf basierende Transformer-Architektur 124 lösen beide Probleme, indem sie die Rekurrenz vollständig durch Operationen ersetzen, die parallel ausgeführt werden können.126

9.2 Das Attention-Konzept: Ein Analogon zu Retrieval-Systemen

Attention erlaubt dem Modell, anstatt sich auf einen komprimierten Zustand $h_t$ zu verlassen, zu jedem Zeitpunkt auf eine Datenbank von allen vergangenen Zuständen (oder Eingaben) zuzugreifen und dynamisch zu entscheiden, welche davon relevant sind.123 Diese Operation wird oft analog zu einem Datenbank-Retrieval-System (wie einer Suchmaschine) formuliert 127: Query ( $Q$ ): Ein Vektor, der repräsentiert, was ich suche. (z.B. "Wie übersetze ich das aktuelle Wort?").127 Keys ( $K$ ): Eine Menge von Vektoren, die repräsentieren, was die verfügbaren Informationen sind (z.B. die "Etiketten" oder "Titel" aller Wörter im Quellsatz).127 Values ( $V$ ): Eine Menge von Vektoren, die die eigentlichen Informationen repräsentieren (z.B. die Inhalts-Embeddings aller Wörter im Quellsatz).127 Die Attention-Operation berechnet, wie gut die Query zu jedem Key passt, und verwendet diese Übereinstimmungs-Scores, um eine gewichtete Summe der Values zu bilden.128

9.3 Formale Herleitung: Scaled Dot-Product Attention

Im Transformer-Modell wird diese Operation als Self-Attention implementiert, was bedeutet, dass $Q$ , $K$ und $V$ alle aus derselben Eingabesequenz $X$ stammen.129 Die Eingabe $X$ ist eine Matrix (Tensor) der Dimension $n \times d_{model}$ (wobei $n$ die Sequenzlänge und $d_{model}$ die Embedding-Dimension ist). $Q$ , $K$ und $V$ werden als lineare Projektionen von $X$ gelernt, indem $X$ mit gelernten Gewichtsmatrizen ( $W_Q, W_K, W_V$ ) multipliziert wird 123:

Q = X W_Q

K = X W_K

V = X W_V

Die Dimensionen von $W_Q$ und $W_K$ sind $d_{model} \times d_k$ , und $W_V$ ist $d_{model} \times d_v$ . Die "Scaled Dot-Product Attention" ist die Kernformel des Transformers 125:

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

9.4 Mathematische Dekonstruktion der Self-Attention (Matrixoperationen)

Analysieren wir diese Formel Schritt für Schritt, wobei $Q, K \in \mathbb{R}^{n \times d_k}$ und $V \in \mathbb{R}^{n \times d_v}$ :

Affinitätsberechnung (Score Matrix): $A = QK^T$ 134 Dies ist eine Matrixmultiplikation: $(n \times d_k) \times (d_k \times n) \to (n \times n)$ . Das resultierende Element $A_{ij}$ (Zeile $i$ , Spalte $j$ ) ist das Skalarprodukt (Dot Product) des Query-Vektors $q_i$ (Zeile $i$ von $Q$ ) und des Key-Vektors $k_j$ (Zeile $j$ von $K$ ): $A_{ij} = q_i \cdot k_j$ .136 $A_{ij}$ ist ein Skalar, der die "Ähnlichkeit", "Relevanz" oder "Affinität" des Tokens $i$ zum Token $j$ misst.134
Skalierung: $A_{scaled} = \frac{A}{\sqrt{d_k}}$ Dies ist eine elementweise Division der $A$ -Matrix durch den Skalar $\sqrt{d_k}$ .136 Mathematischer Grund: Dies ist ein entscheidender Schritt zur Stabilisierung der Optimierung. Für große Werte von $d_k$ (z.B. $d_k=64$ ) können die Skalarprodukte $A_{ij}$ sehr groß werden. Wenn diese großen Werte in die Softmax-Funktion (nächster Schritt) eingegeben werden, sättigt die Funktion (d.h., sie landet in Bereichen, in denen ihr Gradient fast Null ist). Dies "tötet" den Gradientenfluss während der Backpropagation (ein Vanishing-Gradient-Problem, ähnlich wie bei Sigmoid).136 Die Skalierung mit $\sqrt{d_k}$ normalisiert die Varianz der Scores und hält die Gradienten gesund.
Normalisierung (Attention Weights): $W = \text{softmax}(A_{scaled})$ 137 Die Softmax-Funktion wird zeilenweise (row-wise) auf die $(n \times n)$ -Matrix $A_{scaled}$ angewendet.132 Das Ergebnis $W$ ist eine $(n \times n)$ -Matrix, bei der jede Zeile $W_i$ eine Wahrscheinlichkeitsverteilung ist (d.h. $\sum_{j=1}^n W_{ij} = 1$ ). $W_{ij}$ ist das finale "Attention-Gewicht", das angibt, wie viel Aufmerksamkeit das Token $i$ (als Query) auf das Token $j$ (als Key) richten soll.136
Gewichtete Summe der Values: $Z = W V$ 132 Dies ist die finale Matrixmultiplikation: $(n \times n) \times (n \times d_v) \to (n \times d_v)$ . Betrachten wir die $i$ -te Zeile der Ausgabe $Z$ : $z_i$ . $z_i$ ist das Produkt der $i$ -ten Zeile von $W$ (ein $(1 \times n)$ -Vektor) und der $(n \times d_v)$ -Matrix $V$ . Dies ist mathematisch identisch mit einer gewichteten Summe der Zeilen von $V$ (den Value-Vektoren $v_j$ ):

z_i = \sum_{j=1}^{n} W_{ij} v_j

Interpretation: Die neue, "kontextualisierte" Repräsentation $z_i$ für das $i$ -te Token ist eine gewichtete Summe der Value-Vektoren aller $n$ Tokens in der Sequenz.127 Die Gewichte $W_{ij}$ sind nicht statisch (wie in einem Graphen) oder rein sequentiell (wie im RNN), sondern werden dynamisch als Funktion des Inhalts (der Ähnlichkeit $QK^T$ ) berechnet.

9.5 Multi-Head-Attention

Die Transformer-Architektur lernt nicht nur einen Satz von $W_Q, W_K, W_V$ , sondern $h$ (z.B. $h=8$ ) verschiedene Sätze von Projektionsmatrizen parallel. Jedes Set $i$ wird als "Kopf" (Head) bezeichnet.124

\text{Head}_i = \text{Attention}(X W_Q^{(i)}, X W_K^{(i)}, X W_V^{(i)})

Jeder Kopf $Z_i = \text{Head}_i$ berechnet eine separate Attention-Ausgabe. Diese $h$ Ausgabe-Matrizen $Z_1, \dots, Z_h$ werden konkateniert und durch eine finale lineare Schicht $W_O$ projiziert:

\text{MultiHead}(Q, K, V) = \text{Concat}(Z_1, \dots, Z_h) W_O

Mathematische Motivation: Dies ermöglicht es dem Modell, verschiedene Arten von Ähnlichkeitsbeziehungen (z.B. syntaktische, semantische, positionale) parallel in verschiedenen gelernten Unterräumen zu lernen.129

X. Abschließende theoretische Perspektiven: Bayessche Neuronale Netze (BNNs)

Die bisher besprochenen Architekturen, obwohl probabilistisch in ihren Verlustfunktionen (via MLE), sind in ihrer Ausführung deterministisch. Nach dem Training repräsentiert das Netzwerk einen Satz von Punkt-Schätzern für die Gewichte $\theta$ . Ein solches Modell kann keine Modellunsicherheit (oder epistemische Unsicherheit) ausdrücken – es kann zwar eine Vorhersage $\hat{y}$ machen, aber nicht quantifizieren, wie sicher es sich dieser Vorhersage ist (im Gegensatz zur aleatorischen Unsicherheit, dem Rauschen in den Daten).139 Bayessche Neuronale Netze (BNNs) bieten einen formalen Rahmen, um diese Unsicherheit zu modellieren.

10.2 Bayessche Inferenz für NNs

BNNs erweitern Standard-NNs, indem sie das Bayes-Theorem auf die Parameter (Gewichte und Biases) selbst anwenden.140 Anstatt einen einzelnen optimalen Wert $\theta_j$ für ein Gewicht zu lernen, lernt ein BNN eine Wahrscheinlichkeitsverteilung $P(\theta_j | D)$ für jedes Gewicht – eine Posterior-Verteilung, die unsere Überzeugung über den Wert des Gewichts nach dem Sehen der Daten $D$ repräsentiert.139

10.3 Mathematische Formulierung (Bayes-Theorem)

Die Posterior-Verteilung über alle Parameter $\theta$ ist gegeben durch:

P(\theta | D) = \frac{P(D | \theta) \cdot P(\theta)}{P(D)}

.139 $P(\theta | D)$ : Die Posterior-Verteilung der Gewichte. Dies ist das, was wir lernen wollen. $P(D | \theta)$ : Die Likelihood. Dies ist genau der Term, den wir in der MLE (Abschnitt III) als Produkt $\prod P(y_i | x_i; \theta)$ definiert haben. $P(\theta)$ : Die Prior-Verteilung. Dies ist unsere Annahme über die Verteilung der Gewichte bevor wir Daten gesehen haben (z.B. $\theta \sim \mathcal{N}(0, I)$ , was einer L2-Regularisierung entspricht).139 $P(D)$ : Die Marginal Likelihood oder "Evidence". $P(D) = \int P(D | \theta) P(\theta) d\theta$ .

10.4 Das Problem der Intraktabilität

Das zentrale Problem von BNNs ist die Berechnung des Nenners $P(D)$ . Dieses Integral über alle möglichen Parameterkonfigurationen $\theta$ zu berechnen, ist in einem hochdimensionalen Raum (Millionen oder Milliarden von Parametern) analytisch und numerisch unmöglich (intractable).139

10.5 Approximative Inferenz

Da die exakte Posterior $P(\theta | D)$ nicht berechenbar ist, müssen approximative Methoden verwendet werden. Variational Inference (VI): Anstatt die wahre Posterior $P$ zu finden, definieren wir eine einfachere, parametrisierte Verteilung $q_{\phi}(\theta)$ (z.B. eine Gauß-Verteilung für jedes Gewicht, parametrisiert durch $\phi = \{\mu_j, \sigma_j\}$ ). Anschließend minimieren wir den "Abstand" (die KL-Divergenz) zwischen dieser Approximation $q$ und der wahren Posterior $P$ :

\phi^* = \arg\min_{\phi} D_{KL}(q_{\phi}(\theta) \parallel P(\theta | D))

Dies ist selbst ein komplexes Optimierungsproblem.139 Dropout als Bayessche Approximation: Wie in Abschnitt 6.6 dargelegt, wurde gezeigt, dass das Standard-Dropout-Verfahren mathematisch als eine Form der Variational Inference für tiefe Gauß-Prozesse interpretiert werden kann.86 Die durch Bernoulli-Masken definierte stochastische Aktivierung $q(\theta)$ dient als approximative Verteilung. Diese Verbindung ist von tiefgreifender Bedeutung. Sie schlägt eine Brücke zwischen der (oft als heuristisch angesehenen) Welt des Deep Learning (Dropout) und der (mathematisch rigorosen, aber oft intraktablen) Welt der Bayesschen Inferenz.89 Sie bietet eine recheneffiziente Methode (Monte Carlo Dropout), um die epistemische Unsicherheit 139 von Standard-Netzwerken zu quantifizieren.86

XI. Schlussfolgerung

Diese Abhandlung hat die mathematischen Grundlagen künstlicher neuronaler Netze von den ersten Prinzipien bis hin zu modernen Architekturen hergeleitet. Die Analyse zeigt, dass das Feld des Deep Learning kein "Black Box"-Phänomen ist, sondern auf einer Reihe von miteinander verbundenen mathematischen Prinzipien beruht: Fundament (Lineare Algebra): Die Grundbausteine sind affine Transformationen ( $w^T x + b$ ) 11 und deren Vektorisierung zu Matrixoperationen ( $W a^{l-1} + b^l$ ) 16, was die Parallelisierung auf GPUs ermöglicht.18 Approximation (Analysis): Nichtlineare Aktivierungsfunktionen 3 verleihen diesen Modellen die Fähigkeit zur universellen Funktionsapproximation.12 Ziel (Probabilitätstheorie): Die Wahl der Verlustfunktion (MSE vs. Kreuzentropie) ist eine direkte Konsequenz probabilistischer Annahmen über die Datengenerierung, fundiert im Prinzip der Maximum Likelihood Estimation (MLE).34 Lernen (Kalkül): Der Backpropagation-Algorithmus ist eine rechnerisch effiziente, rekursive Anwendung der multivariaten Kettenregel 16, die durch Matrix-Ableitungen (z.B. Outer Product $\delta^l (a^{l-1})^T$ ) 17 implementiert wird. Optimierung (Dynamik): Die Evolution von SGD 47 zu adaptiven Methoden wie Adam 56 ist eine Suche nach effizienterer Navigation in hochdimensionalen, nicht-konvexen Verlustlandschaften, die einen fundamentalen Kompromiss zwischen Konvergenzgeschwindigkeit und Generalisierungsqualität aufzeigt.58 Generalisierung (Geometrie & Statistik): Regularisierungsmethoden wie L1 und L2 werden durch die Geometrie ihrer Gradienten und Norm-Räume verständlich (Sparsity durch $\text{sign}(w)$ vs. Shrinkage durch $w$ ).67 Dropout etabliert eine tiefe Verbindung zwischen pragmatischer Regularisierung und rigoroser Bayesscher Approximation.86 Architektur (Tensor-Operationen): Moderne Architekturen kodieren A-priori-Wissen durch spezialisierte Tensor-Operationen. CNNs nutzen Parameterteilung (Kreuzkorrelation) für räumliche Lokalität.97 LSTMs nutzen Gating und Addition ( $C_t = F_t \odot C_{t-1} + \dots$ ), um die multiplikative Instabilität $\propto (W_{hh}^T)^n$ von RNNs zu lösen.113 Transformer ersetzen die Rekurrenz vollständig durch parallele Matrixmultiplikationen ( $\text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$ ), um dynamische, inhaltsbasierte Verbindungen zu lernen.132 Die Evolution von einfachen linearen Klassifikatoren zu komplexen, parallelen und probabilistischen Transformer-Architekturen ist eine kohärente mathematische Entwicklung, die lineare Algebra, Kalkül, Optimierungstheorie und Statistik zu einem der mächtigsten Werkzeuge der modernen Wissenschaft vereint. Referenzen Deep Learning Theorie - Max-Planck-Gesellschaft, Zugriff am November 16, 2025, https://www.mpg.de/16146790/mis_jb_2020 SOSE2020 / 392028 Grundlagen Neuronaler Netze (V) - eKVV - Universität Bielefeld, Zugriff am November 16, 2025, https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=202514639 Hochschule Trier - Grundlagen Neuronaler Netze, Zugriff am November 16, 2025, https://www.hochschule-trier.de/fileadmin/Hauptcampus/Fachbereich_Informatik/Fernstudium/Dokumente/Leseproben/bdl_grundlagen.pdf The Perceptron Algorithm in Machine Learning: Everything You Need to Know, Zugriff am November 16, 2025, https://learninglabb.com/perceptron-algorithm-in-machine-learning/ What is Perceptron | The Simplest Artificial neural network - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/machine-learning/what-is-perceptron-the-simplest-artificial-neural-network/ Introduction to Neural Networks: Understanding Perceptrons and Activation Functions | by Aymen Noor | Medium, Zugriff am November 16, 2025, https://medium.com/@mn05052002/introduction-to-neural-networks-understanding-perceptrons-and-activation-functions-bc5271709842 Multi-layer perceptron - Department of Computer Science, Zugriff am November 16, 2025, https://www.cs.upc.edu/~mmartin/ml-mds/ml-06.pdf Tutorial Perceptron Algorithm - Kaggle, Zugriff am November 16, 2025, https://www.kaggle.com/code/hongsean/tutorial-perceptron-algorithm Einführung in Aktivierungsfunktionen in neuronalen Netzen - DataCamp, Zugriff am November 16, 2025, https://www.datacamp.com/de/tutorial/introduction-to-activation-functions-in-neural-networks Neuronale Netzwerke: Aktivierungsfunktionen | Machine Learning - Google for Developers, Zugriff am November 16, 2025, https://developers.google.com/machine-learning/crash-course/neural-networks/activation-functions?hl=de Lecture 6. Notes on Linear Algebra. Perceptron - · Trevor Cohn, Zugriff am November 16, 2025, https://trevorcohn.github.io/comp90051-2017/slides/06_vectors_perceptron.pdf Einführung in die Mathematik neuronaler Netze, Zugriff am November 16, 2025, https://d-nb.info/952261707/04 Understanding Multi Layer Perceptrons(Part 1):Forward Propagation | by Aymen Noor, Zugriff am November 16, 2025, https://medium.com/@mn05052002/understanding-multi-layer-perceptrons-part-1-forward-propagation-e051d87f1714 Multilayer Perceptrons in Machine Learning: A Comprehensive Guide - DataCamp, Zugriff am November 16, 2025, https://www.datacamp.com/tutorial/multilayer-perceptrons-in-machine-learning Multi-Layer Perceptron Learning in Tensorflow - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/deep-learning/multi-layer-perceptron-learning-in-tensorflow/ How the backpropagation algorithm works - Neural networks and ..., Zugriff am November 16, 2025, http://neuralnetworksanddeeplearning.com/chap2.html A Derivation of Backpropagation in Matrix Form | Sudeep Raja, Zugriff am November 16, 2025, https://sudeepraja.github.io/Neural/ Die Mathematik hinter den Prinzipien des maschinellen Lernens - CR17, Zugriff am November 16, 2025, https://www.cr17.de/die-prinzipien-des-maschinellen-lernens/ 5.3. Forward Propagation, Backward Propagation, and ..., Zugriff am November 16, 2025, http://d2l.ai/chapter_multilayer-perceptrons/backprop.html Künstliches neuronales Netz - Wikipedia, Zugriff am November 16, 2025, https://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz What is the difference between a loss function and an optimization algorithm in deep learning | Abdul Wahab Junaid, Zugriff am November 16, 2025, https://awjunaid.com/artificial-intelligence/what-is-the-difference-between-a-loss-function-and-an-optimization-algorithm-in-deep-learning/ Loss or Cost Function | Deep Learning Tutorial 11 (Tensorflow Tutorial, Keras & Python), Zugriff am November 16, 2025, https://www.youtube.com/watch?v=E1yyaLRUnLo Mathematische Optimierung - Wikipedia, Zugriff am November 16, 2025, https://de.wikipedia.org/wiki/Mathematische_Optimierung Comparing optimization methods for deep learning in image processing applications - Fraunhofer-Publica, Zugriff am November 16, 2025, https://publica.fraunhofer.de/entities/publication/31276a49-6b15-4ee9-a00d-48ccd8a519ae Cross-Entropy vs MSE: Understanding Loss Functions in Classification - Medium, Zugriff am November 16, 2025, https://medium.com/@gosavipranav123/cross-entropy-vs-mse-understanding-loss-functions-in-classification-a07163cfc46a In which cases is the cross-entropy preferred over the mean squared error? - Stack Overflow, Zugriff am November 16, 2025, https://stackoverflow.com/questions/36515202/in-which-cases-is-the-cross-entropy-preferred-over-the-mean-squared-error Cross-Entropy vs. Mean square error : r/MachineLearning - Reddit, Zugriff am November 16, 2025, https://www.reddit.com/r/MachineLearning/comments/3ne2p7/crossentropy_vs_mean_square_error/ Understanding the difference between cross entropy and negative log-likelihood loss as implemented in PyTorch · GitHub, Zugriff am November 16, 2025, https://gist.github.com/RemyLau/c0892869bd769c421364a230d33a129a Deriving categorical cross entropy and softmax - Shivam Mehta, Zugriff am November 16, 2025, https://shivammehta25.github.io/posts/deriving-categorical-cross-entropy-and-softmax/ Cross-Entropy or Log Likelihood in Output layer, Zugriff am November 16, 2025, https://stats.stackexchange.com/questions/198038/cross-entropy-or-log-likelihood-in-output-layer Einführung in die Maximum-Likelihood-Schätzung (MLE) - DataCamp, Zugriff am November 16, 2025, https://www.datacamp.com/de/tutorial/maximum-likelihood-estimation-mle Maximum Likelihood, clearly explained!!! - YouTube, Zugriff am November 16, 2025, https://www.youtube.com/watch?v=XepXtl9YKwc Cross-Entropy, Negative Log-Likelihood, and All That Jazz | by Remy Lau - Medium, Zugriff am November 16, 2025, https://medium.com/data-science/cross-entropy-negative-log-likelihood-and-all-that-jazz-47a95bd2e81 Cross Entropy and Log Likelihood | Andrew M. Webb, Zugriff am November 16, 2025, https://www.awebb.info/probability/2017/05/18/cross-entropy-and-log-likelihood.html MSE is Cross Entropy at heart: Maximum Likelihood Estimation ..., Zugriff am November 16, 2025, https://towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b/ Gradient descent - Wikipedia, Zugriff am November 16, 2025, https://en.wikipedia.org/wiki/Gradient_descent 2301.09977 The Backpropagation algorithm for a math student - arXiv, Zugriff am November 16, 2025, https://arxiv.org/abs/2301.09977 Motivation. In this section we will develop expertise with an intuitive understanding of backpropagation, which is a way of computing gradients of expressions through recursive application of chain rule. Understanding of this process and its subtleties is critical for you to understand, and effectively develop, design and debug neural networks. - CS231n Deep Learning for Computer Vision, Zugriff am November 16, 2025, https://cs231n.github.io/optimization-2/ A Data Scientist's Guide to Gradient Descent and Backpropagation Algorithms, Zugriff am November 16, 2025, https://developer.nvidia.com/blog/a-data-scientists-guide-to-gradient-descent-and-backpropagation-algorithms/ Derivation of Backpropagation, Zugriff am November 16, 2025, https://www.cs.swarthmore.edu/~meeden/cs81/s10/BackPropDeriv.pdf Back-Propagation Explained using Partial Derivative | by Sagar Patil | Medium, Zugriff am November 16, 2025, https://medium.com/@sagar4999/back-propagation-explained-using-partial-derivative-25279e52931c A Step by Step Backpropagation Example - Matt Mazur, Zugriff am November 16, 2025, https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/ Deriving the Backpropagation Matrix formulas for a Neural Network - Matrix dimensions don't work out - Cross Validated, Zugriff am November 16, 2025, https://stats.stackexchange.com/questions/507207/deriving-the-backpropagation-matrix-formulas-for-a-neural-network-matrix-dimen Backpropagation: Step-By-Step Derivation | Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/backpropagation-step-by-step-derivation-99ac8fbdcc28/ Loss Functions and Optimization Algorithms in Deep Learning | by Ahmet Okan YILMAZ, Zugriff am November 16, 2025, https://aoyilmaz.medium.com/loss-functions-and-optimization-algorithms-in-deep-learning-fc9602a55b79 Stochastic gradient descent vs Gradient descent — Exploring the differences | by Seshu Kumar Vungarala | Medium, Zugriff am November 16, 2025, https://medium.com/@seshu8hachi/stochastic-gradient-descent-vs-gradient-descent-exploring-the-differences-9c29698b3a9b Difference between Batch Gradient Descent and Stochastic Gradient Descent - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/machine-learning/difference-between-batch-gradient-descent-and-stochastic-gradient-descent/ Optimization Rule in Deep Neural Networks - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/deep-learning/optimization-rule-in-deep-neural-networks/ What is the difference between Gradient Descent and Stochastic Gradient Descent?, Zugriff am November 16, 2025, https://datascience.stackexchange.com/questions/36450/what-is-the-difference-between-gradient-descent-and-stochastic-gradient-descent The Math Behind Stochastic Gradient Descent - Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/stochastic-gradient-descent-math-and-python-code-35b5e66d6f79/ The Math behind Adam Optimizer | Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/the-math-behind-adam-optimizer-c41407efe59b/ RMSProp Optimizer in Deep Learning - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/deep-learning/rmsprop-optimizer-in-deep-learning/ RMSProp Definition - DeepAI, Zugriff am November 16, 2025, https://deepai.org/machine-learning-glossary-and-terms/rmsprop A Complete Guide to the RMSprop Optimizer | Built In, Zugriff am November 16, 2025, https://builtin.com/articles/rmsprop-optimizer RMSProp - Cornell University Computational Optimization Open Textbook - Optimization Wiki, Zugriff am November 16, 2025, https://optimization.cbe.cornell.edu/index.php?title=RMSProp adam:amethod for stochastic optimization - arXiv, Zugriff am November 16, 2025, https://arxiv.org/pdf/1412.6980 Intro to optimization in deep learning: Momentum, RMSProp and Adam | DigitalOcean, Zugriff am November 16, 2025, https://www.digitalocean.com/community/tutorials/intro-to-optimization-momentum-rmsprop-adam 1712.07628 Improving Generalization Performance by Switching from Adam to SGD - arXiv, Zugriff am November 16, 2025, https://arxiv.org/abs/1712.07628 Discussion Why do people use SGD/RMSProp or any other optimizer when Adam gives adaptive learning rate for every single parameter? : r/MachineLearning - Reddit, Zugriff am November 16, 2025, https://www.reddit.com/r/MachineLearning/comments/90xpb6/discussion_why_do_people_use_sgdrmsprop_or_any/ Understanding l1 and l2 Regularization | Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/understanding-l1-and-l2-regularization-93918a5ac8d0/ L1 vs L2 Regularization in Machine Learning: Differences, Advantages and How to Apply Them in... | Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/l1-vs-l2-regularization-in-machine-learning-differences-advantages-and-how-to-apply-them-in-72eb12f102b5/ Zugriff am November 16, 2025, https://www.studysmarter.de/studium/ingenieurwissenschaften/maschinelles-lernen-studium/l2-regularisierung/#:~:text=Die%20Formel%20der%20L2%2DRegularisierung&text=Die%20Allgemeine%20Form%20der%20Regularisierungsverlustfunktion,Hierbei%20beschreibt%20die%20regulierte%20Verlustfunktion. Weight Decay: L2-Regularisierung & Anwendung | StudySmarter, Zugriff am November 16, 2025, https://www.studysmarter.de/studium/ingenieurwissenschaften/maschinelles-lernen-studium/weight-decay/ Regularization (mathematics) - Wikipedia, Zugriff am November 16, 2025, https://en.wikipedia.org/wiki/Regularization_(mathematics) Regularization — Understanding L1 and L2 regularization for Deep Learning | by Ujwal Tewari | Analytics Vidhya | Medium, Zugriff am November 16, 2025, https://medium.com/analytics-vidhya/regularization-understanding-l1-and-l2-regularization-for-deep-learning-a7b9e4a409bf L1 vs L2 Regularization vs Weight Decay: Key Differences Every ML Engineer Must Know, Zugriff am November 16, 2025, https://medium.com/the-ml-intuition/l1-vs-l2-regularization-vs-weight-decay-key-differences-every-ml-engineer-must-know-5f13625301cf Why L1 norm for sparse models - regression - Stats StackExchange, Zugriff am November 16, 2025, https://stats.stackexchange.com/questions/45643/why-l1-norm-for-sparse-models Zugriff am November 16, 2025, https://en.wikipedia.org/wiki/Regularization_(mathematics)#:~:text=L1%20regularization%20(also%20called%20LASSO,the%20square%20of%20the%20coefficients. Fighting Overfitting With L1 or L2 Regularization: Which One Is Better?, Zugriff am November 16, 2025, https://neptune.ai/blog/fighting-overfitting-with-l1-or-l2-regularization L1 vs L2 regularization. Which is "better"? : r/learnmachinelearning - Reddit, Zugriff am November 16, 2025, https://www.reddit.com/r/learnmachinelearning/comments/1eqp6bc/l1_vs_l2_regularization_which_is_better/ 3. The difference between L1 and L2 regularization - explained.ai, Zugriff am November 16, 2025, https://explained.ai/regularization/L1vsL2.html L1 and L2 Regularization Methods, Explained - Built In, Zugriff am November 16, 2025, https://builtin.com/data-science/l2-regularization Understanding L1 and L2 regularization: techniques for optimized model training - Wandb, Zugriff am November 16, 2025, https://wandb.ai/mostafaibrahim17/ml-articles/reports/Understanding-L1-and-L2-regularization-techniques-for-optimized-model-training--Vmlldzo3NzYwNTM5 How L1 Regularization brings Sparsity` - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/machine-learning/how-l1-regularization-brings-sparsity/ Why Does the L1 Norm Enforce Sparsity in Models? | Baeldung on Computer Science, Zugriff am November 16, 2025, https://www.baeldung.com/cs/l1-norm-model-sparsity Understanding L1 and L2 regularization with analytical and probabilistic views - Medium, Zugriff am November 16, 2025, https://medium.com/intuition/understanding-l1-and-l2-regularization-with-analytical-and-probabilistic-views-8386285210fc Was ist die Regularisierung im Machine Learning? - Data Basecamp, Zugriff am November 16, 2025, https://databasecamp.de/ki/regularisierung D Is there any geometric intuition behind why L1 Regularization produces "sparse solutions"? : r/statistics - Reddit, Zugriff am November 16, 2025, https://www.reddit.com/r/statistics/comments/mfc0ph/d_is_there_any_geometric_intuition_behind_why_l1/ The Minimalist Approach: Understanding Why L1 Regularization Creates Sparse Models | by Shubham Sangole | Medium, Zugriff am November 16, 2025, https://medium.com/@sangoleshubham20/the-minimalist-approach-understanding-why-l1-regularization-creates-sparse-models-8b911f5466af Why L1 norm creates Sparsity compared with L2 norm | by Satishkumar Moparthi - Medium, Zugriff am November 16, 2025, https://satishkumarmoparthi.medium.com/why-l1-norm-creates-sparsity-compared-with-l2-norm-3c6fa9c607f4 Why do we only see $L_1$ and $L_2$ regularization but not other norms? - Cross Validated, Zugriff am November 16, 2025, https://stats.stackexchange.com/questions/269298/why-do-we-only-see-l-1-and-l-2-regularization-but-not-other-norms Why L1 Regularization Produces Sparse Weights (Geometric Intuition) - YouTube, Zugriff am November 16, 2025, https://www.youtube.com/watch?v=4qJrQ7DxAdk Dropout in (Deep) Machine learning | by Amar Budhiraja - Medium, Zugriff am November 16, 2025, https://medium.com/@amarbudhiraja/learning-less-to-learn-better-dropout-in-deep-machine-learning-74334da4bfc5 Understanding Dropout with the Simplified Math behind it | by Chitta Ranjan - Medium, Zugriff am November 16, 2025, https://medium.com/data-science/simplified-math-behind-dropout-in-deep-learning-6d50f3f47275 Understanding Dropout - NIPS papers, Zugriff am November 16, 2025, http://papers.neurips.cc/paper/4878-understanding-dropout.pdf Dropout as a Bayesian Approximation: Representing Model ..., Zugriff am November 16, 2025, https://proceedings.mlr.press/v48/gal16.html 1506.02157 Dropout as a Bayesian Approximation: Appendix - arXiv, Zugriff am November 16, 2025, https://arxiv.org/abs/1506.02157 Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning, Zugriff am November 16, 2025, https://arxiv.org/abs/1506.02142 Dropout as a Bayesian Approximation: Insights and Applications - University of Oxford Department of Computer Science, Zugriff am November 16, 2025, https://www.cs.ox.ac.uk/people/yarin.gal/website/PDFs/Dropout_as_a_Bayesian_approximation.pdf Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning, Zugriff am November 16, 2025, http://proceedings.mlr.press/v48/gal16.pdf Stable tensor neural networks for efficient deep learning - Frontiers, Zugriff am November 16, 2025, https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1363978/full Tensor Networks Meet Neural Networks: A Survey and Future Perspectives - arXiv, Zugriff am November 16, 2025, https://arxiv.org/html/2302.09019v3 DNND 2: Tensors and Convolution - Max Liani, Zugriff am November 16, 2025, https://maxliani.wordpress.com/2023/03/24/dnnd-2-tensors-and-convolution/ Pooling layer - Wikipedia, Zugriff am November 16, 2025, https://en.wikipedia.org/wiki/Pooling_layer CNN Explainer - Polo Club of Data Science, Zugriff am November 16, 2025, https://poloclub.github.io/cnn-explainer/ Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition - ais.uni-bonn.de, Zugriff am November 16, 2025, https://www.ais.uni-bonn.de/papers/icann2010_maxpool.pdf Learning a deep convolutional neural network via tensor decomposition - NSF Public Access Repository, Zugriff am November 16, 2025, https://par.nsf.gov/servlets/purl/10312034 An Introduction to Convolutional Neural Networks (CNNs) - DataCamp, Zugriff am November 16, 2025, https://www.datacamp.com/tutorial/introduction-to-convolutional-neural-networks-cnns Cross-Correlation VS Convolution - Lei Mao's Log Book, Zugriff am November 16, 2025, https://leimao.github.io/blog/Cross-Correlation-VS-Convolution/ Convolution and cross-correlation in neural networks - PyImageSearch, Zugriff am November 16, 2025, https://pyimagesearch.com/2021/05/14/convolution-and-cross-correlation-in-neural-networks/ Zugriff am November 16, 2025, https://www.geeksforgeeks.org/machine-learning/convolution-and-cross-correlation-in-cnn/#:~:text=Answer%3A%20Convolution%20in%20CNN%20involves,data%2C%20despite%20their%20technical%20differences. Convolution and Cross-Correlation in CNN - GeeksforGeeks, Zugriff am November 16, 2025, https://www.geeksforgeeks.org/machine-learning/convolution-and-cross-correlation-in-cnn/ D Why conv nets not called correlation nets ? : r/MachineLearning - Reddit, Zugriff am November 16, 2025, https://www.reddit.com/r/MachineLearning/comments/8fah7d/d_why_conv_nets_not_called_correlation_nets/ Gentle Dive into Math Behind Convolutional Neural Networks | by Piotr Skalski - Medium, Zugriff am November 16, 2025, https://medium.com/data-science/gentle-dive-into-math-behind-convolutional-neural-networks-79a07dd44cf9 7.5. Pooling — Dive into Deep Learning 1.0.3 documentation, Zugriff am November 16, 2025, https://d2l.ai/chapter_convolutional-neural-networks/pooling.html MAX POOLING. The pooling operation involves sliding… | by DhanushKumar - Medium, Zugriff am November 16, 2025, https://medium.com/@danushidk507/max-pooling-ef545993b6e4 Pooling Methods in Deep Neural Networks, a Review - arXiv, Zugriff am November 16, 2025, https://arxiv.org/pdf/2009.07485 Understanding LSTM Networks - Colah's blog, Zugriff am November 16, 2025, https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Recurrent Neural Network & LSTM with Practical Implementation | by Amir Ali - Medium, Zugriff am November 16, 2025, https://medium.com/machine-learning-researcher/recurrent-neural-network-rnn-e6f69db16eba Backpropagation Through Time (BPTT): Explained With Derivations, Zugriff am November 16, 2025, https://www.quarkml.com/2023/08/backpropagation-through-time-explained-with-derivations.html Backpropagation Through Time - Harshit Kumar, Zugriff am November 16, 2025, https://kharshit.github.io/blog/2019/02/22/backpropagation-through-time 9.7. Backpropagation Through Time — Dive into Deep Learning 1.0.3 documentation, Zugriff am November 16, 2025, https://d2l.ai/chapter_recurrent-neural-networks/bptt.html Lecture 15: Exploding and Vanishing Gradients, Zugriff am November 16, 2025, https://www.cs.toronto.edu/~rgrosse/courses/csc321_2017/readings/L15%20Exploding%20and%20Vanishing%20Gradients.pdf Vanishing/Exploding Gradients Problem | by Kushan Sharma - Medium, Zugriff am November 16, 2025, https://medium.com/@kushansharma1/vanishing-exploding-gradients-problem-1901bb2db2b2 Vanishing and Exploding Gradients in Deep Neural Networks - Analytics Vidhya, Zugriff am November 16, 2025, https://www.analyticsvidhya.com/blog/2021/06/the-challenge-of-vanishing-exploding-gradients-in-deep-neural-networks/ Vanishing gradient problem - Wikipedia, Zugriff am November 16, 2025, https://en.wikipedia.org/wiki/Vanishing_gradient_problem The precise explanation of vanishing gradient : r/learnmachinelearning - Reddit, Zugriff am November 16, 2025, https://www.reddit.com/r/learnmachinelearning/comments/emy28c/the_precise_explanation_of_vanishing_gradient/ An Introduction to Recurrent Neural Networks and the Math That Powers Them - MachineLearningMastery.com, Zugriff am November 16, 2025, https://machinelearningmastery.com/an-introduction-to-recurrent-neural-networks-and-the-math-that-powers-them/ The Math Behind LSTM - Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/the-math-behind-lstm-9069b835289d/ LSTM and its equations. LSTM stands for Long Short Term Memory… | by Divyanshu Thakur | Medium, Zugriff am November 16, 2025, https://medium.com/@divyanshu132/lstm-and-its-equations-5ee9246d04af 10.1. Long Short-Term Memory (LSTM) — Dive into Deep Learning 1.0.3 documentation, Zugriff am November 16, 2025, https://d2l.ai/chapter_recurrent-modern/lstm.html Long-Short Term Memory and Other Gated RNNs - CEDAR, Zugriff am November 16, 2025, https://cedar.buffalo.edu/~srihari/CSE676/10.10%20LSTM.pdf Deep Dive into Self-Attention by Hand✍︎ | Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/deep-dive-into-self-attention-by-hand-%EF%B8%8E-f02876e49857/ Transformer (Maschinelles Lernen) - Wikipedia, Zugriff am November 16, 2025, https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen) Attention Is All You Need: A Deep Dive into Transformer Architecture | by Rezowanur Rahman Robin | Medium, Zugriff am November 16, 2025, https://medium.com/@robin5002234/attention-is-all-you-need-a-deep-dive-into-transformer-architecture-8c34753098c7 Attention in transformers, step-by-step | Deep Learning Chapter 6 - YouTube, Zugriff am November 16, 2025, https://www.youtube.com/watch?v=eMlx5fFNoYc What exactly are keys, queries, and values in attention mechanisms? - Stats StackExchange, Zugriff am November 16, 2025, https://stats.stackexchange.com/questions/421935/what-exactly-are-keys-queries-and-values-in-attention-mechanisms Query, Key and Value in Attention mechanism | by Nikhil Verma - Medium, Zugriff am November 16, 2025, https://lih-verma.medium.com/query-key-and-value-in-attention-mechanism-3c3c6a2d4085 Understanding Transformers: A Deep Dive into NLP's Core Technology - Analytics Vidhya, Zugriff am November 16, 2025, https://www.analyticsvidhya.com/blog/2024/04/understanding-transformers-a-deep-dive-into-nlps-core-technology/ 11. Attention Mechanisms and Transformers - Dive into Deep Learning, Zugriff am November 16, 2025, http://www.d2l.ai/chapter_attention-mechanisms-and-transformers/index.html A Mathematical View of Attention Models in Deep Learning - Texas A&M University, Zugriff am November 16, 2025, https://people.tamu.edu/~sji/classes/attn-slides.pdf Attention (machine learning) - Wikipedia, Zugriff am November 16, 2025, https://en.wikipedia.org/wiki/Attention_(machine_learning) Scaled Dot-Product Attention and Masking in Transformers | CodeSignal Learn, Zugriff am November 16, 2025, https://codesignal.com/learn/courses/sequence-models-the-dawn-of-attention-1/lessons/scaled-dot-product-attention-and-masking-in-transformers-1 In Depth Understanding of Attention Mechanism (Part II) - Scaled Dot-Product Attention and Example | by FunCry | Medium, Zugriff am November 16, 2025, https://medium.com/@funcry/in-depth-understanding-of-attention-mechanism-part-ii-scaled-dot-product-attention-and-its-7743804e610e Attention Mechanism Illustration : Transformers Series - Part 1. | by Incletech Admin, Zugriff am November 16, 2025, https://medium.com/@incle/attention-mechanism-math-illustration-transformers-series-part-1-37c24ac9d2f2 The (surprisingly simple!) math behind the transformer attention mechanism | by Touhid, Zugriff am November 16, 2025, https://medium.com/@touhid3.1416/the-surprisingly-simple-math-behind-transformer-attention-mechanism-d354fbb4fef6 Transformer Attention: A Guide to the Q, K, and V Matrices - billparker.ai, Zugriff am November 16, 2025, https://www.billparker.ai/2024/10/transformer-attention-simple-guide-to-q.html Fun matrix math example: the Transformer's attention mechanism - Fast.ai forums, Zugriff am November 16, 2025, https://forums.fast.ai/t/fun-matrix-math-example-the-transformers-attention-mechanism/41606 Primer on Bayesian Deep Learning | Towards Data Science, Zugriff am November 16, 2025, https://towardsdatascience.com/primer-on-bayesian-deep-learning-d06e0601c2ae/ What is a Bayesian Neural Network? - Databricks, Zugriff am November 16, 2025, https://www.databricks.com/glossary/bayesian-neural-network A Beginner's Guide to the Bayesian Neural Network - Coursera, Zugriff am November 16, 2025, https://www.coursera.org/articles/bayesian-neural-network Bayesian Neural Networks - Department of Computer Science, University of Toronto, Zugriff am November 16, 2025, https://www.cs.toronto.edu/~duvenaud/distill_bayes_net/public/ Hands-on Bayesian Neural Networks – A Tutorial for Deep Learning Users - arXiv, Zugriff am November 16, 2025, https://arxiv.org/pdf/2007.06823 Deep Learning: A Bayesian Perspective - Project Euclid, Zugriff am November 16, 2025, https://projecteuclid.org/journals/bayesian-analysis/volume-12/issue-4/Deep-Learning-A-Bayesian-Perspective/10.1214/17-BA1082.pdf