Miscellaneous

Beschreibender Text m Abschnitt "Miscellaneous" wird unter anderem auf externe Arbeiten, wertvolle Internet-Links und anderes Wissenswerte hingewiesen. Es dient als Art Themenspeicher für zukünftige Schwerpunkte, die unseres Erachtens erwähenswert sind. Schwerpunkt sind aktuelle Entwicklungen bei LLMs und der Datenanaylse.

Kolmogorov-Arnold-Netze (KAN)

Kolmogorov-Arnold-Netze (KAN) sind ein theoretisches Konzept der neuronalen Netzwerke, das auf dem Kolmogorovschen Superpositionssatz basiert. Dieser Satz, bewiesen von Andrey Kolmogorov in den 1950er Jahren, beschreibt die Fähigkeit, jede kontinuierliche Funktion in mehreren Variablen durch eine Superposition (Kombination) von eindimensionalen Funktionen darzustellen. Das Konzept wurde später von Vladimir Arnold verallgemeinert. Es bewies auch das 13. Hilbert Problem.

Der Vorteil von KAN Netzen ist, dass sie am Ende des Lernvorgangs eine explizite Funktionsdarstellung zwischen der Eingabeschicht und der Ausgabeschicht erlauben, d.h. keine "Black-Box". Damit sind - anders als bei klassischen Neuronalen Netzen - weitere mathematische Analysen über die mathematischen Ableitungen möglich. Hier ist eine interessante theoretische Arbeit dazu und hier ein GitHub-Repository zum selbst ausprobieren.

Topologische Datenanalyse (TDA)

Die Topologische Datenanalyse (TDA) ist ein modernes Werkzeug in der Datenwissenschaft, das auf Konzepten der Algebraischen Topologie basiert. Sie zielt darauf ab, strukturelle Eigenschaften von hochdimensionalen und komplexen Datensätzen zu erkennen, die mit traditionellen Methoden schwer zugänglich sind. Ein zentraler Ansatz der TDA ist die Verwendung von Persistent Homology, die stabile und robuste topologische Merkmale wie Cluster, Löcher oder Hohlräume in den Daten identifiziert.

Der Vorteil von TDA ist ihre Fähigkeit, Daten unabhängig von einer bestimmten metrischen Struktur zu analysieren. Dies macht sie besonders geeignet für Anwendungen in Bereichen wie Bildverarbeitung, Bioinformatik und Sozialnetzwerkanalyse. Hier ist eine einführende Arbeit zu Barcodes in der TDA und hier ein populäres Tool, das TDA in Python zugänglich macht.

Self-Supervised Learning und Kohonen-Netze

Self-Supervised Learning ist ein Ansatz, bei dem neuronale Netze lernen, sich selbst Labels aus den Daten zu generieren, ohne auf große Mengen an annotierten Daten angewiesen zu sein. Dies ermöglicht es, die in den Daten enthaltenen Informationen effizienter zu nutzen und reduziert die Abhängigkeit von aufwendig annotierten Datensätzen.

Verwandte Ansätze wie Kohonen-Netze (Self-Organizing Maps, SOMs) (vgl. Case Study Optimierung) teilen ähnliche Prinzipien. SOMs nutzen unüberwachtes Lernen, um hochdimensionale Daten auf einer niedrigdimensionalen Karte darzustellen, wobei die Topologie der Eingabedaten erhalten bleibt. Diese Netzwerke eignen sich besonders für Mustererkennung, Clustering und Dimensionsreduktion.

Kohonen-Netze verwenden eine Wettbewerbsdynamik (Competitive Learning), bei der Neuronen um die Aktivierung konkurrieren, während Self-Supervised Learning typischerweise durch Loss-Funktionen gesteuert wird, die selbstgenerierte Labels nutzen.

Während Self-Supervised Learning eher auf universelle Vortrainierungsstrategien abzielt, bieten Kohonen-Netze spezielle Vorteile für Visualisierung und datengetriebene Explorationen. Beide Ansätze ergänzen sich und tragen zur Weiterentwicklung unüberwachter Lernverfahren bei. Eine unfangreiche Programmsammlung zu Self-Supervised Learning find sich in diesem GitHub-Repository,