Als generative KI bezeichnet man eine KI, die in der Lage ist zu erschaffen. Während Large Language Models (LLMs) wie die GPT-Modelle hinter ChatGPT sehr viel Aufmerksamkeit bekommen, umfasst der Begriff „Generative KI“ deutlich mehr: neben dem Schreiben von Texten kann KI auch menschliche Stimmen synthetisieren, Bilder und Videos entwerfen, Musik komponieren, Code schreiben und vieles mehr. Anders als viele herkömmliche KI-Systeme, die bestehende Daten analysieren und/oder Vorhersagen machen, produziert generative KI neue, originelle Inhalte.
Selbstverständlich kann generative KI ebenfalls genutzt werden, um Analysen und Vorhersagen zu machen – man lässt ein LLM einfach Text generieren bzw. vervollständigen, der diese Informationen enthält, fragt also z.B. ChatGPT einfach nach der gesuchten Vorhersage. Darüber, ob das der beste und effizienteste Weg ist, um optimale Vorhersagen zu bekommen, lässt sich natürlich streiten. Dass generative KI ein sehr vielseitiges und mächtiges Paradigma ist, steht jedoch fest.
Modellarchitektur
Generative KI-Modelle basieren meist auf neuronalen Netzen, wobei verschiedene Architekturen ihren Einsatz finden – ein noch immer aktives Forschungsfeld. Die relevantesten Architekturen sind:
- Transformers, primär für Textgenerierung und verantwortlich für den aktuellen Boom rund um Modelle wie ChatGPT.
- Diffusion Models, der aktuelle Stand der Technik für Bild- und Videogenerierung.
- GANs (Generative Adversarial Networks), ermöglichten erstmal Bildgenerierung in hoher Qualität und haben dadurch generative KI populär gemacht.
- VAEs (Variational Autoencoders), vielseitig einsetzbar, etwa für Bilder und Musikkomposition
Transformer-Architekturen sind der Kern heutiger LLMs und haben maßgeblich dazu beigetragen, Texte zu generieren, die kaum von menschlich verfassten Texten zu unterscheiden sind. Sie werden in vielen bekannten KI-Anwendungen eingesetzt. Außerdem lassen sich Transformer-Konzepte auf andere Bereiche wie Bild- und Sprachgenerierung übertragen und stärken so auch in weiteren Anwendungsfeldern die Leistungsfähigkeit generativer KI-Modelle.
Alle genannten Modelle verarbeiten ihren Input, indem sie ihn zunächst in eine numerische Repräsentation umwandeln. Diese Repräsentationen werden dann durch mathematische Berechnungen mit Millionen oder Milliarden von Parametern verarbeitet. Eine besondere Stärke der Transformer-Architekturen ist ihr „Attention“-Mechanismus: Er ermöglicht es dem Modell, sich dynamisch auf bestimmte Teile des Inputs und der Modellparameter zu konzentrieren, je nachdem, welche Informationen am relevantesten sind.
Auch wenn die Nuancen verschiedener Modellarchitekturen höchst interessant sind, so sind die Unterschiede nicht entscheidend, wenn es darum geht die Grundlagen generativer KI zu verstehen. Stattdessen ist es sinnvoll sich auf den Trainingsprozess zu konzentrieren und zu verstehen welche Daten in welcher Phase zu welchem Zweck genutzt werden.
Trainingsprozess
Für das Generieren von Text geht kein Weg an Large Language Models (LLMs) vorbei. Auch wenn Modelle für Bilder, Musik und Video ebenfalls faszinierende Fortschritte machen, so sind diese oft von den Grundlagen des LLM-Trainings inspiriert. Folglich macht es Sinn, sich auf Training und Entwicklung von LLMs zu konzentrieren, um aktuelle generative KI zu verstehen.
Phase 1: Pre-Training auf einem großen Textkorpus
Die Aufgabe: „Sage das nächste Wort vorher“ und zwar auf einem gigantischen Textkorpus, mehr oder weniger „dem Internet“. In diesem Trainingsschritt werden die Milliarden von verfügbaren Parametern sukzessive so angepasst, dass sie die Trainingsdaten verinnerlichen. Das bedeutet, dass die Modellparameter nach dem Training im Prinzip als verlustbehaftete Kompression des Internets gesehen werden können. Das Training beinhaltet also das Lernen von Faktenwissen, schließlich ist es einfacher erfolgreich das nächste Wort in einem beliebigen Text zu raten, wenn man über relevantes Wissen verfügt. Man denke an den Satz: „Erhitzt man Wasser auf 100°C beginnt es zu […]“.
Nach dieser Phase des Trainings verfügt man über ein Modell, das glaubhaften Text produzieren kann. Es vervollständigt Artikel oder entwirft Dokumente, die echt wirken. Auch wenn das bereits Nutzen hat, so ist ein Modell nach dieser Phase noch extrem anfällig dafür falsche Informationen zu produzieren – zu halluzinieren. Die Modelle produzieren Text, der korrekt aussieht und plausibel klingt, aber tatsächlich frei erfunden ist. So könnte das Modell beispielsweise Nachrichten über Ereignisse, die so nie stattgefunden haben, erfinden oder Beschreibungen fiktionaler Produkte erstellen. Das ist nicht erstaunlich, bisher wurde das Modell schließlich nur darauf trainiert wahrscheinliche Folgen von Worten vorherzusagen und nicht um Fakten zu verifizieren.
Phase 2: Instruction Fine-Tuning
Im nächsten Schritt geht es darum das Modell zu einem hilfreichen Assistenten zu machen. Anders als in Phase 1 eignet sich dafür ein extrem großer und diverser Datensatz, wie das Internet, nicht mehr optimal. Um das Modell besser auf den Nutzen für User einzustimmen, bedarf es Fine-Tuning auf einem entsprechenden Datensatz. Dabei geht es um Konversationen mit Fokus auf Hilfsbereitschaft, Relevanz und Klarheit, um sicherzustellen, dass generierte Antworten besser mit den Bedürfnissen und Erwartungen von Nutzer übereinstimmen.
In diesem Fine-Tuning-Prozess werden speziell kuratierte Datensätze benötigt in denen Interaktionen zwischen Nutzern und einem Assistenten modelliert sind. Diese Konversationen sind in der Regel manuell durch Experten erstellt. Deshalb spricht man bei dieser Phase oft auch von „Supervised Fine Tuning (SFT)“. Durch diese Daten werden Modelle angeleitet sich so hilfreich wie möglich zu verhalten und eben auch zuzugeben, wenn sie nicht helfen können, statt einfach Fakten zu fabrizieren. Wie so oft gilt auch hier: Qualität und Quantität der Daten sind hinterher maßgeblich verantwortlich für die Qualität der entstehenden LLMs. Folglich sind diese Datensätze sehr wertvoll und Unternehmen hinter den großen LLMs investieren viel in ihre Erstellung.
Nach dieser Phase sollten sich Modelle nun als verlässlichere Assistenten verhalten und geeignet sein, verschiedenste Aufgaben zu erfüllen. Auch wenn dieses Verhalten in dieser Phase erlernt wird, greifen die Modelle beim Erfüllen der Aufgaben weiterhin auf das immense Wissen zurück, das in Phase 1 verinnerlicht wurde.
Phase 3: Vergleichende Labels
Das manuelle Erstellen der Datensätze aus Phase 2 ist aufwendig und teuer. Besonders um komplexe, fachliche Fragen zu beantworten sind Experten nötig. Ein effizienterer Ansatz kann sein ein bestehendes Modell (z.B. eine frühere Version oder eben ein Modell nach Phase 2 oder sogar 1) mehrere Antworten zu einer Frage generieren zu lassen und dann Menschen diese generierten Antworten vergleichen zu lassen. Das ist oft einfacher und deutlich schneller machbar als Menschen aufwendig möglichst ideale Antworten formulieren zu lassen. Darüber hinaus ist es sogar möglich (Zustimmung vorausgesetzt) die Interaktionen von Nutzer mit einem LLM auszuwerten um ähnliches Feedback automatisiert zu sammeln. Dies reduziert den Aufwand enorm und liefert dennoch die entscheidenden Einblicke, die es erlauben Modelle zu verbessern.
Für gewöhnlich liefert diese Selektion Datensätze mit paarweisen Vergleichen zwischen zwei Antworten. Um diese möglichst effektiv zu nutzen, werden spezielle Trainingsalgorithmen verwendet (PPO, DPO, etc.). Die gesamte Phase wird oft als „Reinforcement Learning from Human Feedback“ (RLHF) bezeichnet und ermöglicht es, Modelle kontinuierlich zu verbessern.
Es fällt auf, dass Phasen 2 und 3 durchaus sehr ähnlich, und teilweise sogar austauschbar, sind. Phase 3 kann dabei als der effizientere Weg gesehen werden, setzt aber voraus, dass man bereits über ein Modell verfügt, dass hinreichend gute Antworten produziert. Darüber hinaus ist es schwerer gezielt auf das Modellverhalten einzuwirken: Kann man in Phase 2 einfach Interaktionen erstellen lassen, die genau das gewünschte Verfahren an den Tag legen, so ist es gut möglich, dass das optimale Verhalten in den Vergleichen von Phase 3 gar nicht auftaucht. Es ist deshalb zu erwarten, dass die besten LLMs am Markt tatsächlich alle drei Phasen durchlaufen.
Phase 4 (optional): Use-Case-spezifisches Fine-Tuning
In einer optionalen vierten Phase ist es möglich ein Modell für einen ganz speziellen Anwendungsfall zu fine-tunen. Die dafür nötigen Datensätze sind strukturell identisch zu denen aus vorherigen Phasen aber inhaltlich eben genau auf den Einsatz des Modells zugeschnitten. Geht es beispielsweise darum ein Modell mit einer internen API interagieren zu lassen, kann Training auf entsprechenden Beispielen sehr effektiv und wertvoll sein.
Das Fine-Tuning in dieser Phase bietet sich endlich nun auch auf Hardware an, die für normale Unternehmen realistisch ist und nicht den wenigen Tech-Giganten vorenthalten bleibt. In diesem Prozess werden für gewöhnlich nicht mehr alle Milliarden von Parametern modifiziert, sondern nur zusätzliche Komponenten, sogenannte Adapter, erstellt. Diese haben in der Regel deutlich weniger Parameter und lassen sich kosteneffizierter und mit weniger Ressourcen trainieren.
Der zweite Teil dieser Artikelserie über GenAI beleuchtet einige der wirkungsvollsten und innovativsten Anwendungen dieser leistungsstarken Technologie. Lesen Sie weiter.
Autor © 2024: Dr. Björn Buchhold – www.linkedin.com/in/björn-buchhold-3a497a209/