Seit 2017 ist der DeepL Translator online, der von der damaligen Linguee GmbH in Köln entwickelt wurde. DeepL wurde bald zum besten Übersetzungstool gekürt. Obwohl DeepL auf neuronalen Netzen basiert, wurde der Sprachübersetzer nicht als Künstliche Intelligenz beworben und wurde von der Öffentlichkeit auch nicht als solche wahrgenommen.
Im November 2022 startete ChatGPT als öffentliche Website und nur zwei Monate später war schon die Anzahl von über 100 Millionen Nutzern erreicht. Derzeit sind es bereits 600 Mio. monatliche Nutzer. 2024 nutzten bereits über 70% der Unternehmen KI in irgendeiner Form, was auf eine breite betriebliche Verbreitung vieler Tools hinweist.
Technischer Durchbruch 2017
Der technische Durchbruch, der ab 2020 zu einer erkennbar rasanten Entwicklung generativer KI führte, basiert auf mehreren ineinandergreifenden Fortschritten. Die zentrale Rolle spielt die sogenannte ↗Transformer-Architektur, die 2017 eingeführt wurde und in den folgenden Jahren zur vollen Wirkung kam.
Während frühere neuronale Netze nur direkt aufeinanderfolgende Wörter bewertet haben, analysiert ein Transformer gleichzeitig auch Zusammenhänge zu anderen Wörtern und bewertet sie im Hinblick auf einen gegebenen Kontext (Aufmerksamkeitsmechanismus). Das führt zu deutlich leistungsfähigeren Sprachmodellen.
In den Jahren 2018 bis 2020 zeigte sich durch Projekte wie GPT-2 und GPT-3, dass Transformer bei ausreichender Größe und Datenfülle zu bemerkenswert zusammenhängenden und kreativen Textausgaben fähig sind. OpenAI, Google und andere entdeckten, dass die bloße Vergrößerung von Modellparametern und Trainingsdaten zu überproportional besseren Ergebnissen führt (Scaling Laws).
Die Modellgröße, d.h. die Parameter-Anzahl, wird vor dem Training festgelegt. Um ein Modell möglichst effektiv zu trainieren, muss die Parameteranzahl und die Datenmenge (Trainingsdaten) aufeinander abgestimmt werden. In einem Sprachmodell lernt ein Parameter z.B. wie stark das Wort „Haus“ in einem bestimmten Kontext mit „Fenster“ oder „Wohnung“ zusammenhängt (Gewichtung).
Je mehr Parameter ein Modell hat, desto komplexere Muster, Zusammenhänge und Bedeutungen kann es erkennen. Allerdings steigt auch der Rechenaufwand erheblich. GPT wuchs von 1,5 Millionen Parametern (2019) auf 175 Milliarden Parameter (GPT-3 in 2020) und wuchs aktuell auf mehrere hunderte Milliarden Parameter.
Spezialisierte Hardware ab 2016
Eine andere technische Entwicklung betrifft die Hardware: Beim Training von neuronalen Netzwerken werden Abermilliarden Rechenoperationen durchgeführt, genauer gesagt Matrix-Multiplikationen (Matrizen-Operationen) mit Gleitkommazahlen. Normale Prozessoren (CPUs) brauchen für solche Berechnungen recht lange. Hingegen sind Grafikprozessoren (GPUs) auf Matrix-Multiplikationen spezialisiert, eigentlich für 3D-Grafik z.B. in Ego-Shootern. Zudem bestehen GPUs aus tausenden kleiner Rechenkerne, die parallel arbeiten können. Wegen des Erfolgs beim KI-Training von AlexNet in 2012 brachte NVIDIA ab 2016 gezielt KI-optimierte GPUs auf den Markt. Dadurch arbeiten GPUs beim KI-Training bis zu 100x schneller als CPUs.
Aber eine GPU allein macht noch keinen Frühling.
Z.B. wurden zum Trainieren von GPT-4 in 2022 ca. 25.000 NVIDIA A100 GPUs eingesetzt,
verteilt auf über 3.000 Server, angemietet in Rechenzentren eines Cloud-Anbieters.
Das Training dauerte ca. 90 Tage.
Die Kosten für Miete inkl. Strom und Personal soll bei ca. 100 Millionen Dollar gelegen haben.
Der entscheidende Punkt ist hier, dass sowohl die Hardware-Spezialisierung als auch
die Verfügbarkeit über Cloud-Services erst in den letzten 8 Jahren
wirklich Fahrt aufgenommen haben.
Weitere Faktoren
Nicht allein die Parameter-Größe ein Modells war entscheidend. Ein weiterer Schlüssel war das sogenannte „Reinforcement Learning from Human Feedback“ (RLHF), das ab etwa 2022 eingesetzt wurde. Dabei lernen KI-Modelle nicht nur aus fertigen Texten, sondern auch aus menschlichem Feedback darüber, welche Antworten hilfreich, präzise oder höflich sind. Dadurch wurden sie alltagstauglicher und besser steuerbar.
Auch die Bildgenerierung erlebte einen entscheidenden Wandel. Während frühere Bild-KIs wie ↗GAN instabil und schwer kontrollierbar waren, brachten ab 2021 sogenannte Diffusionsmodelle einen Qualitätssprung. Sie kommen z.B. in DALL·E 2 oder Stable Diffusion zum Einsatz und erzeugen Bilder durch schrittweise Umwandlung von Rauschen zu realistischen Szenen, inkl. der Kontrolle über Stil und Bildkomposition.
Die Fortschritte bei Sprach- und Bildgenerierung wurden bald in multi-modalen Modellen zusammengeführt. Z.B. GPT-4, Gemini oder Claude 3 können verschiedene Eingabearten wie Text, Bild und Audio kombinieren. Dadurch wurden neue Anwendungsbereiche erschlossen: von der Analyse von Bildern bis hin zur Kombination von Sprache und Bildern, z.B. für eine Videobeschreibung. Diese Vielseitigkeit trug erheblich zur breiten Akzeptanz generativer KI bei.
Gleichzeitig wurde durch die Verfügbarkeit von Web-Interfaces wie ChatGPT, Midjourney oder Synthesia der Zugang zu leistungsstarken Modellen radikal vereinfacht. Nun können Millionen Menschen ohne Vorkenntnisse mit KI interagieren, was eine explosionsartige Verbreitung auslöste.
Kritik
Da KI in den letzten Jahren eine breite öffentliche Aufmerksamkeit erfahren hat, kommt nun auch von allen Seiten Kritik, z.B. dass die Modelle große Schwächen im Bereich des logischen Denkens haben, sie überhaupt nicht verstehen, was sie tun, und dass von Intelligenz nicht die Rede sein kann. Es gibt aber auch Bereiche, wo man ihnen ihre Stärken nicht absprechen kann, z.B. dass Sprachmodelle (LLMs) sehr gut mit Sprache umgehen können und sich deshalb gut für Übersetzungen und als ↗Lernpartner beim Lernen von Fremdsprachen eignen.