Zurück  •  Startseite Herkunft.de  •  Impressum & Datenschutz
Rapide Entwicklung bei KI

Derzeit (2025) gibt es bereits mehrere hundert KI-Plattformen im Bereich der genera­tiven KI. Das ist erstaun­lich, denn bis 2021 spielte KI in der öffent­lichen Wahr­neh­mung kaum eine Rolle. Es war eher ein Thema aus Science-Fiction-Filmen.

Seit 2017 ist der DeepL Translator online, der von der damali­gen Linguee GmbH in Köln ent­wickelt wurde. DeepL wurde bald zum besten Über­setzungs­tool gekürt. Obwohl DeepL auf neuro­nalen Netzen basiert, wurde der Sprach­über­setzer nicht als Künst­li­che Intelli­genz be­wor­ben und wurde von der Öffent­lich­keit auch nicht als solche wahr­ge­nom­men.

Im November 2022 startete ChatGPT als öffent­liche Web­site und nur zwei Monate später war schon die Anzahl von über 100 Mil­lionen Nutzern e­rreicht. Derzeit sind es be­reits 600 Mio. monat­li­che Nutzer. 2024 nutz­ten be­reits über 70% der Unter­nehmen KI in irgend­einer Form, was auf eine breite betrieb­liche Ver­brei­tung vieler Tools hin­weist.


Technischer Durchbruch 2017

Der technische Durchbruch, der ab 2020 zu einer er­kenn­bar rasan­ten Ent­wick­lung genera­tiver KI führte, basiert auf mehre­ren inein­ander­grei­fen­den Fort­schrit­ten. Die zentrale Rolle spielt die so­genann­te ↗Trans­for­mer-Architek­tur, die 2017 ein­ge­führt wurde und in den fol­gen­den Jah­ren zur vollen Wirkung kam.

Während frühere neuronale Netze nur direkt aufein­ander­folgende Wörter be­wertet haben, analy­siert ein Trans­former gleich­zeitig auch Zusam­men­hänge zu ande­ren Wör­tern und be­wertet sie im Hin­blick auf einen ge­gebe­nen Kontext (Aufmerk­sam­keits­mechanis­mus). Das führt zu deut­lich leis­tungs­fähi­geren Sprach­modellen.

In den Jahren 2018 bis 2020 zeigte sich durch Projekte wie GPT-2 und GPT-3, dass Trans­former bei aus­reichen­der Größe und Daten­fülle zu bemerkens­wert zusammen­hängen­den und krea­tiven Text­ausga­ben fähig sind. OpenAI, Google und andere ent­deck­ten, dass die bloße Ver­größe­rung von Modell­parametern und Trainings­daten zu über­propor­tional bes­seren Ergeb­nis­sen führt (Scaling Laws).

Die Modellgröße, d.h. die Parameter-Anzahl, wird vor dem Trai­ning fest­ge­legt. Um ein Modell möglichst effek­tiv zu trai­nie­ren, muss die Para­meter­anzahl und die Daten­menge (Trainings­daten) auf­ein­ander abge­stimmt wer­den. In einem Sprach­modell lernt ein Para­meter z.B. wie stark das Wort „Haus“ in einem be­stimm­ten Kon­text mit „Fenster“ oder „Woh­nung“ zu­sammen­hängt (Gewich­tung).

Je mehr Parameter ein Modell hat, desto komplexere Muster, Zusam­men­hänge und Be­deu­tun­gen kann es er­ken­nen. Aller­dings steigt auch der Rechen­aufwand erheb­lich. GPT wuchs von 1,5 Millio­nen Para­metern (2019) auf 175 Milliar­den Para­meter (GPT-3 in 2020) und wuchs aktuell auf mehrere hunderte Milliar­den Para­meter.


Spezialisierte Hardware ab 2016

Eine andere technische Entwick­lung be­trifft die Hard­ware: Beim Trai­ning von neuro­nalen Netz­werken werden Aber­milliar­den Rechen­operatio­nen durch­geführt, genauer gesagt Matrix-Multi­plika­tionen (Matrizen-Opera­tio­nen) mit Gleit­komma­zahlen. Normale Prozes­soren (CPUs) brauchen für solche Berech­nun­gen recht lange. Hingegen sind Grafik­prozes­soren (GPUs) auf Matrix-Multi­plika­tio­nen speziali­siert, eigent­lich für 3D-Grafik z.B. in Ego-Shootern. Zudem be­stehen GPUs aus tausen­den kleiner Rechen­kerne, die parallel arbei­ten können. Wegen des Erfolgs beim KI-Training von AlexNet in 2012 brachte NVIDIA ab 2016 gezielt KI-opti­mierte GPUs auf den Markt. Dadurch arbei­ten GPUs beim KI-Trai­ning bis zu 100x schnel­ler als CPUs.

Aber eine GPU allein macht noch keinen Früh­ling. Z.B. wurden zum Trai­nie­ren von GPT-4 in 2022 ca. 25.000 NVIDIA A100 GPUs ein­ge­setzt, ver­teilt auf über 3.000 Server, ange­mietet in Rechen­zentren eines Cloud-Anbie­ters. Das Trai­ning dauerte ca. 90 Tage. Die Kosten für Miete inkl. Strom und Personal soll bei ca. 100 Millio­nen Dollar ge­legen haben.
Der ent­schei­dende Punkt ist hier, dass sowohl die Hardware-Speziali­sie­rung als auch die Ver­füg­bar­keit über Cloud-Services erst in den letz­ten 8 Jah­ren wirk­lich Fahrt auf­ge­nom­men haben.


Weitere Faktoren

Nicht allein die Parameter-Größe ein Modells war ent­schei­dend. Ein weite­rer Schlüssel war das soge­nannte „Reinforce­ment Learning from Human Feed­back“ (RLHF), das ab etwa 2022 ein­ge­setzt wurde. Dabei lernen KI-Modelle nicht nur aus ferti­gen Texten, sondern auch aus menschli­chem Feed­back darüber, welche Antwor­ten hilf­reich, präzise oder höf­lich sind. Dadurch wur­den sie alltags­taugli­cher und bes­ser steuer­bar.

Auch die Bildgenerierung erlebte einen ent­schei­den­den Wandel. Während frühere Bild-KIs wie ↗GAN instabil und schwer kontrol­lier­bar waren, brach­ten ab 2021 soge­nannte Diffusions­modelle einen Qualitäts­sprung. Sie kom­men z.B. in DALL·E 2 oder Stable Diffu­sion zum Ein­satz und er­zeu­gen Bilder durch schritt­weise Umwand­lung von Rauschen zu realis­ti­schen Szenen, inkl. der Kon­trolle über Stil und Bild­kompo­si­tion.

Die Fortschritte bei Sprach- und Bild­generierung wurden bald in multi-modalen Modellen zu­sammen­geführt. Z.B. GPT-4, Gemini oder Claude 3 können ver­schie­dene Eingabe­arten wie Text, Bild und Audio kombi­nie­ren. Dadurch wurden neue Anwendungs­bereiche er­schlos­sen: von der Analyse von Bildern bis hin zur Kombi­na­tion von Sprache und Bildern, z.B. für eine Video­beschrei­bung. Diese Vielseitig­keit trug erheb­lich zur breiten Akzep­tanz genera­ti­ver KI bei.

Gleichzeitig wurde durch die Verfüg­bar­keit von Web-Inter­faces wie ChatGPT, Midjourney oder Synthesia der Zugang zu leistungs­starken Modellen radikal ver­ein­facht. Nun können Millio­nen Menschen ohne Vor­kennt­nisse mit KI inter­agie­ren, was eine explosions­artige Ver­brei­tung aus­löste.


Kritik

Da KI in den letzten Jahren eine breite öffent­liche Auf­merk­sam­keit erfah­ren hat, kommt nun auch von allen Seiten Kritik, z.B. dass die Modelle große Schwächen im Bereich des logi­schen Denkens haben, sie über­haupt nicht ver­ste­hen, was sie tun, und dass von Intelli­genz nicht die Rede sein kann. Es gibt aber auch Bereiche, wo man ihnen ihre Stärken nicht ab­sprechen kann, z.B. dass Sprach­modelle (LLMs) sehr gut mit Sprache um­gehen können und sich des­halb gut für Über­setzun­gen und als ↗Lernpartner beim Lernen von Fremd­sprachen eig­nen.


Text: Jörg Rosenthal, 2025.
Bitte Kritik, Vorschläge u.ä. per E-Mail einsenden.
Zurück  •  nach oben  • Startseite Herkunft.de