Trotz der Vorstellung seiner multimodalen künstlichen Intelligenz (KI) Gemini durch Google als die bisher fähigste, führt OpenAI die Branche weiterhin mit ChatGPT-4 an. Dennoch ist sich das Unternehmen von Sam Altman bewusst, dass die Qualität der Antworten seines Chatbots geringer ist und dass die KI, anstatt sich zu verbessern, zunehmend vager wird. Um ihre Position an der Spitze zu behalten, suchen sie nach einer Lösung.
In Deutschland hat ChatGPT nach einem Jahr seit seinem Start bereits über vier Millionen aktive Nutzer pro Monat. Dennoch sind die Ergebnisse, die sie manchmal erhalten, nicht die erwarteten. Halluzinationen, also falsche Daten, die als wahr dargestellt werden, oder fehlerhafte Codes, sind an der Tagesordnung, und das Problem ist nicht, dass wir schlechte Ratschläge geben, sondern dass das Modell zunehmend fauler wird.
OpenAI hat zugegeben, dass sie dieses Problem haben, also ist es keine Annahme, sondern eine Realität. Es gibt eine Studie, die herausgefunden hat, dass die KI schneller und effektiver arbeitet, wenn sie unter Druck steht. Die Forscher des Unternehmens haben jedoch bereits begonnen, die Situation grundlegend zu lösen.
Warum ist ChatGPT fauler geworden?
Das amerikanische Unternehmen hat erklärt, dass es sich um ein unvorhersehbares Verhalten handelt, das sie nicht kommen sahen und das sich mit dem letzten Update, ChatGPT-4 Turbo, verschlechtert hat. OpenAI erklärt, dass das Modell nicht verändert wurde, aber es gibt eine Reihe von Verhaltensunterschieden, die dazu führen, dass die Antworten nicht so gut sind wie in früheren Versionen, obwohl es umgekehrt sein sollte.
Wie sie in einem Beitrag auf X (früher bekannt als Twitter) erläutern, könnte der Grund für diesen Fehler sein, dass “nur eine Teilmenge von Prompts degradiert wurde und es viel Zeit in Anspruch nehmen kann, bis Partner und Personal diese Muster erkennen und korrigieren”.
Das Training der KI
Das Unternehmen hat darauf hingewiesen, dass das Training auch darin besteht, an verschiedenen Aspekten zu arbeiten, von der Persönlichkeit oder dem Schreibstil bis hin zur Leistungsbewertung und politischen Voreingenommenheit. Den Lernprozess der KI vergleichen sie mit “einer handwerklichen Anstrengung mehrerer Personen” und nicht so sehr mit etwas Mechanisiertem.
Um ChatGPT-4 zu entwickeln und Updates zu erstellen, gibt es eine große Anzahl von Mitarbeitern, die sich um die Planung, den Aufbau und die Bewertung der Chatmodell-Versionen kümmern. Vor der Einführung eines neuen Produkts werden umfassende interne Tests mit Offline- und Online-Bewertungsmetriken durchgeführt.
Als die vierte Version im März herauskam, schien alles korrekt zu laufen. Beschwerden über einen Leistungsabfall begannen im Sommer mit dem ersten Update zu kommen, und OpenAI hat jetzt bestätigt, dass es sich um ein Problem ihres Chatbots handelt und nicht um das der Nutzer. Was werden sie tun, um ihr Large Language Model (LLM) nicht so faul zu machen?
No Responses