Elon Musk präsentiert sein erstes multimodales Modell, eine Weiterentwicklung seiner generativen künstlichen Intelligenz Grok, die jetzt mehrere Aufgaben beherrscht: Neben dem Schreiben von Texten analysiert und versteht sie nun auch Fotografien. Ursprünglich als “rebellisch und einfallsreich” beschrieben, wird dieser Chatbot nicht mehr nur auf Textfragen auf X (früher Twitter) beschränkt sein. Mit diesem Sprung möchte er große multimodale Modelle wie GPT-4 (das Gehirn hinter ChatGPT) oder Googles Gemini herausfordern.
Grok wurde vor Monaten als Alternative zu ChatGPT vorgestellt, die in das soziale Netzwerk X integriert werden sollte, das ebenfalls Elon Musk gehört. Die Weiterentwicklung zu einem Modell, das Bilder analysieren kann, deutet darauf hin, dass die Funktionen erweitert werden, auch um Einfluss auf das autonome Fahren zu nehmen.
xAI, das Unternehmen, das vom Magnaten zur Entwicklung von KI gegründet wurde, behauptet, dass sein Modell die Konkurrenz wie GPT-4V von OpenAI oder Gemini Pro 1.5 von Google in der “Verständnis der realen Welt” übertrifft. Die Daten stammen aus einem von der Firma selbst erstellten Test, den sie mit der Entwicklergemeinschaft teilen möchte.
Grok lernt, die Welt zu analysieren
Zu den Funktionen, die Grok jetzt beherrscht, gehört die Möglichkeit, eine Skizze auf einer Tafel in Python-Code umzuwandeln, um ein Videospiel zu erstellen. Gleichzeitig könnte dieser Chatbot eine Geschichte aus einer einfachen Kinderzeichnung schreiben, um einem kleinen Kind beim Einschlafen zu helfen. Er kann auch Bilder analysieren und Lösungen für verschiedene Probleme vorschlagen.
Unter den Tests, denen es unterzogen wurde und die das Unternehmen als Demonstration seiner Fähigkeiten veröffentlicht, wird es gebeten, die Himmelsrichtung anzugeben, in die das Plüschdinosaurier schaut. Dies bedeutet, dass die KI in der Lage sein muss, die Informationen zu verstehen, die der Kompass im Handy und die Platzierung des Objekts neben ihm liefern.
xAI führt auch zwei von fünf Szenen im Zusammenhang mit dem Fahren als Beispiel an. Es sollte nicht vergessen werden, dass dieses Unternehmen mit Tesla verbunden ist, da beide Unternehmen Musk gehören. Diese KI könnte dazu beitragen, die aktuellen autonomen oder assistierten Fahrsysteme weiterzuentwickeln. Es bleibt abzuwarten, ob die Gemeinschaft die Fähigkeiten und Schwächen des neuen Modells bewerten wird.
Grok-1.5 Vision, oder Grok-1.5V, wird bald für externe Bewertungen verfügbar sein, damit die Benutzer dieser KI ihre Fähigkeiten beurteilen können. Früher wurde der Code von Grok, als es nur Text verarbeitete, öffentlich gemacht, um der Entwicklergemeinschaft zu ermöglichen, damit zu experimentieren. Dies ist ein persönliches Versprechen von Musk, der seine ehemaligen Partner bei OpenAI beschuldigt hat, ihre ursprüngliche Mission zugunsten eines gewinnorientierten Modells aufgegeben zu haben.
Neue Metrik
“Grok-1.5V ist konkurrenzfähig mit bestehenden multimodalen Modellen in einer Reihe von Bereichen, von multidisziplinärem Denken bis zum Verständnis von Dokumenten, wissenschaftlichen Diagrammen, Grafiken, Screenshots und Fotografien”, so das Unternehmen in einem Beitrag auf seiner offiziellen Webseite.
Diese Behauptung wird durch eine Tabelle untermauert, die die von diesem Modell und anderen Marktteilnehmern in den oben genannten Tests erzielten Punktzahlen zeigt. Es handelt sich um den von xAI erstellten Test, RealWorldQA. “Wir freuen uns darauf, RealWorldQA der Gemeinschaft vorzustellen und beabsichtigen, es zu erweitern, wenn unsere multimodalen Modelle verbessert werden”, sagen sie.
No Responses