Die neueste Entwicklung von Apple im Bereich der künstlichen Intelligenz zielt darauf ab, den fortschrittlichsten Modellen von OpenAI, dem Entwickler von ChatGPT, die Stirn zu bieten und Interaktionen mit virtuellen Assistenten wie Siri intuitiver zu gestalten.
Das System ReaLM, eine Abkürzung für “Referencing Resolution as Language Modeling”, versteht Bilder und mehrdeutige Inhalte, die auf dem Bildschirm des Benutzergeräts angezeigt werden, sowie den Gesprächskontext, um natürlichere Interaktionen mit der KI zu ermöglichen.
Offenbar übertrifft Apples neues System andere große Sprachmodelle – LLM, wie GPT-4, das Modell, das ChatGPT antreibt, wenn es darum geht, den Kontext zu bestimmen und auf was sich sprachliche Ausdrücke beziehen, wie die Forscher, die es entwickelt haben, verteidigt haben.
Zudem, da es ein weniger komplexes System als andere LLMs, wie die GPT-Serie von OpenAI, ist, haben die Forscher ReaLM als die “ideale Option” für ein Kontext-Entschlüsselungssystem bezeichnet, das “auf dem Gerät existieren kann, ohne die Leistung zu beeinträchtigen”.
Zum Beispiel, wenn Sie Siri bitten, Ihnen eine Liste der Apotheken in Ihrer Nähe zu zeigen. Wenn Ihnen die Liste präsentiert wird, könnten Sie sagen: “Ruf die in der Hauptstraße an” oder “ruf die unten an”. Mit ReaLM, anstatt eine Nachricht zu erhalten, die um mehr Informationen bittet, könnte Siri den notwendigen Kontext entschlüsseln, um diese Aufgabe besser als GPT-4 durchzuführen, laut den Apple-Forschern.
“Menschliche Sprache enthält oft mehrdeutige Referenzen wie ‘dies’ oder ‘das’, deren Bedeutung offensichtlich ist – für andere Menschen – angesichts des Kontexts”, erklärten Apples Forscher und bezogen sich auf die Fähigkeiten von ReaLM. “Die Fähigkeit, den Kontext zu verstehen, einschließlich solcher Referenzen, ist wesentlich für einen konversationellen Assistenten, der einem Benutzer ermöglichen soll, seine Anfragen auf natürliche Weise an einen Assistenten zu kommunizieren oder ein Gespräch mit ihm zu führen”.
Das ReaLM-System kann Bilder, die in einen Text integriert sind, interpretieren, etwas, das laut den Forschern, die es entwickelt haben, verwendet werden kann, um Informationen wie Telefonnummern oder Rezepte aus den Bildern zu extrahieren, die auf einer Webseite angezeigt werden.
OpenAIs GPT-3.5 akzeptiert nur Texteingaben und GPT-4, das auch den Kontext mit Bildern interpretieren kann, ist ein großes System, das hauptsächlich mit natürlichen Bildern der realen Welt trainiert wurde, nicht mit Screenshots, was laut den Apple-Forschern seine praktische Leistung einschränkt und ReaLM zur besseren Option macht, um Informationen auf dem Bildschirm zu verstehen.
“Apple wird seit langem als Nachzügler hinter Microsoft, Google und Amazon in der Entwicklung von konversationeller künstlicher Intelligenz gesehen”, wie Medien wie The Information detailliert haben. “Der iPhone-Hersteller ist bekannt dafür, ein vorsichtiger und bedachter Entwickler neuer Produkte zu sein, eine Taktik, die ihm gut gedient hat, um das Vertrauen der Verbraucher zu gewinnen, aber ihn in dem schnellen KI-Rennen benachteiligen könnte”.
Mit der Enthüllung der Fähigkeiten von ReaLM scheint es jedoch, dass das Unternehmen aus Cupertino bereit sein könnte, voll in den Wettbewerb einzusteigen.
Die Forscher hinter ReaLM und die Vertreter von OpenAI haben nicht auf die jeweiligen Kommentaranfragen von Business Insider geantwortet.
Es ist noch unklar, ob ReaLM in Siri oder andere Apple-Produkte implementiert wird, aber der CEO des Technologieunternehmens, Tim Cook, versicherte während eines kürzlichen Anrufs mit den Aktionären des Unternehmens, dass er sich darauf freut, Details über ihre “laufende Arbeit in künstlicher Intelligenz gegen Ende dieses Jahres” zu teilen.
No Responses