OpenAI hat den ChatGPT Agent herausgebracht. Er kombiniert die Fähigkeiten von Operator und Deep Research.
ChatGPT Agent kann komplexe Aufgaben autonom von Anfang bis Ende zu erledigen. Er agiert dabei auf einem eigenen virtuellen Computer und wechselt zwischen Denkprozessen und konkreten Aktionen, um umfassende Arbeitsabläufe nach Anweisung auszuführen.
Was er kann und wie er funktioniert
Im Kern steht ein einheitliches, agentisches System. Dieses System vereint die früheren Stärken von drei Komponenten: die Fähigkeit von „Operator“, mit Websites zu interagieren; die Kompetenz von „Deep Research“, Informationen zu analysieren und zusammenzufassen; und die allgemeine Intelligenz sowie die flüssige Konversationsführung von ChatGPT.
Frühere Versionen hatten jeweils spezifische Stärken, konnten aber nicht die jeweils andere Aufgabe übernehmen. Zum Beispiel konnte Operator keine tiefgehende Analyse durchführen, und Deep Research konnte nicht mit Websites interagieren, um Ergebnisse zu verfeinern. Durch die Integration dieser komplementären Fähigkeiten in einem Modell können nun ganz neue Möglichkeiten genutzt werden.
ChatGPT Agent kann Anfragen wie die Analyse von Kalendern für Besprechungsvorbereitungen, die Planung und den Einkauf von Zutaten für Mahlzeiten oder die Analyse von Wettbewerbern zur Erstellung von Präsentationen bearbeiten. Dabei navigiert er intelligent durch Webseiten, filtert Ergebnisse, führt Code aus und liefert die Ergebnisse in editierbaren Formaten wie Diashows oder Tabellen.
Dabei nutzt ChatGPT Agent verschiedene Werkzeuge. Hier eine Auswahl:
- Ein visueller Browser, der über eine grafische Oberfläche mit dem Web interagiert.
- Ein textbasierter Browser für einfachere, reasoning-basierte Webabfragen.
- Ein Terminal für die Ausführung von Befehlen.
- Direkter API-Zugang.
- ChatGPT Connectors, die die Verbindung zu Anwendungen wie Gmail oder GitHub ermöglichen, um relevante Informationen für Ihre Anfragen zu finden und zu nutzen.
Interaktion und Kontrolle
ChatGPT Agent holt stets eine explizite Genehmigung ein, bevor er Aktionen mit Konsequenzen durchführt. Man kann ihn jederzeit unterbrechen, die Kontrolle über den Browser übernehmen oder Aufgaben stoppen. Bei der Ausführung seiner Aufgabe wird genau gezeigt, was ChatGPT gerade unternimmt.
Der Agent ist für iterative, kollaborative Arbeitsabläufe konzipiert, was ihn interaktiver und flexibler macht als frühere Modelle. Er kann bei Bedarf proaktiv zusätzliche Details vom Nutzer anfordern, um sicherzustellen, dass die Aufgabe Ihren Zielen entspricht.
Anwendungsbereiche und Nutzen
Die kombinierten agentischen Fähigkeiten ermöglichen eine große Bandbreite von Anwendungen.
- Im Beruf kann er repetitive Aufgaben automatisieren wie zum Beispiel die Umwandlung von Screenshots in präsentationsfähige Elemente, die Neuordnung von Besprechungen, die Planung von Meetings oder die Aktualisierung von Tabellen mit Finanzdaten.
- Im Privatleben hilft er zum Beispiel bei der Planung und Buchung von Reiserouten, der Organisation ganzer Dinnerpartys oder der Suche und Terminvereinbarung mit Spezialisten.
Verfügbarkeit
ChatGPT Agent steht Pro-, Plus- und Team-Nutzern direkt über das Tool-Dropdown im Composer zur Verfügung. Dazu muss man in einer Konversation den Agent-Modus auswählen.
Die Einführung erfolgt schrittweise, wobei Pro-Benutzer zuerst Zugang erhalten.
Risiken und Sicherheitsmaßnahmen
Weil der ChatGPT Agent direkt im Web agieren und mit persönlichen Nutzerdaten arbeiten kann, entstehen neue Risiken. Zum Beispiel könnten Dritte versuchen, das Verhalten des Agenten zu manipulieren, die auf einer Webseite versteckt sein könnten. Um diesen Risiken zu begegnen, wurden umfassende Schutzmaßnahmen implementiert:
- Explizite Benutzerbestätigung wird für Aktionen mit realen Konsequenzen wie Käufen verlangt.
- Für bestimmte kritische Aufgaben wie das Versenden von E-Mails ist eine aktive Überwachung („Watch Mode“) erforderlich.
- Der Agent ist darauf trainiert, Aufgaben mit hohem Risiko wie Banküberweisungen aktiv abzulehnen.
- Datenschutz-Kontrollen ermöglichen das Löschen aller Browserdaten und das sofortige Abmelden von aktiven Website-Sitzungen.
- Im sicheren Browser-Übernahmemodus werden eingegebene Daten wie Passwörter nicht vom Modell gesammelt oder gespeichert.
- Es wurden laut OpenAI besondere Anstrengungen unternommen, um den Agenten gegen Prompt Injection abzusichern, unter anderem durch Training, Überwachung und die Notwendigkeit der Benutzerbestätigung.
Aktuelle Einschränkungen und zukünftige Entwicklung
ChatGPT Agent befindet sich noch in einer frühen Entwicklungsphase und kann Fehler machen. Insbesondere die Funktion zur Erstellung von Diashows befindet sich noch in der Beta-Phase; die Ausgaben können in Formatierung und Feinschliff noch rudimentär wirken, besonders wenn keine vorhandenen Dokumente als Vorlage verwendet werden.
Es gibt auch gelegentliche Diskrepanzen zwischen der Ansicht im Viewer und einer exportierten PowerPoint-Datei.