Frameworks für die Evaluierung von KI-Agenten (Teil 2)

Veröffentlicht am 24. Juli 2024 um 12:08

Frameworks für die Evaluierung von KI-Agenten sind nicht frei von konzeptionellen Mängeln, so der Tenor des Papers AI Agents That Matter.

Darin treffen die Autoren zunächst eine Unterscheidung bei der Bewertung von Sprachmodellen und von Agenten: 

Die Bewertung von Agenten unterscheidet sich in grundlegender Weise von der Bewertung von Sprachmodellen. Agenten können für Aufgaben eingesetzt werden, die schwieriger und realistischer sind, einen größeren Nutzen in der realen Welt haben und in der Regel nicht nur eine einzige richtige Antwort haben. Agenten können zum Beispiel die Kommandozeile verwenden, um Aufgaben auszuführen; SWE-Agent enthält sogar eine eigene Agenten-Computer-Schnittstelle. Agenten können viel mehr kosten als ein einzelner Modellaufruf. So haben die Autoren des SWE-Agenten die Kosten für jeden Agentenlauf auf 4 USD begrenzt, was Hunderttausenden von Sprachmodell-Token entspricht.

Um die Aussage zu überprüfen, Agenten könnten bei Kodierungsaufgaben die höchste Genauigkeit erreichen, haben die Autoren die Genauigkeit von drei Agenten bewertet. 

Insbesondere haben wir Agenten aus der HumanEval-Rangliste auf PapersWithCode einbezogen, die ihren Code öffentlich zugänglich machen: LDB, LATS , und Reflexion. Diese Agenten verlassen sich darauf, dass der vom Modell generierte Code ausgeführt wird, und wenn er die mit der Problembeschreibung gelieferten Testfälle nicht besteht, versuchen sie, den Code zu debuggen, alternative Pfade im Codegenerierungsprozess zu betrachten  oder zu „reflektieren“, warum die Ausgaben des Modells falsch waren, bevor sie eine andere Lösung generieren

Bewertet wurden weiterhin die Kosten und der Zeitbedarf für die Ausführung dieser Agenten. 

System 2 - Ansatz bei der Codegenerierung mit Defiziten 

Es gibt keine Beweise dafür, dass System-2-Ansätze für Leistungssteigerungen verantwortlich sind. Da Arbeiten, in denen neue Agenten vorgeschlagen werden, einfache Basislinien nicht ausreichend getestet haben, hat dies in der Community zu der weit verbreiteten Annahme geführt, dass komplexe Konzepte wie Planung, Reflexion und Debugging für die Genauigkeitssteigerung verantwortlich sind. Basierend auf unseren Ergebnissen bleibt die Frage offen, ob Debugging, Reflexion und andere solche „System 2“-Ansätze für die Codegenerierung nützlich sind, was im Einklang mit anderen neueren Ergebnissen steht. Darüber hinaus wird der übermäßige Optimismus in Bezug auf System-2-Ansätze durch einen Mangel an Reproduzierbarkeit und Standardisierung verschärft .. . Das Versäumnis, die Quellen empirischer Gewinne zu identifizieren, ist ein langjähriges Problem im ML und verwandten Bereichen. Es ist möglich, dass System-2-Techniken bei schwierigeren Programmieraufgaben als den in HumanEval dargestellten nützlich sind, wie z. B. SWE-bench. 

Fehlende Standards und Mängel in der Reproduzierbarkeit 

Während unserer Experimente haben wir mehrere Mängel in der Reproduzierbarkeit und Standardisierung von Agenten-Benchmarks und -Bewertungen festgestellt. Unsere Analyse basiert auf einer weithin akzeptierten Definition von Reproduzierbarkeit: Der Code und die Daten, die einer Veröffentlichung beiliegen, sollten ausreichen, um die darin berichteten Ergebnisse zu reproduzieren. Ohne reproduzierbare Agentenevaluierung ist es schwierig, echte Verbesserungen in Agentendesigns von Artefakten der unterschiedlichen Evaluierungsentscheidungen zu unterscheiden. Da Agenten häufig von nachgeschalteten Entwicklern eingesetzt werden sollen, führt die fehlende Reproduzierbarkeit auch Entwickler in die Irre, die Agenten in realen Anwendungen einsetzen. Schließlich verursachen nicht reproduzierbare Ergebnisse einen enormen Zeitaufwand für Forscher, die versuchen, auf den Ergebnissen des Stands der Technik aufzubauen.

Vorläufiges Fazit 

Der Bedarf an einem standardisierten Bewertungsrahmen. Diese Unzulänglichkeiten sind auf drei verschiedene (aber miteinander verbundene) Gründe zurückzuführen. Erstens gibt es bisher keine klaren Standards für die Bereitstellung von Skripten zur Agentenbewertung (Mangel 1). Infolgedessen werden die Unterschiede zwischen Modell- und Agenten-Benchmarks nicht gewürdigt (Mängel 1-3). Und schließlich besteht aufgrund fehlender gemeinschaftlicher Normen für die Bewertung die Möglichkeit, dass sich während der Entwicklung und Bewertung von Agenten Fehler einschleichen (Mangel 5). .. Unzulänglichkeiten bei der Standardisierung wurden auch bei der LLM-Evaluation beobachtet. Evaluierungs-Frameworks wie HELM [28] und LM Evaluation Harness [3] beheben diese Mängel bei der Modellevaluierung, indem sie standardisierte Evaluierungsergebnisse liefern. Aber wie wir gesehen haben, reichen diese Rahmenwerke nicht aus, um KI-Agenten zu evaluieren. Die Entwicklung eines Rahmens für die Agentenbewertung ist ein reifes Gebiet für zukünftige Arbeiten.

Gute Gründe für vorsichtigen Optimismus 

Trotz der genannten Defizite sind die Autoren mit Blick auf die KI-Agentenforschung vorsichtig optimistisch. Als Gründe geben die Autoren an, dass sich die Praktiken schnell ändern, da mittlerweile eine stärkere Kultur der gemeinsamen Nutzung von Code und Daten zusammen mit veröffentlichten Arbeiten existiert, so dass Fehler leichter zu erkennen sind und dass zu optimistische Forschung schnell einen Realitätscheck erfährt, "wenn Produkte, die auf irreführenden Bewertungen basieren, am Ende floppen" (in: New paper: AI agents that matter)

Weitere Informationen:

AI Agents That Matter 📢 Summary - Arvind Narayanan

 

Kommentar hinzufügen

Kommentare

Es gibt noch keine Kommentare.