Zum Inhalt springen

Warum UIAP?

KI-Agenten brauchen mehr als nur “da ist ein Button”. Sie müssen wissen:

  • Was der Button fachlich tut (video.create, nicht nur click)
  • Ob sie ihn klicken dürfen (Risk-Level, Policy)
  • Woran sie erkennen, dass die Aktion erfolgreich war (Route-Wechsel, Toast, Dialog-Schluss)

ARIA beschreibt Rollen, Zustände und Eigenschaften — aber nicht die Businesslogik. Playwright automatisiert Browser — versteht aber keinen Intent. MCP verbindet Tools — modelliert aber keinen Live-UI-Zustand.

Standardisiert den Zugriff auf Tools und Wissen, nicht die direkte Steuerung laufender Web-UIs.

Eventbasiertes Protokoll für Agent-zu-App-Kommunikation. Am nächsten dran, aber:

  • Löst das Kommunikationsproblem, nicht das volle UI-Verständnisproblem
  • Kein kanonischer Katalog für UI-Elemente, Rollen, Risiken oder Erfolgs-Signale
  • Definiert nicht, wie ein Agent ein belastbares Seitenmodell bekommt

Browser-Fernsteuerung — die Ausführungsschicht darunter, nicht der semantische Vertrag darüber.

Semantische Beschreibung von UI-Elementen — wichtige Basis, aber keine vollständige Lösung für agentische Steuerung.

Es gibt noch keinen reifen, breit akzeptierten “UI Control Protocol”-Standard für KI-Agenten in bestehenden Webanwendungen, der Semantik, Aktionen, Feedback und Sicherheitsregeln aus einem Guss verbindet.

UIAP (UI Agent Protocol) ist ein standardisiertes Agent-Interface für UIs. Anwendungen teilen dem KI-Agenten damit strukturiert mit, welche Elemente, Aktionen, Zustände, Risiken und Erfolgs-Signale es gibt — damit der Agent nicht blind im DOM herumstochert.

UIAP steht nicht gegen MCP oder AG-UI, sondern ist adapterfähig:

  • MCP-Adapter: UIAP-Capabilities oder Workflows als MCP Tools/Resources exponieren
  • AG-UI-Adapter: UIAP-Events in AG-UI-Events spiegeln
  • WebDriver/BiDi-Adapter: Für externe Browser-Ausführung