Warum UIAP?
Das Kernproblem
Abschnitt betitelt „Das Kernproblem“KI-Agenten brauchen mehr als nur “da ist ein Button”. Sie müssen wissen:
- Was der Button fachlich tut (
video.create, nicht nurclick) - Ob sie ihn klicken dürfen (Risk-Level, Policy)
- Woran sie erkennen, dass die Aktion erfolgreich war (Route-Wechsel, Toast, Dialog-Schluss)
ARIA beschreibt Rollen, Zustände und Eigenschaften — aber nicht die Businesslogik. Playwright automatisiert Browser — versteht aber keinen Intent. MCP verbindet Tools — modelliert aber keinen Live-UI-Zustand.
Was bestehende Protokolle leisten
Abschnitt betitelt „Was bestehende Protokolle leisten“MCP (Model Context Protocol)
Abschnitt betitelt „MCP (Model Context Protocol)“Standardisiert den Zugriff auf Tools und Wissen, nicht die direkte Steuerung laufender Web-UIs.
Eventbasiertes Protokoll für Agent-zu-App-Kommunikation. Am nächsten dran, aber:
- Löst das Kommunikationsproblem, nicht das volle UI-Verständnisproblem
- Kein kanonischer Katalog für UI-Elemente, Rollen, Risiken oder Erfolgs-Signale
- Definiert nicht, wie ein Agent ein belastbares Seitenmodell bekommt
WebDriver / WebDriver BiDi
Abschnitt betitelt „WebDriver / WebDriver BiDi“Browser-Fernsteuerung — die Ausführungsschicht darunter, nicht der semantische Vertrag darüber.
ARIA / Accessibility
Abschnitt betitelt „ARIA / Accessibility“Semantische Beschreibung von UI-Elementen — wichtige Basis, aber keine vollständige Lösung für agentische Steuerung.
Die Lücke
Abschnitt betitelt „Die Lücke“Es gibt noch keinen reifen, breit akzeptierten “UI Control Protocol”-Standard für KI-Agenten in bestehenden Webanwendungen, der Semantik, Aktionen, Feedback und Sicherheitsregeln aus einem Guss verbindet.
Was UIAP liefert
Abschnitt betitelt „Was UIAP liefert“UIAP (UI Agent Protocol) ist ein standardisiertes Agent-Interface für UIs. Anwendungen teilen dem KI-Agenten damit strukturiert mit, welche Elemente, Aktionen, Zustände, Risiken und Erfolgs-Signale es gibt — damit der Agent nicht blind im DOM herumstochert.
UIAP steht nicht gegen MCP oder AG-UI, sondern ist adapterfähig:
- MCP-Adapter: UIAP-Capabilities oder Workflows als MCP Tools/Resources exponieren
- AG-UI-Adapter: UIAP-Events in AG-UI-Events spiegeln
- WebDriver/BiDi-Adapter: Für externe Browser-Ausführung