Semantisch, nicht Pixel-basiert
Agenten erhalten einen strukturierten PageGraph mit Rollen, Zuständen, Affordances und stabilen Identifikatoren — kein Screenshot-Parsing, keine fragilen CSS-Selektoren.
Heutige KI-Agenten interagieren mit Web-UIs auf eine von drei Arten — alle fragil:
Es gibt keinen Standard, der beantwortet: “Was kann ich hier tun? Ist es sicher? Woher weiss ich, dass es funktioniert hat?”
UIAP schliesst diese Lücke.
Semantisch, nicht Pixel-basiert
Agenten erhalten einen strukturierten PageGraph mit Rollen, Zuständen, Affordances und stabilen Identifikatoren — kein Screenshot-Parsing, keine fragilen CSS-Selektoren.
Action Safety eingebaut
Jede Aktion deklariert ein Risk-Level. Das SDK erzwingt Policy-Prüfung, Confirmation-Flows und Human Handoff, bevor etwas Irreversibles passiert.
Erfolgsverifikation
Actions definieren erwartete Ergebnisse: Route-Wechsel, Toasts, Dialog-Schluss. Agenten verifizieren Erfolg statt ihn zu hoffen.
Transport-agnostisch
Funktioniert über WebSocket, HTTP/SSE, postMessage oder jedes andere Binding. Das Protokoll definiert den Vertrag, nicht den Draht.
App integriert das UIAP SDK
Wenige Zeilen Code oder data-uiap-* Attribute instrumentieren die UI mit semantischer Bedeutung.
Session startet, Capabilities werden ausgetauscht
Der Agent lernt, was die App kann: verfügbare Actions, Risk-Levels, Ausführungsmodi, Success Signals.
Agent erhält einen PageGraph
Ein strukturierter Snapshot des aktuellen UI-Zustands — Routen, Scopes, Elemente, Zustände, Affordances — kein rohes HTML.
Agent plant eine Aktion, SDK prüft Policy
Vor der Ausführung entscheidet die Policy-Schicht: erlauben, bestätigen lassen, verweigern oder an den User übergeben.
Aktion wird ausgeführt, App sendet Feedback
Das SDK führt die Aktion aus (bevorzugt App-native Ausführung vor DOM-Manipulation) und meldet Ergebnisse + State-Deltas.
Agent verifiziert Erfolg über Signale
Route gewechselt? Toast erschienen? Formular abgeschickt? Der Agent bestätigt das Ergebnis, bevor er zum nächsten Schritt geht.
UIAP ist eine Suite aus 11 Spezifikationen:
| # | Spec | Was sie definiert |
|---|---|---|
| 1 | Core | Message Envelope, Session Lifecycle, Fehler, Versionierung |
| 2 | Capability Model | UI-Rollen, Zustände, Affordances, Actions, Risk, Signale |
| 3 | Web Profile | DOM, ARIA, PageGraph, iframes, Shadow DOM, Routen |
| 4 | Action Runtime | Ausführung, Verifikation, Bestätigung, Result Reporting |
| 5 | Policy Extension | Berechtigungen, Risk-Klassen, Sensitivität, Audit |
| 6 | SDK API | Client-seitige JavaScript-Integrations-API |
| 7 | Workflow Extension | Mehrstufige Flows, Skills, Recovery |
| 8 | Discovery Mapper | Automatische UI-Element-Erkennung und -Klassifizierung |
| 9 | Authoring/Manifest | Konfigurationsformate, Validierung, Build/Release |
| 10 | Conformance Suite | Testmodule, Harness-Modell, Bewertungsregeln |
| 11 | HTTP/REST Binding | HTTP+SSE Transport Binding |
UIAP ersetzt keine bestehenden Standards — es füllt die Lücke zwischen ihnen:
| Standard | Was es tut | Was für Agenten fehlt |
|---|---|---|
| ARIA | Beschreibt Rollen, Zustände, Eigenschaften | Keine Business-Actions, keine Risk-Levels, keine Success Signals |
| MCP | Verbindet Tools und Wissen mit Modellen | Modelliert keinen Live-UI-Zustand und keine Browser-Interaktion |
| Playwright / WebDriver | Automatisiert Browser-Interaktion | Kein semantisches Verständnis, keine Policy, keine Verifikation |
| AG-UI | Agent-zu-App Event-Protokoll | Kein kanonisches UI-Modell, kein Action-Katalog, keine Sicherheitsschicht |
UIAP ist adapterfähig: Capabilities als MCP-Tools exponieren, Events an AG-UI spiegeln oder Ausführung an WebDriver delegieren — das Protokoll ist der Vertrag, nicht die Runtime.