Zum Inhalt springen

UIAP — UI Agent Protocol

Das fehlende Protokoll zwischen Web-Anwendungen und KI-Agenten. UIAP ermöglicht es Apps, Agenten strukturiert mitzuteilen, was sichtbar ist, was möglich ist, was riskant ist und woran Erfolg erkennbar ist — strukturiert, sicher und transport-agnostisch.

Heutige KI-Agenten interagieren mit Web-UIs auf eine von drei Arten — alle fragil:

  • Screenshots + Vision-Modelle — langsam, teuer, unzuverlässig. Der Agent rät, was ein Button tut.
  • Rohes DOM / HTML-Scraping — fragile Selektoren, keine Business-Semantik. Bricht bei jedem Deploy.
  • ARIA / Accessibility Tree — weiss was ein Element ist, aber nicht was es fachlich tut, wie riskant es ist oder wie Erfolg verifiziert wird.

Es gibt keinen Standard, der beantwortet: “Was kann ich hier tun? Ist es sicher? Woher weiss ich, dass es funktioniert hat?”

UIAP schliesst diese Lücke.


Semantisch, nicht Pixel-basiert

Agenten erhalten einen strukturierten PageGraph mit Rollen, Zuständen, Affordances und stabilen Identifikatoren — kein Screenshot-Parsing, keine fragilen CSS-Selektoren.

Action Safety eingebaut

Jede Aktion deklariert ein Risk-Level. Das SDK erzwingt Policy-Prüfung, Confirmation-Flows und Human Handoff, bevor etwas Irreversibles passiert.

Erfolgsverifikation

Actions definieren erwartete Ergebnisse: Route-Wechsel, Toasts, Dialog-Schluss. Agenten verifizieren Erfolg statt ihn zu hoffen.

Transport-agnostisch

Funktioniert über WebSocket, HTTP/SSE, postMessage oder jedes andere Binding. Das Protokoll definiert den Vertrag, nicht den Draht.


  1. App integriert das UIAP SDK

    Wenige Zeilen Code oder data-uiap-* Attribute instrumentieren die UI mit semantischer Bedeutung.

  2. Session startet, Capabilities werden ausgetauscht

    Der Agent lernt, was die App kann: verfügbare Actions, Risk-Levels, Ausführungsmodi, Success Signals.

  3. Agent erhält einen PageGraph

    Ein strukturierter Snapshot des aktuellen UI-Zustands — Routen, Scopes, Elemente, Zustände, Affordances — kein rohes HTML.

  4. Agent plant eine Aktion, SDK prüft Policy

    Vor der Ausführung entscheidet die Policy-Schicht: erlauben, bestätigen lassen, verweigern oder an den User übergeben.

  5. Aktion wird ausgeführt, App sendet Feedback

    Das SDK führt die Aktion aus (bevorzugt App-native Ausführung vor DOM-Manipulation) und meldet Ergebnisse + State-Deltas.

  6. Agent verifiziert Erfolg über Signale

    Route gewechselt? Toast erschienen? Formular abgeschickt? Der Agent bestätigt das Ergebnis, bevor er zum nächsten Schritt geht.


UIAP ist eine Suite aus 11 Spezifikationen:

#SpecWas sie definiert
1CoreMessage Envelope, Session Lifecycle, Fehler, Versionierung
2Capability ModelUI-Rollen, Zustände, Affordances, Actions, Risk, Signale
3Web ProfileDOM, ARIA, PageGraph, iframes, Shadow DOM, Routen
4Action RuntimeAusführung, Verifikation, Bestätigung, Result Reporting
5Policy ExtensionBerechtigungen, Risk-Klassen, Sensitivität, Audit
6SDK APIClient-seitige JavaScript-Integrations-API
7Workflow ExtensionMehrstufige Flows, Skills, Recovery
8Discovery MapperAutomatische UI-Element-Erkennung und -Klassifizierung
9Authoring/ManifestKonfigurationsformate, Validierung, Build/Release
10Conformance SuiteTestmodule, Harness-Modell, Bewertungsregeln
11HTTP/REST BindingHTTP+SSE Transport Binding

UIAP ersetzt keine bestehenden Standards — es füllt die Lücke zwischen ihnen:

StandardWas es tutWas für Agenten fehlt
ARIABeschreibt Rollen, Zustände, EigenschaftenKeine Business-Actions, keine Risk-Levels, keine Success Signals
MCPVerbindet Tools und Wissen mit ModellenModelliert keinen Live-UI-Zustand und keine Browser-Interaktion
Playwright / WebDriverAutomatisiert Browser-InteraktionKein semantisches Verständnis, keine Policy, keine Verifikation
AG-UIAgent-zu-App Event-ProtokollKein kanonisches UI-Modell, kein Action-Katalog, keine Sicherheitsschicht

UIAP ist adapterfähig: Capabilities als MCP-Tools exponieren, Events an AG-UI spiegeln oder Ausführung an WebDriver delegieren — das Protokoll ist der Vertrag, nicht die Runtime.