UIAP — UI Agent Protocol

Das fehlende Protokoll zwischen Web-Anwendungen und KI-Agenten. UIAP ermöglicht es Apps, Agenten strukturiert mitzuteilen, was sichtbar ist, was möglich ist, was riskant ist und woran Erfolg erkennbar ist — strukturiert, sicher und transport-agnostisch.

Erste Schritte Spec lesen Protokoll-Übersicht

Das Problem

Heutige KI-Agenten interagieren mit Web-UIs auf eine von drei Arten — alle fragil:

Screenshots + Vision-Modelle — langsam, teuer, unzuverlässig. Der Agent rät, was ein Button tut.
Rohes DOM / HTML-Scraping — fragile Selektoren, keine Business-Semantik. Bricht bei jedem Deploy.
ARIA / Accessibility Tree — weiss was ein Element ist, aber nicht was es fachlich tut, wie riskant es ist oder wie Erfolg verifiziert wird.

Es gibt keinen Standard, der beantwortet: “Was kann ich hier tun? Ist es sicher? Woher weiss ich, dass es funktioniert hat?”

UIAP schliesst diese Lücke.

Was UIAP liefert

Semantisch, nicht Pixel-basiert

Agenten erhalten einen strukturierten PageGraph mit Rollen, Zuständen, Affordances und stabilen Identifikatoren — kein Screenshot-Parsing, keine fragilen CSS-Selektoren.

Action Safety eingebaut

Jede Aktion deklariert ein Risk-Level. Das SDK erzwingt Policy-Prüfung, Confirmation-Flows und Human Handoff, bevor etwas Irreversibles passiert.

Erfolgsverifikation

Actions definieren erwartete Ergebnisse: Route-Wechsel, Toasts, Dialog-Schluss. Agenten verifizieren Erfolg statt ihn zu hoffen.

Transport-agnostisch

Funktioniert über WebSocket, HTTP/SSE, postMessage oder jedes andere Binding. Das Protokoll definiert den Vertrag, nicht den Draht.

So funktioniert es

App integriert das UIAP SDK

Wenige Zeilen Code oder data-uiap-* Attribute instrumentieren die UI mit semantischer Bedeutung.
Session startet, Capabilities werden ausgetauscht

Der Agent lernt, was die App kann: verfügbare Actions, Risk-Levels, Ausführungsmodi, Success Signals.
Agent erhält einen PageGraph

Ein strukturierter Snapshot des aktuellen UI-Zustands — Routen, Scopes, Elemente, Zustände, Affordances — kein rohes HTML.
Agent plant eine Aktion, SDK prüft Policy

Vor der Ausführung entscheidet die Policy-Schicht: erlauben, bestätigen lassen, verweigern oder an den User übergeben.
Aktion wird ausgeführt, App sendet Feedback

Das SDK führt die Aktion aus (bevorzugt App-native Ausführung vor DOM-Manipulation) und meldet Ergebnisse + State-Deltas.
Agent verifiziert Erfolg über Signale

Route gewechselt? Toast erschienen? Formular abgeschickt? Der Agent bestätigt das Ergebnis, bevor er zum nächsten Schritt geht.

Das Protokoll im Überblick

UIAP ist eine Suite aus 11 Spezifikationen:

#	Spec	Was sie definiert
1	Core	Message Envelope, Session Lifecycle, Fehler, Versionierung
2	Capability Model	UI-Rollen, Zustände, Affordances, Actions, Risk, Signale
3	Web Profile	DOM, ARIA, PageGraph, iframes, Shadow DOM, Routen
4	Action Runtime	Ausführung, Verifikation, Bestätigung, Result Reporting
5	Policy Extension	Berechtigungen, Risk-Klassen, Sensitivität, Audit
6	SDK API	Client-seitige JavaScript-Integrations-API
7	Workflow Extension	Mehrstufige Flows, Skills, Recovery
8	Discovery Mapper	Automatische UI-Element-Erkennung und -Klassifizierung
9	Authoring/Manifest	Konfigurationsformate, Validierung, Build/Release
10	Conformance Suite	Testmodule, Harness-Modell, Bewertungsregeln
11	HTTP/REST Binding	HTTP+SSE Transport Binding

Kein weiteres Framework

UIAP ersetzt keine bestehenden Standards — es füllt die Lücke zwischen ihnen:

Standard	Was es tut	Was für Agenten fehlt
ARIA	Beschreibt Rollen, Zustände, Eigenschaften	Keine Business-Actions, keine Risk-Levels, keine Success Signals
MCP	Verbindet Tools und Wissen mit Modellen	Modelliert keinen Live-UI-Zustand und keine Browser-Interaktion
Playwright / WebDriver	Automatisiert Browser-Interaktion	Kein semantisches Verständnis, keine Policy, keine Verifikation
AG-UI	Agent-zu-App Event-Protokoll	Kein kanonisches UI-Modell, kein Action-Katalog, keine Sicherheitsschicht

UIAP ist adapterfähig: Capabilities als MCP-Tools exponieren, Events an AG-UI spiegeln oder Ausführung an WebDriver delegieren — das Protokoll ist der Vertrag, nicht die Runtime.

Hier starten

Schnellstart UIAP in 5 Minuten in deine App integrieren.

Warum UIAP? Die Motivation hinter dem Protokoll.

Core-Spezifikation Starte mit dem Protokoll-Fundament.

Agent-Integrationsleitfaden Wie ein LLM-Agent UIAP-Kontext nutzt.