Claude Opus 4.8
78- Ren, kompakt layout og fungerende queue.
- OK terminal/flow, men mer generisk og mindre produktspesifikk.
- Svakere første viewport: sier “Mission Control”, men mindre direkte Gibson/verifikasjonsverdi.
Visuell agent-benchmark · Cloudflare Pages
Begge fikk oppgaven å bygge en vanilla HTML/CSS/JS-app for Wintermute Mission Control. Under kan du se resultatene side-by-side, åpne hver kandidat fullskjerm og lese scorekortet.
Premium vanilla frontend, mission queue, evidence panel, architecture flow, ingen eksterne assets.
Genererte kildefiler via Claude Code/Max OAuth. Full tool-run hanget i tenking; filgenerering ble materialisert trygt etterpå.
Lokal Codex CLI hadde utløpt ChatGPT-token; denne lane ble laget av aktiv Hermes OpenAI-Codex session.
Statisk benchmark-surface med noindex-header. Kandidatene er embedet som live iframes.
Scorekort
Live visual compare
Rubrikk
| Kriterium | Claude | Codex | Kommentar |
|---|---|---|---|
| Første viewport | 7/10 | 10/10 | Codex kommuniserer hele operasjonsloopen uten scroll. |
| Visuell polish | 8/10 | 9/10 | Claude er pen, Codex er mer premium og mer ferdig. |
| Interaktivitet | 7/10 | 9/10 | Codex har flere tydelige handlinger og bedre state-feedback. |
| Produktspesifikk microcopy | 7/10 | 10/10 | Codex treffer agent-factory/verifikasjon mye hardere. |
| Kode/struktur | 8/10 | 8/10 | Begge er static-vennlige, ingen remote assets. |