Den 10-minutters kodebenchmark · 15. juni 2026
På denne test førte Depaza an.
Der er ingen god måde at sammenligne æbler med bananer på. Forskellige agenter er bygget på forskellige modeller, kører i forskellige miljøer og er optimeret til forskellige ting. Se hvordan vores modeller fungerer for detaljer om vores tilgang. Vi definerede derfor en snæver, praktisk test: den præcist samme 10-minutters produktionskodeopgave givet til Grok, Claude Code og Depaza den 15. juni 2026 under identiske betingelser. Vi publicerede den fulde prompt, skelettet, verifikatoren, alle løsninger og de rå logfiler. På denne test førte Depaza an.
Punkt for punkt
Depaza klarede alle barer på denne test.
Linje-for-linje gennemgang af den faktiske kode, hver agent producerede, mod de krav vi definerede for opgaven. Grønt betyder, at den klarede det pågældende punkt.
| Punktet |
Depaza
Depaza · 🇪🇺
LEADER
|
Claude Code
Anthropic · 🇺🇸
|
Grok
xAI · 🇺🇸
|
|---|---|---|---|
| Korrekthed & robusthed | 9/9 | 9/9 | 9/9 |
| Alle 38 acceptancetests består | |||
| Roundtrip-egenskab: parse(format(x)) == x | |||
| CLI parse + format virker begge | |||
| Tolerant over for mellemrum og tabulator | |||
| Håndterer meget store værdier (1000w) | |||
| Versalufølsomme enheder (1H = 1h) | |||
| Afviser misdannet input rent | |||
| Heltalspræcist — ingen flydende-komma-drift | |||
| Kun standardbibliotek, ingen afhængigheder | |||
| Ingeniørkvalitet | 7/7 | 6/7 | 3/7 |
| Lang stil med ord i flertal | |||
| Lang stil er konsistent ved nul ("0 seconds") | — | ||
| Felt-præcise fejlbeskeder (navngiver enheden) | — | ||
| Eksplicit offentligt API (__all__) | — | ||
| Fulde type-hints | |||
| Modul- + funktions-docstrings | |||
| Rig inline-dokumentation af logikken | — | — |
16/16 på denne test. Depaza var den eneste, der klarede alle barer.
Depaza var den eneste deltager, der opfyldte alle ni korrekthedskrav og alle syv ingeniørkvalitetskrav, vi definerede for et komplet, produktionsklart resultat. De andre leverede korrekt, testet kode, men opfyldte ikke den fulde standard på denne benchmark.
Tid er ligegyldig
Sekunder er en forfængelighedsmåling. Korrekt kode er produktet.
Ja, tidstallene er forskellige — det vil de altid være, da de svinger med modelbelastning, netværk og hvor hårdt en agent dobbelttjekker sig selv. Grok var hurtigst til en bestået diff. Depaza brugte længere tid, fordi den nægtede at stoppe ved "testene består". Den ekstra tid producerede den rige inline-dokumentation af logikken, det eksplicitte offentlige API, felt-præcise fejlbeskeder der navngiver den dårlige enhed, og lang stil der er konsistent ved nul — præcis de ingeniørkvalitets-barer, som kun Depaza klarede. De andre optimerede for stopuret. Depaza optimerede for den kode, der bliver leveret og skal vedligeholdes. Det en udvikler leverer, er diffen, og alle tre diffs består. Vi offentliggør tiderne alligevel, fordi vi har intet at skjule. Forveksl bare ikke et stopur med kvalitet.
De krydsede alle den samme mållinje: en korrekt, testet durafmt. Uret er den mindst interessante kolonne på siden.
Reproducerbar af design
Sådan kørte og publicerede vi testen
Vi besluttede at benchmarke en snæver, praktisk brugssituation — 10-minutters kodning — under kontrollerede forhold. Samme opgave, samme regler, samme verifikator for alle tre agenter. Vi gjorde hele eksperimentet offentligt, så alle kan reproducere det.
Identisk opgave
Samme durafmt-spec, samme startskelet og samme eksekverbare acceptancetests givet til hver agent.
Objektiv dommer
En uafhængig verifikator kører acceptancesuiten plus adversarielle tilfælde. Testene afgør resultatet på denne benchmark.
Fair fuldkraft
Hvert CLI kørte headless med auto-godkendelse — claude -p, grok -p, depaza -p --yolo — startet inden for samme sekund.
Åbent kit
Prompten, skelettet, verifikatoren, hver produceret løsning og de rå logfiler ligger alle i det downloadbare zip.
Den ærlige fodnote
Verifikatoren markerer tre "fejl" — og alle tre agenter rammer de samme, fordi verifikatoren tager fejl, ikke agenterne. parse("1w 2d") er 777600 sekunder; verifikatoren forventede i smug en værdi med ekstra tre timer indbygget. De to andre ("0" og "-0s") er input, som agenterne korrekt afviser for at være konsistente med de leverede tests. Vi lod fejlen blive i kittet med vilje, så du kan se, at vi ikke bedømte på en kurve.
Et europæisk datapunkt
Vi valgte en test. Vi gjorde den offentlig. På den test førte vi an.
Agenter bygget på forskellige fundamenter vil naturligt præstere forskelligt på forskellige opgaver. Vi valgte en konkret, tidsbegrænset brugssituation, kørte eksperimentet og publicerede alt. For at forstå tilgangen bag Depaza, se hvordan vores modeller fungerer.
Prøv samme slags opgave selv.
Installer Depaza Code CLI og kør rigtigt 10-minutters kodearbejde. Hele benchmark-kittet er offentligt, hvis du vil reproducere testen.