På denne test førte Depaza an.

Der er ingen god måde at sammenligne æbler med bananer på. Forskellige agenter er bygget på forskellige modeller, kører i forskellige miljøer og er optimeret til forskellige ting. Se hvordan vores modeller fungerer for detaljer om vores tilgang. Vi definerede derfor en snæver, praktisk test: den præcist samme 10-minutters produktionskodeopgave givet til Grok, Claude Code og Depaza den 15. juni 2026 under identiske betingelser. Vi publicerede den fulde prompt, skelettet, verifikatoren, alle løsninger og de rå logfiler. På denne test førte Depaza an.

Hent hele kittet Læs metoden

depaza-coder · benchmark

$depaza benchmark --task durafmt

Kører 10-minutters kodebenchmark…

✓38 / 38 acceptancetests bestået

✓Gennemgang af ingeniørkvalitet

Samlet score højere er bedre

Depaza Depaza · 🇪🇺 Fører 100.0

Claude Code Anthropic · 🇺🇸 93.8

Grok xAI · 🇺🇸 75.0

Samlet = % af de 16 kvalitetsbarer, der blev klaret

✓Test fuldført 🎉

Punkt for punkt

Depaza klarede alle barer på denne test.

Linje-for-linje gennemgang af den faktiske kode, hver agent producerede, mod de krav vi definerede for opgaven. Grønt betyder, at den klarede det pågældende punkt.

Klarer punktet —Gør ikke

Punktet	Depaza Depaza · 🇪🇺 LEADER	Claude Code Anthropic · 🇺🇸	Grok xAI · 🇺🇸
Korrekthed & robusthed	9/9	9/9	9/9
Alle 38 acceptancetests består
Roundtrip-egenskab: parse(format(x)) == x
CLI parse + format virker begge
Tolerant over for mellemrum og tabulator
Håndterer meget store værdier (1000w)
Versalufølsomme enheder (1H = 1h)
Afviser misdannet input rent
Heltalspræcist — ingen flydende-komma-drift
Kun standardbibliotek, ingen afhængigheder
Ingeniørkvalitet	7/7	6/7	3/7
Lang stil med ord i flertal
Lang stil er konsistent ved nul ("0 seconds")			—
Felt-præcise fejlbeskeder (navngiver enheden)			—
Eksplicit offentligt API (__all__)			—
Fulde type-hints
Modul- + funktions-docstrings
Rig inline-dokumentation af logikken		—	—

16/16 på denne test. Depaza var den eneste, der klarede alle barer.

Depaza var den eneste deltager, der opfyldte alle ni korrekthedskrav og alle syv ingeniørkvalitetskrav, vi definerede for et komplet, produktionsklart resultat. De andre leverede korrekt, testet kode, men opfyldte ikke den fulde standard på denne benchmark.

Tid er ligegyldig

Sekunder er en forfængelighedsmåling. Korrekt kode er produktet.

Ja, tidstallene er forskellige — det vil de altid være, da de svinger med modelbelastning, netværk og hvor hårdt en agent dobbelttjekker sig selv. Grok var hurtigst til en bestået diff. Depaza brugte længere tid, fordi den nægtede at stoppe ved "testene består". Den ekstra tid producerede den rige inline-dokumentation af logikken, det eksplicitte offentlige API, felt-præcise fejlbeskeder der navngiver den dårlige enhed, og lang stil der er konsistent ved nul — præcis de ingeniørkvalitets-barer, som kun Depaza klarede. De andre optimerede for stopuret. Depaza optimerede for den kode, der bliver leveret og skal vedligeholdes. Det en udvikler leverer, er diffen, og alle tre diffs består. Vi offentliggør tiderne alligevel, fordi vi har intet at skjule. Forveksl bare ikke et stopur med kvalitet.

De krydsede alle den samme mållinje: en korrekt, testet durafmt. Uret er den mindst interessante kolonne på siden.

Reproducerbar af design

Sådan kørte og publicerede vi testen

Vi besluttede at benchmarke en snæver, praktisk brugssituation — 10-minutters kodning — under kontrollerede forhold. Samme opgave, samme regler, samme verifikator for alle tre agenter. Vi gjorde hele eksperimentet offentligt, så alle kan reproducere det.

📋

Identisk opgave

Samme durafmt-spec, samme startskelet og samme eksekverbare acceptancetests givet til hver agent.

⚖️

Objektiv dommer

En uafhængig verifikator kører acceptancesuiten plus adversarielle tilfælde. Testene afgør resultatet på denne benchmark.

🤖

Fair fuldkraft

Hvert CLI kørte headless med auto-godkendelse — claude -p, grok -p, depaza -p --yolo — startet inden for samme sekund.

📦

Åbent kit

Prompten, skelettet, verifikatoren, hver produceret løsning og de rå logfiler ligger alle i det downloadbare zip.

Den ærlige fodnote

Verifikatoren markerer tre "fejl" — og alle tre agenter rammer de samme, fordi verifikatoren tager fejl, ikke agenterne. parse("1w 2d") er 777600 sekunder; verifikatoren forventede i smug en værdi med ekstra tre timer indbygget. De to andre ("0" og "-0s") er input, som agenterne korrekt afviser for at være konsistente med de leverede tests. Vi lod fejlen blive i kittet med vilje, så du kan se, at vi ikke bedømte på en kurve.

Et europæisk datapunkt

Vi valgte en test. Vi gjorde den offentlig. På den test førte vi an.

Agenter bygget på forskellige fundamenter vil naturligt præstere forskelligt på forskellige opgaver. Vi valgte en konkret, tidsbegrænset brugssituation, kørte eksperimentet og publicerede alt. For at forstå tilgangen bag Depaza, se hvordan vores modeller fungerer.

Sådan fungerer vores modeller Sikkerhed & hosting Hent CLI’en

Prøv samme slags opgave selv.

Installer Depaza Code CLI og kør rigtigt 10-minutters kodearbejde. Hele benchmark-kittet er offentligt, hvis du vil reproducere testen.

Prøv gratis