claude

Claude Opus 4.5 prekonal 80 % na SWE-bench: čo to znamená pre vývojárske tímy

Anthropic vydal Claude Opus 4.5 — prvý AI model s viac ako 80 % na SWE-bench Verified. Skóre 80,9 % predbehlo GPT-5.1-Codex-Max aj Gemini 3 Pro, cena klesla o ~67 %.

Anthropic 24. novembra 2025 vydal Claude Opus 4.5 — prvý model umelej inteligencie, ktorý prekonal 80-percentnú hranicu na SWE-bench Verified (štandardizovanom teste, v ktorom AI rieši reálne chyby z open-source projektov). Model dosiahol skóre 80,9 % a predbehol GPT-5.1-Codex-Max od OpenAI (77,9 %) aj Gemini 3 Pro od Googlu (76,2 %). Pre softvérové tímy to znamená reálnu možnosť prenechať AI opravy bežných chýb a menšie úpravy kódu.

Čo je SWE-bench a prečo je 80 % taký veľký míľnik?

SWE-bench Verified je priemyselný štandard na meranie toho, ako dobre dokáže AI riešiť skutočné problémy v softvéri. Nejde o umelo zostavené úlohy — test obsahuje reálne nahlásené chyby z populárnych open-source projektov ako Django, Flask či Matplotlib, teda z programov, ktoré denne používajú tisícky vývojárov po celom svete. AI musí chybu pochopiť, nájsť jej príčinu v kóde a opraviť ju tak, aby prešli automatické testy.

Doteraz žiadny model nedosiahol 80 % na tomto teste. Claude Opus 4.5 to zmenil: dosiahol 80,9 %, čím sa stal historicky prvým modelom, ktorý túto hranicu prekročil. Pre porovnanie — predchádzajúci Claude 3.5 Sonnet skóroval 49 %, čo znamená, že nový model zvládne o 65 % viac úloh než jeho predchodca spred roka. Konkurencia zostala za ním: GPT-5.1-Codex-Max dosiahol 77,9 % a Gemini 3 Pro 76,2 %.

Anthropic modelu zadal aj interný prijímací test, ktorý dostávajú uchádzači o inžinierske pozície. Claude Opus 4.5 ho zvládol za dve hodiny lepšie než ktorýkoľvek ľudský kandidát v histórii firmy. To neznamená, že AI nahradí seniorného vývojára — test meria izolované technické zručnosti, nie tímovú prácu, architektúru systémov ani komunikáciu so zákazníkom. Napriek tomu ide o výrazný signál o tom, kam sa schopnosti modelov posúvajú.

Čo konkrétne dokáže urobiť za váš tím?

Prakticky povedané: Claude Opus 4.5 zvládne samostatne opraviť chybu, ktorú developer nahlási cez GitHub — pochopí kontext, nájde problematický riadok kódu a navrhne opravu vrátane testov. Podľa Anthropicu je model obzvlášť vhodný na migráciu kódu, refactoring (upratovanie a modernizáciu existujúceho kódu) a komplexné opravy chýb, ktoré sa týkajú viacerých súborov naraz.

Model funguje ako tzv. agent — dokáže pracovať autonómne na dlhšej úlohe bez toho, aby ho musel developer každých päť minút navigovať. Testy ukázali, že pri zložitých pracovných postupoch rieši problémy s menším počtom slepých uličiek než predchádzajúce modely. Pre tím piatich vývojárov to môže znamenať, že niekoľko hodín týždenne, doteraz venovaných rutinným opravám, sa uvoľní na prácu s vyššou pridanou hodnotou.

Dôležitá výhrada: SWE-bench meria opravu izolovaných chýb. Nezachytáva širšie inžinierske schopnosti ako návrh architektúry, spoluprácu v tíme ani ladenie produkčných systémov pod záťažou. Výsledky z testov sa do reálneho prostredia vždy prenášajú čiastočne — skúsení vývojári potvrdzujú, že v každodennej práci nie je rozdiel medzi Opus 4.5 a jeho predchodcom vždy okamžite citeľný.

Kde model získate a čo to stojí?

Model je dostupný okamžite cez niekoľko kanálov. Firemní používatelia ho nájdu na claude.ai v plánoch Pro, Team a Enterprise. Vývojári môžu siahnuť po Claude Code — nástroji príkazového riadka priamo integrovanom do vývojárskeho prostredia — alebo po populárnych editoroch Cursor a Lovable, kde Claude funguje ako zabudovaný asistent. Firmy, ktoré chcú model zapojiť do vlastných aplikácií, ho môžu integrovať cez API aj na cloudových platformách Amazon Bedrock, Google Cloud Vertex AI a Microsoft Azure Foundry.

Cena je pri porovnaní s predchádzajúcou generáciou výrazne nižšia. Anthropic znížil cenu o ~67 % — zo 15 dolárov na 5 dolárov za milión vstupných tokenov (token je zhruba tri štvrtiny slova). Výstupné tokeny stoja 25 dolárov za milión, predtým to bolo 75 dolárov. Pre slovenské softvérové firmy ako ESET, Pixel Federation, Superformula či Innovatrics to znamená, že nasadenie špičkového modelu do pracovných postupov vývojových tímov je dnes ekonomicky podstatne dostupnejšie než pred rokom.

Pre tímy, ktoré chcú model otestovať bez veľkých nákladov, Anthropic zaviedol aj parameter „effort" (úsilie) — nastavenie na strednú úroveň dosiahne výsledky porovnateľné s predchádzajúcim modelom Sonnet 4.5, ale spotrebuje až o 76 % menej výpočtových zdrojov, čo priamo znižuje náklady na každé volanie modelu.

Claude Opus 4.5 prekonal 80 % na SWE-bench: čo to znamená pre vývojárske tímy

Čo je SWE-bench a prečo je 80 % taký veľký míľnik?

Čo konkrétne dokáže urobiť za váš tím?

Kde model získate a čo to stojí?

Zdroje

Read more

OpenAI aktualizovalo Agents SDK: sandbox, podpora 100+ modelov a plánované subagenty

Anthropic spustil Claude Managed Agents: AI agenti pre firmy bez vlastnej infraštruktúry

Koniec Sory: Prečo OpenAI vypína svoj AI video nástroj a čo ho nahradí

AI agenti v praxi: čo to znamená pre firmy na Slovensku