ai-safety

Constitutional Classifiers: Ako Anthropic chráni AI pred jailbreakmi

Anthropic predstavil Constitutional Classifiers — bezpečnostnú vrstvu blokujúcu jailbreaky v reálnom čase. Druhá generácia CC++ znižuje výpočtový overhead na ~1 % pri zachovaní rekordnej ochrany.

Anthropic predstavil Constitutional Classifiers — bezpečnostnú vrstvu, ktorá v reálnom čase sleduje, čo používateľ píše do AI modelu aj čo model odpovie, a blokuje pokusy o tzv. jailbreak (oklamanie modelu, aby porušil vlastné pravidlá). Systém je trénovaný na synteticky vygenerovaných dátach odvodených z „ústavy" — dokumentu, ktorý v bežnom jazyku definuje, čo je povolené a čo nie. V januári 2026 Anthropic zverejnil druhú generáciu systému pod názvom Constitutional Classifiers++, ktorá prináša výrazne nižšie prevádzkové náklady a doteraz neprekonateľnú ochranu.

Čo je jailbreak a prečo na tom záleží

Moderné AI modely ako Claude majú zabudované bezpečnostné pravidlá — napríklad nemajú pomáhať s výrobou nebezpečných látok ani šíriť nenávisť. Tieto pravidlá však možno obísť. Jailbreak je technika, pri ktorej útočník prefíkane naformuluje otázku tak, aby model pravidlá ignoroval. Najnebezpečnejšie sú tzv. univerzálne jailbreaky — stratégie, ktoré nefungujú len raz, ale spoľahlivo získavajú škodlivé odpovede naprieč mnohými typmi otázok. Práve tieto Anthropic označuje za najväčšie riziko: umožnili by bežným ľuďom bez odborných vedomostí získať od AI podrobné návody napríklad na výrobu chemických zbraní. Výskumníci Anthropicu zistili, že model Claude 3.5 Sonnet bez akejkoľvek ochrany zablokoval iba 14 % pokročilých jailbreak pokusov — teda útočníkovi sa darilo v 86 % prípadov.

Bežné ladenie modelov (tzv. dotrénovanie) tento problém nerieši spoľahlivo: model sa síce naučí odmietnuť konkrétne formulácie, ale nedokáže generalizovať na nové varianty útoku. Anthropic preto hľadal riešenie mimo samotného modelu.

Ako funguje „ústava" a čo ju robí účinnou

Constitutional Classifiers sú samostatné kontrolné programy (klasifikátory), ktoré bežia vedľa Claude a vyhodnocujú každú komunikáciu. Trénujú sa na synteticky vygenerovaných dátach: iný AI model dostane „ústavu" — zoznam princípov v bežnom jazyku, napr. „neposkytnúť návod na výrobu biologickej zbrane" alebo „neradiť pri sebapoškodení" — a na jej základe automaticky vytvorí státisíce tréningových príkladov škodlivých aj neškodných výmen. Vďaka tomu sa klasifikátor naučí rozoznávať nebezpečné vzory naprieč rôznymi formuláciami, jazykmi aj šifrovacími trikmi.

Prvá generácia systému znížila úspešnosť jailbreak pokusov z 86 % na 4,4 % — teda zablokovala viac ako 95 % útokov, ktoré by inak prešli. Počas viac ako 3 000 hodín testovania odborníkmi (tzv. red teamingom) sa nepodarilo nájsť ani jeden univerzálny jailbreak. Nevýhodou však bol výpočtový overhead — systém zaťažoval infraštruktúru o 23,7 % navyše.

Constitutional Classifiers++ zavádza podľa skupiny autorov článku "Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks" niekoľko inovácií: exchange klasifikátory hodnotiace celú konverzáciu, dvojstupňovú kaskádu (ľahký lineárny probe + výkonnejší klasifikátor) a ansamblové metódy. Prvý stupeň je ľahký a rýchly — analyzuje vnútorné stavy modelu (tzv. aktivácie neurónov, teda číselné hodnoty, ktoré model interne počíta pri spracovaní textu) a odfiltruje väčšinu bežných požiadaviek takmer zadarmo. Len podozrivé výmeny postúpi druhému, dôkladnejšiemu klasifikátoru. Výsledok: výpočtový overhead klesol na približne 1 % — čo je v porovnaní s pôvodnými 23,7 % dramatické zlepšenie. Zároveň nová generácia hodnotí konverzáciu ako celok: výstup modelu posudzuje vždy v kontexte vstupu. Takto odhalí napríklad trik, keď útočník použije nevinne znejúci kód (povedzme „potravinárske farbivá") namiesto skutočného nebezpečného pojmu — v izolácii by odpoveď vyzerala bezpečne, v kontexte vstupu je škodlivá zrejmá.

Čo to znamená pre vaše podnikanie

Pre manažérov a firmy, ktoré nasadzujú AI v zákazníckom kontexte — chatboty, automatizovaná zákaznícka podpora, moderovanie obsahu — má tento vývoj priamy praktický dopad. Výber dodávateľa s vyspelou bezpečnostnou vrstvou nie je len technické rozhodnutie: je to aj argument voči zákazníkom, partnerom a regulátorom. Európska únia prostredníctvom EU AI Act vyžaduje od vysokorizikových systémov odolnosť voči kybernetickým útokom a robustnosť. Anthropic v júli 2025 oznámil zámer podpísať európsky Kódex správania pre AI (General-Purpose AI Code of Practice), čím sa zaradil medzi hráčov aktívne si budujúcich regulačnú dôveryhodnosť. Firmy, ktoré stavajú na Claude, tak môžu argumentovať, že ich dodávateľ má zdokumentovanú, verejne overiteľnú bezpečnostnú architektúru.

Prakticky to znamená: ak váš chatbot beží na modeli s Constitutional Classifiers, útočník, ktorý sa pokúsi preformulovať otázku stokrát rôznymi spôsobmi, narazí na bariéru trénovanú na tisíckach variantov práve takýchto trikov. A keď sa objaví nový typ útoku, „ústavu" stačí aktualizovať a systém sa prispôsobí — bez toho, aby bolo nutné celý model trénovať odznova. Pre malé a stredné firmy bez vlastného bezpečnostného tímu je to konkrétna odpoveď na otázku: „Ako zabránime tomu, aby niekto zneužil náš firemný chatbot?"

Výsledky testovania hovoria za seba. Anthropic v spolupráci s platformou HackerOne organizoval verejnú bug bounty výzvu: 339 účastníkov generovalo viac ako 300 000 interakcií s cieľom prelomiť systém. Za nájdenie univerzálneho jailbreaku ponúkali odmenu až 20 000 dolárov. Po tisícoch hodín testovania bol nájdený iba jeden takýto útok. V nadväzujúcom testovaní exchange classifieru (predchodcu CC++) si jeho objavenie vyžiadalo 100 hodín úsilia odborníka. Druhá generácia systému tento rekord prekonáva: pri viac ako 1 700 hodinách red teamingu sa zatiaľ nepodarilo nájsť žiadny plne funkčný univerzálny jailbreak.

Zdroje

Článok bol vytvorený s pomocou umelej inteligencie.

Constitutional Classifiers: Ako Anthropic chráni AI pred jailbreakmi

Čo je jailbreak a prečo na tom záleží

Ako funguje „ústava" a čo ju robí účinnou

Čo to znamená pre vaše podnikanie

Zdroje

Read more

OpenAI aktualizovalo Agents SDK: sandbox, podpora 100+ modelov a plánované subagenty

Anthropic spustil Claude Managed Agents: AI agenti pre firmy bez vlastnej infraštruktúry

Koniec Sory: Prečo OpenAI vypína svoj AI video nástroj a čo ho nahradí

AI agenti v praxi: čo to znamená pre firmy na Slovensku