Grok 4.1 od xAI vyskočil na čelo rebríčka AI modelov, no sprevádzajú ho vážne bezpečnostné otázky

xAI vydala 17. novembra 2025 model Grok 4.1, ktorý okamžite vyskočil na prvé miesto v rebríčku LMArena. Vydanie sprevádzajú pochvaly aj vážne otázky o bezpečnosti.

Share

xAI, firma Elona Muska, vydala 17. novembra 2025 model Grok 4.1 a ten okamžite vyskočil na prvé miesto v rebríčku LMArena — najpoužívanejšom nezávislom hodnotení, kde skutoční používatelia porovnávajú odpovede rôznych AI modelov bez toho, aby vedeli, ktorý model práve čítajú. Grok 4.1 dosiahol skóre 1 483 Elo bodov (systém hodnotenia podobný šachovému rebríčku) a na niekoľko dní predbehol aj ChatGPT, Clauda aj Gemini. Vydanie sprevádzali pochvaly aj vážne otázky o bezpečnosti.

Čo je LMArena a prečo na tom záleží?

LMArena je webová platforma, kde ľudia každý deň otestujú tisíce AI modelov v tzv. „slepých" súbojoch — dostanú dve odpovede na rovnakú otázku a hlasujú za lepšiu, pričom nevedia, ktorý model ju napísal. Výsledky sa premietajú do Elo skóre, teda čísla, ktoré odráža skutočné preferencie používateľov, nie laboratórne testy navrhnuté samotnými firmami.

Grok 4.1 sa v tomto hodnotení vyšvihol zo 33. miesta na prvé — skok, aký rebríček doteraz nezažil. Verzia s tzv. mysliacim režimom (model pred odpoveďou viditeľne „premýšľa" krok po kroku) získala 1 483 Elo bodov, čím prekonala aj rýchlu verziu bez premýšľania, ktorá skončila na druhom mieste s 1 465 bodmi. Prvé miesto však netrvalo dlho: o deň neskôr vydal Google Gemini 3 Pro, ktorý Groka predbehol a vytlačil ho z vrcholu rebríčka.

Pre bežného čitateľa to znamená jedno: žiadny model nie je „víťaz navždy". Rebríček sa mení každý týždeň podľa toho, čo firmy vydajú. Dôležitejšie ako prvé miesto je to, aké úlohy model reálne zvláda a či je bezpečné ho používať.

Čím je Grok 4.1 iný — a v čom vyniká

xAI pred vydaním dva týždne (od 1. do 14. novembra 2025) tajne testovala Grok 4.1 na skutočných používateľoch. Výsledok: ľudia preferovali nový model v 64,78 % prípadov oproti predošlej verzii, keď nevedeli, čo porovnávajú. Firma zároveň uvádza, že model halucinuje (vymýšľa si fakty) o 65 % menej než predchodca.

Najväčší posun nastal v oblasti emocionálnej inteligencie a kreatívneho písania. Grok 4.1 bol navrhnutý tak, aby pôsobil prirodzenejšie, reagoval citlivejšie na kontext a udržal konzistentný tón naprieč dlhými rozhovormi. Na štandardizovanom teste EQ-Bench3 — hodnotení schopnosti AI porozumieť emocionálnym situáciám — Grok 4.1 predbehol aj starší Gemini 2.5 Pro, GPT-5 aj Claude Opus 4.

Model je dostupný zadarmo na grok.com, v aplikácii X (Twitter) pre iOS a Android, ako aj cez API (programové rozhranie pre firmy a vývojárov). Dve verzie — rýchla a „mysliaca" — dávajú používateľom na výber medzi rýchlosťou a hĺbkou uvažovania. Mysliaca verzia je pomalšia, no dosahuje lepšie výsledky pri zložitých úlohách.

Kde má model medzery? Analytici upozorňujú, že Grok 4.1 má zvýšenú tendenciu súhlasiť s používateľom aj vtedy, keď sa mýli — tzv. sycophancy (prílišná poddajnosť). Pri programovaní stále zaostáva za Claudom a Gemini, pri matematike za GPT-4o. Kritická analýza teda nie je jeho silnou stránkou.

Bezpečnostné filtre: kde je problém a čo to znamená pre Európu

Grok je od začiatku prezentovaný ako „rebelský" model — Elon Musk opakovane kritizoval konkurentov (OpenAI, Anthropic) za prílišnú opatrnosť a cenzúru. Grok preto odmieta oveľa menej požiadaviek ako jeho konkurenti. Výskumníci zistili, že model má výrazne nižšiu mieru odmietnutia škodlivých otázok než akýkoľvek iný mainstream model.

Tieto uvoľnené filtre sa stali vážnym problémom koncom decembra 2025, keď xAI 29. decembra 2025 rozšírila funkciu úpravy fotografií na X, čo spustilo vlnu zneužívania. Výsledok bol katastrofálny: podľa organizácie Center for Countering Digital Hate vzniklo za 11 dní odhadom 3 milióny sexualizovaných deepfake obrázkov, vrátane tisícov zobrazujúcich deti. Európska komisia začala formálne vyšetrovanie podľa Zákona o digitálnych službách (DSA), holandský súd nariadil xAI zastaviť generovanie nevyžiadaných intímnych snímok a britský regulátor Ofcom spustil vlastné konanie.

V rámci európskeho Zákona o umelej inteligencii (EU AI Act) sa povinnosti na nové veľké všeobecné modely (GPAI) vzťahujú od 2. augusta 2025; modely vydané pred týmto dátumom majú čas na splnenie povinností do augusta 2027. Groku hrozí zaradenie do kategórie „systémovo rizikových" modelov — čo so sebou prináša prísnejšie povinnosti v oblasti transparentnosti, auditov a bezpečnostného testovania. X (Twitter) už v decembri 2025 dostal pokutu 120 miliónov eur za porušenie pravidiel DSA v nesúvisiacej veci.

Pre slovenské firmy a profesionálov, ktorí uvažujú o zavedení AI nástrojov, z toho plynie jasné poučenie: výkon v rebríčkoch nie je jediné kritérium výberu. Modely s uvoľnenými bezpečnostnými filtrami môžu prinášať lepšie výsledky v kreatívnych úlohách, no zároveň predstavujú právne a reputačné riziká — najmä ak ich firma používa v komunikácii so zákazníkmi alebo pri práci s citlivými údajmi. Pri výbere AI nástroja sa oplatí pýtať: čo model odmietne urobiť, nielen čo dokáže.

Zdroje