Llama 4 Maverick: open-weight AI model od Meta, ktorý si môžete spustiť na vlastnom serveri

Meta vydala Llama 4 Maverick — výkonný open-weight AI model s 1 miliónom tokenov kontextu, ktorý firmy môžu prevádzkovať na vlastnej infraštruktúre bez odosielania dát do cloudu.

Share

Meta 5. apríla 2025 vydala Llama 4 Maverick — open-weight AI model štvrtej generácie, ktorý si môže každý stiahnuť zadarmo a spustiť na vlastnej infraštruktúre. Podľa Meta ide o výkonnostne najpokročilejší model rodiny Llama, ktorý prekonáva GPT-4o a Gemini 2.0 Flash v celom rade testov. Pre firmy, kde dáta nesmú opustiť interné servery — banky, nemocnice, verejná správa — to otvára praktickú alternatívu k plateným cloudovým AI službám.

Čo je Llama 4 Maverick a čím sa líši od predchádzajúcich verzií

Llama 4 je štvrtá generácia rodiny veľkých jazykových modelov od Meta Platforms. Tentoraz Meta vydala hneď dva modely: Llama 4 Scout — menší, úspornejší — a vlajkovú loď Llama 4 Maverick. Oba sú prvými modelmi Llama postaveným na architektúre Mixture of Experts (MoE) — to znamená, že model má síce celkovo 400 miliárd parametrov (akýchsi „vedomostných jednotiek"), no pri každej odpovedi aktívne využíva len 17 miliárd z nich prostredníctvom 128 špecializovaných podmodulov. Výsledkom je vyšší výkon pri nižšej výpočtovej náročnosti v porovnaní s tradičnými modelmi rovnakej veľkosti.

Oba modely sú natívne multimodálne — rozumejú nielen textu, ale aj obrázkam. Meta ich trénovala na texte aj vizuálnych dátach súčasne, čo im dáva lepší základ pre úlohy ako analýza grafov, dokumentov alebo vizuálne otázky. Maverick zvláda kontext až 1 milión tokenov (zhruba 750 000 slov), čo postačí napríklad na spracovanie rozsiahleho súboru dokumentov v jednej relácii.

Menší Scout ide ešte ďalej — jeho kontextové okno dosahuje rekordných 10 miliónov tokenov, čo je dosť na to, aby do jednej relácie zmestil celú rozsiahlu kódovú základňu alebo viacero kníh naraz.

Ako si stojí v porovnaní s GPT a Claudom

Podľa vlastného testovania Meta Llama 4 Maverick prekonáva GPT-4o a Google Gemini 2.0 Flash v celom rade viacmodálnych testov pokrývajúcich kódovanie, uvažovanie, mnohojazyčné úlohy a porozumenie obrazovým dátam. Model je tiež porovnateľný s oveľa väčším modelom DeepSeek V3 v testoch kódovania a logického uvažovania.

Treba však byť úprimní: nezávislé testy ukazujú zmiešanejší obraz. Napríklad analytická firma Rootly AI Labs vo vlastnom kódovacom teste zistila, že Maverick nedosahuje výsledky GPT-4o ani špecializovaných kódovacích modelov. Novšie modely ako Gemini 2.5 Pro, Claude 3.7 Sonnet alebo GPT-4.5 majú v niektorých oblastiach stále náskok. Llama 4 Maverick teda nie je bezkonkurenčný líder, ale patrí medzi špičku open-weight modelov — tých, ktoré si možno stiahnuť a prevádzkovať bez predplatného.

Čo sa týka ceny pri používaní cez cloudových poskytovateľov: Maverick vychádza podľa spôsobu nasadenia na okolo 0,19–0,49 USD za milión tokenov — Meta uvádza $0,19/Mtok pri distribuovanej inferencii a $0,30–$0,49/Mtok na jednom hoste, čo je v každom prípade výrazne menej ako priemer platených modelov. Kto ho prevádzkuje na vlastnom hardvéri, platí len za elektrinu a server.

Čo to znamená pre slovenské firmy a inštitúcie

Práve možnosť prevádzkovať model na vlastnom serveri je pre mnohé slovenské organizácie kľúčová. Banky regulované Národnou bankou Slovenska, nemocnice pod dohľadom ŠÚKL-u či orgány verejnej správy musia dodržiavať prísne pravidlá o tom, kam môžu citlivé údaje cestovať. Pri platených cloudových modeloch (ChatGPT, Claude, Gemini) dáta putujú na servery v zahraničí — čo môže byť v rozpore s GDPR, sektorovými predpismi alebo internými bezpečnostnými politikami.

Llama 4 Maverick tento problém obchádza: model si firma stiahne, nainštaluje na vlastnom serveri a žiadne dáta neopustia infraštruktúru firmy. Dostupný je cez platformu Hugging Face a dá sa spúšťať pomocou nástrojov ako Ollama, vLLM alebo llama.cpp. Licencia Llama 4 Community License umožňuje komerčné využitie — s výnimkou firiem s viac ako 700 miliónmi mesačných aktívnych používateľov.

Treba však počítať s realistickými požiadavkami na hardvér. Llama 4 Scout (menší model) zvládne bežať na jednom serveri s grafickou kartou Nvidia H100. Llama 4 Maverick potrebuje celý systém H100 DGX alebo ekvivalent — to je investícia v desiatkach tisíc eur, plus náklady na prevádzku a IT odborníkov. Pre firmy bez vlastného dátového centra je rozumnou strednou cestou prenajatá infraštruktúra u cloudových poskytovateľov, ktorí ponúkajú Maverick za zlomok ceny plných modelov GPT alebo Claude — napríklad cez Together AI alebo Groq.

Pre väčšinu každodenných úloh — písanie textov, sumarizácia dokumentov, analýza dát, podpora zákazníkov — je výkonnostný rozdiel oproti plateným modelom menší ako rozdiel v cene a kontrole nad dátami. Práve to robí z Llama 4 zaujímavú voľbu pre každú organizáciu, kde na ochrane údajov záleží.

Zdroje

Článok bol vytvorený s pomocou umelej inteligencie.