Lokalni LLM u 2026.: RTX 5090, Mac Studio M5 Ultra, Ryzen AI MAX+ 395 i DGX Spark — koji hardver kupiti za pokretanje 70B+ modela kod kuće

Lokalni LLM više nije egzotika — ali ni svaki hardver ne može sve

Prije dvije godine, u lipnju 2024., lokalno pokretanje 70-milijardnog modela značilo je iznajmljivanje H100 PCIe instance na AWS-u po 4-6 dolara na sat ili kupnju dvije RTX 4090 karte (svaka po 1.600+ eura u Hrvatskoj) i ručno balansiranje slojeva modela preko CPU-a i NVMe diska. Danas, 24. lipnja 2026., tržište se potpuno preokrenulo. Imate četiri ozbiljne opcije:

Apple Mac Studio s M5 Ultra — do 256 GB unified memory s propusnošću do 819 GB/s, Neural Accelerator u svakoj GPU jezgri, MacBook Air, MacBook Pro i iPad Pro u istoj obitelji čipova. Pokreće Qwen3 235B, DeepSeek-V3 671B (int4 kvantizacija) i Llama 3.1 405B lokalno, s potrošnjom struje ispod 200 W pod opterećenjem.
Nvidia GeForce RTX 5090 — 32 GB GDDR7 na 512-bitnoj sabirnici, 1.792 GB/s propusnosti, Blackwell arhitektura s 5. generacijom Tensor Cores. Cijena u Hrvatskoj 2.150-2.400 EUR. Pokreće 70B modele u FP8 i 30B u FP16 bez problema, ali iza 70B granice trebate dvije karte ili kvantizaciju.
AMD Ryzen AI MAX+ 395 (Strix Halo) — 128 GB unified memory na procesoru, 256 GB/s propusnosti, integrirana Radeon 8060S grafika, ali cijena cijelog mini-PC-a u Hrvatskoj počinje od 2.000 EUR (Framework Desktop 16, Minisforum AI X1 Pro). Idealan za Mixtral 8x22B, Qwen3 235B-A22B i DeepSeek-V3 671B u int4 s CPU offloadom.
Nvidia DGX Spark — 128 GB unified memory, GB10 Grace Blackwell čip, 1 PFLOP AI performansi, ali cijena od 3.000 USD u SAD-u (u EU oko 3.500 EUR s PDV-om) cilja na developere koji žele jedan uređaj umjesto racka.

Krajem 2025. i u 2026. pojavila se i peta opcija — lokalno na mobitelu: iPhone 17 Pro (A19 Pro) i Galaxy S26 Ultra (Snapdragon 8 Elite Gen 2 for Galaxy) imaju dovoljno memorije za 3-7B modele s acceptable tokens/sec brzinom. Za 1B-3B modele danas je bilo koji flagship mobitel u 2026. bolji nego flagship laptop od prije tri godine.

Pitanje "koji hardver za lokalni LLM" u lipnju 2026. više nije tehničko pitanje. To je pitanje proračuna, veličine modela koji želite pokretati i vašeg stava prema macOS-u vs Linuxu vs Windowsu. Ovaj vodič prolazi kroz svih pet opcija, daje konkretne hrvatske cijene, objašnjava kako konfigurirati Ollama, llama.cpp i LM Studio za svaki, te predviđa kamo tržište ide do 2028.

Sažetak: koji hardver u 2026. za koji model

Ako želite pokretati 70-235B modele na Macu, ne želite čuti ventilator i ne planirate koristiti Windows — Mac Studio M5 Ultra (256 GB) je najjači izbor. Propusnost od 819 GB/s znači da Qwen3 235B-A22B radi s 18-22 tokena/s u FP16. Mac Studio M5 Max (128 GB) je pola cijene (~2.700 EUR) i pokreće iste modele s ~10 tokena/s.
Ako želite najbolji hardver za novac i planirate koristiti Linux ili Windows s CUDA — RTX 5090 (32 GB) je još uvijek najbolji. Za 70B modele u FP8 trebate dvije RTX 5090 (4.500+ EUR) ili jednu s CPU offloadom. RTX 5080 16 GB (1.150-1.300 EUR) pokreće Qwen3 30B-A3B, Mistral Large 2 123B-A3B i Phi-4 14B bez problema.
Ako želite pokretati ogromne modele (235B+) na jednom uređaju i nemate Mac — Ryzen AI MAX+ 395 s 128 GB u Framework Desktop 16 ili Minisforum AI X1 Pro je jedinstven jer nudi 128 GB na CPU strani po cijeni jednog dobrog gaming računala. Mana: 256 GB/s propusnosti je 3-7× manje od Mac Studija ili RTX 5090.
Ako ste developer koji želi jedan uređaj umjesto racka — Nvidia DGX Spark s 128 GB i GB10 čipom pokreće Llama 3.1 405B, DeepSeek-V3 671B i Qwen3 235B u FP4 s 30+ tokena/s, ali mora biti priključen na struju i ventilator je glasan pod kontinuiranim opterećenjem.
Ako želite isprobati lokalni LLM bez kupnje bilo čega — Ollama + stari laptop s 16 GB RAM-a pokreće Llama 3.2 3B, Phi-4 Mini 3.8B i Qwen2.5 3B s 5-10 tokena/s, sasvim dovoljno za offline prijevod, sumarizaciju i učenje promptanja.

Kronologija: od H100 do M5 Ultra — kako smo stigli do "lokalnog" LLM-a

Pojava lokalnih LLM-ova ima tri jasne faze:

2022.-2023.: Hugging Face + llama.cpp era. Prvi praktični alati za lokalno pokretanje LLM-ova pojavili su se 2023. — llama.cpp (Georgi Gerganov, srpanj 2023.) i Ollama (srpanj 2023.) standardizirali su GGUF format i 4-bitnu/8-bitnu kvantizaciju. U to vrijeme jedini mainstream hardver bio je RTX 3090 24 GB ili RTX 4090 24 GB, a modeli su bili uglavnom 7B i 13B. Pokretanje Llama 2 70B značilo je kupnju dvije RTX 3090 ili kvantizaciju na 4-bitnu preciznost uz gubitak kvalitete.

2024.-2025.: Blackwell i Apple Silicon era. Nvidia je u siječnju 2025. lansirala RTX 50 seriju na Blackwell arhitekturi — RTX 5090 32 GB GDDR7 (1.792 GB/s, MSRP 1.999 USD), RTX 5080 16 GB GDDR7 (MSRP 999 USD), RTX 5070 12 GB GDDR7 (MSRP 549 USD). Istovremeno, Apple je 15. listopada 2025. lansirao Apple M5 čip s Neural Acceleratorom u svakoj GPU jezgri, a 3. ožujka 2026. proširio obitelj s M5 Pro i M5 Max te uveo Fusion Architecture (dual-die). M5 Max nudi do 128 GB unified memory s propusnošću do 614 GB/s, a M5 Ultra (najavljen za jesen 2026.) navodno donosi do 256 GB i 819 GB/s. AMD je u siječnju 2025. lansirao Ryzen AI MAX+ 395 (Strix Halo) s 128 GB unified memory i integriranom Radeon 8060S grafikom.

2026.: Konsolidacija i agenti. U travnju 2026. Ollama je dosegla verziju 0.22.1 (28.4.2026.) s eksperimentalnom podrškom za image generation (Flux modeli) i integracijom s Claude Code, Codex i OpenClaw. LM Studio je postao standard za korisnike koji ne žele CLI. vLLM je postao standard za produkcijske servere, a SGLang za rad s strukturiranim outputima. Na tržištu se pojavila Nvidia DGX Spark (3.000 USD) kao "developer kit" verzija DGX Station s GB10 Grace Blackwell čipom i 128 GB unified memory. Istovremeno, lokalni LLM na mobitelu postao je stvarnost: iPhone 17 Pro (A19 Pro) pokreće Qwen2.5 3B s ~12 tokena/s preko Apple Foundation Models frameworka, a Snapdragon 8 Elite Gen 2 for Galaxy na Galaxy S26 Ultra pokreće iste modele s ~8 tokena/s.

Danas, 24. lipnja 2026., lokalni LLM je praktičan, jeftin i ne zahtijeva više znanja od instalacije Ollame na bilo koje moderno računalo. Pitanje je samo koliko memorije i koju arhitekturu.

Apple M5 / M5 Pro / M5 Max / M5 Ultra — Apple Silicon za LLM

Apple M5 je ARM-bazirani sistem-na-čipu (SoC) dizajniran od Apple Inc.-a, proizveden na TSMC-ovom trećem generacijom 3-nm procesa (N3P). Bazni M5 najavljen je 15. listopada 2025. za 14-inčni MacBook Pro, iPad Pro i Apple Vision Pro, a M5 Pro i M5 Max najavljeni su 3. ožujka 2026. uz ažurirane MacBook Pro modele. Sva tri varijante dijele novu GPU arhitekturu s Neural Acceleratorom integriranim u svaku GPU jezgru — to je ključno za lokalne LLM-ove jer Apple koristi unified memory koju CPU, GPU i Neural Engine dijele.

Ključne specifikacije: - M5 (bazni): 9 ili 10 CPU jezgri (3-4 super + 6 efficiency), 8 ili 10 GPU jezgri, 16-core Neural Engine, do 32 GB unified memory, LPDDR5X na 9.600 MT/s = 153,6 GB/s propusnosti. Ugrađen u MacBook Air M5 (2026.), MacBook Pro 14" M5, iPad Pro M5 (2025.) i Vision Pro M5 (2025.). Cijena u Hrvatskoj: MacBook Air 13" M5/16 GB od 1.299 EUR, MacBook Pro 14" M5/16 GB od 1.799 EUR. - M5 Pro: 15 ili 18 CPU jezgri (5-6 super + 10-12 performance), 16 ili 20 GPU jezgri, 16-core Neural Engine s višom bandwidth konekcijom, do 64 GB unified memory, 307 GB/s propusnosti. Ugrađen u MacBook Pro 14" i 16" (2026.). Cijena: MacBook Pro 14" M5 Pro/24 GB od 2.499 EUR, M5 Pro/48 GB od 3.299 EUR. - M5 Max: 18 CPU jezgri (6 super + 12 performance), 32 ili 40 GPU jezgri, 16-core Neural Engine, do 128 GB unified memory, 460 GB/s propusnosti (32-core GPU) ili 614 GB/s (40-core GPU). Ugrađen u MacBook Pro 14" i 16" (2026.). Cijena: MacBook Pro 16" M5 Max/64 GB od 4.499 EUR, M5 Max/128 GB od 6.499 EUR. - M5 Ultra (najavljen za jesen 2026.): Očekuje se 24-32 CPU jezgri, 52-80 GPU jezgri, do 256 GB unified memory, 819 GB/s propusnosti. Predviđena cijena Mac Studio M5 Ultra/256 GB oko 8.500-9.500 EUR u Hrvatskoj. Pokretanje Qwen3 235B-A22B u FP16 s ~18-22 tokena/s, DeepSeek-V3 671B u int4 s ~6-9 tokena/s. - Fusion Architecture (M5 Pro i M5 Max): Prva Apple-ova multi-die implementacija — dva 3-nm čipa povezana visoko-propustnim pakiranjem u jedan SoC, s jedinstvenom unified memory arhitekturom. Time Apple može skalirati broj jezgri i bandwidth izvan limita jednog čipa, slično Intel Core Ultra i AMD Instinct MI300X konceptu, ali s Apple-ovom unified memory paradigmom.

Zašto je Apple Silicon dobar za LLM: 1. Unified memory. CPU, GPU i Neural Engine dijele isti RAM, što znači da 128 GB na Mac Studio M5 Max koristi i CPU i GPU bez ručnog kopiranja. Na Nvidia/NVIDIA sustavu, 128 GB RAM-a i 32 GB VRAM-a su dva zasebna memory poola i morate ručno slagati slojeve modela. 2. Neural Accelerator u svakoj GPU jezgri. Apple tvrdi 4× peak GPU compute za AI workload u odnosu na M4. To je važno jer MLX (Apple-ov open-source ML framework) i llama.cpp sada eksplicitno koriste te akceleratore. Ollama je u ožujku 2026. dodala eksperimentalnu podršku za Apple silicon preko MLX frameworka. 3. Memory bandwidth. 614 GB/s na M5 Max s 40-core GPU je 2,5× više nego RTX 5080 (896 GB/s), ali 32 GB GDDR7 je manje od 128 GB unified memory. Za modele koji stanu u 32 GB VRAM, RTX 5080 je brži. Za modele koji ne stanu, Mac Studio M5 Max s 128 GB je jedini razuman izbor. 4. Potrošnja struje. Mac Studio M5 Max pod punim opterećenjem troši ~150 W. Dvije RTX 5090 troše ~1.150 W (575 W × 2). Na hrvatskom tržištu struje od ~0,18 EUR/kWh, godišnja razlika pri 8 sati dnevno je ~480 EUR.

Mana Apple Silicona: - Zatvoreni ekosustav. Ne možete instalirati najnovije Nvidijine CUDA optimizacije — macOS ima Metal i MLX, ali brzina inferencije za Mixture-of-Experts (MoE) modele kao što je DeepSeek-V3 671B ili Qwen3 235B-A22B je ~30-40% niža nego na RTX 5090 s najnovijim vLLM-om. - Cijena za vrhunsku konfiguraciju. Mac Studio M5 Ultra s 256 GB unified memory koštao bi 9.000+ EUR. Dvije RTX 5090 koštaju 4.500 EUR i daju 64 GB ukupne VRAM + CPU offload do 128 GB RAM-a — to je 1,5× jeftinija opcija za većinu workloada. - Nema upgrade puta. M5 Ultra 2026. → M6 Ultra 2028. = novi uređaj. Na desktopu s RTX 5090 možete zamijeniti karticu za RTX 6090 kad izađe.

Kako konfigurirati Ollama na Macu:

# Instalacija Ollama (pretpostavlja macOS 15+)
brew install ollama
ollama serve  # pokreće lokalni server na portu 11434

# Pokretanje modela
ollama run qwen3:235b-a22b-q4_K_M  # za 128 GB Mac
ollama run llama3.3:70b-instruct-q4_0  # za 32 GB Mac
ollama run qwen2.5:7b  # za 16 GB MacBook Air

Kako konfigurirati LM Studio (preporučeno za ne-tee korisnike): LM Studio je GUI klijent za llama.cpp koji radi na macOS-u, Windows-u i Linuxu. Skinite ga s lmstudio.ai, odaberite model iz biblioteke, postavite GPU offload layers na maximum i kliknite "Start Server". Za Mac Studio M5 Max s 128 GB preporučuje se postavljanje -ngl 99 (svi slojevi na GPU).

Nvidia RTX 5090 / RTX 5080 / RTX 5070 — Blackwell za LLM

Nvidia GeForce RTX 50 serija je Nvidijina mainstream Blackwell arhitektura lansirana u siječnju 2025. na CES-u u Las Vegasu. Bazirana je na TSMC-ovom custom 4N procesu (5-nm klasa), s GDDR7 memorijom (osim RTX 5050 koji koristi GDDR6), PCIe 5.0 sučeljem i DisplayPort 2.1b UHBR20 (80 Gbps) izlazima. Sve kartice imaju 16-pin 12V-2×6 konektor (do 600 W), ali tipična potrošnja (TDP) kreće se od 130 W (RTX 5050) do 575 W (RTX 5090).

Ključne specifikacije za lokalni LLM: - RTX 5090 (32 GB GDDR7): 21.760 CUDA jezgri, 680 Tensor Cores (5. generacija), 1.792 GB/s propusnosti, 575 W TDP, MSRP 1.999 USD (u Hrvatskoj 2.150-2.400 EUR kod Links, Sancta Domenica, iStyle). Pokreće Llama 3.3 70B u FP8 (int8) na ~30 tokena/s, Mistral Large 2 123B-A3B u FP8 s CPU offloadom na ~8 tokena/s, Qwen3 235B-A22B u int4 s CPU offloadom na ~4 tokena/s. - RTX 5080 (16 GB GDDR7): 10.752 CUDA jezgri, 336 Tensor Cores, 896 GB/s propusnosti, 360 W TDP, MSRP 999 USD (u Hrvatskoj 1.150-1.300 EUR). Pokreće Qwen3 30B-A3B u FP16 na ~50 tokena/s, Llama 3.3 70B u int4 s CPU offloadom na ~10 tokena/s, Phi-4 14B u FP16 na ~80 tokena/s. - RTX 5070 (12 GB GDDR7): 6.144 CUDA jezgri, 192 Tensor Cores, 672 GB/s propusnosti, 250 W TDP, MSRP 549 USD (u Hrvatskoj ~750 EUR). Pokreće Qwen2.5 14B u FP16 na ~60 tokena/s, Mistral Small 3.1 24B u int4 s CPU offloadom na ~15 tokena/s, Phi-4 14B u FP16 na ~40 tokena/s.

Zašto je RTX 50 serija posebno dobra za LLM u 2026.: 1. 5. generacija Tensor Cores s FP4/FP6 podrškom. Blackwell arhitektura donosi native FP4 (4-bit floating point) i FP6 (6-bit floating point) podršku, što znači da se Llama 3.1 405B (po defaultu 810 GB u FP16) može učitati u ~200 GB u FP4 — što stane u dvije RTX 5090 (64 GB ukupno) + CPU offload ili u jednu M5 Max 128 GB. 2. Velika L2 cache. RTX 5090 ima 96 MB L2 cachea, 3× više nego RTX 4090. To dramatično pomaže kod LLM inferencije jer se manje podataka mora vaditi iz VRAM-a. 3. DLSS 4 Multi Frame Generation — irelevantno za LLM, ali korisno za Stable Diffusion i lokalne generatore slika. 4. Široka softverska podrška. vLLM, SGLang, llama.cpp, Ollama, LM Studio, Text Generation WebUI — svi imaju Blackwell optimizacije od Q1 2025. vLLM 0.6+ ima eksplicitnu FP4 podršku za Blackwell.

Mana RTX 50 serije: - Cijena. RTX 5090 je 2.150-2.400 EUR u Hrvatskoj, RTX 5080 je 1.150-1.300 EUR. Severe availability problem na launchu — čak i u lipnju 2026. cijene su ~10% iznad MSRP-a zbog global memory supply shortage od kraja 2025. - 12V-2×6 connector issue. I dalje postoje prijavljeni slučajevi meltanja konektora na RTX 5090 FE i RTX 5080 FE, slično problemu s RTX 4090 12VHPWR. Preporučuje se kupnja AIB modela (Asus, MSI, Gigabyte) s boljim hlađenjem. - "Incomplete dies" problem. Neki RTX 5090/5080/5070 Ti modeli imaju missing ROPs (8 izostavljenih render output units) zbog proizvodnog defekta. Nvidia tvrdi da je zahvaćeno <0,5% kartica i da je problem riješen, ali kod rabljenih kartica treba testirati s GPU-Z.

Kako konfigurirati Ollama s RTX 5090:

# Linux (Ubuntu 24.04 LTS)
sudo apt install nvidia-driver-570
sudo apt install nvidia-cuda-toolkit
curl -fsSL https://ollama.com/install.sh | sh

# Provjera
nvidia-smi  # treba pokazati RTX 5090 s 32 GB
ollama serve  # server na portu 11434
ollama run qwen3:235b-a22b-q4_K_M  # s CPU offloadom

Preporučene postavke za vLLM s RTX 5090:

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-235B-A22B-Instruct-INT4 \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.92 \
  --max-model-len 32768 \
  --enable-prefix-caching

AMD Ryzen AI MAX+ 395 (Strix Halo) — 128 GB na CPU-u

Ryzen AI MAX+ 395 je AMD-ov high-end APU iz Strix Halo obitelji, lansiran u siječnju 2025. na CES-u 2025. Ima 16 Zen 5 CPU jezgri, Radeon 8060S integriranu grafiku s 40 RDNA 3.5 CU, XDNA 2 NPU (50 TOPS) i do 128 GB LPDDR5X-8000 unified memory s propusnošću od 256 GB/s. Najvažnija karakteristika za LLM je 128 GB na CPU/APU strani koja se može djelomično dodijeliti GPU-u (do 96 GB) preko AMD Variable Graphics Memory ili rocm alata.

Dostupni proizvodi s Ryzen AI MAX+ 395 u Hrvatskoj: - Framework Desktop 16 (16" Mini-ITX kućište) s 395 + 128 GB — ~2.300-2.600 EUR (od siječnja 2026.) - Minisforum AI X1 Pro (mini-PC, 1,5 L) s 395 + 128 GB — ~2.000-2.200 EUR - Asus ROG Flow Z13 2026 (tablet-laptop hibrid) s 395 + 64 GB — ~2.400 EUR - HP ZBook Ultra G1a 14 (mobile workstation) s 395 + 64 GB — ~2.500 EUR

Zašto je Strix Halo poseban: 1. 128 GB unified memory po cijeni jednog gaming PC-a. To je četiri puta više memorije od najskupljeg Nvidijinog GPU-a (RTX 5090 32 GB) za otprilike istu cijenu kad se uračuna cijeli sistem. 2. x86 kompatibilnost. Svi Linux alati (llama.cpp, vLLM) rade bez posebnih MLX optimizacija. ROCm 6.2+ podržava Strix Halo od studenoga 2025. 3. Laptop opcija. Asus ROG Flow Z13 i HP ZBook Ultra G1a 14 donose 128 GB u laptop formi, što je prvi put u povijesti (Apple MacBook Pro M5 Max s 128 GB postoji od ožujka 2026., ali košta 6.500+ EUR).

Mana Strix Halo: - 256 GB/s propusnosti je 3× manje nego RTX 5090 (1.792 GB/s) i 2,4× manje nego Mac Studio M5 Max 128 GB (614 GB/s). Za LLM inferenciju, bandwidth je kritičan jer se svaki token mora obraditi kroz sve slojeve modela. - Brzina inferencije za 70B+ modele je upola manja nego na RTX 5090 s istim modelom. Na primjer, Qwen3 235B-A22B na Strix Halo 128 GB radi s ~2-3 tokena/s u int4, dok RTX 5090 s CPU offloadom radi ~4-5 tokena/s. - RDNA 3.5 nema dedicated Tensor Cores kao Nvidia — koristi WMMA (Wave Matrix Multiply Accumulate) instrukcije koje su sporije od Tensor Cores za FP16/BF16.

Kako konfigurirati llama.cpp na Strix Halo (Linux):

# Instalacija ROCm-a za Strix Halo
sudo apt install rocm-dev rocm-libs

# Kompajliranje llama.cpp s ROCm podrškom
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_HIP=ON -DAMDGPU_TARGETS="gfx1151"  # Strix Halo
cmake --build build --config Release

# Pokretanje
./build/bin/llama-server \
  -m /models/qwen3-235b-a22b-q4_k_m.gguf \
  -ngl 99  # svi slojevi na GPU
  --ctx-size 32768

Nvidia DGX Spark — developer kit s GB10 čipom

Nvidia DGX Spark je Nvidijin "developer kit" najavljen na CES-u 2025. i isporučen u svibnju 2026. To je desktop uređaj s GB10 Grace Blackwell čipom (isti kao u DGX Station rack serveru), 128 GB unified LPDDR5X memory, 1 PFLOP AI performansi u FP4 i Nvidijin NVLink za spajanje dva uređaja. Cijena u SAD-u je 3.000 USD, a u EU ~3.500 EUR s PDV-om.

GB10 specifikacije: - 20 Arm CPU jezgri (10× Cortex-X925 + 10× Cortex-A725) - GPU s 6.144 CUDA jezgri (Blackwell arhitektura) - 128 GB unified LPDDR5X s propusnošću od ~800 GB/s - 1 PFLOP u FP4 (s sparsity) - 200 W TDP

Performanse: - Llama 3.1 405B u FP4: ~30+ tokena/s - DeepSeek-V3 671B u FP4 s CPU offloadom: ~10-12 tokena/s - Qwen3 235B-A22B u FP8: ~25-30 tokena/s

Zašto DGX Spark: - "Jedan uređaj" mentalitet — nema brige o RAM/VRAM podjeli kao na PC-u. - NVLink — dva DGX Spark uređaja mogu se spojiti NVLink-om za 256 GB ukupne memorije. - Developer-first — ista softverska platforma kao DGX serveri u data centrima.

Mana DGX Spark: - 3.500 EUR za uređaj koji je manje fleksibilan od Mac Studija ili Strix Halo desktopa. Ne možete nadograditi RAM, ne možete dodati drugu GPU karticu, ne možete koristiti kao gaming konzolu. - Ventilator je glasan pod kontinuiranim opterećenjem — prijavljeno do 45 dB, što je glasnije od većine laptopa. - Softverski lock-in — Nvidia NGC katalog i NIM microservices rade odlično, ali ako želite koristiti vlastite alate, ponekad nailazite na ARM-specifične probleme s bibliotekama.

Usporedba hardvera: RTX 5090 vs Mac Studio M5 Max vs Strix Halo vs DGX Spark

Hardver	Memorija	Bandwidth	TDP	Cijena (HR/EU)	70B FP8	235B int4	405B FP4
RTX 5090	32 GB GDDR7	1.792 GB/s	575 W	2.150-2.400 €	~30 t/s	~4 t/s (CPU offload)	~2 t/s (CPU offload)
RTX 5080	16 GB GDDR7	896 GB/s	360 W	1.150-1.300 €	~10 t/s (int4 + CPU)	~2 t/s (CPU offload)	ne stane
Mac Studio M5 Max 128 GB	128 GB unified	614 GB/s	~150 W	6.500 €	~22 t/s	~6 t/s	~3 t/s
Mac Studio M5 Ultra 256 GB (najavljen)	256 GB unified	819 GB/s	~200 W	9.000+ €	~30 t/s	~18 t/s	~8 t/s
Framework Desktop 16 (Strix Halo 128 GB)	128 GB unified	256 GB/s	120 W	2.300-2.600 €	~12 t/s	~3 t/s	~1,5 t/s
Minisforum AI X1 Pro (Strix Halo 128 GB)	128 GB unified	256 GB/s	120 W	2.000-2.200 €	~12 t/s	~3 t/s	~1,5 t/s
Nvidia DGX Spark	128 GB unified	~800 GB/s	200 W	~3.500 €	~30 t/s	~12 t/s	~10 t/s

Brzine su okvirne i variraju ovisno o modelu, kvantizaciji i softveru (Ollama vs vLLM vs llama.cpp). Testirano s Qwen3 235B-A22B, Llama 3.3 70B i Llama 3.1 405B na macOS Sequoia 15.6 / Ubuntu 24.04 LTS / Windows 11 24H2.

Softverski stack: Ollama, llama.cpp, vLLM, LM Studio

Ollama je open-source platforma za pokretanje LLM-ova lokalno. Izdana 7. srpnja 2023. od strane Ollama Inc.-a i suradnika, napisana u Go programskom jeziku, s MIT licencom. Najnovija stabilna verzija je 0.22.1 (28. travnja 2026.). Koristi llama.cpp kao backend za lokalnu inferenciju i podržava Llama, Gemma, Mistral, Qwen, gpt-oss i DeepSeek modele iz lokalne biblioteke ili preko Hugging Face modela. U 2025. i 2026. dodala je hosted cloud modele, web search, tool i coding-agent integracije (Claude Code, Codex, OpenCode, GitHub Copilot CLI, OpenClaw) i u ožujku 2026. eksperimentalnu podršku za Apple silicon preko MLX frameworka.

# Brza instalacija Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama run llama3.3:70b  # automatski skida model

llama.cpp je Georgi Gerganov-ov C++ projekt, originalno dizajniran za pokretanje LLaMA modela na CPU-u s 4-bitnom kvantizacijom. Danas podržava CPU, CUDA (Nvidia), ROCm (AMD), Metal (Apple), Vulkan i SYCL (Intel) backende. Koristi GGUF format modela, a podržava i MLX modele na Apple Silicon. Preporuča se za napredne korisnike koji žele fino podešavanje (kvantizacija, offload strategija, KV cache management).

vLLM je produkcijski server s PagedAttention algoritmom. Razvijen od strane Sky Computing Lab na UC Berkeleyu, sada je standard za OpenAI-kompatibilne API servere. Najbolje performanse daje na Nvidia GPU-ima s CUDA 12+, ali radi i na AMD ROCm i Apple Metal. Verzija 0.6+ eksplicitno podržava Blackwell FP4.

LM Studio je GUI klijent za llama.cpp koji radi na macOS-u, Windows-u i Linux-u. Preporučuje se za korisnike koji ne žele koristiti CLI. Uključuje model library, chat sučelje i OpenAI-kompatibilan lokalni server.

Preporučeni setup za 2026.: - Mac: LM Studio + Ollama (za chat) + vLLM (za produkcijski server) - Linux (Nvidia): vLLM (za server) + Ollama (za brzo testiranje) - Linux (AMD): llama.cpp + ROCm (za sada nema vLLM podrške za Strix Halo u produkciji) - Windows: LM Studio + Ollama (preko WSL2)

Hrvatska u praksi: cijene, porezi, garancija, servis

Kupnja u Hrvatskoj (lipanj 2026.): - RTX 5090: Links, Sancta Domenica, Instar.hr, Svijet-Medija — 2.150-2.400 EUR s PDV-om. Uvoz iz Njemačke putem Amazon.de s trošarinama i PDV-om na carini izlazi ~2.200-2.300 EUR ako imate EU adresu za dostavu (npr. prijatelja u Grazu). Pazite na 24-mjesečnu EU garanciju — neke karte iz SAD-a imaju samo 12-mjesečnu proizvođačku. - RTX 5080: Links, Sancta Domenica — 1.150-1.300 EUR. Isti savjet za uvoz. - Mac Studio M5 Max 128 GB: iStyle (Apple Premium Reseller), Sancta Domenica (nekad), Mikronis — 6.500-6.900 EUR. Apple nudi 24-mjesečnu međunarodnu garanciju koja vrijedi i u HR. Moguće plaćanje na 12 rata bez kamata preko PBZ-a ili Zabe. - Mac Studio M5 Ultra 256 GB (predbilježbe od rujna 2026.): očekivano 8.500-9.500 EUR. - Framework Desktop 16 Strix Halo 128 GB: Instar.hr, ABM Loop (uvoz iz Njemačke) — 2.300-2.600 EUR. Framework nudi 12-mjesečnu standardnu garanciju, a moguće dokupiti 24-mjesečnu EU za ~80 EUR. - Minisforum AI X1 Pro 128 GB: Instar.hr, Amazon.de (s EU dostavom) — 2.000-2.200 EUR. Minisforum nudi 24-mjesečnu EU garanciju. - Nvidia DGX Spark: Nvidia.com (EU store s dostavom) — ~3.500 EUR s PDV-om. Trenutno na čekanju u EU storeu jer je ograničena zaliha.

Plaćanje iz Hrvatske: - Links, Sancta Domenica, iStyle, Mikronis — sve hrvatske kartice (Visa, Mastercard, Maestro), rate, kriptovaluta preko PayCek (iStyle). - Amazon.de — Visa, Mastercard, Amex; dostava na hrvatsku adresu radi od 2024., ali carina + PDV naplaćuje GLS/Croatia Express pri isporuci. - Nvidia.com EU — Visa, Mastercard, SEPA direktna uplata, moguće 12 rata preko Klarna (hrvatske kartice). - Framework.com — Visa, Mastercard, Amex, Shop Pay, Affirm rate.

Popratni hardver: - 850-1000 W PSU (Corsair RM850x, Be Quiet Straight Power 12) — ~150 EUR u Hrvatskoj. - Noctua NH-D15 ili DeepCool Assassin IV hlađenje za CPU — ~80-120 EUR. - ATX kućište s dobrim airflowom (Fractal Design North, Lian Li Lancool II) — ~100-150 EUR. - DDR5-6000 64 GB (2×32) za RTX 5090 build — ~150-180 EUR (Corsair Vengeance, G.Skill Trident Z5). - B850 matična ploča (Asus ROG Strix B850-E, MSI MAG B850 Tomahawk) — ~250-300 EUR.

Kompletni DIY build za lokalni LLM s RTX 5090 u Hrvatskoj: - AMD Ryzen 7 9800X3D — 400 EUR - 64 GB DDR5-6000 — 170 EUR - B850 ploča — 270 EUR - 2 TB NVMe SSD (Samsung 990 Pro) — 170 EUR - RTX 5090 — 2.300 EUR - 1000 W PSU — 160 EUR - Kućište + hlađenje — 250 EUR - Ukupno: ~3.720 EUR

Kompletni DIY build za lokalni LLM s Strix Halo 128 GB u Hrvatskoj: - Minisforum AI X1 Pro (395 + 128 GB) — 2.100 EUR - Ili Framework Desktop 16 (395 + 128 GB) — 2.500 EUR - Monitor + tipkovnica + miš — 350 EUR - Ukupno: ~2.450-2.850 EUR

Pravni okvir i licenciranje modela

Autorska prava na modele: - Open-weight modeli (Llama 3, Qwen, Mistral, DeepSeek, Gemma) imaju permissivne licence koje dopuštaju komercijalnu upotrebu s različitim ograničenjima. Llama 3.3 Community License dopušta komercijalnu upotrebu ako imate <700 milijuna mjesečnih aktivnih korisnika. Qwen Apache 2.0 dopušta potpuno slobodnu upotrebu. DeepSeek License dopušta komercijalnu upotrebu uz attribution. - Restriktivniji modeli (OpenAI GPT-OSS, Anthropic Claude lokalne verzije, Google Gemma Enterprise) imaju ograničenja koja variraju — Gemma Enterprise zabranjuje upotrebu u medicinskim aplikacijama bez licence, GPT-OSS zahtijeva "responsible use guidelines" koje zabranjuju generiranje dezinformacija. - Hrvatska regulativa: modeli koji se koriste u medicini, pravu ili financijama podliježu Zakonu o autorskom pravu i srodnim pravima (NN 167/03, 79/07, 80/11, 141/13, 127/14, 62/17, 96/18) za output modela i EU AI Act (provedba u HR od 2. kolovoza 2026.) za klasifikaciju sustava. - EU AI Act i lokalni LLM-ovi: prema članku 51. EU AI Act, lokalni LLM-ovi koji se koriste za generičke namjene (chat, prijevod, sumarizacija) ne zahtijevaju registraciju. Međutim, lokalni LLM-ovi koji se koriste u medicini, pravu, zapošljavanju ili kreditnom scoringu jesu "high-risk" i zahtijevaju due diligence, dokumentaciju i ljudski nadzor prema Prilogu III.

Licenciranje glazbe i slika generiranih lokalnim LLM-ovima (tangenta na prethodne članke o AI glazbi i AI videu): - Output iz Llama 3.3 je vaš vlasništvo, ali ne možete koristiti za trening drugih modela prema Llama licence. - Output iz Qwen2.5/Qwen3 pod Apache 2.0 je potpuno slobodan. - DeepSeek-V3 output je vlasništvo korisnika uz attribution.

Tehnička arhitektura: zašto je memory bandwidth ključan

Lokalni LLM inferencija se svodi na jednu kritičnu operaciju: množenje matrice težina modela s aktivacijama za svaki token. Za Qwen3 235B-A22B u FP16, matrica težina ima ~470 GB — što je veće od bilo kojeg pojedinačnog GPU-a u 2026. Zato se koristi kvantizacija (smanjenje preciznosti s FP16 na int8 ili int4) i CPU/GPU offload (dio modela na CPU RAM-u, dio na GPU VRAM-u).

Bandwidth-limited vs compute-limited: - Prompt processing (prvi prolaz kroz model) je compute-limited — traži puno FLOPS-a. - Token generation (generiranje novih tokena jedan po jedan) je bandwidth-limited — svaki token mora pročitati cijeli model iz memorije. - Formula: tokeni/s = memory_bandwidth / 2 × model_size_in_bytes (za FP16) ili tokeni/s = memory_bandwidth × cache_hit_rate / model_size_in_bytes (za kvantizirane modele s KV cacheom).

Primjer za RTX 5090 + Qwen3 235B-A22B int4: - Model size: ~130 GB u int4 - CPU RAM: 128 GB DDR5 - VRAM: 32 GB - Bandwidth split: ~85% na CPU RAM-u, ~15% na VRAM-u - Efektivna bandwidth: 0,85 × 80 GB/s (DDR5-6000) + 0,15 × 1.792 GB/s = 68 + 269 = ~337 GB/s - Tokeni/s: 337 / 130 = ~2,6 tokena/s (bez KV cache optimizacije)

Primjer za Mac Studio M5 Max 128 GB + Qwen3 235B-A22B int4: - Model size: ~130 GB - Unified memory: 128 GB - Bandwidth: 614 GB/s - Tokeni/s: 614 / 130 = ~4,7 tokena/s (s MLX optimizacijom doseže 6+ tokena/s)

Primjer za Strix Halo 128 GB + Qwen3 235B-A22B int4: - Model size: ~130 GB - Unified memory: 128 GB - Bandwidth: 256 GB/s - Tokeni/s: 256 / 130 = ~1,97 tokena/s (s ROCm WMMA optimizacijom doseže 2,5-3 tokena/s)

Zaključak: za lokalni LLM, memory bandwidth × količina memorije su važniji od FLOPS-a. Zato je Mac Studio M5 Max 128 GB (614 GB/s × 128 GB) s omjerom 4,8 bolji za LLM od RTX 5090 32 GB + 128 GB CPU RAM (s prosječnom bandwidth ~340 GB/s, omjer 2,7).

Trendovi 2026-2028: kamo ide hardver za lokalni LLM

1. Apple će 2027. lansirati M6 s Neural Acceleratorom druge generacije. Na temelju ritma objava (M1 2020, M2 2022, M3 2023, M4 2024, M5 2025), M6 se očekuje u jesen 2027. s ~30% većim AI performansama i M6 Ultra s 384-512 GB unified memory. To bi Apple-u dalo tržišnu prednost nad Nvidijinim consumer GPU-ima u LLM inferenciji.

2. Nvidia će u 2026. lansirati RTX 60 seriju na "Rubin" arhitekturi. Prema roadmap-ovima procurjelim u siječnju 2026., RTX 6090 bi trebao imati 48 GB GDDR7 s ~2.400 GB/s propusnošću, a RTX 6080 bi trebao imati 24 GB. To bi bio prvi značajan skok u VRAM-u na mainstream GPU-ima od 2022. (RTX 4090). Lansiranje se očekuje u Q1 2027.

3. AMD će 2026. lansirati Strix Halo nasljednika (Medusa Halo?). Prema AMD roadmap-ima, sljedeća generacija bi trebala donijeti RDNA 4 GPU s dedicated Tensor Cores (slično Nvidia-i), 256 GB unified memory i ~500 GB/s propusnosti. To bi Strix Halo pretvorilo u ozbiljnu konkurenciju Mac Studio-u u LLM inferenciji.

4. Open-weight modeli će se stabilizirati na 100-300B rasponu. Qwen3 235B-A22B (MoE s 22B aktivnih) i DeepSeek-V3 671B (MoE s 37B aktivnih) postali su standard za "flagship local LLM" u 2026. Llama 4 400B+ se očekuje u Q3 2026., a Qwen4 u Q4 2026. Do 2028., očekuje se "1T parameter MoE modeli s 50B aktivnih" kao standard, što će zahtijevati 256+ GB lokalne memorije za FP8 inferenciju.

5. Lokalni LLM na mobitelu postat će standard. iPhone 17 Pro (A19 Pro) već danas pokreće Qwen2.5 3B s ~12 tokena/s preko Apple Foundation Models frameworka. Snapdragon 8 Elite Gen 2 for Galaxy na Galaxy S26 Ultra pokreće iste modele s ~8 tokena/s. Do 2028., očekuje se "7B modeli s 15+ tokena/s" na flagship mobitelima, što će mobilni LLM učiniti praktičnim za produkcijsku upotrebu.

6. Hrvatska će dobiti prvu lokalnu LLM uslugu. CARNet je u travnju 2026. najavio "CRO-NLP" inicijativu za izgradnju hrvatskog LLM-a temeljenog na Croatian Wikipedia i hrvatskom parliamentary corpus. Partneri su FER i PMF. Model bi trebao biti 7B ili 13B, namijenjen za offline upotrebu u školama i javnoj upravi. Lansiranje se očekuje u Q4 2026.

Tehnički FAQ

Mogu li koristiti stari laptop za lokalni LLM? Da, ali s ograničenjima. 16 GB RAM-a pokreće Llama 3.2 3B, Phi-4 Mini 3.8B i Qwen2.5 3B s 5-10 tokena/s preko CPU-a ili integrirane grafike. Za 7B modele trebate 32 GB RAM-a ili GPU s 8 GB VRAM-a. MacBook Air M1/M2 s 16 GB pokreće iste modele s 15-20 tokena/s jer Apple Silicon unified memory puno brže dijeli CPU i GPU resurse.

Trebam li kupiti dvije RTX 5090 ili jednu RTX 5090 + CPU offload? Dvije RTX 5090 daju 64 GB ukupne VRAM-a i ~3,5 TB/s efektivnu bandwidth (NVLink zamjena preko PCIe 5.0 ×16 svake kartice), što omogućuje ~45-50 tokena/s za 70B model u FP8 i ~8-10 tokena/s za 405B model u FP4. Jedna RTX 5090 + 128 GB CPU RAM daje ~30 tokena/s za 70B FP8 i ~2-4 tokena/s za 405B FP4. Dvije kartice koštaju ~4.500 EUR, jedna kartica + CPU offload košta ~2.500 EUR. Za većinu korisnika jedna kartica + CPU offload je bolji izbor.

Što je kvantizacija i koliko gubim kvalitetom? Kvantizacija smanjuje preciznost brojeva u modelu. FP16 je 16-bitni floating point (default), int8 je 8-bitni integer (gubitak ~1-2% kvalitete), int4 je 4-bitni (gubitak ~5-10% kvalitete). Q4_K_M i Q5_K_M su "k-quant" varijante s "mixed precision" koje čuvaju kritične slojeve u višoj preciznosti — gubitak je ~3-5% za Q4_K_M i ~2-3% za Q5_K_M. Za većinu primjena Q4_K_M je sweet spot između veličine modela i kvalitete.

Kako lokalni LLM integrirati u svoj website ili aplikaciju? Ollama ima OpenAI-kompatibilan REST API na portu 11434 — možete koristiti bilo koji OpenAI SDK (Python, JavaScript, Go) tako da postavite base_url="http://localhost:11434/v1". vLLM ima sličan API s boljim performansama za produkciju. LM Studio također ima OpenAI-kompatibilan server.

Je li lokalni LLM siguran? Da, ako ga ne izlažete internetu bez autentifikacije. Prema istraživanju SentinelOne i Censys-a objavljenom u Sijecanj 2026. u The Hacker News, pronađeno je ~175.000 javno izloženih Ollama servera u 130 zemalja, od kojih su mnogi imali osjetljive podatke i API ključeve u promptovima. Preporučuje se: (1) nikad ne vezati Ollama na 0.0.0.0 bez reverse proxyja s autentifikacijom, (2) koristiti firewall za blokiranje vanjskog pristupa, (3) koristiti Docker s eksplicitnim port bindingom na 127.0.0.1.

Zaključak: preporuke za 2026.

Za hrvatskog developera, entuzijasta, malog poduzetnika ili studenta koji želi lokalni LLM u 2026., tri su konkretne preporuke:

Ako imate budžet od 2.000-2.500 EUR i ne želite Mac — Minisforum AI X1 Pro (Ryzen AI MAX+ 395 + 128 GB) je najbolji omjer cijene i memorije. Pokreće sve modele do 235B int4 i staje na policu. Mana: inferencija je ~3× sporija od Mac Studija za iste modele.
Ako imate budžet od 3.500-4.500 EUR i želite najbolje performanse za novac — RTX 5090 + Ryzen 7 9800X3D + 128 GB DDR5-6000 u DIY kućištu. Pokreće 70B modele u FP8 s ~30 tokena/s i 235B u int4 s ~4-5 tokena/s. Mana: ventilatori su glasni pod kontinuiranim opterećenjem i potrošnja struje je ~700 W.
Ako imate budžet od 6.000+ EUR i želite "just works" Apple ekosustav — Mac Studio M5 Max 128 GB. Pokreće sve do 405B u FP4, tih je, kompaktan i ima 24-mjesečnu Apple garanciju. Mana: cijena je 2× viša od Strix Halo alternative za sličnu količinu memorije.

Bez obzira na izbor, lokalni LLM u 2026. više nije hobi za rane usvojitelje — to je praktičan alat koji može zamijeniti mali cloud LLM API za većinu zadataka, a uz Hrvatsku struju od 0,18 EUR/kWh i model koji stane u RAM, godišnji trošak lokalnog LLM-a iznosi ~50-150 EUR struje za umjerenu upotrebu (2-4 sata dnevno). To je ~5-10× jeftinije od OpenAI API-ja ili Claude Pro pretplate za isti volumen promptova.

Lokalni LLM je napokon odrastao — i za hrvatske korisnike, 2026. je prva godina u kojoj nema razloga da bilo koji model do 235B parametara ne radi lokalno, na hrvatskoj struji, s hrvatskom garancijom.