Lokalni LLM modeli u 2026.: Kako pokrenuti AI na vlastitom računalu

Zašto sve više korisnika pokreće AI lokalno

ChatGPT, Claude i Gemini ostali su središte AI razgovora u 2026., ali jedan trend je tijekom protekle godine značajno ubrzao — pokretanje velikih jezičnih modela (LLM) na vlastitom računalu. Razloga ima više: privatnost podataka, troškovi pretplata, rad bez Interneta i mogućnost prilagodbe modela vlastitim potrebama. U ovom vodiču objašnjavamo što vam treba za lokalni AI, koje modele odabrati i koja su realna ograničenja u 2026.

Što je lokalni LLM i zašto bi vas zanimao

Lokalni LLM je veliki jezični model koji se izvršava potpuno na vašem hardveru — bez slanja podataka u oblak. Razgovor s modelom, generiranje koda ili sumarizacija dokumenata događa se isključivo na vašem CPU-u, GPU-u ili NPU-u.

Glavne prednosti lokalnog pristupa:

Privatnost — povjerljivi dokumenti ne napuštaju vaš uređaj
Bez pretplate — nakon kupovine hardvera nema mjesečnih troškova
Rad offline — funkcionira u avionu, na putu ili u uredu bez Interneta
Bez ograničenja — nema cenzure, rate limita ili dnevnih kvota

Glavni nedostaci ostaju:

Slabija kvaliteta od najboljih komercijalnih modela (GPT-4 Turbo, Claude Opus, Gemini Ultra)
Sporiji odgovori osim na vrhunskom hardveru
Početna kompleksnost instalacije i odabira modela

Hardverski zahtjevi za lokalni AI

Veličina modela mjeri se u milijardama parametara (B). Veći modeli daju kvalitetnije odgovore, ali zahtijevaju više memorije i procesorske snage.

Minimalni setup (za eksperimentiranje)

16 GB RAM-a
Bilo koji moderni CPU (Intel Core i5/Ryzen 5 ili noviji)
Modeli: 3B–7B parametara, kvantizirani na 4 bita (Q4)
Brzina: 5–15 tokena u sekundi (sporo, ali upotrebljivo)

Preporučeni setup (svakodnevna upotreba)

32 GB RAM-a
Diskretni GPU s najmanje 8 GB VRAM-a (RTX 3060, RX 7600 XT, ili Apple M2/M3 s 16 GB unified memory)
Modeli: 7B–13B parametara, Q4–Q8 kvantizacija
Brzina: 30–60 tokena u sekundi (vrlo upotrebljivo)

Power user setup (za napredne zadatke)

64+ GB RAM-a
GPU s 24 GB VRAM-a (RTX 4090, RTX 5090) ili Apple M3/M4 Max sa 64 GB+ unified memory
Modeli: 30B–70B parametara, FP16 ili Q8 kvantizacija
Brzina: 50–120 tokena u sekundi

NPU pomoć u modernim laptopima

Računala s Copilot+ certifikatom (Snapdragon X Elite, Intel Lunar Lake, AMD Ryzen AI 300) imaju NPU-ove sa 40+ TOPS performansi. U 2026. većina alata za lokalni AI počela je koristiti NPU za manje modele (do 8B), što značajno smanjuje potrošnju baterije u laptopima u odnosu na čisto CPU izvođenje.

Najbolji modeli za lokalnu upotrebu u 2026.

Tržište otvorenih modela u protekloj godini eksplodiralo je, posebno zahvaljujući kineskim laboratorijima. Evo pregleda najboljih izbora prema namjeni.

Općeniti razgovor i pisanje

Llama 3.3 70B (Meta) — Industrijski standard otvorenih modela. Vrlo dobra kvaliteta razgovora, podrška za više jezika, uključujući djelomičnu podršku za hrvatski. Zahtjeva ozbiljan hardver.
Llama 3.2 8B (Meta) — Manja verzija koja se izvršava na potrošačkom hardveru. Dovoljno dobra za većinu zadataka.
Mistral Small 3 (Mistral AI) — Francuski model s 22B parametara. Odličan balans veličine i kvalitete, posebno za europske jezike.

Programiranje i pisanje koda

Qwen 2.5 Coder 32B (Alibaba) — Trenutno vrh open source coding modela. Konkurira komercijalnim alternativama u Pythonu, JavaScript-u i sličnim jezicima.
DeepSeek Coder V2 (DeepSeek) — Iznimna brzina, dobre performanse na C++ i Rustu.

Reasoning i matematika

DeepSeek R1 — Otvoreni reasoning model koji je u 2025. podigao standard otvorenih modela. Distilirane verzije (1.5B, 7B, 14B, 32B) izvršavaju se i na manjim računalima.
Qwen QwQ 32B — Specijaliziran za logičke zadatke i matematiku.

Hrvatski jezik

Realnost: niti jedan otvoreni model nije primarno trenirat na hrvatskom jeziku. Najbolji rezultati postižu se s većim multilingvističkim modelima (Llama 3.3 70B, Qwen 2.5 72B). Manji modeli često prave gramatičke pogreške u hrvatskom, posebno kod padeža i složenih rečenica. Za ozbiljnu hrvatsku obradu teksta i dalje su komercijalni modeli (Claude, GPT-4) primjetno bolji.

Najlakši alati za pokretanje

Ollama (preporučeno za većinu)

Najjednostavniji način za početnike. Komandno-linijski alat koji preuzima modele i pokreće ih u jednoj naredbi:

ollama pull llama3.2
ollama run llama3.2

Funkcionira na Windowsu, macOS-u i Linuxu. Automatski koristi GPU ako je dostupan. Velika biblioteka modela dostupna na ollama.com/library.

LM Studio

Grafičko sučelje s ugrađenim katalogom modela. Idealno za korisnike koji ne žele koristiti naredbeni redak. Ima ugrađen chat, OpenAI-kompatibilni API server (za korištenje iz drugih aplikacija) i procjenu hoće li model raditi na vašem hardveru.

Jan

Otvoreni desktop client s naglaskom na privatnost. Više dizajniran kao zamjena za ChatGPT desktop aplikaciju. Podržava lokalne modele i opcionalno povezivanje s komercijalnim API-jevima.

llama.cpp

Niskorazinski C++ runtime koji pokreće većinu navedenih alata u pozadini. Tehnički zahtjevniji, ali nudi najveću kontrolu i najbolje performanse za napredne korisnike.

Realne performanse na različitom hardveru

Brzina lokalnih modela u 2026. (orijentacijske vrijednosti za 7B Q4 model):

Hardver	Tokena/s	Iskustvo
Intel Core i5-12400 + 16 GB RAM (samo CPU)	8–12	Sporo, ali upotrebljivo
Apple M2 (16 GB unified)	25–40	Vrlo dobro za laptop
RTX 4060 8 GB VRAM	50–70	Brže od ChatGPT-a u prosjeku
Apple M3 Max (64 GB unified)	60–90	Top tier za laptop
RTX 4090 24 GB	100+	Vrh potrošačkog hardvera

Za usporedbu, ChatGPT putem weba isporučuje 30–60 tokena u sekundi prosječno, ovisno o opterećenju.

Kvantizacija — kako modeli "stanu" u manje memorije

Kvantizacija je tehnika smanjivanja preciznosti modela radi uštede memorije. Model treniran u 16-bitnom (FP16) formatu može se konvertirati u Q4 (4 bita po parametru), što ga čini 4x manjim uz mali pad kvalitete.

Praktičan primjer: Llama 3.2 70B u izvornom FP16 formatu treba 140 GB memorije. Ista u Q4 kvantizaciji traje "samo" 35 GB. Pad kvalitete je u praksi mali — za većinu zadataka neprimjetan.

Za većinu korisnika preporuka je Q4_K_M kvantizacija — najbolji kompromis između veličine i kvalitete.

Privatnost i sigurnosni aspekti

Lokalni LLM rješavaju neke privatnostne brige, ali otvaraju i nove.

Što dobivate

Razgovori se ne šalju Microsoftu, Googleu, OpenAI-u ili kineskim serverima
Povjerljivi dokumenti (ugovori, financijski podaci, medicinski nalazi) ostaju na vašem računalu
Niste podložni promjenama uvjeta korištenja ili regrutiranju vaših podataka za treniranje

Što ostaje rizik

Sigurnost samog modela — preuzimajte modele samo iz pouzdanih izvora (službeni Hugging Face repozitoriji, ne nepoznate verzije s drugih mjesta)
Kompromitirano računalo — ako vam je uređaj zaražen, lokalni AI je ranjiv kao i sve ostalo
Pravna odgovornost — generiranje sadržaja koji krši tuđa autorska prava ili regulativu i dalje je vaša odgovornost

Praktični savjeti za početak

Počnite s Ollamom i Llama 3.2 8B modelom — najlakši ulaz, radi na većini suvremenih računala.
Procijenite hardver realno — ne pokušavajte pokrenuti 70B model na 16 GB RAM-a, frustracija je zagarantirana.
Testirajte 2–3 modela na svojim stvarnim zadacima — nije svaki model dobar za svaki posao.
Razmislite o privatnostnim trade-offovima — za neke zadatke (kreativno pisanje, programiranje) kvaliteta komercijalnih modela isplati se zadržati. Za osjetljive dokumente lokalni model je jedina razumna opcija.
Pratite scenu — područje se mijenja mjesečno. Modeli koji su bili "najbolji otvoreni" prije pola godine danas su zastarjeli.

Zaključak: Lokalni AI više nije nišni hobby

Tijekom 2025. i 2026. lokalni LLM-ovi su prešli iz domene entuzijasta u realnu alternativu komercijalnim servisima — pogotovo za korisnike koji cijene privatnost ili rade s povjerljivim podacima. Hardverski prag je i dalje viši od korištenja ChatGPT-a putem preglednika, ali je u protekle dvije godine značajno snižen, a kvaliteta otvorenih modela približila se komercijalnima na većini zadataka.

Hrvatski korisnici trebaju biti svjesni jednog ograničenja — kvaliteta modela na hrvatskom jeziku još uvijek zaostaje za engleskim. Za sadržaj na hrvatskom najbolji rezultati i dalje se postižu većim modelima (30B+) i komercijalnim alternativama. Ali za programiranje, sumarizaciju engleskih dokumenata ili kreativno pisanje lokalni AI je u 2026. potpuno produktivan alat.