Zašto sve više korisnika pokreće AI lokalno
ChatGPT, Claude i Gemini ostali su središte AI razgovora u 2026., ali jedan trend je tijekom protekle godine značajno ubrzao — pokretanje velikih jezičnih modela (LLM) na vlastitom računalu. Razloga ima više: privatnost podataka, troškovi pretplata, rad bez Interneta i mogućnost prilagodbe modela vlastitim potrebama. U ovom vodiču objašnjavamo što vam treba za lokalni AI, koje modele odabrati i koja su realna ograničenja u 2026.
Što je lokalni LLM i zašto bi vas zanimao
Lokalni LLM je veliki jezični model koji se izvršava potpuno na vašem hardveru — bez slanja podataka u oblak. Razgovor s modelom, generiranje koda ili sumarizacija dokumenata događa se isključivo na vašem CPU-u, GPU-u ili NPU-u.
Glavne prednosti lokalnog pristupa:
- Privatnost — povjerljivi dokumenti ne napuštaju vaš uređaj
- Bez pretplate — nakon kupovine hardvera nema mjesečnih troškova
- Rad offline — funkcionira u avionu, na putu ili u uredu bez Interneta
- Bez ograničenja — nema cenzure, rate limita ili dnevnih kvota
Glavni nedostaci ostaju:
- Slabija kvaliteta od najboljih komercijalnih modela (GPT-4 Turbo, Claude Opus, Gemini Ultra)
- Sporiji odgovori osim na vrhunskom hardveru
- Početna kompleksnost instalacije i odabira modela
Hardverski zahtjevi za lokalni AI
Veličina modela mjeri se u milijardama parametara (B). Veći modeli daju kvalitetnije odgovore, ali zahtijevaju više memorije i procesorske snage.
Minimalni setup (za eksperimentiranje)
- 16 GB RAM-a
- Bilo koji moderni CPU (Intel Core i5/Ryzen 5 ili noviji)
- Modeli: 3B–7B parametara, kvantizirani na 4 bita (Q4)
- Brzina: 5–15 tokena u sekundi (sporo, ali upotrebljivo)
Preporučeni setup (svakodnevna upotreba)
- 32 GB RAM-a
- Diskretni GPU s najmanje 8 GB VRAM-a (RTX 3060, RX 7600 XT, ili Apple M2/M3 s 16 GB unified memory)
- Modeli: 7B–13B parametara, Q4–Q8 kvantizacija
- Brzina: 30–60 tokena u sekundi (vrlo upotrebljivo)
Power user setup (za napredne zadatke)
- 64+ GB RAM-a
- GPU s 24 GB VRAM-a (RTX 4090, RTX 5090) ili Apple M3/M4 Max sa 64 GB+ unified memory
- Modeli: 30B–70B parametara, FP16 ili Q8 kvantizacija
- Brzina: 50–120 tokena u sekundi
NPU pomoć u modernim laptopima
Računala s Copilot+ certifikatom (Snapdragon X Elite, Intel Lunar Lake, AMD Ryzen AI 300) imaju NPU-ove sa 40+ TOPS performansi. U 2026. većina alata za lokalni AI počela je koristiti NPU za manje modele (do 8B), što značajno smanjuje potrošnju baterije u laptopima u odnosu na čisto CPU izvođenje.
Najbolji modeli za lokalnu upotrebu u 2026.
Tržište otvorenih modela u protekloj godini eksplodiralo je, posebno zahvaljujući kineskim laboratorijima. Evo pregleda najboljih izbora prema namjeni.
Općeniti razgovor i pisanje
- Llama 3.3 70B (Meta) — Industrijski standard otvorenih modela. Vrlo dobra kvaliteta razgovora, podrška za više jezika, uključujući djelomičnu podršku za hrvatski. Zahtjeva ozbiljan hardver.
- Llama 3.2 8B (Meta) — Manja verzija koja se izvršava na potrošačkom hardveru. Dovoljno dobra za većinu zadataka.
- Mistral Small 3 (Mistral AI) — Francuski model s 22B parametara. Odličan balans veličine i kvalitete, posebno za europske jezike.
Programiranje i pisanje koda
- Qwen 2.5 Coder 32B (Alibaba) — Trenutno vrh open source coding modela. Konkurira komercijalnim alternativama u Pythonu, JavaScript-u i sličnim jezicima.
- DeepSeek Coder V2 (DeepSeek) — Iznimna brzina, dobre performanse na C++ i Rustu.
Reasoning i matematika
- DeepSeek R1 — Otvoreni reasoning model koji je u 2025. podigao standard otvorenih modela. Distilirane verzije (1.5B, 7B, 14B, 32B) izvršavaju se i na manjim računalima.
- Qwen QwQ 32B — Specijaliziran za logičke zadatke i matematiku.
Hrvatski jezik
Realnost: niti jedan otvoreni model nije primarno trenirat na hrvatskom jeziku. Najbolji rezultati postižu se s većim multilingvističkim modelima (Llama 3.3 70B, Qwen 2.5 72B). Manji modeli često prave gramatičke pogreške u hrvatskom, posebno kod padeža i složenih rečenica. Za ozbiljnu hrvatsku obradu teksta i dalje su komercijalni modeli (Claude, GPT-4) primjetno bolji.
Najlakši alati za pokretanje
Ollama (preporučeno za većinu)
Najjednostavniji način za početnike. Komandno-linijski alat koji preuzima modele i pokreće ih u jednoj naredbi:
ollama pull llama3.2
ollama run llama3.2
Funkcionira na Windowsu, macOS-u i Linuxu. Automatski koristi GPU ako je dostupan. Velika biblioteka modela dostupna na ollama.com/library.
LM Studio
Grafičko sučelje s ugrađenim katalogom modela. Idealno za korisnike koji ne žele koristiti naredbeni redak. Ima ugrađen chat, OpenAI-kompatibilni API server (za korištenje iz drugih aplikacija) i procjenu hoće li model raditi na vašem hardveru.
Jan
Otvoreni desktop client s naglaskom na privatnost. Više dizajniran kao zamjena za ChatGPT desktop aplikaciju. Podržava lokalne modele i opcionalno povezivanje s komercijalnim API-jevima.
llama.cpp
Niskorazinski C++ runtime koji pokreće većinu navedenih alata u pozadini. Tehnički zahtjevniji, ali nudi najveću kontrolu i najbolje performanse za napredne korisnike.
Realne performanse na različitom hardveru
Brzina lokalnih modela u 2026. (orijentacijske vrijednosti za 7B Q4 model):
| Hardver | Tokena/s | Iskustvo |
|---|---|---|
| Intel Core i5-12400 + 16 GB RAM (samo CPU) | 8–12 | Sporo, ali upotrebljivo |
| Apple M2 (16 GB unified) | 25–40 | Vrlo dobro za laptop |
| RTX 4060 8 GB VRAM | 50–70 | Brže od ChatGPT-a u prosjeku |
| Apple M3 Max (64 GB unified) | 60–90 | Top tier za laptop |
| RTX 4090 24 GB | 100+ | Vrh potrošačkog hardvera |
Za usporedbu, ChatGPT putem weba isporučuje 30–60 tokena u sekundi prosječno, ovisno o opterećenju.
Kvantizacija — kako modeli "stanu" u manje memorije
Kvantizacija je tehnika smanjivanja preciznosti modela radi uštede memorije. Model treniran u 16-bitnom (FP16) formatu može se konvertirati u Q4 (4 bita po parametru), što ga čini 4x manjim uz mali pad kvalitete.
Praktičan primjer: Llama 3.2 70B u izvornom FP16 formatu treba 140 GB memorije. Ista u Q4 kvantizaciji traje "samo" 35 GB. Pad kvalitete je u praksi mali — za većinu zadataka neprimjetan.
Za većinu korisnika preporuka je Q4_K_M kvantizacija — najbolji kompromis između veličine i kvalitete.
Privatnost i sigurnosni aspekti
Lokalni LLM rješavaju neke privatnostne brige, ali otvaraju i nove.
Što dobivate
- Razgovori se ne šalju Microsoftu, Googleu, OpenAI-u ili kineskim serverima
- Povjerljivi dokumenti (ugovori, financijski podaci, medicinski nalazi) ostaju na vašem računalu
- Niste podložni promjenama uvjeta korištenja ili regrutiranju vaših podataka za treniranje
Što ostaje rizik
- Sigurnost samog modela — preuzimajte modele samo iz pouzdanih izvora (službeni Hugging Face repozitoriji, ne nepoznate verzije s drugih mjesta)
- Kompromitirano računalo — ako vam je uređaj zaražen, lokalni AI je ranjiv kao i sve ostalo
- Pravna odgovornost — generiranje sadržaja koji krši tuđa autorska prava ili regulativu i dalje je vaša odgovornost
Praktični savjeti za početak
- Počnite s Ollamom i Llama 3.2 8B modelom — najlakši ulaz, radi na većini suvremenih računala.
- Procijenite hardver realno — ne pokušavajte pokrenuti 70B model na 16 GB RAM-a, frustracija je zagarantirana.
- Testirajte 2–3 modela na svojim stvarnim zadacima — nije svaki model dobar za svaki posao.
- Razmislite o privatnostnim trade-offovima — za neke zadatke (kreativno pisanje, programiranje) kvaliteta komercijalnih modela isplati se zadržati. Za osjetljive dokumente lokalni model je jedina razumna opcija.
- Pratite scenu — područje se mijenja mjesečno. Modeli koji su bili "najbolji otvoreni" prije pola godine danas su zastarjeli.
Zaključak: Lokalni AI više nije nišni hobby
Tijekom 2025. i 2026. lokalni LLM-ovi su prešli iz domene entuzijasta u realnu alternativu komercijalnim servisima — pogotovo za korisnike koji cijene privatnost ili rade s povjerljivim podacima. Hardverski prag je i dalje viši od korištenja ChatGPT-a putem preglednika, ali je u protekle dvije godine značajno snižen, a kvaliteta otvorenih modela približila se komercijalnima na većini zadataka.
Hrvatski korisnici trebaju biti svjesni jednog ograničenja — kvaliteta modela na hrvatskom jeziku još uvijek zaostaje za engleskim. Za sadržaj na hrvatskom najbolji rezultati i dalje se postižu većim modelima (30B+) i komercijalnim alternativama. Ali za programiranje, sumarizaciju engleskih dokumenata ili kreativno pisanje lokalni AI je u 2026. potpuno produktivan alat.