Zašto sve više korisnika pokreće AI lokalno

ChatGPT, Claude i Gemini ostali su središte AI razgovora u 2026., ali jedan trend je tijekom protekle godine značajno ubrzao — pokretanje velikih jezičnih modela (LLM) na vlastitom računalu. Razloga ima više: privatnost podataka, troškovi pretplata, rad bez Interneta i mogućnost prilagodbe modela vlastitim potrebama. U ovom vodiču objašnjavamo što vam treba za lokalni AI, koje modele odabrati i koja su realna ograničenja u 2026.

Što je lokalni LLM i zašto bi vas zanimao

Lokalni LLM je veliki jezični model koji se izvršava potpuno na vašem hardveru — bez slanja podataka u oblak. Razgovor s modelom, generiranje koda ili sumarizacija dokumenata događa se isključivo na vašem CPU-u, GPU-u ili NPU-u.

Glavne prednosti lokalnog pristupa:

  • Privatnost — povjerljivi dokumenti ne napuštaju vaš uređaj
  • Bez pretplate — nakon kupovine hardvera nema mjesečnih troškova
  • Rad offline — funkcionira u avionu, na putu ili u uredu bez Interneta
  • Bez ograničenja — nema cenzure, rate limita ili dnevnih kvota

Glavni nedostaci ostaju:

  • Slabija kvaliteta od najboljih komercijalnih modela (GPT-4 Turbo, Claude Opus, Gemini Ultra)
  • Sporiji odgovori osim na vrhunskom hardveru
  • Početna kompleksnost instalacije i odabira modela

Hardverski zahtjevi za lokalni AI

Veličina modela mjeri se u milijardama parametara (B). Veći modeli daju kvalitetnije odgovore, ali zahtijevaju više memorije i procesorske snage.

Minimalni setup (za eksperimentiranje)

  • 16 GB RAM-a
  • Bilo koji moderni CPU (Intel Core i5/Ryzen 5 ili noviji)
  • Modeli: 3B–7B parametara, kvantizirani na 4 bita (Q4)
  • Brzina: 5–15 tokena u sekundi (sporo, ali upotrebljivo)

Preporučeni setup (svakodnevna upotreba)

  • 32 GB RAM-a
  • Diskretni GPU s najmanje 8 GB VRAM-a (RTX 3060, RX 7600 XT, ili Apple M2/M3 s 16 GB unified memory)
  • Modeli: 7B–13B parametara, Q4–Q8 kvantizacija
  • Brzina: 30–60 tokena u sekundi (vrlo upotrebljivo)

Power user setup (za napredne zadatke)

  • 64+ GB RAM-a
  • GPU s 24 GB VRAM-a (RTX 4090, RTX 5090) ili Apple M3/M4 Max sa 64 GB+ unified memory
  • Modeli: 30B–70B parametara, FP16 ili Q8 kvantizacija
  • Brzina: 50–120 tokena u sekundi

NPU pomoć u modernim laptopima

Računala s Copilot+ certifikatom (Snapdragon X Elite, Intel Lunar Lake, AMD Ryzen AI 300) imaju NPU-ove sa 40+ TOPS performansi. U 2026. većina alata za lokalni AI počela je koristiti NPU za manje modele (do 8B), što značajno smanjuje potrošnju baterije u laptopima u odnosu na čisto CPU izvođenje.

Najbolji modeli za lokalnu upotrebu u 2026.

Tržište otvorenih modela u protekloj godini eksplodiralo je, posebno zahvaljujući kineskim laboratorijima. Evo pregleda najboljih izbora prema namjeni.

Općeniti razgovor i pisanje

  • Llama 3.3 70B (Meta) — Industrijski standard otvorenih modela. Vrlo dobra kvaliteta razgovora, podrška za više jezika, uključujući djelomičnu podršku za hrvatski. Zahtjeva ozbiljan hardver.
  • Llama 3.2 8B (Meta) — Manja verzija koja se izvršava na potrošačkom hardveru. Dovoljno dobra za većinu zadataka.
  • Mistral Small 3 (Mistral AI) — Francuski model s 22B parametara. Odličan balans veličine i kvalitete, posebno za europske jezike.

Programiranje i pisanje koda

  • Qwen 2.5 Coder 32B (Alibaba) — Trenutno vrh open source coding modela. Konkurira komercijalnim alternativama u Pythonu, JavaScript-u i sličnim jezicima.
  • DeepSeek Coder V2 (DeepSeek) — Iznimna brzina, dobre performanse na C++ i Rustu.

Reasoning i matematika

  • DeepSeek R1 — Otvoreni reasoning model koji je u 2025. podigao standard otvorenih modela. Distilirane verzije (1.5B, 7B, 14B, 32B) izvršavaju se i na manjim računalima.
  • Qwen QwQ 32B — Specijaliziran za logičke zadatke i matematiku.

Hrvatski jezik

Realnost: niti jedan otvoreni model nije primarno trenirat na hrvatskom jeziku. Najbolji rezultati postižu se s većim multilingvističkim modelima (Llama 3.3 70B, Qwen 2.5 72B). Manji modeli često prave gramatičke pogreške u hrvatskom, posebno kod padeža i složenih rečenica. Za ozbiljnu hrvatsku obradu teksta i dalje su komercijalni modeli (Claude, GPT-4) primjetno bolji.

Najlakši alati za pokretanje

Ollama (preporučeno za većinu)

Najjednostavniji način za početnike. Komandno-linijski alat koji preuzima modele i pokreće ih u jednoj naredbi:

ollama pull llama3.2
ollama run llama3.2

Funkcionira na Windowsu, macOS-u i Linuxu. Automatski koristi GPU ako je dostupan. Velika biblioteka modela dostupna na ollama.com/library.

LM Studio

Grafičko sučelje s ugrađenim katalogom modela. Idealno za korisnike koji ne žele koristiti naredbeni redak. Ima ugrađen chat, OpenAI-kompatibilni API server (za korištenje iz drugih aplikacija) i procjenu hoće li model raditi na vašem hardveru.

Jan

Otvoreni desktop client s naglaskom na privatnost. Više dizajniran kao zamjena za ChatGPT desktop aplikaciju. Podržava lokalne modele i opcionalno povezivanje s komercijalnim API-jevima.

llama.cpp

Niskorazinski C++ runtime koji pokreće većinu navedenih alata u pozadini. Tehnički zahtjevniji, ali nudi najveću kontrolu i najbolje performanse za napredne korisnike.

Realne performanse na različitom hardveru

Brzina lokalnih modela u 2026. (orijentacijske vrijednosti za 7B Q4 model):

Hardver Tokena/s Iskustvo
Intel Core i5-12400 + 16 GB RAM (samo CPU) 8–12 Sporo, ali upotrebljivo
Apple M2 (16 GB unified) 25–40 Vrlo dobro za laptop
RTX 4060 8 GB VRAM 50–70 Brže od ChatGPT-a u prosjeku
Apple M3 Max (64 GB unified) 60–90 Top tier za laptop
RTX 4090 24 GB 100+ Vrh potrošačkog hardvera

Za usporedbu, ChatGPT putem weba isporučuje 30–60 tokena u sekundi prosječno, ovisno o opterećenju.

Kvantizacija — kako modeli "stanu" u manje memorije

Kvantizacija je tehnika smanjivanja preciznosti modela radi uštede memorije. Model treniran u 16-bitnom (FP16) formatu može se konvertirati u Q4 (4 bita po parametru), što ga čini 4x manjim uz mali pad kvalitete.

Praktičan primjer: Llama 3.2 70B u izvornom FP16 formatu treba 140 GB memorije. Ista u Q4 kvantizaciji traje "samo" 35 GB. Pad kvalitete je u praksi mali — za većinu zadataka neprimjetan.

Za većinu korisnika preporuka je Q4_K_M kvantizacija — najbolji kompromis između veličine i kvalitete.

Privatnost i sigurnosni aspekti

Lokalni LLM rješavaju neke privatnostne brige, ali otvaraju i nove.

Što dobivate

  • Razgovori se ne šalju Microsoftu, Googleu, OpenAI-u ili kineskim serverima
  • Povjerljivi dokumenti (ugovori, financijski podaci, medicinski nalazi) ostaju na vašem računalu
  • Niste podložni promjenama uvjeta korištenja ili regrutiranju vaših podataka za treniranje

Što ostaje rizik

  • Sigurnost samog modela — preuzimajte modele samo iz pouzdanih izvora (službeni Hugging Face repozitoriji, ne nepoznate verzije s drugih mjesta)
  • Kompromitirano računalo — ako vam je uređaj zaražen, lokalni AI je ranjiv kao i sve ostalo
  • Pravna odgovornost — generiranje sadržaja koji krši tuđa autorska prava ili regulativu i dalje je vaša odgovornost

Praktični savjeti za početak

  1. Počnite s Ollamom i Llama 3.2 8B modelom — najlakši ulaz, radi na većini suvremenih računala.
  2. Procijenite hardver realno — ne pokušavajte pokrenuti 70B model na 16 GB RAM-a, frustracija je zagarantirana.
  3. Testirajte 2–3 modela na svojim stvarnim zadacima — nije svaki model dobar za svaki posao.
  4. Razmislite o privatnostnim trade-offovima — za neke zadatke (kreativno pisanje, programiranje) kvaliteta komercijalnih modela isplati se zadržati. Za osjetljive dokumente lokalni model je jedina razumna opcija.
  5. Pratite scenu — područje se mijenja mjesečno. Modeli koji su bili "najbolji otvoreni" prije pola godine danas su zastarjeli.

Zaključak: Lokalni AI više nije nišni hobby

Tijekom 2025. i 2026. lokalni LLM-ovi su prešli iz domene entuzijasta u realnu alternativu komercijalnim servisima — pogotovo za korisnike koji cijene privatnost ili rade s povjerljivim podacima. Hardverski prag je i dalje viši od korištenja ChatGPT-a putem preglednika, ali je u protekle dvije godine značajno snižen, a kvaliteta otvorenih modela približila se komercijalnima na većini zadataka.

Hrvatski korisnici trebaju biti svjesni jednog ograničenja — kvaliteta modela na hrvatskom jeziku još uvijek zaostaje za engleskim. Za sadržaj na hrvatskom najbolji rezultati i dalje se postižu većim modelima (30B+) i komercijalnim alternativama. Ali za programiranje, sumarizaciju engleskih dokumenata ili kreativno pisanje lokalni AI je u 2026. potpuno produktivan alat.