Guider • Oppskrifter • Eksempler

Guider for LM Studio, lokale LLM, modeller og lokalt API

Her er en praktisk samling av oppskrifter som dekker de vanligste behovene – fra modellvalg og ytelse til integrasjon i apper via OpenAI‑kompatibelt API.

Installasjon og grunnoppsett

Installer LM Studio

Last ned og start appen. Åpne Models og søk etter en GGUF‑modell.

Last ned en modell som passer maskinen din

Start med Q4 eller Q5 på en 7–8B‑modell hvis du er usikker.

Test i Chat før du bygger

Bekreft språk, format og kvalitet i GUI før du kobler på et API eller integrasjoner.

Modeller: hva er «populært», og hva er «riktig»?

«Beste modell» avhenger av oppgaven. Her er en enkel oppdeling som fungerer i praksis:

  • Allround chat: Llama 3/3.1 Instruct, Gemma/Gemma 2 Instruct, Mistral Instruct
  • Kode: Qwen2.5‑Coder, Qwen3 Coder Next, Codestral, StarCoder2, DeepSeek‑Coder
  • Små modeller: Phi‑3 (rask respons, lavere minne)

I LM Studio er det vanlig å bruke GGUF‑filer med kvantisering (Q4–Q8). Velg etter VRAM/RAM.

Sjekklisten (hurtig)
  • Bruk «instruct/chat» når du vil ha dialog.
  • Velg lavere Q hvis du sliter med minne.
  • Øk kontekst bare hvis du trenger det (og maskinen tåler det).
  • Bytt modell når du bytter oppgavetype (kode vs. tekst).

API: koble LM Studio til apper og verktøy

Start Local Server i LM Studio. Da får du et OpenAI‑kompatibelt endepunkt. Dette gjør integrasjon enkel: bytt bare base‑URL i klienten.

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "lokal-modell-navn",
    "messages": [
      {"role": "user", "content": "Skriv en JavaScript-funksjon som validerer e-post."}
    ]
  }'
Produksjonstips
  • Legg inn timeouts og retry med backoff.
  • Cache svar på dyre spørsmål (der det er forsvarlig).
  • Rate-limit per bruker/endpoint.
  • Maskér sensitive data i logger.

Ytelse: hva påvirker fart og minne?

Kvantisering

Q4 bruker mindre minne og er ofte rask. Q8 bruker mer minne og kan gi bedre presisjon.

Kontekstlengde

Lengre kontekst = mer minne og tregere. Bruk bare så mye du trenger.

GPU‑offload

Hvis du har dedikert GPU: mer VRAM og riktig offload gir ofte stor gevinst på tokens/sek.

RAG: «chat med dokumenter» som faktisk fungerer

Chunking + metadata

Del dokumenter smart og behold kildeinfo, slik at svar kan etterprøves.

Embeddings + vektorsøk

Hent relevant kontekst før du spør modellen. Resultatet blir mer presist enn «fulltekst i prompt».

Grounding

Be om svar kun basert på kontekst og inkluder kilder. Dette reduserer hallusinasjoner.