FAQ • Feilsøking • Maskinvare

FAQ: LM Studio og lokale språkmodeller

Her finner du korte, konkrete svar på vanlige spørsmål om LM Studio, modeller (Qwen3 Coder Next, Gemma, Llama, Mistral osv.), GGUF/kvantisering og lokalt OpenAI‑kompatibelt API.

GGUF og kvantisering

Hva er GGUF?

Et vanlig filformat for kvantiserte LLM‑vekter som er laget for effektiv lokal kjøring (ofte med llama.cpp‑økosystemet).

Hva betyr Q4/Q5/Q8?

Det er nivåer av kvantisering (komprimering). Lavere Q bruker mindre minne og kan være raskere, men kan gi noe lavere kvalitet.

Hva bør jeg velge?

Som start: Q4 eller Q5 på en 7–8B‑modell. Hvis du har mye VRAM/RAM og vil ha mer kvalitet: prøv Q6/Q8.

Maskinvare og ytelse

  • RAM/VRAM: størst effekt på hva du kan kjøre.
  • GPU: dedikert GPU gir ofte høyere tokens/sek enn CPU.
  • SSD: påvirker nedlasting og lasting av modeller.
  • Kontekstlengde: lengre kontekst bruker mer minne og kan senke fart.
Når det går tregt
  • Bytt til lavere kvantisering (f.eks. Q4).
  • Reduser kontekstlengde.
  • Velg mindre modell (f.eks. 7–8B i stedet for 13B+).
  • Skru på/off GPU‑offload og sammenlign.

Lokalt API (OpenAI‑kompatibelt)

LM Studio kan starte en lokal server. Standard base‑URL er vanligvis http://localhost:1234/v1. Mange biblioteker støtter dette ved å peke base_url til din lokale server.

curl http://localhost:1234/v1/models
curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "lokal-modell-navn",
    "messages": [{"role": "user", "content": "Gi meg 3 punkter om kvantisering."}]
  }'
Sikkerhet
  • Hold serveren lokal (localhost) hvis du ikke trenger ekstern tilgang.
  • Hvis du eksponerer på nett: bruk autentisering, TLS og nettverksbegrensninger.
  • Vurder logging og dataminimering (tekst kan være sensitiv).

Modeller

Hvilke modeller er mest brukt?

Ofte ser du Llama, Mistral/Mixtral, Qwen‑familien, Gemma, Phi og ulike «coder»-modeller.

Kan jeg bruke Qwen3 Coder Next og Gemma?

Ja, dersom du finner en kompatibel variant (typisk GGUF) og den passer maskinvaren din.

Chat vs. Coder

Coder‑modeller er ofte bedre på repo‑kontekst og kodegenerering, mens chat‑modeller kan være bedre på generell dialog.

Fant du ikke det du lurte på?

Se sjekklisten for oppstart, eller guidesiden for oppskrifter.