Zum Inhalt springen
>_<
AI EngineeringWiki
Ollama installieren in 5 Minuten — Schritt für Schritt (Windows, Mac, Linux)

Ollama installieren in 5 Minuten — Schritt für Schritt (Windows, Mac, Linux)

Von 0 zum laufenden lokalen LLM in 5 Minuten. Getestet auf Windows 11, macOS Sonoma und Ubuntu 24.04.

AI Engineering4 Min. Lesezeit
OllamaInstallationLLMAnfängerLocal AI

Ollama installieren in 5 Minuten — Schritt für Schritt (Windows, Mac, Linux)

AI-Infrastruktur Setup und Deployment
Schritt Aktion Dauer
1 Ollama installieren (winget / brew / curl) 1 Min
2 Ollama startet als Hintergrund-Service automatisch
3 ollama run qwen3.5:4b — Modell herunterladen 2-3 Min
4 Interaktive Chat-Session im Terminal bereit
5 API verfügbar unter localhost:11434 bereit
6 Prüfen mit curl localhost:11434/api/tags 10 Sek

5 Minuten. Dann läuft qwen3.5:4b auf deiner eigenen Hardware.

Kein Cloud-Account, keine API-Kosten, keine Daten die irgendwo hochgeladen werden. Getestet auf Windows 11, macOS Sonoma und Ubuntu 24.04.

Was ist Ollama?

Ollama ist ein lokaler LLM-Runner — ein Programm das Sprachmodelle auf deiner eigenen Hardware ausführt und eine API bereitstellt, die OpenAI-kompatibel ist. Das bedeutet: Tools die für ChatGPT gebaut sind, funktionieren ohne Änderungen auch mit Ollama. Wir betreiben 3 Ollama-Instanzen auf unterschiedlicher Hardware im 24/7-Betrieb. Das hier ist das Setup das funktioniert.

Installation

Windows 11

Option 1: winget (empfohlen)

winget install Ollama.Ollama

Option 2: Direkter Download Installer von ollama.com/download herunterladen und ausführen. Ollama läuft danach als Windows-Dienst im Hintergrund.

GPU-Support (NVIDIA) wird automatisch erkannt wenn die CUDA-Treiber installiert sind. Kein weiterer Konfigurationsaufwand. AMD GPUs werden über ROCm unterstützt — Details im Ollama GitHub.

macOS (Sonoma, Ventura, Monterey)

brew install ollama

Ohne Homebrew: Direkter Download unter ollama.com/download/mac. Apple Silicon (M1/M2/M3/M4) wird vollständig unterstützt — die integrierte GPU wird automatisch genutzt.

Linux (Ubuntu 24.04, Debian, Fedora)

curl -fsSL https://ollama.com/install.sh | sh

Der Installer richtet Ollama als systemd-Service ein. Nach der Installation läuft Ollama automatisch beim Systemstart. GPU-Support für NVIDIA und AMD wird erkannt sofern die Treiber vorhanden sind.

Erster Test: Ein Modell laden und starten

ollama run qwen3.5:4b

Beim ersten Aufruf wird das Modell heruntergeladen (~2.5 GB). Danach startet eine interaktive Chat-Session direkt im Terminal:

>>> Erkläre Docker in einem Satz.
Docker ist eine Plattform die Anwendungen in isolierten Containern verpackt,
damit sie überall gleich laufen — unabhängig vom Host-System.

>>> /bye

Mit /bye beendest du die Session. Das Modell bleibt lokal gespeichert und steht sofort wieder zur Verfügung.

Die API läuft parallel auf http://localhost:11434. Test:

curl http://localhost:11434/api/tags

Das gibt alle lokal verfügbaren Modelle als JSON zurück.

Welches Modell für welchen VRAM?

VRAM ist der limitierende Faktor — nicht RAM. Wenn deine GPU nicht genug VRAM hat, läuft das Modell auf der CPU weiter (deutlich langsamer, aber funktionsfähig).

VRAM Empfohlenes Modell Download-Größe Kontext
4 GB qwen3.5:4b ~2.5 GB 256K Token
8 GB qwen3.5:8b ~5 GB 256K Token
16 GB qwen3.5:14b ~9 GB 256K Token
24 GB qwen3.5:27b ~17 GB 256K Token

Wir nutzen qwen3.5:27b auf einer RTX 3090 (24 GB) als primäres Modell — Ollama Model Library listet alle verfügbaren Modelle mit Größenangaben.

Kein dedizierter GPU-VRAM? Kein Problem. qwen3.5:4b läuft auch auf der CPU — langsamer, aber für erste Tests völlig ausreichend. Auf einem modernen Laptop-Prozessor sind das ca. 3-8 Token pro Sekunde.

Modell-Verwaltung

# Alle lokal verfügbaren Modelle anzeigen
ollama list

# Modell herunterladen ohne direkt zu starten
ollama pull llama3.2:3b

# Modell entfernen
ollama rm llama3.2:3b

Modelle werden unter ~/.ollama/models gespeichert (Linux/macOS) oder C:\Users\<name>\.ollama\models (Windows). Auf einer SSD mit mindestens 20 GB freiem Speicher empfehlen wir qwen3.5:4b + ein zweites Modell für Vergleiche.

Was als nächstes?

Ollama läuft. Die API antwortet. Das ist die Basis. Jetzt fehlt noch ein Browser-Interface damit du ohne Terminal chatten kannst — und eine saubere Konfiguration damit Ollama auch nach einem Neustart zuverlässig startet.

Weiter zu Stufe 4: Browser-Interface einrichten mit Open WebUI →

Oder direkt zum kompletten Setup — das Local AI Playbook P1 (EUR 49) enthält fertig konfigurierte Docker-Compose-Files für Ollama + Open WebUI + Monitoring, detaillierte Anleitungen für alle Betriebssysteme, und den kompletten Stack den wir selbst in Production betreiben.


Quellen: ollama.com — offizielle Dokumentation. github.com/ollama/ollama — Source Code und GPU-Support Details. ollama.com/library — vollständige Modell-Bibliothek mit Größenangaben und Benchmarks.

Artikel teilen

Weiterfuehrende Artikel: Was ist ein LLM? · AI Tools Datenbank · Lernpfad

Fuer die Umsetzung gibt es Ressourcen auf ai-engineering.at.

Nächster Schritt: vom Wissen in die Umsetzung

Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.

Warum AI Engineering
  • Lokal und self-hosted gedacht
  • Dokumentiert und auditierbar
  • Aus eigener Runtime entwickelt
  • Made in Austria
Kein Ersatz für Rechtsberatung.