Ollama installieren in 5 Minuten — Schritt für Schritt (Windows, Mac, Linux)

Schritt	Aktion	Dauer
1	Ollama installieren (winget / brew / curl)	1 Min
2	Ollama startet als Hintergrund-Service	automatisch
3	`ollama run qwen3.5:4b` — Modell herunterladen	2-3 Min
4	Interaktive Chat-Session im Terminal	bereit
5	API verfügbar unter `localhost:11434`	bereit
6	Prüfen mit `curl localhost:11434/api/tags`	10 Sek

5 Minuten. Dann läuft qwen3.5:4b auf deiner eigenen Hardware.

Kein Cloud-Account, keine API-Kosten, keine Daten die irgendwo hochgeladen werden. Getestet auf Windows 11, macOS Sonoma und Ubuntu 24.04.

Was ist Ollama?

Ollama ist ein lokaler LLM-Runner — ein Programm das Sprachmodelle auf deiner eigenen Hardware ausführt und eine API bereitstellt, die OpenAI-kompatibel ist. Das bedeutet: Tools die für ChatGPT gebaut sind, funktionieren ohne Änderungen auch mit Ollama. Wir betreiben 3 Ollama-Instanzen auf unterschiedlicher Hardware im 24/7-Betrieb. Das hier ist das Setup das funktioniert.

Installation

Windows 11

Option 1: winget (empfohlen)

winget install Ollama.Ollama

Option 2: Direkter Download Installer von ollama.com/download herunterladen und ausführen. Ollama läuft danach als Windows-Dienst im Hintergrund.

GPU-Support (NVIDIA) wird automatisch erkannt wenn die CUDA-Treiber installiert sind. Kein weiterer Konfigurationsaufwand. AMD GPUs werden über ROCm unterstützt — Details im Ollama GitHub.

macOS (Sonoma, Ventura, Monterey)

brew install ollama

Ohne Homebrew: Direkter Download unter ollama.com/download/mac. Apple Silicon (M1/M2/M3/M4) wird vollständig unterstützt — die integrierte GPU wird automatisch genutzt.

Linux (Ubuntu 24.04, Debian, Fedora)

curl -fsSL https://ollama.com/install.sh | sh

Der Installer richtet Ollama als systemd-Service ein. Nach der Installation läuft Ollama automatisch beim Systemstart. GPU-Support für NVIDIA und AMD wird erkannt sofern die Treiber vorhanden sind.

Erster Test: Ein Modell laden und starten

ollama run qwen3.5:4b

Beim ersten Aufruf wird das Modell heruntergeladen (~2.5 GB). Danach startet eine interaktive Chat-Session direkt im Terminal:

>>> Erkläre Docker in einem Satz.
Docker ist eine Plattform die Anwendungen in isolierten Containern verpackt,
damit sie überall gleich laufen — unabhängig vom Host-System.

>>> /bye

Mit /bye beendest du die Session. Das Modell bleibt lokal gespeichert und steht sofort wieder zur Verfügung.

Die API läuft parallel auf http://localhost:11434. Test:

curl http://localhost:11434/api/tags

Das gibt alle lokal verfügbaren Modelle als JSON zurück.

Welches Modell für welchen VRAM?

VRAM ist der limitierende Faktor — nicht RAM. Wenn deine GPU nicht genug VRAM hat, läuft das Modell auf der CPU weiter (deutlich langsamer, aber funktionsfähig).

VRAM	Empfohlenes Modell	Download-Größe	Kontext
4 GB	`qwen3.5:4b`	~2.5 GB	256K Token
8 GB	`qwen3.5:8b`	~5 GB	256K Token
16 GB	`qwen3.5:14b`	~9 GB	256K Token
24 GB	`qwen3.5:27b`	~17 GB	256K Token

Wir nutzen qwen3.5:27b auf einer RTX 3090 (24 GB) als primäres Modell — Ollama Model Library listet alle verfügbaren Modelle mit Größenangaben.

Kein dedizierter GPU-VRAM? Kein Problem. qwen3.5:4b läuft auch auf der CPU — langsamer, aber für erste Tests völlig ausreichend. Auf einem modernen Laptop-Prozessor sind das ca. 3-8 Token pro Sekunde.

Modell-Verwaltung

# Alle lokal verfügbaren Modelle anzeigen
ollama list

# Modell herunterladen ohne direkt zu starten
ollama pull llama3.2:3b

# Modell entfernen
ollama rm llama3.2:3b

Modelle werden unter ~/.ollama/models gespeichert (Linux/macOS) oder C:\Users\<name>\.ollama\models (Windows). Auf einer SSD mit mindestens 20 GB freiem Speicher empfehlen wir qwen3.5:4b + ein zweites Modell für Vergleiche.

Was als nächstes?

Ollama läuft. Die API antwortet. Das ist die Basis. Jetzt fehlt noch ein Browser-Interface damit du ohne Terminal chatten kannst — und eine saubere Konfiguration damit Ollama auch nach einem Neustart zuverlässig startet.

Weiter zu Stufe 4: Browser-Interface einrichten mit Open WebUI →

Oder direkt zum kompletten Setup — das Local AI Playbook P1 (EUR 49) enthält fertig konfigurierte Docker-Compose-Files für Ollama + Open WebUI + Monitoring, detaillierte Anleitungen für alle Betriebssysteme, und den kompletten Stack den wir selbst in Production betreiben.

Quellen: ollama.com — offizielle Dokumentation. github.com/ollama/ollama — Source Code und GPU-Support Details. ollama.com/library — vollständige Modell-Bibliothek mit Größenangaben und Benchmarks.

Ollama installieren in 5 Minuten — Schritt für Schritt (Windows, Mac, Linux)

Ollama installieren in 5 Minuten — Schritt für Schritt (Windows, Mac, Linux)

Was ist Ollama?

Installation

Windows 11

macOS (Sonoma, Ventura, Monterey)

Linux (Ubuntu 24.04, Debian, Fedora)

Erster Test: Ein Modell laden und starten

Welches Modell für welchen VRAM?

Modell-Verwaltung

Was als nächstes?

Verwandte Artikel

Install Ollama in 5 Minutes — Step by Step (Windows, Mac, Linux)

Dein erster lokaler AI-Chatbot: Open WebUI in 10 Minuten einrichten

Warum du kein ChatGPT im Unternehmen nutzen solltest — und was stattdessen

Nächster Schritt: vom Wissen in die Umsetzung