Zum Inhalt springen
>_<
AI EngineeringWiki

AI-Kosten: Lokal vs Cloud vs Hybrid

Grundlagen · 6 min

Was kostet AI 2026? Hier ist der realistische Vergleich für lokale Modelle, Cloud APIs und Hybrid.

AI Kosten Vergleich — Cloud vs Lokal vs Hybrid Balkendiagramm
AI Kosten 2026: Cloud, Lokal und Hybrid im direkten Vergleich
Diagramm wird geladen...

Kostenübersicht 2026 (ehrlich)

OptionHardware (einmalig)Laufend/MonatWas du bekommst
Cloud API (GPT-4o)EUR 0EUR 100-500Beste Qualität — $5/$15 pro 1M Tokens (Stand März 2026)
Cloud API (Claude Sonnet 4)EUR 0EUR 50-200Sehr gute Qualität — $3/$15 pro 1M Tokens
Cloud API (Gemini 2.5 Pro)EUR 0EUR 30-150Stark bei Reasoning — $1.25/$10 pro 1M Tokens
Lokal (RTX 3090, gebr.)EUR 750-1.123~EUR 49 (Strom, AT)Bis 34B Modelle, 80% der Tasks gut
Lokal (RTX 4090)EUR 1.800-2.000~EUR 49 (Strom, AT)Wie 3090, etwas schneller, gleiche VRAM-Grenze
Hybrid (unser Setup)EUR 750-1.123EUR 70-90 (Strom + Cloud)Bester Kompromiss aus Kosten und Qualität
⚠️ Hardware-Kosten nicht vergessen

Lokale AI kostet EUR 750-2.000 einmalig für die GPU plus EUR 500-800 für das System. Dazu kommen ~EUR 49/Monat Stromkosten bei 50% Last (AT: EUR 0,34/kWh). "Kostenlos nach Anschaffung" ist falsch. TCO Jahr 1: ca. EUR 2.000-2.300, ab Jahr 2: ca. EUR 588/Jahr (nur Strom).

Hardware-Optionen (Preis-Leistung)

GPUPreis (EUR)VRAMModelleStrom/Monat (50% Last, AT)
RTX 3060 12GB~35012 GBNur 7B Modelle~EUR 21
RTX 4070 Ti Super~80016 GBBis 14B~EUR 24
RTX 3090 (gebraucht)750-1.12324 GBBis 34B quantisiert~EUR 49
RTX 40901.800-2.00024 GBBis 34B komfortabel~EUR 55
AI Kosten Break-Even — Ab wann sich lokale AI rechnet
Break-Even Analyse: Ab wann lokale AI günstiger ist als Cloud

Break-Even (ehrlich)

Der echte Break-Even für Self-Hosting liegt laut DevTk.AI bei 50-200 Millionen Tokens pro Monat. Unter 2M Tokens/Tag ist die Cloud API günstiger (Prem AI). Die versteckten Kosten (Engineering, Wartung, Updates) werden laut AISuperior 3-5x unterschätzt, der Engineering-Anteil macht 45-55% des TCO aus.

ℹ️ Qualitätslücke beachten

Selbst wenn lokal günstiger ist: Für komplexes Reasoning (Logik, juristische Analyse, mehrstufige Aufgaben) liegt Cloud ~25% vorne. Der Break-Even gilt nur für Tasks, die lokale Modelle auch wirklich gut können.

TaskGPT-4o (Cloud)Llama 3.3 70B (Lokal)
Reasoning / Logik69%44%
Klassifikation73%70%
Code GenerationSehr gut~85-90% der Cloud-Qualität
Einfache ExtraktionExzellent~95% gleichwertig

Quellen

Empfehlung

Starte mit Cloud, wenn du schnell testen willst oder geringe Nutzung hast. Für laufende Workloads (Automation, interne Tools) lohnt sich lokal nach 6-12 Monaten. Der ehrlichste Ansatz ist Hybrid: lokal für Volumen-Tasks (Extraktion, Klassifikation, Q&A), Cloud-API für komplexes Reasoning. So bekommst du das Beste aus beiden Welten — ohne dir etwas vorzumachen.

💡 Der ehrliche Hybrid-Ansatz

Lokal für 80% der alltäglichen Tasks. Cloud-API für die 20% wo Qualität kritisch ist. Investition: EUR 750-1.123 Hardware + EUR 70-90/Monat laufend (Strom + Cloud). Das ist weniger als reine Cloud, aber auch nicht "kostenlos".

War dieser Artikel hilfreich?

Nächster Schritt: vom Wissen in die Umsetzung

Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.

Warum AI Engineering
  • Lokal und self-hosted gedacht
  • Dokumentiert und auditierbar
  • Aus eigener Runtime entwickelt
  • Made in Austria
Kein Ersatz für Rechtsberatung.