HA Ollama Assistent — Lokales KI-Routing für Home Assistant¶

Diese Seite beschreibt den HA Ollama Assistenten, der Claude-Token-Kosten reduziert indem I/O-Aufgaben (Dateien lesen, HA-Zustände abfragen, Boilerplate generieren) an ein lokales Sprachmodell (Ollama auf dem NAS) delegiert werden.

Ziel¶

Der HA Ollama Assistent ist ein lokaler KI-Assistent, der die Claude-Token-Kosten durch die Delegation von I/O-Aufgaben an das NAS-System Ollama reduziert.

Architektur¶

Die Architektur des HA Ollama Assistants gliedert sich in drei Phasen:

State-Snapshot: Alle zwei Minuten wird ein State-Snapshot erstellt und gespeichert (/config/tools/state_snapshot.txt). Dieses Script wird durch HA shell_command.update_ha_snapshot ausgelöst und durch die Automation ha_state_snapshot_update initiiert.
Ollama auf NAS: Der Container ollama/ollama:latest läuft auf dem NAS, mit Port 11434. Als Modell wird qwen2.5:7b (Standard, 4.7GB) + qwen2.5:3b (schnell, nur für einfache State-Queries) verwendet. Die Komposition erfolgt über /usr/anatol/dockeruser/compose/. Der Container läuft via Vulkan (Renoir Vega iGPU) — ROCm ist nicht aktiv (crasht).
Claude-Tools: /config/tools/ask_ollama ermöglicht Fragen mit HA-Kontext (Timeout 180s, --model für Wahl) und /config/tools/ollama_write erstellt Boilerplate und DokuWiki-Entwürfe (Timeout 300s). Der Post-Prozessor für Markdown→DokuWiki ist hierbei eingesetzt (max. 600 Token).

Ollama Performance (GPU via Vulkan)¶

Mit qwen2.5:7b auf der Renoir iGPU via Vulkan:

Modellwahl¶

Warum qwen2.5:7b statt mistral:7b? Benchmark vom 03.05.2026: qwen2.5:7b benötigte 14,9s für eine HA-Automation, mistral:7b 26,0s. Zudem befolgt qwen2.5:7b Anweisungen besser (z.B. "nur YAML, kein Text") und nutzt modernere HA-Syntax mit target:-Block.

Grenzen (bekannt)¶

Analyse-Tasks (z.B. strukturelle Analyse) → zu schwach, Claude übernimmt
DokuWiki-Entwürfe → Fakten können halluziniert sein → Claude-Review nötig
Sprache → manchmal Englisch trotz Systemanweisung → Script nochmal aufrufen

Änderungshistorie¶

| Datum | Änderung | | 03.05.2026 | qwen2.5:7b als Standard-Modell (ersetzt mistral:7b); mistral:7b gelöscht (4.4GB frei); ask_ollama + ollama_write + CLAUDE.md aktualisiert | | 03.05.2026 | ollama_write: --type dokuwiki + Markdown→DokuWiki Konverter, /doku Skill aktualisiert | | 03.05.2026 | Phasen 1–3 implementiert: State-Snapshot, Ollama (mistral:7b), ask_ollama + ollama_write |

← Zurück zur Projektübersicht