Zum Inhalt

HA Ollama Assistent — Lokales KI-Routing für Home Assistant

Diese Seite beschreibt den HA Ollama Assistenten, der Claude-Token-Kosten reduziert indem I/O-Aufgaben (Dateien lesen, HA-Zustände abfragen, Boilerplate generieren) an ein lokales Sprachmodell (Ollama auf dem NAS) delegiert werden.

Ziel

Der HA Ollama Assistent ist ein lokaler KI-Assistent, der die Claude-Token-Kosten durch die Delegation von I/O-Aufgaben an das NAS-System Ollama reduziert.

Architektur

Die Architektur des HA Ollama Assistants gliedert sich in drei Phasen:

  1. State-Snapshot: Alle zwei Minuten wird ein State-Snapshot erstellt und gespeichert (/config/tools/state_snapshot.txt). Dieses Script wird durch HA shell_command.update_ha_snapshot ausgelöst und durch die Automation ha_state_snapshot_update initiiert.

  2. Ollama auf NAS: Der Container ollama/ollama:latest läuft auf dem NAS, mit Port 11434. Als Modell wird qwen2.5:7b (Standard, 4.7GB) + qwen2.5:3b (schnell, nur für einfache State-Queries) verwendet. Die Komposition erfolgt über /usr/anatol/dockeruser/compose/. Der Container läuft via Vulkan (Renoir Vega iGPU) — ROCm ist nicht aktiv (crasht).

  3. Claude-Tools: /config/tools/ask_ollama ermöglicht Fragen mit HA-Kontext (Timeout 180s, --model für Wahl) und /config/tools/ollama_write erstellt Boilerplate und DokuWiki-Entwürfe (Timeout 300s). Der Post-Prozessor für Markdown→DokuWiki ist hierbei eingesetzt (max. 600 Token).

Ollama Performance (GPU via Vulkan)

Mit qwen2.5:7b auf der Renoir iGPU via Vulkan:

| Aufgabe | Zeit | Tokens/s | | YAML-Automation generieren | ~15 Sekunden | ~5,5 t/s | | State-Query (400 Token) | ~70 Sekunden | ~5,5 t/s | | DokuWiki-Entwurf (600 Token) | ~110 Sekunden | ~5,5 t/s | | YAML-Boilerplate (800 Token) | ~145 Sekunden | ~5,5 t/s |

Modellwahl

| Modell | Verwendung | Größe | | qwen2.5:7b | Standard — alle Aufgaben | 4.7 GB | | qwen2.5:3b | Schnell — nur einfache State-Queries via --model qwen2.5:3b | 1.9 GB |

Warum qwen2.5:7b statt mistral:7b? Benchmark vom 03.05.2026: qwen2.5:7b benötigte 14,9s für eine HA-Automation, mistral:7b 26,0s. Zudem befolgt qwen2.5:7b Anweisungen besser (z.B. "nur YAML, kein Text") und nutzt modernere HA-Syntax mit target:-Block.

Grenzen (bekannt)

  • Analyse-Tasks (z.B. strukturelle Analyse) → zu schwach, Claude übernimmt
  • DokuWiki-Entwürfe → Fakten können halluziniert sein → Claude-Review nötig
  • Sprache → manchmal Englisch trotz Systemanweisung → Script nochmal aufrufen

Änderungshistorie

| Datum | Änderung | | 03.05.2026 | qwen2.5:7b als Standard-Modell (ersetzt mistral:7b); mistral:7b gelöscht (4.4GB frei); ask_ollama + ollama_write + CLAUDE.md aktualisiert | | 03.05.2026 | ollama_write: --type dokuwiki + Markdown→DokuWiki Konverter, /doku Skill aktualisiert | | 03.05.2026 | Phasen 1–3 implementiert: State-Snapshot, Ollama (mistral:7b), ask_ollama + ollama_write |


← Zurück zur Projektübersicht