Security, AI and Fun · 82 % MVP complete

MahoneyBot

Der KI-Agent für regulierte Umgebungen. Sicher. Auditierbar. Compliant by Design.

Das erste Agent-Framework, das ISO 27001, NIS2 und GMP nicht nachträglich aufschraubt – sondern von Grund auf einbaut. Single Binary, < 15 MB, Air-Gap-fähig.

ISO 27001 NIS2 GMP / DAkkS DSGVO ISO 17025

< 15 MB

Docker Image

Go

Single Binary

100 %

Audit Coverage

SHA-256

Prompt Hashing

8 / 11

Milestones Done

Das Problem

Warum bestehende Lösungen scheitern

Regulierte Unternehmen stehen vor einem Dilemma: KI-Automatisierung ist nötig, aber keine Lösung erfüllt ihre Compliance-Anforderungen.

⚠️

Compliance-Lücke

Kein AI-Agent-Framework erfüllt ISO 27001, NIS2, GMP und DAkkS gleichzeitig. Laboratorien verzichten auf Automatisierung oder nutzen unsichere Workarounds.

⏱

15+ Stunden/Woche verschwendet

IT-Teams verbringen ein Fünftel ihrer Arbeitszeit mit manuellen Monitoring-, Reporting- und Wartungsaufgaben, die ein Agent automatisieren könnte.

💰

Enterprise Lock-in

Microsoft Copilot Studio und AWS Bedrock Agents sind zu teuer und zu schwergewichtig für KMUs mit 50–1.000 Mitarbeitern. Vendor Lock-in inklusive.

Kernfeatures

Was MahoneyBot einzigartig macht

Sechs Differenzierungsmerkmale, die kein anderes Framework in dieser Kombination bietet.

+

📋

Audit-Compliance by Design

Jede Aktion in einem append-only JSON-Log. SIEM-kompatibel. Prompts SHA-256-gehasht statt Klartext.

Append-only JSON-Logdatei – kein Überschreiben, kein Löschen
Events: session_start, session_end, provider_call, tool_call, channel_auth
Prompt-Hashing mit SHA-256 (DSGVO Art. 5 Datenminimierung)
Optionale Hash-Chain für Tamper-Evidence (NIS2 Art. 21)
SIEM-Export kompatibel mit Splunk, ELK, Wazuh
Konfigurierbare Retention: 30 Tage (intern) bis 90+ Tage (reguliert)

+

🔐

Secrets-Management (SOPS/age)

API-Keys verschlüsselt gespeichert. Keine Geheimnisse in der Config. 0600-Berechtigungen enforced.

Secrets in separater SOPS-verschlüsselter Datei gespeichert
age-Verschlüsselung (CNCF-Projekt, keine externen Dependencies)
Agent verweigert Start bei falschen Dateiberechtigungen (nicht 0600)
Config-Scan erkennt Secrets im Hauptconfig und blockiert Start
Umgebungsvariablen als Alternative für einfache Setups

+

🛡️

Tool-Whitelist (Zero-Default)

Kein Tool standardmäßig aktiv. Explizite YAML-Freischaltung. Nicht-gelistete Calls rejected und auditiert.

Kein Tool ist standardmäßig aktiv – explizite Freischaltung in YAML
Tool-Registry validiert bei jedem Call gegen die Whitelist
Nicht-gelistete Tool-Calls werden rejected UND im Audit-Log erfasst
Separate Whitelist pro MCP-Server für granulare Kontrolle
Filesystem-Tools mit Path-Traversal-Schutz (Sandbox)

+

🔌

MCP-Erweiterbarkeit

LIMS, ERP, Monitoring als externe MCP-Server. Dynamische Tool-Discovery. Health-Checks.

Model Context Protocol (MCP) als Standard für Tool-Server
Dynamische Tool-Discovery beim Startup
Prefixed Toolnamen: syslog_query_logs, lims_get_sample
Whitelist pro MCP-Server, Kollisionserkennung
Health-Check-Loop mit Logging bei Ausfall
Fail-fast: Unerreichbarer MCP-Server = Startup-Fehler

+

📦

Single Binary, Multi-Arch

Ein Go-Binary für amd64 + arm64. Docker < 15 MB. Läuft auf Raspberry Pi bis Enterprise-Server.

Go 1.22+ mit Cross-Compilation für amd64 und arm64
Docker-Image auf distroless-Basis (< 15 MB)
Getestet auf: NanoKVM (15 USD), Raspberry Pi 4, x86 Server
Pure Go SQLite (modernc.org/sqlite) – kein CGO nötig
Container: read_only, cap_drop ALL, non-root

+

✈️

Air-Gap-fähig

Mit Ollama komplett offline. Kein externer API-Call. Ideal für Hochsicherheitszonen und Reinräume.

Ollama als lokaler LLM-Provider (Llama, Mistral etc.)
Kompatibel über Anthropic-kompatibles /v1/messages API
Kein externer API-Call, kein Telemetrie-Traffic
Ideal für: Classified-Umgebungen, Reinräume, Standorte ohne Internet
Alle Features (Audit, Tools, Channels) funktionieren offline

Architektur

Modulares, interface-basiertes Design

Strikte Separation of Concerns. Jede Komponente austauschbar. Compile-time safe.

// MahoneyBot architecture – interface-driven, zero-default security

┌─────────────────────────────────────────────────────────────┐
│                        CHANNELS                              │
│   ┌──────────┐  ┌──────────┐  ┌──────────┐                │
│   │ Telegram │  │ Webhook  │  │  Slack   │  (future)      │
│   │  (Long   │  │ (HTTP    │  │          │                │
│   │  Polling) │  │  Bearer) │  │          │                │
│   └────┬─────┘  └────┬─────┘  └────┬─────┘                │
│        └────────────┴───────────┘                       │
│                     ▼                                        │
│             ┌───────────────┐                              │
│             │  AGENT LOOP   │  ReAct: Think → Act → Observe  │
│             │  Circuit      │  max_iterations: 25         │
│             │  Breaker      │  error_budget: 3            │
│             └───┬───────┬───┘                              │
│                 │       │                                   │
│         ┌───────▼──┐  ┌▼──────────┐                     │
│         │ PROVIDER │  │ TOOL       │                     │
│         │          │  │ REGISTRY   │                     │
│         │ Anthropic│  │            │                     │
│         │ Ollama   │  │ Built-in   │                     │
│         │ OpenRtr  │  │ MCP Proxy  │                     │
│         └──────────┘  └──────┬─────┘                     │
│                              │                             │
│   ┌────────┐  ┌────────┐  ┌───▼───┐  ┌──────────┐    │
│   │ STORE  │  │ AUDIT  │  │ MCP    │  │ REPORTER │    │
│   │ SQLite │  │ JSON   │  │ Client │  │ Webhook  │    │
│   │ Memory │  │ Hashed │  │ HTTP   │  │ → Hub    │    │
│   └────────┘  └────────┘  └────────┘  └──────────┘    │
│                                                             │
│   ┌───────────────────────────────────────────────┐    │
│   │                   CONFIG                          │    │
│   │  YAML + SOPS/age + ENV Vars + JSON Schema          │    │
│   └───────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────┘

Tech Stack

Technologie-Entscheidungen

⚙️

Go 1.22+

Single Binary, Cross-Compile, statisch gelinkt, < 15 MB RAM

ADR-001

🤖

Anthropic Go SDK v1.19.0

Offizielles SDK mit Extended Thinking, Tool Use, Streaming

ADR-003

🗃️

modernc.org/sqlite (Pure Go)

Kein CGO, ARM64/RISC-V kompatibel, embedded Database

ADR-007

🔒

SOPS + age

CNCF-Projekt, keine externen Dependencies, Secrets-at-rest

ADR-008

📦

Docker (distroless)

Read-only rootfs, non-root, cap_drop ALL, < 15 MB Image

ADR-010

🔗

MCP (Model Context Protocol)

Standard-Protokoll für Tool-Server, dynamische Discovery

ADR-015

Compliance

Gebaut für regulierte Umgebungen

Jede Architekturentscheidung berücksichtigt die Anforderungen aus ISO 27001, NIS2, GMP und DAkkS.

✓

ISO 27001 (A.8.15) – Access Logging Channel-Auth-Events, Session-Start/End im Audit-Log. Jeder Zugriff nachvollziehbar.

✓

ISO 27001 (A.8.5) – Change Tracking Tool-Calls mit Input/Output-Hashes dokumentiert. Jede Änderung auditiert.

✓

NIS2 Art. 21 – Log Integrity Hash-Chaining, Append-only Logs für Tamper-Evidence. Manipulation erkennbar.

✓

DSGVO Art. 5(1)(c) – Datenminimierung Prompt-Hashing statt Klartext-Speicherung. Kein personenbezogenes Datum im Log.

✓

GMP Kap. 4 – Aufbewahrung Konfigurierbare Retention: 30 Tage (intern) bis 90+ Tage (reguliert).

✓

DAkkS / ISO 17025 – Audit Trail Session → Tool → Result Kette lückenlos. Jede Probenanalyse nachvollziehbar.

Sicherheitsmodell

6-Layer Defense-in-Depth

Layer 1

Channel Authentication

Unbekannte User werden rejected, bevor der Agent die Nachricht sieht. Auth-Failures werden auditiert.

Layer 2

Input Validation

Message Length Limits, Control-Character-Sanitization gegen Injection-Angriffe.

Layer 3

Tool Whitelist

Nur explizit freigeschaltete Tools sind für das LLM sichtbar. Nicht-gelistete Calls = Reject + Audit.

Layer 4

Sandbox Enforcement

Filesystem-Tools mit Path-Traversal-Schutz. Shell-Exec nur in Tier 1 (intern).

Layer 5

Egress Control

Docker-Compose mit Egress-Proxy. Outbound Traffic nur zu Whitelist-Zielen.

Layer 6

Audit + Tamper Evidence

Append-only Logs mit optionaler Hash-Chain. Manipulation sofort erkennbar.

Wettbewerb

Head-to-Head Vergleich

MahoneyBot vs. etablierte Frameworks – Feature für Feature.

Feature	MahoneyBot	OpenClaw	LangChain	AutoGPT	Copilot Studio	PicoClaw
Audit-Log (SIEM)	✓ Ja	✗	✗	✗	~ Begrenzt	✗
Prompt-Hashing (DSGVO)	✓ Ja	✗	✗	✗	✗	✗
SOPS Secrets	✓ Ja	✗ Plaintext	✗	✗	~ Vault	✗
Tool-Whitelist	✓ Ja	~ VirusTotal	✗	✗	✓ Ja	✗
Image < 15 MB	✓ Ja	✗ 500 MB+	✗ GB+	✗	Cloud only	✓ Ja
Air-Gap (Offline)	✓ Ollama	✓ Ollama	✗	✗	✗	✓ Ja
NIS2 / ISO 27001	✓ Designed for	✗	✗	✗	~ Teilweise	✗
MCP-Erweiterbar	✓ Ja	✓ Skills	~ Plugins	~ Plugins	✓ Ja	✗
Multi-Arch (ARM64)	✓ Ja	✓ Ja	~ Python	~ Python	✗ Cloud	✓ Ja
Multi-Channel	✓ Telegram, Webhook	✓ 15+ Kanäle	✗	✗	~ Teams	✗
CVE-frei (Stand Q1/26)	✓ Ja	✗ Log Poisoning, Infostealer	~ Dep. Risks	~ Dep. Risks	~ Cloud-managed	✓ Ja
Sprache	Go	TypeScript	Python	Python	Cloud SaaS	Go

Zielgruppen

Für wen MahoneyBot gemacht ist

Primär

Laboratorien (DAkkS, GMP)

LIMS-Monitoring, QC-Checks, automatische Audit-Reports

⚠ Keine audit-konforme KI-Automatisierung verfügbar

Primär

IT-Abteilungen (ISO 27001)

Server-Monitoring, Incident-Response, Compliance-Reporting

⚠ 15+ Stunden/Woche manuelle Routine-Checks

Sekundär

Mittelstand (50–1.000 MA)

IT-Monitoring, Helpdesk-Automation, Log-Analyse

⚠ Kein Budget für Enterprise-Plattformen

Sekundär

Pharma / Life Sciences

GMP-konforme Prozessüberwachung

⚠ Enterprise-Agents zu teuer und schwergewichtig

Regulatorisch

NIS2-pflichtige Unternehmen

Log-Analyse, Compliance-Reporting, Incident-Detection

⚠ NIS2 verlangt nachweisbare Kontrollen ab 2025

Betriebsmodelle

Drei Wege zum Einsatz

Passend zur Infrastruktur und den Sicherheitsanforderungen des Kunden.

☁️ Managed Cloud

cosrv betreibt MahoneyBot als Service. Der Kunde erhält ein vorkonfiguriertes Setup mit Fleet-Management.

✓ Eigenes Deploy-Repository mit Docker-Compose

✓ Hub-Dashboard auf Cloudflare Workers

✓ Automatische Updates und Monitoring

✓ Support-SLA mit definierten Response-Times

CF Workers

Hub Runtime

D1

Database

< 30 min

Time to Deploy

🏢 On-Premises (Docker)

Der Kunde betreibt MahoneyBot in seiner eigenen Infrastruktur. Volle Datensouveränität.

✓ Docker-Compose mit Egress-Proxy

✓ Lokale SQLite-Datenbank

✓ Optionaler On-Prem-Hub für Fleet-Management

✓ Alles bleibt im Kundennetzwerk

Docker

Runtime

SQLite

Local Storage

100 %

Datensouveränität

✈️ Air-Gap (Offline)

Vollständig offline mit Ollama als lokalem LLM-Provider. Kein externer Traffic.

✓ Kein externer API-Call, kein Telemetrie-Traffic

✓ Ollama mit Llama, Mistral oder anderen Modellen

✓ Alle Features funktionieren offline

✓ Ideal für Classified-Umgebungen und Reinräume

Ollama

Local LLM

0

External Calls

∞

Air-Gap Ready

Bereit für compliant AI?

MahoneyBot bringt KI-Automatisierung in regulierte Umgebungen – ohne Kompromisse bei Sicherheit und Auditierbarkeit.

Roadmap

Development Timeline

Feb – Mai 2026 · 8 von 11 Milestones abgeschlossen (73 %) · M7 Testing als nächstes

Complete

M0: Dokumentation

17 ADRs, Interface Definitions, Security Concept, Config Schema, Deployment Guide, Roadmap

Complete · PR #2, #3

M1: Core

Provider (Anthropic + Ollama), ReAct Agent Loop, Config Loader, Audit Logger, Webhook Channel

Complete · PR #4 · 12/12 ATs

M2: Tools

Tool Registry, Whitelist Enforcement, Filesystem (sandboxed), Web Search, HTTP Request, Shell Exec, ~45 Tests

Complete · PR #5 · 14/14 ATs

M3: Channels

Telegram (Long Polling, MarkdownV2, Message Splitting), Notifier (best-effort, NoopNotifier), errgroup Multiplexer

Complete · PR #6 · 15/15 ATs

M4: Storage

SQLite (modernc.org/sqlite, WAL, Pure Go), In-Memory Store, remember/recall/forget Tools, Session Persistence

Planned

M2a: MCP Client

MCP-Server-Anbindung, dynamische Tool-Discovery, Prefixed Names, Health-Checks

Complete · PR #7 · 18/18 ATs

M5: Security Hardening

SOPS/age Integration, Permission Enforcement (0600), Input Sanitization, Config Secret Scan, OpenRouter Adapter

Complete · PR #8 · 19/19 ATs

M6: Deployment

Docker 14.5 MB (distroless), Fleet Reporting (WebhookReporter), Multi-Agent Compose, Health Endpoint

Planned

M7: Testing

80%+ Coverage, Integration Tests, Security Tests, Pi 4 24h-Stabilitätstest

Planned

M8: Hardening & v0.1.0

govulncheck, OWASP Review, Dependency Audit, README, Version Tag

Backlog

M9: Hub (Post-MVP)

Fleet Dashboard, CF Worker + Docker Dual-Runtime, Agent-Status per Standort