Forschung

mema, verifizierbare Memory für AI-Agenten.

Jeder Recall liefert seine Quittung. Hash-verkettet, governance-geprüft, hard-erase-fähig. Für Stacks unter FINMA, GDPR und nFADP.

§01 was mema ist

Jeder Eintrag ist ein verifizierbares Knowledge Asset.

mema behandelt jeden Speichereintrag als verifizierbares Knowledge Asset. Sieben komponierbare Layer, ein Markdown-Vault, keine Graph-Datenbank, keine Blockchain. Inspiriert von Zep, Hindsight, Mem0 und OriginTrail, und ohne deren Abhängigkeiten ausgeliefert. Das Substrat ist menschenlesbar: jeder Eintrag ist eine Datei, die dein Engineer mit `cat` öffnen und dein Auditor von Hand neu hashen kann.

§02 das problem

Warum Agents scheitern.

Agents scheitern nicht, weil das Modell schlecht ist. Sie scheitern, weil ihnen der richtige Kontext fehlt.

Chat-Speicher

Reines Conversation-Memory. Blind für Business-Daten, blind für Events, blind für das, was der User gestern getan hat.

Statisches RAG

Veraltet und unvollständig. Spiegelt nicht wider, was gerade passiert ist. Verfolgt nicht, wie sich Fakten ändern.

Kein Audit-Trail

Niemand kann verifizieren, warum der Agent so geantwortet hat. Keine Quittung, keine Reproduzierbarkeit.

Kontext ist verstreut, und niemand kann ihn verifizieren.

§03 architektur

Sieben Layer. Ein Vault.

Quellen

ChatDokumenteTool-Calls

Der 7-Layer-Vault

L1Episodic

L2Semantic

L3Cognitive

L4Governance

L5Retrieval

L6Audit

L7Asset

Verifizierbarer Output

MEMA RECEIPT

kind: fact
hash: sha256:ab4f…d11e
ual: mema://owner/01KR…
anchored: ✓

VERIFIED

Sieben komponierbare Layer, vom rohen Ereignis bis zum verifizierbaren Asset. Jeder hat einen klaren Zweck und einen Endpoint.

L1 Episodic Roh-Ereignisse

Roh-Events: Conversations, Dokumente, Tool-Calls, Observations.

Immutable nach dem Write. Die Evidenz-Basis für alles Höhere. Keine Behauptung ohne Episode.

POST /v2/observe

L2 Semantic Entitäten & Fakten

Entitäten + Fakten mit bi-temporaler Gültigkeit.

valid_from / valid_to beschreiben Wahrheit in der Welt. invalidated_at / superseded_by beschreiben, was wir gelernt haben. Zep-style.

POST /v2/fact

L3 Cognitive Beliefs & Ablösung

Experiences, Observations, Beliefs, mit Confidence und Supersession.

Reflection läuft offline und rule-based. Kein LLM-Call auf dem Write-Path. LLM-augmented Reflection ist opt-in (v2.1).

POST /v2/cognitive

L4 Governance Zweck & Aufbewahrung

Purpose, Retention, Provenance, Hard Erasure.

Jeder Record trägt Purpose, Retention, Jurisdiction, Evidence. policyCheck() entscheidet zur Recall-Zeit. Hard-Erase überschreibt die Datei: GDPR Art. 17 / nFADP Art. 32.

POST /v2/erase

L5 Retrieval Such-Pipeline

Keyword + Vector + Graph + Temporal + Policy in einer Pipeline.

Fused Scoring, Graph-Expansion über derived_from, vollständig auditiert in L6. Jeder Hit liefert score_components, governance, why_retrieved.

POST /v2/recall

L6 Audit Hash-Kette

Append-only SHA-256 Hash-Chain, mit externem Sealed Witness.

Jede Operation wird geloggt. verifyChain() entdeckt jede Tampering. audit-witness.log defeats sqlite_sequence-Reset-Attacken.

GET /v2/audit/verify

L7 Asset Verifiziertes Asset

UAL + content_hash + metadata_hash + Anchor-Lifecycle.

Jeder Record kann als verifizierbares Asset gewrapped werden. OriginTrail-DKG-Knowledge-Asset-Pattern, ohne Blockchain. Pluggable Anchor-Targets.

POST /v2/asset/wrap

§04 jede antwort liefert ihre evidenz mit

Jeder Recall kommt mit seiner Quittung.

Beispiel-Quittung. Jedes Feld ist im Audit-Log nachprüfbar.

score_componentsKeyword + Vector + Graph fused. Jede Komponente inspizierbar.
ualStabiler resolvable Identifier. Datei neu hashen, vergleichen, fertig.
governancePolicy-Entscheidung mit Grund. Jede Ablehnung wird geloggt.
verification_statusunverified → verified → anchored Lifecycle.

§05 die zahlen

Messbar besser.

M01 96.0% Precision@1 25-Query-Benchmark · 347-Dokumente-Korpus

M02 <50ms Median Recall-Latenz Single-Shot Retrieval, kein Agentic-Loop

M03 L1–L7 verifizierbare Memory-Layer Episodic, Semantic, Cognitive, Governance, Retrieval, Audit, Asset

M04 0 stille Failures jeder Recall liefert eine verifizierbare Quittung

METHODE LoCoMo Long-Context-Memory-Benchmark. 25-Query-Sample auf dem regulierten 347-Dokumente-Korpus. Empfehlung: 15/5 für Echtzeit-Chat, 30/30 für Batch-Research.

§06 wo mema steht

Wir wollen Zep oder Hindsight nicht auf Benchmarks schlagen. Wir bauen die Grundlage darunter.

Bi-temporale Fakten. Hash-verkettetes Audit. Hard Erasure. Das ist das Fundament. Recall-Performance ist nachgelagert.

Eigenschaft	Zep	Hindsight	Mem0	OriginTrail	mema
Inspizierbarer Substrat	–	–	–	·	✓
Bi-temporale Fakten	✓	·	–	–	✓
Epistemische Trennung	·	✓	–	–	✓
Online LLM-Extraktion by design	–	·	✓	–	–
Multi-tenant-Isolation	·	·	·	✓	✓
Hash-verkettetes Audit no blockchain	–	–	–	✓	✓
Hard erasure	·	·	–	–	✓
Verifizierbare Assets (UAL/Hashes)	–	–	–	✓	✓
Externes Anchoring pluggable	–	–	–	✓	✓
Local-first	–	–	–	–	✓
Vendor-neutral	–	–	–	–	✓

Legende ✓ vorhanden – fehlt · teilweise

§07 was deployed wird

Drei Realitäten.

Financial services

Regulierter Assistant-Speicher

Eine Schweizer Privatbank deployt einen internen Assistant für Kundenberater.

Jeder Recall ist audit-geloggt. Erasure-Requests werden geehrt: die Datei wird tombstoned, der Audit-Eintrag bleibt.

Agentic workflows

Tool-Call-Provenienz

Jeder Tool-Call wird eine L1 Episode mit source_hash.

Wenn etwas schiefgeht, läuft der Auditor über derived_from von der Antwort zurück zu genau den Calls, die sie gerechtfertigt haben.

Pharma R&D

Compliance-Erase

Pharma-R&D speist Protokolle und Entscheidungen in mema.

GDPR Art. 17 / nFADP Art. 32 Requests werden mit hardErase geehrt: Content überschrieben, Audit-Referenz bleibt.

§08 verifiziert durch adversariale reviews

Dreimal unabhängig zerlegt, alle Findings behoben.

Drei unabhängige Security-Reviews.

Alle Findings behoben und mit Regression-Tests abgesichert.

97 automatisierte Assertions, alle grün.

v1 Isolation, v2 Smoke, v2 Professional, v2 Assets, Security-Hardening Runden 1 & 2.

MIT-lizenziert, Swiss-built, Open Core.

Repository: github.com/machtsinnch/mema.

mema ist unsere offene, laufende Forschung, der Motor hinter unserem Context Engineering. Kein Produkt-Pitch; ein Ort, an dem wir weiterlernen. Auf GitHub ↗