Meeting-Transkription mit KI: Warum wir statt Copilot eine eigene Lösung gebaut haben

In vielen Unternehmen entstehen die wichtigsten Informationen in Meetings – Entscheidungen, Anforderungen, Absprachen. Aber was davon tatsächlich dokumentiert wird, hängt davon ab, ob jemand mitschreibt und wie viel danach noch in Erinnerung bleibt.
Teams und Zoom bieten inzwischen Transkription und KI-Zusammenfassungen an. Das ist ein guter Anfang – aber in der Praxis zeigt sich schnell: Die Zusammenfassungen sind oft generisch, Fachbegriffe werden falsch erkannt, und für Offline-Termine oder Gespräche als Gast funktioniert es gar nicht.
Wir standen vor der gleichen Herausforderung und haben für unseren Beratungsalltag eine eigene Lösung entwickelt: Ein Portal, das aus Audio-Aufnahmen oder vorhandenen Transkripten automatisch strukturierte, fachsprachlich korrekte Zusammenfassungen erzeugt – über eigene KI-Agenten, formatgenau pro Meeting-Typ. In diesem Artikel zeigen wir, wie das funktioniert.
Inhaltsübersicht
Was es schon gibt – und warum es für uns nicht reichte
Egal ob Teams, Zoom oder Google Meet – die meisten Meeting-Plattformen bieten Transkription inzwischen im Standard-Abo an. Das Transkript ist also da. Die Frage ist: Was passiert damit?
Wer mehr will als den Rohtext, kann KI-Erweiterungen dazubuchen – Copilot in Teams, Gemini in Google Meet, AI Companion in Zoom – oder auf spezialisierte SaaS-Tools wie tl;dv, Fathom oder Fireflies.ai setzen. Die liefern automatische Zusammenfassungen, Aufgabenextraktion und teilweise CRM-Integration.
Für viele Unternehmen reicht das. Für unsere Anforderungen – regelmäßige Kundenmeetings (selbst organisiert oder als Gast), Offline-Termine, Fachsprache, Datenschutz – hat es nicht gepasst:
Wirtschaftlich nicht gerechtfertigt
Wir nutzen intern Langdock statt Copilot – eine zusätzliche Meeting-Lizenz pro Nutzer lohnt sich da nicht. Und bei SaaS-Tools wird ebenfalls pro Nutzer abgerechnet – bei mehreren Teammitgliedern schnell dreistellig pro Monat.
Datenschutz und Datenhoheit
Viele spezialisierte SaaS-Anbieter wie Fathom, Otter oder Fireflies sitzen in den USA. Bei sensiblen Kundengesprächen ein relevantes Thema – gerade im DACH-Raum.
Keine Kontrolle über Formate und Fachsprache
Generische Zusammenfassungen in einem Format für alles. Und Fachbegriffe wie „MCP" oder „Langdock" werden regelmäßig falsch transkribiert.
Nicht alle Meetings sind Online-Calls
Workshops beim Kunden, Telefonate, Besprechungsräume – weder native Plattform-KI noch SaaS-Tools helfen hier. Und als Gast können wir keinen Bot hinzufügen.
Vendor Lock-in
Transkripte und Summaries stecken in der jeweiligen Plattform – kein einheitlicher Ort, kein einheitliches Format, kein durchsuchbares Firmenwissen.
Hinweis zur Einordnung
Zum Datenschutz: Unter den bekannten spezialisierten SaaS-Anbietern ist tl;dv (Deutschland) einer der wenigen, der explizit EU-Datenhosting bewirbt. Fathom, Fireflies und Otter.ai verarbeiten Daten auf US-Infrastruktur – unter dem CLOUD Act können US-Behörden darauf zugreifen.
Die eigentliche Frage war: Wie bekommen wir aus allen Meeting-Quellen – Teams, Zoom, Vor-Ort-Termine – die Informationen strukturiert, einheitlich und in unserem Format an einen Ort?
So funktioniert unsere Lösung
Bevor eine Aufnahme oder ein Transkript verarbeitet wird, legen wir ein Meeting an – optional mit Kunde, Titel und Teilnehmern. Das klingt nach Mehraufwand, zahlt sich aber direkt aus: Das kundenspezifische Wörterbuch wird automatisch angewendet, und die Namen stehen beim Speaker-Mapping als Vorschläge bereit.
Bei eigenen Teams-Meetings vollautomatisch: Der Webhook legt das Meeting an, übernimmt Teilnehmer und Kunde und startet die Verarbeitung – ohne manuellen Schritt.
Neues Meeting anlegen
Optional: Kunde, Titel und Teilnehmer erfassen, dann Quelle wählen
Kunde (optional)
Kundenspezifisches Wörterbuch wird angewendet
Titel (optional)
Thema (optional)
Namen (optional)
Werden als Vorschlag beim Speaker-Mapping verwendet – Kunden-Kontakte als Vorschläge verfügbar
Teilnehmer-Anzahl (optional)
Für bessere Sprechererkennung bei Audio-Uploads
Danach wählen wir die Quelle – es gibt drei Wege, ein Meeting ins System zu bringen:
Audio/Video Upload
Drag & Drop im Portal
Transkript einfügen
Copy & Paste
Teams Webhook
Vollautomatisch
Für Gast-Meetings oder Offline-Termine nutzen wir Meetily (lokale Audio-Aufnahme von Mikrofon + System-Audio), ein Konferenzmikrofon im Besprechungsraum oder einfach das Smartphone (Android/iOS). Je besser die Audioqualität, desto genauer die spätere Sprechererkennung.
Was dann passiert – die Pipeline
Die einzelnen Schritte
Transkription
Gladia API – Whisper-basiert, automatische Sprechererkennung, 100+ Sprachen. Europäischer Anbieter (Frankreich), DSGVO-konform. Bei Transkript-Import oder Teams-Webhook wird dieser Schritt übersprungen.
Speaker-Mapping
Erkannte Sprecher benennen, Sprechzeit-Verteilung und Konfidenzwerte einsehen. „Speaker 0" wird zu „Jan Verhagen" – die vorher erfassten Namen helfen als Vorschläge.
Wörterbuch
Globale + kundenspezifische Korrekturen, automatisch angewendet. „kay-ei" → „KI", „em see pee" → „MCP".
KI-Summary
Konfigurierbarer KI-Agent pro Meeting-Typ und Kunde – Discovery-Call, Workshop oder Strategiemeeting jeweils mit eigenem Prompt und Ausgabeformat.
Ablage & Sharing
Zentrale Meeting-Übersicht mit Status, Filter und Kundensuche. Der Organisator bekommt automatisch eine E-Mail mit Summary und Link. Export als Word oder Teilen über Kunden-Portal möglich.
Alles an einem Ort
Das Ergebnis ist eine zentrale Meeting-Übersicht: alle Termine mit Transkript, Audio-Datei, Teams-Aufzeichnung und KI-Zusammenfassung – durchsuchbar, filterbar nach Kunde, und automatisch im SharePoint abgelegt. Das Wörterbuch ist direkt aus der Übersicht erreichbar und gilt global oder kundenspezifisch.

viamind Portal: Meeting-Übersicht mit Status, Quelle, Thema und Kundenfilter
Kein manueller Aufwand bei Teams-Meetings
Was kostet das?
Ein konkretes Beispiel aus unserem Alltag: 50 Meetings pro Monat mit 3 Teammitgliedern – davon 30 eigene Teams-Meetings, 10 Vor-Ort-Termine mit Audio-Upload (je ~2 Stunden) und 10 Termine mit direktem Transkript-Import.
Eigene Lösung – reine API-Kosten
30 Teams-Meetings (Webhook)
Transkript via MS Graph API – kein Gladia nötig
0 €
10 Vor-Ort-Termine (~20h Audio)
Gladia Async-Transkription: $0,61/h × 20h
~12 €
10 Termine via Transkript-Import
Kein Audio-Upload
0 €
50 × KI-Summary
Langdock API – Claude Sonnet 4.6
~2 €
Gesamt (reine API-Kosten)
~14 €/Monat
SaaS-Tool (Ø ~18 €/Seat/Monat)
3 Nutzer = 54 €/Monat (Full-Service inkl. Hosting & UI)
54 €/Monat
Offline-Termine und Gast-Meetings nicht abgedeckt
Kein eigenes Wörterbuch, keine kundenspezifischen KI-Agenten
Daten auf externer Infrastruktur
Fairer Hinweis: Bei der eigenen Lösung kommen Hosting- und Entwicklungskosten dazu, die in den API-Kosten nicht enthalten sind. Der Vergleich lohnt sich vor allem dann, wenn die Infrastruktur bereits für andere Zwecke betrieben wird – und wenn Offline-Termine, Fachsprache und Datenhoheit keine optionalen Anforderungen sind.
Nutzungsbasiert statt Seat-basiert – und die Daten bleiben unter eigener Kontrolle.
Was sich dadurch verändert
Transkription und Zusammenfassung einzelner Meetings ist der offensichtliche Nutzen. Der eigentliche Unterschied zeigt sich im Alltag: Wenn alle Meetings – egal ob Teams-Call, Workshop vor Ort oder Telefonat – im gleichen Format, am gleichen Ort und mit derselben Fachsprache dokumentiert sind, entsteht etwas Neues.
Strukturierte Meeting-Daten sind kein Selbstzweck – sie werden zur Grundlage für Automatisierungen, die im Tagesgeschäft echten Unterschied machen:
Wöchentliche Digests
Automatische Zusammenfassung aller internen Meetings einer Woche – mit offenen Punkten, Entscheidungen und anstehenden ToDos. Pro Abteilung, pro Projekt oder teamübergreifend.
GPT-Zugriff auf Meeting-Wissen
Über Langdock, meinGPT oder ähnliche Plattformen gezielt Fragen stellen: „Was wurde im Projektmeeting letzte Woche zu Thema X entschieden?"
Ticketsystem-Anbindung
Erkannte Aufgaben und Entscheidungen automatisch als Tickets anlegen, zuweisen oder schließen – in Jira, Asana oder einem anderen System.
Onboarding & Vertretung
Neue Teammitglieder lesen sich in Projekthistorien ein, statt auf mündliche Übergaben zu warten. Vertretungen übernehmen, ohne dass Kontext verloren geht.
Muster erkennen
Welche Themen kommen in Jour-Fixes immer wieder hoch? Wo drehen sich Abstimmungsrunden im Kreis? Strukturierte Daten machen solche Muster sichtbar.
Wann wer was entschieden hat, ist nachvollziehbar dokumentiert – für Audits, für Compliance, aber vor allem für die tägliche Zusammenarbeit.
Sie möchten Ihre Meetings ebenfalls systematisch erfassen? Wir zeigen Ihnen, wie ein ähnlicher Ansatz für Ihre Plattform, Fachsprache und Infrastruktur aussehen kann – mehr zu unseren Leistungen.
Meetings systematisch erfassen – ohne Seat-basierte Lizenzkosten
Sie möchten wissen, ob ein ähnlicher Ansatz für Ihr Unternehmen passt? Lassen Sie uns in einem kurzen Gespräch herausfinden, wo der größte Hebel liegt.

Jan Verhagen
Gründer bei viamind. Berät Mittelständler bei der praktischen Einführung von KI – von der Bestandsaufnahme über die Umsetzung eigener Lösungen bis zur Integration in bestehende Prozesse. Immer mit dem Anspruch, dass es im Alltag funktioniert.
