Architektur-Überblick
Ein KI-Telefon-Agent ist kein einzelnes Tool, sondern ein System aus mehreren spezialisierten Komponenten. Jede übernimmt eine spezifische Aufgabe – von der Telefonie-Anbindung über die Spracherkennung bis zur Antwortgenerierung.
SIP/PSTN
Whisper
GPT-4
Azure
Grundarchitektur: Sprache → Text → Verarbeitung → Text → Sprache
Die vier Kernkomponenten:
- Telefonie-Anbindung: Verbindung zum Telefonnetz via SIP-Trunk oder Cloud-Telefonie
- Speech-to-Text (STT): Wandelt gesprochene Sprache in Text um
- Large Language Model (LLM): Versteht Kontext, trifft Entscheidungen, generiert Antworten
- Text-to-Speech (TTS): Wandelt die Textantwort in natürliche Sprache um
Telefonie-Anbindung
Die Telefonie-Schicht ist das Fundament. Hier gibt es verschiedene Ansätze:
Option 1: SIP-Trunk (Empfohlen für DE)
Ein SIP-Trunk verbindet Ihre Infrastruktur direkt mit dem Telefonnetz. Volle Kontrolle, eigene Nummern.
- Anbieter Deutschland: sipgate, Placetel, easybell, Deutsche Telefon
- Vorteile: Volle Kontrolle, günstige Minutenpreise, DSGVO-konform
- Nachteile: Technisches Setup erforderlich
Option 2: Cloud-Telefonie-APIs
Dienste wie Twilio oder Vonage bieten APIs für Telefonie – schneller Start, aber oft US-basiert.
Option 3: Voice-AI-Plattformen
Vapi.ai, Retell.ai oder Bland.ai bieten komplette Voice-AI-Lösungen. Schnellster Start, aber weniger Kontrolle.
DSGVO-Hinweis: Bei US-Anbietern werden Gesprächsdaten in die USA übertragen. Für DSGVO-konforme Anwendungen: Europäische SIP-Anbieter + Self-Hosted-Komponenten oder Azure in EU-Rechenzentren.
Speech-to-Text (STT)
Die Spracherkennung ist kritisch – Fehler hier pflanzen sich durch die gesamte Pipeline fort.
| Lösung | Qualität | Latenz | EU-Hosting |
|---|---|---|---|
| OpenAI Whisper | Sehr gut | ~400ms | Nein (USA) |
| Azure Speech | Gut | ~200ms | Ja |
| Whisper Self-Hosted | Sehr gut | ~300ms | Ja |
| Deepgram | Sehr gut | ~100ms | Nein |
Empfehlung: Whisper
OpenAI Whisper bietet die beste Qualität, besonders bei Dialekten und undeutlicher Sprache. Für DSGVO: Azure OpenAI Whisper oder Self-Hosted.
LLM-Integration
Das LLM ist das "Gehirn" des Telefon-Agenten – es versteht Anfragen, entscheidet und kann Tools aufrufen.
Modellauswahl für Telefonie
- GPT-4o-mini: Beste Balance aus Qualität und Geschwindigkeit
- GPT-4o: Höchste Qualität, für komplexe Gespräche
- Gemini Flash: Sehr schnell, für einfache Use Cases
Latenz-Tipp: GPT-4o-mini für Standardanfragen, GPT-4 nur bei komplexen Entscheidungen. Hybridansatz spart Latenz und Kosten.
System Prompt für Telefon-Agenten
Text-to-Speech (TTS)
Die Sprachausgabe entscheidet, wie "menschlich" der Agent klingt.
| Lösung | Qualität | Deutsche Stimmen | EU-Hosting |
|---|---|---|---|
| Azure Neural TTS | Exzellent | 20+ | Ja |
| ElevenLabs | Exzellent | Multilingual | Nein |
| OpenAI TTS | Sehr gut | 6 | Nein |
Empfehlung: Azure Neural TTS
Beste Kombination aus Qualität, deutschen Stimmen und EU-Hosting. Die Stimmen "Katja" und "Conrad" klingen sehr natürlich.
Latenz-Optimierung
Menschen erwarten Antworten in 300-500ms. Das ist die größte technische Herausforderung.
Optimierungsstrategien
- Streaming TTS: Sprachausgabe starten, bevor die Antwort komplett ist
- Schnellere Modelle: GPT-4o-mini statt GPT-4
- Filler Sounds: "Hmm" oder "Moment" kauft 500ms Zeit
- Interruption Handling: Agent kann unterbrochen werden
Empfohlener Stack (DSGVO-konform)
| Komponente | Empfehlung | Alternative |
|---|---|---|
| Telefonie | sipgate Trunk | Placetel, easybell |
| STT | Azure OpenAI Whisper | Whisper Self-Hosted |
| LLM | Azure OpenAI GPT-4o | Claude (Anthropic) |
| TTS | Azure Neural TTS | Google Cloud TTS |
| Orchestrierung | n8n (Self-Hosted) | Custom Python |
Kosten: Bei 1.000 Minuten/Monat: ~50-80€ API-Kosten + Hosting. Hauptkostentreiber ist das LLM.
Fazit
Ein produktiver KI-Telefon-Agent erfordert die Integration mehrerer Komponenten. Die Technologie ist reif – der Schlüssel liegt in der richtigen Architektur und Latenz-Optimierung.
Starten Sie mit einem klar abgegrenzten Use Case (z.B. Öffnungszeiten-Auskunft), validieren Sie mit echten Testanrufen, und erweitern Sie schrittweise.