Trends und aktuelle Entwicklungen von Sprachdialogsystemen
Download
Report
Transcript Trends und aktuelle Entwicklungen von Sprachdialogsystemen
Trends und aktuelle Entwicklungen
von Sprachdialogsystemen
4. 10. 04: Voice 2004 1
Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn
IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in
Frankfurt/M.
G.-U. Tolkiehn, Tolkiehn & Partner
Inhalte des Vortrags:
Stand der Technik, aktuelle Entwicklungen:
Voice-Portale - mehr als nur Automatisierung zur Senkung der
Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu
Web-Portalen
Spracherkennung und –synthese: Perfektionierung, z. B. durch
phonetische Transskriptionsverzeichnisse, Grammatiken, KI
Konzentration bei den großen Basistechnologie-Anbietern: Wenig
Hoffnung auf Preissenkungen
4. 10. 04: Voice 2004 2
Trends und Perspektiven:
Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce
erobern
Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und
Überweisungen - Sprachtechnologie kann viel mehr
Immer wichtiger für innovative Lösungen: Software- und
Systemhäuser
Wie steht es mit plug-and-play-Lösungen für KMU’s?
G.-U. Tolkiehn, Tolkiehn & Partner
Stand der Technik: IVR, Voice-Portale
4. 10. 04: Voice 2004 3
Quelle: GartnerGroup
„The Implications
of the 2001 CRM
Hype Cycle“
vom 3. 4. 2001
G.-U. Tolkiehn, Tolkiehn & Partner
Kleine Systematik: Elemente von Sprachsystemen
Sprachaufnehmende Systeme
Sprache Sprachdaten (Mikrofon, ADC, Codec)
Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet)
Sprachdaten Übertragung Sprachdaten
Sprachspeicherung
Sprachdaten Speichersystem/-medium Sprachdaten
Sprachanalysierende Systeme
Sprache Sprachdaten Text Daten Bedeutung (Spracherkennung
(Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation)
Geräusche Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-,
Besetzt-Erkenner, noise-reduction)
Sprache erzeugende Systeme
Daten Text Sprachdaten Sprache (sprechende Systeme, TTS,
Reading)
4. 10. 04: Voice 2004 4
Sprachausgabesysteme
Sprachdaten Sprache (Codec, DAC, Lautsprecher)
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachaufnehmende und -ausgebende Systeme
„der“ Standard:
4. 10. 04: Voice 2004 5
„Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder
neuerdings: GSM-Qualität
Endgerät „knochenförmig“, schnurgebunden oder schnurlos
Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche
Funktionstasten,
meist kleines alphanumerisches Display,
andere Bauformen sind möglich (Headset, Speakerphone,
Soundkarte), jedoch bisher nur in Nischen verbreitet
Umwandlung von Sprache in Sprachdaten und umgekehrt
besondere Qualitäten: Höhere Bandbreiten,
zusätzliches Video, Außenmikrophone ...
G.-U. Tolkiehn, Tolkiehn & Partner
Bereiche der Sprachqualität
Voice over Internet
GSM
4. 10. 04: Voice 2004 6
ISDN
G.-U. Tolkiehn, Tolkiehn & Partner
Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000
Sprachspeicher, Verwendung in Systemen
ADC
DEE
E/A-Elemente
und UI
DÜE
Netz
DÜE
Sprachspeicher
DEE
DAC
E/A-Elemente
und UI
Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP,
als Komponenten von:
4. 10. 04: Voice 2004 7
• Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN)
• Voice-Logging-Systemen im (öffentlichen) Netz
• Voice-Message-Systemen im (öffentlichen) Netz
• Voice-Message-Systemen auf der Teilnehmerseite
• Anrufbeantwortern (analog und digital, beim B-Teilnehmer)
• Benachrichtigungssystemen (outbound)
• Ansagesystemen, IVR-Systemen, auto-attendants, voice portals
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachanalysierende Systeme (ASR)
Spracherkennung
• Diktiersysteme (Sprache Text, großer Wortschatz, i.d.R.
sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten)
• Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise:
– Sprache Text Daten oder
– Sprache Text einfache Grammatik Daten,
• meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare
Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“
Sprach-Authentifizierung
• Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000)
• Sprechererkennung (ebenfalls 1 aus einige 1000)
4. 10. 04: Voice 2004 8
Geräuschanalyse
•
•
•
•
DTMF-Erkennung für Dialogsysteme mit Sprachausgabe
Pausen-Erkenner zur Datenkompression
grunt-detection, AB-Erkennung, Besetzt-Erkenner
noise- und distortion-Analyse und -Reduktion
G.-U. Tolkiehn, Tolkiehn & Partner
Spracherzeugende Systeme
Umwandlung von Textdaten oder anderen nichtSprachdaten in Sprachdaten
Anwendung:
Reading (TTS, Vorlesen von gespeichertem Fließtext)
Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft)
4. 10. 04: Voice 2004 9
Funktionen:
ggf. Textgenerierung (Komponente von NL-Dialogsystemen,
erfordert semantische und grammatische Synthese)
Umwandlung von Text in Phonem-Fluss, heute mit Betonung
und Tonhöhenverlauf (erfordert eine „relativ einfache“
Grammatikevaluation)
Umwandlung des Phonemflusses in Sprachdaten
G.-U. Tolkiehn, Tolkiehn & Partner
Top-View:
Was will der Betreiber?
Kosten sparen durch Verlagerung von so viel Dialog wie
möglich vom live agent in die Maschine.
Die Schallmauer 1€/Call durchbrechen
V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten
schaffen – aber zu geringen Kosten. Webserver können viel,
sind aber nicht immer das Optimum.
Was will der User?
In erster Linie, dass er
4. 10. 04: Voice 2004 10
•
•
•
•
das bekommt, was er haben will,
dann, wenn er es haben will,
ohne Risiken und
zu bekannten und akzeptablen Kosten.
Einfach, verfügbar, klar, verlässlich, preiswert, sicher.
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 11
Vergleich mit Webserver und Call Center
Also: Call Center-Funktionalität zu
Transaktionskosten von Webservern.
In USA wurden vor Jahren Webserver (Shops und
Helpdesks) mit der Dialogstruktur der bereits
erprobten IVR-Systeme ausgestattet. Ein Fehlschlag.
Wer heute versucht, Voice-Portale mit der
Dialogstruktur von Web-Shops aufzubauen begibt
sich ebenfalls in Gefahr.
Die Dialogstruktur von IVR-Systemen tut es
natürlich auch nicht mehr
Ist das alles? Gute Dialoge aus den Call Center
Erfahrungen ableiten und gute Technik einsetzen?
Sollte doch gehen. Oder?
G.-U. Tolkiehn, Tolkiehn & Partner
Gefahrenpotentiale
Lehrsatz: Automatisierung senkt Kosten
4. 10. 04: Voice 2004 12
zu Risiken und Nebenwirkungen fragen Sie Ihren
Vertriebsleiter oder Unternehmensberater
Negativ-Beispiel: Geldautomaten der Banken
Kommunikation mit Menschen ist eine komplexe
Angelegenheit. Sachebene - Beziehungsebene
Was kommuniziert Ihr Voice-Portal eigentlich auf
der Beziehungsebene?
ab
Selbst für eine „relativ einfache“ Kommunikation
auf der Sachebene benötigen wir aber bereits
G.-U. Tolkiehn, Tolkiehn & Partner
Komplexe integrierte Systeme
4. 10. 04: Voice 2004 13
GrammatikAnalyse
Quelle: Philips (www.speech.philips.com)
G.-U. Tolkiehn, Tolkiehn & Partner
Komplexe integrierte Systeme
4. 10. 04: Voice 2004 14
„Alte Technik“: IVR-Systeme (Interactive Voice
Response oder VRU), auto attendant, UM: Meist nur
DTMF-Erkennung und Konservenausgabe,
Sprachspeicher, spezielle einfache Transaktionen
„Neue Technik“: Voice-portals, integrativer Ansatz
ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher
Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion?
Welche Sprachen? Wieviel simultane Kanäle?
Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung?
Guter Dialoggenerator? Auswertungen und Änderungen der
Dialoge während der Laufzeit einfach durch Anwender möglich?
Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung,
Bedienung VM-System, e-Mail-Abruf)?
Datenschnittstelle für Transaktionssysteme und Webserver
Brauchbare Voice-Message-Funktionen, auch ACD-fähig?
Contact Center und CRM-Integration?
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 15
IVR-Technik in deutschen Contact Centern 2002
Summe:
47%
Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003
G.-U. Tolkiehn, Tolkiehn & Partner
Investitionsabsichten in Contact Centern 2002
4. 10. 04: Voice 2004 16
17,6% der befragten Unternehmen planten in 2002
bis 2004 in IVR-Technologie investieren
5,9% der befragten Unternehmen planten in 2002
bis 2004 in Voice-Logging-Systemen zu investieren
Keiner der Teilnehmer wollte in Voice-Mail
Systeme investieren
Die Studie wird ab Oktober erneut durchgeführt.
Wir werden dann auch explizit nach Voice-Portalen
fragen
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 17
Voice-Portal-taugliche Bereiche identifizieren!
Quelle: White Paper von Concerto Software
G.-U. Tolkiehn, Tolkiehn & Partner
Was können wir demnächst erwarten?
Trotz aller Schwierigkeiten: V-Commerce erhält
durch Automatisation „zweite Luft“ als wesentliche
Komponente von e-commerce. Einige Einzelbelege:
4. 10. 04: Voice 2004 18
steigende Anzahl von Webseiten zu v-commerce (26. 9. in
Google allein auf deutsch 410 Treffer!)
Nuance hat seinen Webauftritt in www.v-commerce.com
umbenannt, nicht zu verwechseln mit www.vcommerce.com
Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem
Absterben vieler „alter“ Voice Events
Aber es dauert!
Wer hat schon mal in einem vollautomatisierten vshop eingekauft?
Wo bleiben v-government und v-administration?
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 19
Was können wir demnächst erwarten?
Weitere Perfektionierung der Basis-Technologie, auch
neue kleine Anbieter beachten!
Weiterentwicklung der SW-Komponenten (Grammatik,
KI, Dialoggeneratoren etc.)
Neue Hardware (Hochleistungsfähige, preiswerte
CAPI und VoIP-Komponenten)
SW- und Systemhäuser spezialisieren sich auf VoicePortal-Lösungen und Anwendungsintegration
Weitere Verbesserung der Flexibilität und
Handhabbarkeit der Lösungen durch den Anwender
Kleine Ready-to-Run-Lösungen out-of-the-box
Preissenkungen für SW leider eher nicht
G.-U. Tolkiehn, Tolkiehn & Partner
Gartner Hype Cycle 2003
Visibility
Biometrics
Grid Computing
Natural Language
Search
Identity Services
Web Services
PDA Phones
E-Tags
4. 10. 04: Voice 2004 20
Technology
Trigger
Less than two years
Two to five years
Five to 10 years
Beyond 10 years
Nanocomputing
Personal
Fuel Cells
Key: Time to “Plateau”
P2P
WAP/
Wireless
Web
Peak of
Inflated
Expectations
Wireless
VPN
LANs/802.11
Text-toSpeech
Speech Recognition
in Call Center
VoIP
PKI Bluetooth
Location
E-Payments
Sensing Speech Recognition on Desktop
Trough of
Disillusionment
Slope of
Enlightenment
Plateau of
Productivity
Maturity
G.-U. Tolkiehn, Tolkiehn & Partner
Fazit: Es wird sich noch einiges tun
in den nächsten fünf Jahren sind für Voice-Portale
also noch
erhebliche technische Weiterentwicklungen
die Erprobung neuer Einsatzgebiete und
erhebliche Zunahme der Marktdurchdringung zu erwarten
4. 10. 04: Voice 2004 21
Wir bleiben dran. Tun Sie es auch!
G.-U. Tolkiehn, Tolkiehn & Partner
Vielen Dank für Ihre Aufmerksamkeit!
Fragen und Anmerkungen bitte!
4. 10. 04: Voice 2004 22
Datenversion anfordern von:
[email protected]
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 23
Einfaches Beispiel für eine Grammatik
Quelle: Philips (www.speech.philips.com
G.-U. Tolkiehn, Tolkiehn & Partner