Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Download Report

Transcript Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Trends und aktuelle Entwicklungen
von Sprachdialogsystemen
4. 10. 04: Voice 2004 1
Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn
IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in
Frankfurt/M.
G.-U. Tolkiehn, Tolkiehn & Partner
Inhalte des Vortrags:
 Stand der Technik, aktuelle Entwicklungen:
 Voice-Portale - mehr als nur Automatisierung zur Senkung der
Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu
Web-Portalen
 Spracherkennung und –synthese: Perfektionierung, z. B. durch
phonetische Transskriptionsverzeichnisse, Grammatiken, KI
 Konzentration bei den großen Basistechnologie-Anbietern: Wenig
Hoffnung auf Preissenkungen
4. 10. 04: Voice 2004 2
 Trends und Perspektiven:
 Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce
erobern
 Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und
Überweisungen - Sprachtechnologie kann viel mehr
 Immer wichtiger für innovative Lösungen: Software- und
Systemhäuser
 Wie steht es mit plug-and-play-Lösungen für KMU’s?
G.-U. Tolkiehn, Tolkiehn & Partner
Stand der Technik: IVR, Voice-Portale
4. 10. 04: Voice 2004 3
Quelle: GartnerGroup
„The Implications
of the 2001 CRM
Hype Cycle“
vom 3. 4. 2001
G.-U. Tolkiehn, Tolkiehn & Partner
Kleine Systematik: Elemente von Sprachsystemen
 Sprachaufnehmende Systeme
 Sprache  Sprachdaten (Mikrofon, ADC, Codec)
 Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet)
 Sprachdaten  Übertragung Sprachdaten
 Sprachspeicherung
 Sprachdaten Speichersystem/-medium Sprachdaten
 Sprachanalysierende Systeme
 Sprache  Sprachdaten  Text  Daten  Bedeutung (Spracherkennung
(Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation)
 Geräusche  Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-,
Besetzt-Erkenner, noise-reduction)
 Sprache erzeugende Systeme
 Daten  Text  Sprachdaten  Sprache (sprechende Systeme, TTS,
Reading)
4. 10. 04: Voice 2004 4
 Sprachausgabesysteme
 Sprachdaten  Sprache (Codec, DAC, Lautsprecher)
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachaufnehmende und -ausgebende Systeme
 „der“ Standard:
4. 10. 04: Voice 2004 5
 „Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder
neuerdings: GSM-Qualität
 Endgerät „knochenförmig“, schnurgebunden oder schnurlos
 Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche
Funktionstasten,
 meist kleines alphanumerisches Display,
 andere Bauformen sind möglich (Headset, Speakerphone,
Soundkarte), jedoch bisher nur in Nischen verbreitet
 Umwandlung von Sprache in Sprachdaten und umgekehrt
 besondere Qualitäten: Höhere Bandbreiten,
zusätzliches Video, Außenmikrophone ...
G.-U. Tolkiehn, Tolkiehn & Partner
Bereiche der Sprachqualität
Voice over Internet
GSM
4. 10. 04: Voice 2004 6
ISDN
G.-U. Tolkiehn, Tolkiehn & Partner
Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000
Sprachspeicher, Verwendung in Systemen
ADC
DEE
E/A-Elemente
und UI
DÜE
Netz
DÜE
Sprachspeicher
DEE
DAC
E/A-Elemente
und UI
Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP,
als Komponenten von:
4. 10. 04: Voice 2004 7
• Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN)
• Voice-Logging-Systemen im (öffentlichen) Netz
• Voice-Message-Systemen im (öffentlichen) Netz
• Voice-Message-Systemen auf der Teilnehmerseite
• Anrufbeantwortern (analog und digital, beim B-Teilnehmer)
• Benachrichtigungssystemen (outbound)
• Ansagesystemen, IVR-Systemen, auto-attendants, voice portals
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachanalysierende Systeme (ASR)
 Spracherkennung
• Diktiersysteme (Sprache  Text, großer Wortschatz, i.d.R.
sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten)
• Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise:
– Sprache  Text  Daten oder
– Sprache  Text  einfache Grammatik  Daten,
• meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare
Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“
 Sprach-Authentifizierung
• Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000)
• Sprechererkennung (ebenfalls 1 aus einige 1000)
4. 10. 04: Voice 2004 8
 Geräuschanalyse
•
•
•
•
DTMF-Erkennung für Dialogsysteme mit Sprachausgabe
Pausen-Erkenner zur Datenkompression
grunt-detection, AB-Erkennung, Besetzt-Erkenner
noise- und distortion-Analyse und -Reduktion
G.-U. Tolkiehn, Tolkiehn & Partner
Spracherzeugende Systeme
 Umwandlung von Textdaten oder anderen nichtSprachdaten in Sprachdaten
 Anwendung:
 Reading (TTS, Vorlesen von gespeichertem Fließtext)
 Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft)
4. 10. 04: Voice 2004 9
 Funktionen:
 ggf. Textgenerierung (Komponente von NL-Dialogsystemen,
erfordert semantische und grammatische Synthese)
 Umwandlung von Text in Phonem-Fluss, heute mit Betonung
und Tonhöhenverlauf (erfordert eine „relativ einfache“
Grammatikevaluation)
 Umwandlung des Phonemflusses in Sprachdaten
G.-U. Tolkiehn, Tolkiehn & Partner
Top-View:
 Was will der Betreiber?
 Kosten sparen durch Verlagerung von so viel Dialog wie
möglich vom live agent in die Maschine.
 Die Schallmauer 1€/Call durchbrechen
 V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten
schaffen – aber zu geringen Kosten. Webserver können viel,
sind aber nicht immer das Optimum.
 Was will der User?
 In erster Linie, dass er
4. 10. 04: Voice 2004 10
•
•
•
•
das bekommt, was er haben will,
dann, wenn er es haben will,
ohne Risiken und
zu bekannten und akzeptablen Kosten.
 Einfach, verfügbar, klar, verlässlich, preiswert, sicher.
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 11
Vergleich mit Webserver und Call Center
 Also: Call Center-Funktionalität zu
Transaktionskosten von Webservern.
 In USA wurden vor Jahren Webserver (Shops und
Helpdesks) mit der Dialogstruktur der bereits
erprobten IVR-Systeme ausgestattet. Ein Fehlschlag.
 Wer heute versucht, Voice-Portale mit der
Dialogstruktur von Web-Shops aufzubauen begibt
sich ebenfalls in Gefahr.
 Die Dialogstruktur von IVR-Systemen tut es
natürlich auch nicht mehr
 Ist das alles? Gute Dialoge aus den Call Center
Erfahrungen ableiten und gute Technik einsetzen?
Sollte doch gehen. Oder?
G.-U. Tolkiehn, Tolkiehn & Partner
Gefahrenpotentiale
 Lehrsatz: Automatisierung senkt Kosten
4. 10. 04: Voice 2004 12
zu Risiken und Nebenwirkungen fragen Sie Ihren
Vertriebsleiter oder Unternehmensberater
 Negativ-Beispiel: Geldautomaten der Banken
 Kommunikation mit Menschen ist eine komplexe
Angelegenheit. Sachebene - Beziehungsebene
 Was kommuniziert Ihr Voice-Portal eigentlich auf
der Beziehungsebene?
ab
 Selbst für eine „relativ einfache“ Kommunikation
auf der Sachebene benötigen wir aber bereits
G.-U. Tolkiehn, Tolkiehn & Partner
Komplexe integrierte Systeme
4. 10. 04: Voice 2004 13
GrammatikAnalyse
Quelle: Philips (www.speech.philips.com)
G.-U. Tolkiehn, Tolkiehn & Partner
Komplexe integrierte Systeme
4. 10. 04: Voice 2004 14
 „Alte Technik“: IVR-Systeme (Interactive Voice
Response oder VRU), auto attendant, UM: Meist nur
DTMF-Erkennung und Konservenausgabe,
Sprachspeicher, spezielle einfache Transaktionen
 „Neue Technik“: Voice-portals, integrativer Ansatz
 ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher
Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion?
Welche Sprachen? Wieviel simultane Kanäle?
 Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung?
 Guter Dialoggenerator? Auswertungen und Änderungen der
Dialoge während der Laufzeit einfach durch Anwender möglich?
 Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung,
Bedienung VM-System, e-Mail-Abruf)?
 Datenschnittstelle für Transaktionssysteme und Webserver
 Brauchbare Voice-Message-Funktionen, auch ACD-fähig?
 Contact Center und CRM-Integration?
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 15
IVR-Technik in deutschen Contact Centern 2002
Summe:
47%
Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003
G.-U. Tolkiehn, Tolkiehn & Partner
Investitionsabsichten in Contact Centern 2002
4. 10. 04: Voice 2004 16
 17,6% der befragten Unternehmen planten in 2002
bis 2004 in IVR-Technologie investieren
 5,9% der befragten Unternehmen planten in 2002
bis 2004 in Voice-Logging-Systemen zu investieren
 Keiner der Teilnehmer wollte in Voice-Mail
Systeme investieren
 Die Studie wird ab Oktober erneut durchgeführt.
Wir werden dann auch explizit nach Voice-Portalen
fragen
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 17
Voice-Portal-taugliche Bereiche identifizieren!
Quelle: White Paper von Concerto Software
G.-U. Tolkiehn, Tolkiehn & Partner
Was können wir demnächst erwarten?
 Trotz aller Schwierigkeiten: V-Commerce erhält
durch Automatisation „zweite Luft“ als wesentliche
Komponente von e-commerce. Einige Einzelbelege:
4. 10. 04: Voice 2004 18
 steigende Anzahl von Webseiten zu v-commerce (26. 9. in
Google allein auf deutsch 410 Treffer!)
 Nuance hat seinen Webauftritt in www.v-commerce.com
umbenannt, nicht zu verwechseln mit www.vcommerce.com
 Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem
Absterben vieler „alter“ Voice Events
 Aber es dauert!
 Wer hat schon mal in einem vollautomatisierten vshop eingekauft?
 Wo bleiben v-government und v-administration?
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 19
Was können wir demnächst erwarten?
 Weitere Perfektionierung der Basis-Technologie, auch
neue kleine Anbieter beachten!
 Weiterentwicklung der SW-Komponenten (Grammatik,
KI, Dialoggeneratoren etc.)
 Neue Hardware (Hochleistungsfähige, preiswerte
CAPI und VoIP-Komponenten)
 SW- und Systemhäuser spezialisieren sich auf VoicePortal-Lösungen und Anwendungsintegration
 Weitere Verbesserung der Flexibilität und
Handhabbarkeit der Lösungen durch den Anwender
 Kleine Ready-to-Run-Lösungen out-of-the-box
 Preissenkungen für SW leider eher nicht
G.-U. Tolkiehn, Tolkiehn & Partner
Gartner Hype Cycle 2003
Visibility
Biometrics
Grid Computing
Natural Language
Search
Identity Services
Web Services
PDA Phones
E-Tags
4. 10. 04: Voice 2004 20
Technology
Trigger
Less than two years
Two to five years
Five to 10 years
Beyond 10 years
Nanocomputing
Personal
Fuel Cells
Key: Time to “Plateau”
P2P
WAP/
Wireless
Web
Peak of
Inflated
Expectations
Wireless
VPN
LANs/802.11
Text-toSpeech
Speech Recognition
in Call Center
VoIP
PKI Bluetooth
Location
E-Payments
Sensing Speech Recognition on Desktop
Trough of
Disillusionment
Slope of
Enlightenment
Plateau of
Productivity
Maturity
G.-U. Tolkiehn, Tolkiehn & Partner
Fazit: Es wird sich noch einiges tun
 in den nächsten fünf Jahren sind für Voice-Portale
also noch
 erhebliche technische Weiterentwicklungen
 die Erprobung neuer Einsatzgebiete und
 erhebliche Zunahme der Marktdurchdringung zu erwarten
4. 10. 04: Voice 2004 21
 Wir bleiben dran. Tun Sie es auch!
G.-U. Tolkiehn, Tolkiehn & Partner
Vielen Dank für Ihre Aufmerksamkeit!
Fragen und Anmerkungen bitte!
4. 10. 04: Voice 2004 22
Datenversion anfordern von:
[email protected]
G.-U. Tolkiehn, Tolkiehn & Partner
4. 10. 04: Voice 2004 23
Einfaches Beispiel für eine Grammatik
Quelle: Philips (www.speech.philips.com
G.-U. Tolkiehn, Tolkiehn & Partner