hier das PowerPoint vom Vortrag

Download Report

Transcript hier das PowerPoint vom Vortrag

Red Baron Roost, Bonn
Sprachverarbeitung
zur
Gesprächsauswertung,
eine Einführung
OTL a.D. Dipl.-Ing. Johannes Naumann
Unauthorized Views only
Red Baron Roost, Bonn
Verfahren der automatisierten
Sprachverarbeitung
zur
Gesprächsauswertung
OTL a.D. Dipl.-Ing. Johannes Naumann
Unauthorized Views only
Red Baron Roost, Bonn
Johannes Naumann, OTL (a.D.)
Dipl. Ing.
38 Jahre Deutsche Luftwaffe
Verwendungen
EloKa Offz Luftwaffenführungsdienstkommando
Leiter der Erfassung FmSkt F, Kötzting
Leiter ZBA, Trier
(GEWOSC)
EloKa St Offz LwA, LFlKdo
Leiter Lw-Anteil BwKdo US/CA
Sachgebietsleiter Elo beim ANBw,Gelsdorf
Streitkräfteamt, Fähigkeitsanalyse NG&A & EloKa
Unauthorized Views only
Red Baron Roost, Bonn
Disclaimer
Dieser Vortrag gibt ausschließlich meine eigene
Meinung wieder und stützt sich auf unabhängiges
Denken gestützt auf 35 Jahre Erfahrung mit fast
allen Spielarten der EloKa (EK) IO und auf die
Physik, allgemein zugängliches Wissen und die
verfügbare wissenschaftliche Information.
Unauthorized Views only
Red Baron Roost, Bonn
Gliederung
Motivation (Massendaten)
Sprachen - Problem
Kapazitäten - Problem
Automatisierte Verfahren
Netzwerkaufklärung
Reach Back
Technische Randbedingungen
Klassifikatoren
Demo
Unauthorized Views only
Red Baron Roost, Bonn
Warum, Wieso, Weshalb ?
Massendatenproblem wegen sehr stark
gestiegener Funknutzung
• bisher: potentieller Gegner war bekannt
• seit Bw im Einsatz: potentieller
Gegner zivil
• JEDER kann es sein und alle reden
miteinander
Unauthorized Views only
Red Baron Roost, Bonn
Moderne Aufklärungsmittel hören aber mit !
Problem: Wer hört die 50.000 Gespräche / h ab ?
24 Mio Afghanen, die jeder 2 Stunden
täglich telefonieren, belegen jeder 1/10
Kanäle, also 1,2 Mio gleichzeitige
Gespräche täglich, macht 50.000
gleichzeitige Gespräche je Stunde
Problem: Versteht der überhaupt die Sprache ?
Unauthorized Views only
Red Baron Roost, Bonn
Das Sprachenproblem
Turkmeni
Qirgizi
Uzbeki
Nuristani
Pashai
Persian (Dari)
Pashto
Balochi
In Afghanistan werden etwa 49
Sprachen[undViews
über 200
verschiedene Dialekte gesprochen.
Unauthorized
only
Red Baron Roost, Bonn
Wo sind die Auswerter, die 40 Sprachen sprechen ?
Problem: Kleine Kapazitäten für viel Umfang
Problem: Wer findet raus, was relevant ist ?
Problem: Handelt es sich überhaupt um
Sprache ?
Unauthorized Views only
Red Baron Roost, Bonn
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache oder Geräusch ?
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache oder Geräusch ?
(Sprachdetection)
Unauthorized Views only
Red Baron Roost, Bonn
z.B. durch Computerprogramme:
Stochastische Verfahren, die Sprachlaute
von Geräusch unterscheiden können
Treffgenauigkeit ist begrenzt
Es gibt Verfahren, die „trainiert“ werden müssen
In unterschiedlichen Scenarien
unterschiedliche Treffgenauigkeit
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache oder Geräusch ?
2.: Welche Sprache ist das überhaupt ?
Unauthorized Views only
Red Baron Roost, Bonn
Welche Sprache ist das überhaupt ?
zunächst:
Lautanalyse
Jede Sprache hat spezielle Lautkombinationen
Sprachmelodie
(Frequenzanalyse)
Sprachrhythmus, Pausen
Konsonanten, Vokale, Diphtonge
Phoneme
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache, oder Geräusch ?
2.: Welche Sprache ist das überhaupt ?
3.: Erkenne ich den Sprecher?
Unauthorized Views only
Red Baron Roost, Bonn
Wie erkenne ich den Sprecher ?
• Frequenzspektrum der Stimme
• Sprachraum der Stimme
• Eigenheiten bei den verschiedenen Lauten
Explosivlaute, Vokale: Klangfarbe
Tonfall, Rhythmus Verschleifungen
weitere Eigenheiten
Unauthorized Views only
Red Baron Roost, Bonn
Es gilt, irrelevante Gespräche zu ignorieren,
um wichtige Hinweise zu finden.
Stichworte können ähnlich Sprechern
als Bild, Signatur abgelegt werden
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache oder Geräusch ?
2.: Welche Sprache ist das überhaupt ?
3.: Erkenne ich den Sprecher ?
4.: Erkenne ich Stichworte ?
Unauthorized Views only
Red Baron Roost, Bonn
Stichworterkennung durch Vergleichen
Erstellen von Mustern
Vergleich der Muster mit dem Sprachmaterial
Aufwendig.
Spezielle Software, die nur charakteristische
Teilmuster verwendet ist schneller
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache oder Geräusch ?
2.: Welche Sprache ist das überhaupt ?
3.: Erkenne ich den Sprecher ?
4.: Erkenne ich Stichworte ?
5.: Erkenne ich Zusammenhänge ?
Unauthorized Views only
Red Baron Roost, Bonn
Wie erkenne ich Zusammenhänge ?
• Zusammenhang ergibt sich aus
mehreren Stichworten
• Kombination aus Stichworten und
Ereignissen oder Daten
Keywordspotting
Unauthorized Views only
Red Baron Roost, Bonn
Wie kann automatisierte Sprachverarbeitung helfen ?
1.: Ist das Sprache oder Geräusch ?
2.: Welche Sprache ist das überhaupt ?
3.: Erkenne ich den Sprecher ?
4.: Erkenne ich Stichworte ?
5.: Erkenne ich Zusammenhänge ?
6.: Erkenne ich ein geplantes Ereignis ?
Unauthorized Views only
Red Baron Roost, Bonn
Erkenne ich ein geplantes Ereignis ?
Sprecher, Stichworte und Zusammenhänge
können zu geplanten Ereignissen führen
Dabei helfen Informationen aus anderen
Diensten, wie z.B. Netzwerkaufklärung
Unauthorized Views only
Red Baron Roost, Bonn
Netzwerkaufklärung
Wie findet man heraus, was relevant ist ?
IMSI-Catcher liefert ID, Standort, und gestattet
das Mithören
„ IMSI-Catcher für 1500 Euro im Eigenbau.“
Heise-online, 1. August 2010.
Unauthorized Views only
Red Baron Roost, Bonn
IMSI-Catcher:
„Das Gerät arbeitet dazu gegenüber dem Mobiltelefon
wie eine Funkzelle (Basisstation) und gegenüber dem
Netzwerk wie ein Mobiltelefon; alle Mobiltelefone in
einem gewissen Umkreis buchen sich bei dieser
Funkzelle mit dem stärksten Signal, also dem IMSICatcher, ein. Der IMSI-Catcher simuliert also ein
Mobilfunknetzwerk.“
(Wikipedia)
Unauthorized Views only
Red Baron Roost, Bonn
Netzwerkaufklärung
Datenstrom
Statistische Verfahren zur
Massendaten-Auswertung
Ich erfahre:
Wer, Wann, Wo, mit Wem, Wie lange,
Wie oft telefoniert (kommuniziert) hat.
Unauthorized Views only
Red Baron Roost, Bonn
Erkenne ich ein geplantes Ereignis ?


Sprecher, Stichworte und Zusammenhänge
können zu geplanten Ereignissen führen
Dabei helfen Informationen aus anderen
Aktivitäten, wie z.B. Netzüberwachung
Gewonnene Informationen dienen dem
gezielten Einsatz der Linguisten
Unauthorized Views only
Red Baron Roost, Bonn
Reach Back
Problem: 40 versch. Sprachen im Einsatzgebiet
- Aufkommen schwankt
- Kapazitäts-Engpässe
- Bedrohung, Streß
In der Heimat Pool an (ausgeruhten) Linguisten
Daten erfassen – ableiten – Ergebnisse zurückschicken
Unauthorized Views only
Red Baron Roost, Bonn
Technische Randbedingungen
1.: Quelle:
Funk, Mobilfunk, Glasfaser
2.: Funk:
Frequenz beliebig, Zeit unsicher
3.: Mobilfunk:
ständiger Datenstrom
4.: Inhalt:
unbestimmt, meist wertlos
5.: Charakter:
überraschend: manchmal Merkel
6.: Ernüchternd: Normalbürger stört nur
Unauthorized Views only
Red Baron Roost, Bonn
Klassifikatoren
Beispiel Boger
Beispiel Medav
Verschriftungssoftware (nicht OCR)
Unauthorized Views only
Red Baron Roost, Bonn
Vielen Dank für
Ihre
Aufmerksamkeit
Unauthorized Views only