Wahrnehmungstheorie
Spracherkennung und -Synthese [Igor] Sprachwahrnehmung und Sprachgenerierung
Inhaltsverzeichnis |
Struktur Vortrag
[Intro]
Menschheitstraum des verbalen Dialogs mit der Maschine
- zwei beispiele vom "menscheitstraum spracherkennung" mit den fiktiven beispieen HAL und KITT (aus Knight Rider)
- HAL 9000: http://www.youtube.com/watch?v=YX4A-iSoDiU (grandioser Kommentar dazu: "Funny how HAL is the only one in the movie who actually chnages the tone of his voice.")
- KITT: http://www.youtube.com/watch?v=PtOQId41HfI (inkl. Action!)
aktuelle Konsumertechnologien
- Apple Siri
- Google Voice Actions
- Android (viele Apps verfügbar, nicht so gut wie Siri http://www.android4you.de/2011/11/23/vlingo-hort-aufs-wort-spracherkennung-mit-android/)
[Igor] Streitbar - http://gizmodo.com/5888973/siri-vs-android-voice-actions - http://www.youtube.com/watch?v=FBYMDs_RFeI
Anwendungsgebiete
- Telekommunikationsdienste
- Behindertenunterstützung
- Computer Aided Learning Systems, Sprachbildung
- Sprechende Bücher und Spielzeuge
- Augmented Reality / "Vocal Monitoring" - parallelisierbare Informationenflüsse durch sowohl visuelle als auch orale Informationssysteme
- verbale Mensch-Maschine-Kommunikation
- Tools für Linguisten
Sprachwahrnehmung
Geschichte
(Zeitleiste)
Grundlagen
Besonderes
- McGurk Effekt
- "Hören mit der Haut" http://www.hufenreuter.net/haut.htm
Sprachsynthese (Max)
Abgrenzung Sprachsynthese, -erkennung, -interpretation
(Modellfolie mit Begriffen ihren Beziehungen)
am Rande zu erwähnen:
- Stimmerkennung
- Audiovisuelle Systeme
Geschichte
(Zeitleiste)
- Kratzenstein 1779
- Baron Wolfgang von Kempelen 1951
- Voder 1939
http://www2.ling.su.se/staff/hartmut/kempln.htm
Vergleiche
Link + Sounddateien
http://ttssamples.syntheticspeech.de/deutsch/index.html
Als Beispielsatz: "Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm. "
tech. Grundlagen
- Sampling einzelner Worte: zu hoher Speicherverbrauch und fehlende Dynamik
- => algorithmische Textverarbeitung und Klangerzeugung in Echtzeit
- besteht aus:
TEXT -> Natural Language Processing (NLP) -> Digital Signal Processing (DSP) -> SOUND
NLP-Komponente
DLP-Komponente
unterschiedliche Konzepte
Fazit
- Erstaunlich geringer Fortschritt im Vergleich zu anderen Technologien.
- Voller Umfang der natürlichen Sprachen kann nicht algorithmisch verarbeitet werden. Stattdessen Beschreibung von zu erkennenden Phrasen in kontextfreier Grammatik
- => nur Untermenge einer natürlichen Sprache abbildbar
- => Könnte sich mit dynamischem Metamodell auch zur Laufzeit anpassen / "lernen"
- Standards sind vorhanden, aber wenige freie Implementierungen und akzeptable Sprachepakete.
Ausblick
- in Zukunft ist mit sprachsynthesizern in konsumergrafikkarten zu rechnen. (1997)
- Es wird an einem freien JSAPI 2 (JSR 113) Wrapper für FreeTTS, Sphinx4, Windows (SAPI5) und OSX gearbeitet (derzeit v0.3).
[Praxis] Verwendung in der eigenen Anwendung
Was steht mir als "einfachem" Entwickler zur Verfügung
- Windows-APIs (SAPI5)
- akademische Software-Projekte:
- viel kommerzielle Software und kommerzielle Sprachpakete wie z.B. von AT&T
- spezielle Hardware
- Java Speech API
Standardformate zur Beschreibung von Spracherkennungsgrammatiken
- Speech Recognition Grammar Specification (SRGS) (W3C-Standard)
- Augmented BNF (ABNF)
- Semantic Interpretation for Speech Recognition (SISR) (Semantische Verarbeitung auf ECMA-Script-Basis)
- VoiceXML (W3C-Empfehlung)
- Java Speech Grammar Format (JSGF)
konkretes, eigenes beispiel vorstellen
Java Speech API 2 (JSR 113) (evtl. Vorführung von Bsp.-App auf Basis von FreeTTS + Sphinx 4)
[Igor] Falls mir noch das Tablet zur Verfügung steht lässt sich fix eine Sprachsynthese App auf Grundlage der TTS API im Android Framework realisieren.
Ideensammlung
- also hab mir bisher erst ein wenig die javax.speech api angesehen. gibt da viele vollständige proprietäre implementierungen und einige open source impls, die man zumindest verstehen kann. also habe da FreeTTS und Sphinx 4 ins auge gefasst...
- Nen BSP mit FreeTTS und Sphinx 4 wäre aber auch ne gute illustration... würde ich mal als meine [Max] aufgabe ansehen
- außerdem gibt es da verschiedene formatstandards. das W3C definiert einige davon, bzw. sie sind noch nicht standardisiert aber auf der finalen stufe (http://de.wikipedia.org/wiki/Speech_Recognition_Grammar_Specification ). Die Java Speech API (JSR 113) definiert auch eigene formate. Grundsätzlich sind solche Sprachegrammatiken bzw. Grammatiken für erwartete userantworten in der Augmented BNF beschrieben und daher ähnlich wie andere grammatiken von computersprachen aufgebaut - dementsprechend sind diese systeme aber auch nicht so dynamisch wie unsere natürlichen sprachen.
- drei farben/layouts: spracheerkennung, sprachgenerierung, sprachinterpretation ** => sind ja nur die ersten beiden, also zwei Farben
- Bereichswechsel mit TTS Samples
- es sollte machbar sein eine beispielanwendung mit FreeTTs + Sphinx 4 zu entwickeln.
- wenn wir folien haben, die wir präsentieren, das wir über spracherkennung (gesprochene befehle) die folien wechseln ** => zu kompliziert, weil Auseinandersetzung mit LibreOffice API nötig
- siri ist auf jeden fall ein datenschutzalbtraum, da eine effektive spracherkennung nur mit internetanbindung möglich ist (Randbemerkung - nicht Kernthema)
- JSAPI 2 (JSR 113) läuft auch standalone auf handies - wurde zumindest dafür entworfen
- sprachsynthese ist auch stephen w. hawking und sogar schon auf dem c64...... spracherkennung ist seit XP in das windows os integriert
- McGurk Effekt
- [Igor] Vorschlag nach Aufgabenstellung für die Gliederung
- Sprachwahrnehmung [Igor] wäre meine Präferenz
- Grundlagen aus der Wahrnehmungstheorie
- Verarbeitung im Gehirn
- Verschiedene Aspekte der Verarbeitung
- Zusätzliche sensorische Elemente bei der Sprachwahrnehmung
- Abschluss mit McGurk (belegt visuelle Unterstützung bei der Sprachwahrnehmung)
- Überleitung (Spracherkennung hochkomplex - Sprachgenerierung vergleichsweise einfach)
- Grundlagen aus der Wahrnehmungstheorie
- Sprachgenerierung (Geschichte und Grundlagen)
- Anwendungsgebiete der Sprachsynthese
- Grundlagen der Sprachsynthese
- Entwicklung der Sprachsynthese
- Sprachgenerierung (Elektronische Synthese und Anwendungen) (Max)
- Überblick APIs
- Beispiele
- Ausblick
[Igor].... elektronische Spracherkennung ist meiner Meinung nach nicht unser Thema
**[Igor] Bitte das Thema in der Aufgabenstellung beachten
Links
- http://de.wikipedia.org/wiki/Sprachsynthese
- http://de.wikipedia.org/wiki/Spracherkennung
- McGurk Effekt: http://www.youtube.com/watch?v=G-lN8vWm3m0
- Siri Werbung: http://www.youtube.com/watch?v=EiHd8Sej9Ew
- http://www.sk.uni-bonn.de/lehre/informationen-materialien/informationen-und-materialien-kopho/materialien-1/hess/sprachwahrnehmung
Sprachwahrnehmung
http://de.wikipedia.org/wiki/Sprachwahrnehmung [Igor] Bitte den WT-Aspekt beachten
McGurk-Effekt (Dr. phil. Sascha Fagel: http://public.beuth-hochschule.de/~fagel/fagel/cv.html):
http://public.beuth-hochschule.de/~fagel/fagel/download/Fagel_Clemens_SpeechCom.pdf
http://public.beuth-hochschule.de/~fagel/fagel/download/Fagel_EmoMcGurk.pdf
vllt. doch noch tech. Aspekte (Systembeispiele, die Sphinx4 verwenden):
PocketSphinx - Spracherkennung auf dem Handy: http://www.youtube.com/watch?v=OEUeJb6Pwt4&feature=player_embedded
Sprachbrowser: http://www.youtube.com/watch?v=gjIUv84U_E0&feature=player_embedded
Sprachgesteuerter Roboter: http://www.youtube.com/watch?v=f4LUBX6mwBk&feature=player_embedded
Sprachgesteuerte Computerspiele: http://www.youtube.com/watch?v=owJS5XwXAEA&feature=player_embedded
audiovisueller Sprachautomat: http://www.youtube.com/watch?v=rXWmN9Bhwn8&feature=player_embedded
audiovisuelle Wahrnehmung durch Roboter: http://www.youtube.com/watch?v=kwA_UkfkCXA&feature=player_embedded
Sprachgenerierung ... hier fehlt noch was über Sprachsynthese mit Silben ...
Jede Menge kurze Soundbeispiele: http://ttssamples.syntheticspeech.de/deutsch/index.html
http://de.wikipedia.org/wiki/Sprachsynthese
http://wiki.infowiss.net/Sprachgenerierung
http://wiki.infowiss.net/Nat%C3%BCrlichsprachige_Schnittstelle
http://en.wikipedia.org/wiki/Speech_synthesis
http://de.wikipedia.org/wiki/Wellenfeldsynthese
TTS-Einführung: http://tcts.fpms.ac.be/synthesis/introtts_old.html (1997)
Sprachtechnologielinks allgemein: http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html
http://tcts.fpms.ac.be/projects/ttsbox/ttsbox1.0.pdf
Gesang mit MBRola synthetisiert (fiktiver Popstar): http://www.silexcreations.com/melissa/ bzw. http://www.silexcreations.com/klem/ Media:KlemRadio.mp3
MBRola: http://tcts.fpms.ac.be/synthesis/mbrola.html
Emotionsgenerierung: http://emosamples.syntheticspeech.de/index.html
http://www.kfs.oeaw.ac.at/research/psychoacoustics/hist_psychoakustik.pdf
http://www.coli.uni-saarland.de/~cabr/vortraege/tts.pdf
http://www.informatik.uni-bremen.de/agbkb/lehre/espresso/files/referate/GenerierungPraesentation.pdf
http://www.cstr.ed.ac.uk/downloads/publications/2000/Taylor_2000_a.pdf
APIs'
http://java.sun.com/products/java-media/speech/
http://java.sun.com/products/java-media/speech/forDevelopers/jsapifaq.html