Wahrnehmungstheorie

Aus Nettundfroh
Wechseln zu: Navigation, Suche

Spracherkennung und -Synthese [Igor] Sprachwahrnehmung und Sprachgenerierung


Inhaltsverzeichnis

Struktur Vortrag

[Intro]

Menschheitstraum des verbalen Dialogs mit der Maschine

  • zwei beispiele vom "menscheitstraum spracherkennung" mit den fiktiven beispieen HAL und KITT (aus Knight Rider)

aktuelle Konsumertechnologien

[Igor] Streitbar - http://gizmodo.com/5888973/siri-vs-android-voice-actions - http://www.youtube.com/watch?v=FBYMDs_RFeI

Anwendungsgebiete

  • Telekommunikationsdienste
  • Behindertenunterstützung
  • Computer Aided Learning Systems, Sprachbildung
  • Sprechende Bücher und Spielzeuge
  • Augmented Reality / "Vocal Monitoring" - parallelisierbare Informationenflüsse durch sowohl visuelle als auch orale Informationssysteme
  • verbale Mensch-Maschine-Kommunikation
  • Tools für Linguisten

Sprachwahrnehmung

Geschichte

(Zeitleiste)

Grundlagen

Besonderes

Sprachsynthese (Max)

Abgrenzung Sprachsynthese, -erkennung, -interpretation

(Modellfolie mit Begriffen ihren Beziehungen)

am Rande zu erwähnen:

  • Stimmerkennung
  • Audiovisuelle Systeme


Geschichte

(Zeitleiste)

  • Kratzenstein 1779
  • Baron Wolfgang von Kempelen 1951
  • Voder 1939

http://www2.ling.su.se/staff/hartmut/kempln.htm

Vergleiche

Link + Sounddateien

http://ttssamples.syntheticspeech.de/deutsch/index.html

Als Beispielsatz: "Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm. "

Datei:1982 decTalk s2.mp3

Datei:2000 att klara s2.mp3

Datei:2011 Ivona Hans s2.mp3

tech. Grundlagen

  • Sampling einzelner Worte: zu hoher Speicherverbrauch und fehlende Dynamik
  • => algorithmische Textverarbeitung und Klangerzeugung in Echtzeit
  • besteht aus:

TEXT -> Natural Language Processing (NLP) -> Digital Signal Processing (DSP) -> SOUND

NLP-Komponente
DLP-Komponente
unterschiedliche Konzepte

Fazit

  • Erstaunlich geringer Fortschritt im Vergleich zu anderen Technologien.
  • Voller Umfang der natürlichen Sprachen kann nicht algorithmisch verarbeitet werden. Stattdessen Beschreibung von zu erkennenden Phrasen in kontextfreier Grammatik
    • => nur Untermenge einer natürlichen Sprache abbildbar
    • => Könnte sich mit dynamischem Metamodell auch zur Laufzeit anpassen / "lernen"
  • Standards sind vorhanden, aber wenige freie Implementierungen und akzeptable Sprachepakete.
Ausblick
  • in Zukunft ist mit sprachsynthesizern in konsumergrafikkarten zu rechnen. (1997)
  • Es wird an einem freien JSAPI 2 (JSR 113) Wrapper für FreeTTS, Sphinx4, Windows (SAPI5) und OSX gearbeitet (derzeit v0.3).

[Praxis] Verwendung in der eigenen Anwendung

Was steht mir als "einfachem" Entwickler zur Verfügung

  • Java Speech API

Standardformate zur Beschreibung von Spracherkennungsgrammatiken

  • Speech Recognition Grammar Specification (SRGS) (W3C-Standard)
    • Augmented BNF (ABNF)
    • Semantic Interpretation for Speech Recognition (SISR) (Semantische Verarbeitung auf ECMA-Script-Basis)
  • VoiceXML (W3C-Empfehlung)
  • Java Speech Grammar Format (JSGF)

konkretes, eigenes beispiel vorstellen

Java Speech API 2 (JSR 113) (evtl. Vorführung von Bsp.-App auf Basis von FreeTTS + Sphinx 4)

[Igor] Falls mir noch das Tablet zur Verfügung steht lässt sich fix eine Sprachsynthese App auf Grundlage der TTS API im Android Framework realisieren.

Ideensammlung

- also hab mir bisher erst ein wenig die javax.speech api angesehen. gibt da viele vollständige proprietäre implementierungen und einige open source impls, die man zumindest verstehen kann. also habe da FreeTTS und Sphinx 4 ins auge gefasst...

- Nen BSP mit FreeTTS und Sphinx 4 wäre aber auch ne gute illustration... würde ich mal als meine [Max] aufgabe ansehen

- außerdem gibt es da verschiedene formatstandards. das W3C definiert einige davon, bzw. sie sind noch nicht standardisiert aber auf der finalen stufe (http://de.wikipedia.org/wiki/Speech_Recognition_Grammar_Specification ). Die Java Speech API (JSR 113) definiert auch eigene formate. Grundsätzlich sind solche Sprachegrammatiken bzw. Grammatiken für erwartete userantworten in der Augmented BNF beschrieben und daher ähnlich wie andere grammatiken von computersprachen aufgebaut - dementsprechend sind diese systeme aber auch nicht so dynamisch wie unsere natürlichen sprachen.

- drei farben/layouts: spracheerkennung, sprachgenerierung, sprachinterpretation ** => sind ja nur die ersten beiden, also zwei Farben

- Bereichswechsel mit TTS Samples

- es sollte machbar sein eine beispielanwendung mit FreeTTs + Sphinx 4 zu entwickeln.

- wenn wir folien haben, die wir präsentieren, das wir über spracherkennung (gesprochene befehle) die folien wechseln ** => zu kompliziert, weil Auseinandersetzung mit LibreOffice API nötig

- siri ist auf jeden fall ein datenschutzalbtraum, da eine effektive spracherkennung nur mit internetanbindung möglich ist (Randbemerkung - nicht Kernthema)

- JSAPI 2 (JSR 113) läuft auch standalone auf handies - wurde zumindest dafür entworfen

- sprachsynthese ist auch stephen w. hawking und sogar schon auf dem c64...... spracherkennung ist seit XP in das windows os integriert

- McGurk Effekt

- [Igor] Vorschlag nach Aufgabenstellung für die Gliederung

  1. Sprachwahrnehmung [Igor] wäre meine Präferenz
    Grundlagen aus der Wahrnehmungstheorie
    Verarbeitung im Gehirn
    Verschiedene Aspekte der Verarbeitung
    Zusätzliche sensorische Elemente bei der Sprachwahrnehmung
    Abschluss mit McGurk (belegt visuelle Unterstützung bei der Sprachwahrnehmung)
    Überleitung (Spracherkennung hochkomplex - Sprachgenerierung vergleichsweise einfach)
  2. Sprachgenerierung (Geschichte und Grundlagen)
    Anwendungsgebiete der Sprachsynthese
    Grundlagen der Sprachsynthese
    Entwicklung der Sprachsynthese
  3. Sprachgenerierung (Elektronische Synthese und Anwendungen) (Max)
    Überblick APIs
    Beispiele
    Ausblick

[Igor].... elektronische Spracherkennung ist meiner Meinung nach nicht unser Thema

**[Igor] Bitte das Thema in der Aufgabenstellung beachten

Links


Sprachwahrnehmung

http://de.wikipedia.org/wiki/Sprachwahrnehmung [Igor] Bitte den WT-Aspekt beachten


McGurk-Effekt (Dr. phil. Sascha Fagel: http://public.beuth-hochschule.de/~fagel/fagel/cv.html):

http://public.beuth-hochschule.de/~fagel/fagel/download/Fagel_Clemens_SpeechCom.pdf

http://public.beuth-hochschule.de/~fagel/fagel/download/Fagel_EmoMcGurk.pdf


vllt. doch noch tech. Aspekte (Systembeispiele, die Sphinx4 verwenden):

PocketSphinx - Spracherkennung auf dem Handy: http://www.youtube.com/watch?v=OEUeJb6Pwt4&feature=player_embedded

Sprachbrowser: http://www.youtube.com/watch?v=gjIUv84U_E0&feature=player_embedded

Sprachgesteuerter Roboter: http://www.youtube.com/watch?v=f4LUBX6mwBk&feature=player_embedded

Sprachgesteuerte Computerspiele: http://www.youtube.com/watch?v=owJS5XwXAEA&feature=player_embedded

audiovisueller Sprachautomat: http://www.youtube.com/watch?v=rXWmN9Bhwn8&feature=player_embedded

audiovisuelle Wahrnehmung durch Roboter: http://www.youtube.com/watch?v=kwA_UkfkCXA&feature=player_embedded


Sprachgenerierung ... hier fehlt noch was über Sprachsynthese mit Silben ...


Jede Menge kurze Soundbeispiele: http://ttssamples.syntheticspeech.de/deutsch/index.html

http://de.wikipedia.org/wiki/Sprachsynthese

http://wiki.infowiss.net/Sprachgenerierung

http://wiki.infowiss.net/Nat%C3%BCrlichsprachige_Schnittstelle

http://en.wikipedia.org/wiki/Speech_synthesis

http://de.wikipedia.org/wiki/Wellenfeldsynthese

TTS-Einführung: http://tcts.fpms.ac.be/synthesis/introtts_old.html (1997)


Sprachtechnologielinks allgemein: http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html

http://tcts.fpms.ac.be/projects/ttsbox/ttsbox1.0.pdf

Gesang mit MBRola synthetisiert (fiktiver Popstar): http://www.silexcreations.com/melissa/ bzw. http://www.silexcreations.com/klem/ Media:KlemRadio.mp3

MBRola: http://tcts.fpms.ac.be/synthesis/mbrola.html

Emotionsgenerierung: http://emosamples.syntheticspeech.de/index.html

http://www.kfs.oeaw.ac.at/research/psychoacoustics/hist_psychoakustik.pdf

http://www.coli.uni-saarland.de/~cabr/vortraege/tts.pdf

http://www.informatik.uni-bremen.de/agbkb/lehre/espresso/files/referate/GenerierungPraesentation.pdf

http://www.cstr.ed.ac.uk/downloads/publications/2000/Taylor_2000_a.pdf


APIs'

http://java.sun.com/products/java-media/speech/

http://java.sun.com/products/java-media/speech/forDevelopers/jsapifaq.html

Master Semester 2