Wahrnehmungstheorie

Aus Nettundfroh
Wechseln zu: Navigation, Suche

Spracherkennung und -Synthese [Igor] Sprachwahrnehmung und Sprachgenerierung


http://site.ru/ site

Ideensammlung

- also hab mir bisher erst ein wenig die javax.speech api angesehen. gibt da viele vollständige proprietäre implementierungen und einige open source impls, die man zumindest verstehen kann. also habe da FreeTTS und Sphinx 4 ins auge gefasst...

- Nen BSP mit FreeTTS und Sphinx 4 wäre aber auch ne gute illustration... würde ich mal als meine [Max] aufgabe ansehen

- außerdem gibt es da verschiedene formatstandards. das W3C definiert einige davon, bzw. sie sind noch nicht standardisiert aber auf der finalen stufe (http://de.wikipedia.org/wiki/Speech_Recognition_Grammar_Specification ). Die Java Speech API (JSR 113) definiert auch eigene formate. Grundsätzlich sind solche Sprachegrammatiken bzw. Grammatiken für erwartete userantworten in der Augmented BNF beschrieben und daher ähnlich wie andere grammatiken von computersprachen aufgebaut - dementsprechend sind diese systeme aber auch nicht so dynamisch wie unsere natürlichen sprachen.

- drei farben/layouts: spracheerkennung, sprachgenerierung, sprachinterpretation ** => sind ja nur die ersten beiden, also zwei Farben

- Bereichswechsel mit TTS Samples

- es sollte machbar sein eine beispielanwendung mit FreeTTs + Sphinx 4 zu entwickeln.

- wenn wir folien haben, die wir präsentieren, das wir über spracherkennung (gesprochene befehle) die folien wechseln ** => zu kompliziert, weil Auseinandersetzung mit LibreOffice API nötig

- siri ist auf jeden fall ein datenschutzalbtraum, da eine effektive spracherkennung nur mit internetanbindung möglich ist (Randbemerkung - nicht Kernthema)

- JSAPI 2 (JSR 113) läuft auch standalone auf handies - wurde zumindest dafür entworfen

- sprachsynthese ist auch stephen w. hawking und sogar schon auf dem c64...... spracherkennung ist seit XP in das windows os integriert

- McGurk Effekt

- [Igor] Vorschlag nach Aufgabenstellung für die Gliederung

  1. Sprachwahrnehmung [Igor] wäre meine Präferenz
    Grundlagen aus der Wahrnehmungstheorie
    Verarbeitung im Gehirn
    Verschiedene Aspekte der Verarbeitung
    Zusätzliche sensorische Elemente bei der Sprachwahrnehmung
    Abschluss mit McGurk (belegt visuelle Unterstützung bei der Sprachwahrnehmung)
    Überleitung (Spracherkennung hochkomplex - Sprachgenerierung vergleichsweise einfach)
  2. Sprachgenerierung (Geschichte und Grundlagen)
    Anwendungsgebiete der Sprachsynthese
    Grundlagen der Sprachsynthese
    Entwicklung der Sprachsynthese
  3. Sprachgenerierung (Elektronische Synthese und Anwendungen) (Max)
    Überblick APIs
    Beispiele
    Ausblick

[Igor].... elektronische Spracherkennung ist meiner Meinung nach nicht unser Thema

**[Igor] Bitte das Thema in der Aufgabenstellung beachten

Links


Sprachwahrnehmung

http://de.wikipedia.org/wiki/Sprachwahrnehmung [Igor] Bitte den WT-Aspekt beachten


McGurk-Effekt (Dr. phil. Sascha Fagel: http://public.beuth-hochschule.de/~fagel/fagel/cv.html):

http://public.beuth-hochschule.de/~fagel/fagel/download/Fagel_Clemens_SpeechCom.pdf

http://public.beuth-hochschule.de/~fagel/fagel/download/Fagel_EmoMcGurk.pdf


vllt. doch noch tech. Aspekte (Systembeispiele, die Sphinx4 verwenden):

PocketSphinx - Spracherkennung auf dem Handy: http://www.youtube.com/watch?v=OEUeJb6Pwt4&feature=player_embedded

Sprachbrowser: http://www.youtube.com/watch?v=gjIUv84U_E0&feature=player_embedded

Sprachgesteuerter Roboter: http://www.youtube.com/watch?v=f4LUBX6mwBk&feature=player_embedded

Sprachgesteuerte Computerspiele: http://www.youtube.com/watch?v=owJS5XwXAEA&feature=player_embedded

audiovisueller Sprachautomat: http://www.youtube.com/watch?v=rXWmN9Bhwn8&feature=player_embedded

audiovisuelle Wahrnehmung durch Roboter: http://www.youtube.com/watch?v=kwA_UkfkCXA&feature=player_embedded


Sprachgenerierung ... hier fehlt noch was über Sprachsynthese mit Silben ...


Jede Menge kurze Soundbeispiele: http://ttssamples.syntheticspeech.de/deutsch/index.html

http://de.wikipedia.org/wiki/Sprachsynthese

http://wiki.infowiss.net/Sprachgenerierung

http://wiki.infowiss.net/Nat%C3%BCrlichsprachige_Schnittstelle

http://en.wikipedia.org/wiki/Speech_synthesis

http://de.wikipedia.org/wiki/Wellenfeldsynthese

TTS-Einführung: http://tcts.fpms.ac.be/synthesis/introtts_old.html (1997)


Sprachtechnologielinks allgemein: http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html

http://tcts.fpms.ac.be/projects/ttsbox/ttsbox1.0.pdf

Gesang mit MBRola synthetisiert (fiktiver Popstar): http://www.silexcreations.com/melissa/ bzw. http://www.silexcreations.com/klem/ Media:KlemRadio.mp3

MBRola: http://tcts.fpms.ac.be/synthesis/mbrola.html

Emotionsgenerierung: http://emosamples.syntheticspeech.de/index.html

http://www.kfs.oeaw.ac.at/research/psychoacoustics/hist_psychoakustik.pdf

http://www.coli.uni-saarland.de/~cabr/vortraege/tts.pdf

http://www.informatik.uni-bremen.de/agbkb/lehre/espresso/files/referate/GenerierungPraesentation.pdf

http://www.cstr.ed.ac.uk/downloads/publications/2000/Taylor_2000_a.pdf


APIs'

http://java.sun.com/products/java-media/speech/

http://java.sun.com/products/java-media/speech/forDevelopers/jsapifaq.html

Master Semester 2