Transkription von Interviews

Interview transkribieren

Lust auf transkribieren?

Transkriptor Jobs

Hilfe beim Auswerten

Datenanalyse Service
Home Wissensdatenbank Wissenschaftliches Arbeiten Empirische Arbeit Spracherkennung – Mehr als Siri und Alexa

Spracherkennung – Mehr als Siri und Alexa

Veröffentlicht am . Zuletzt geändert am .
Spracherkennungsprogramme


26 Aug Spracherkennung – Mehr als Siri und Alexa

Lange ist es noch nicht her, dass digitale Assistenten zur Spracherkennung Einzug in unser Leben gehalten haben. Und doch ist die Kommunikation mit Chatbots für viele heute schon ganz normal. Auch in beruflichen Situationen profitieren wir von der Künstlichen Intelligenz. Die Sprachaufzeichnung ist dabei ein besonders beliebtes Tool, um effizienter zu arbeiten.

Was ist Spracherkennung?

Unter Spracherkennung versteht man Programme, die die menschliche Sprache analysieren und dann durch Abgleich mit einer Datenbank Wörter unterscheiden können. Um dabei gute Ergebnisse erzielen zu können, muss die Software auf den jeweiligen Sprecher angepasst und trainiert werden, damit das System die charakteristischen Merkmale des Sprechers erlernen und die Funktion optimiert werden kann.

Sei es das Diktieren von Texten, das Übersetzen in eine andere Sprache oder auch das Entgegennehmen und Ausführen von Befehlen – Spracherkennung wird heute in den verschiedensten Bereichen eingesetzt. Sie kommt in vielen Unternehmen zum Beispiel bei Bürotätigkeiten und im Kundenservice zum Einsatz, und Sprachsteuerung macht industrielle Abläufe effizienter.

Digitale Assistenten wie Siri und Alexa sind innerhalb kürzester Zeit zu beliebten Alltagshelferlein geworden. Ein kurzer Sprachbefehl und schon ertönt das Lieblingslied oder der Wecker wird gestellt. Auch die Sprachaufzeichnung wird gerne genutzt, denn damit kann man das Tippen langer WhatsApp-Nachrichten oder E-Mails umgehen. Die auf dem Smartphone installierte Software kommt mit Alltagssprache in der Regel gut zurecht und liefert bereits eine recht zuverlässige Umsetzung von gesprochenem Wort in Schrift.

Auch im Bereich „Smart Home“ erleichtert die Spracherkennung das Steuern der verschiedenen Geräte. Um Rolläden, Licht & Co Befehle zu erteilen, muss man noch nicht mal mehr das Smartphone zur Hand nehmen. Man positioniere lediglich einen smarten Lautsprecher im Raum, und schon kann man dem integrierten Sprachassistenten seine Wünsche mitteilen. Befehle wie „Alexa, schalte das Licht im Wohnzimmer an!“ funktionieren bereits zuverlässig.

Professionelle Sprachaufzeichnung: Software für Spracherkennung

Die Fortschritte im Bereich der Künstlichen Intelligenz machen es heute möglich, dass ein System „aus Erfahrung“ lernt und sich weiterentwickelt. Es „wird also nicht explizit programmiert, sondern vielmehr trainiert“ (Chollet, 2018). So kann es mithilfe von Algorithmen Muster in wiederkehrenden Daten erkennen und somit seine Funktionsweise optimieren.

Vollkommen unabhängig geschieht das „Machine Learning“ jedoch nicht. Es bedarf immer noch des Menschen, der dem System dabei auf die Sprünge hilft, sprich: ihm relevante Daten zur Verfügung stellt, bestimmt, nach welchen Kriterien die Analyse stattfinden soll und die Resultate bewertet. Prof. Dr. Reinhold Häb-Umbach von der Universität Paderborn erklärt im DFG-Magazin „forschung“: „Algorithmen oder kompetente Geräte, allein und für sich betrachtet, sind nicht intelligent, aber sie können ‚intelligent‛ eingesetzt und genutzt werden.“

Achtung:

Willst du die Spracherkennung und Sprachaufzeichnung für umfangreichere Aufgaben oder professionelle Zwecke nutzen, reicht die Smartphone-Software jedoch nicht aus. Denn bei fremdsprachlichen Ausdrücken oder Fachsprache stoßen Smartphones an ihre Grenzen. Hier lohnt es sich, über ein Diktiergerät nachzudenken. Für ein wichtiges Projekt solltest du zum Transkribieren der Aufnahmen eine professionelle Audiotranskription in Betracht ziehen.

Personalisierte Spracherkennung und Sprachaufzeichnung

Bevor du also lange, anspruchsvolle Texte diktieren kannst, brauchst du ein wenig Zeit, um das System anzulernen und an deine Bedürfnisse anzupassen. Dadurch wird ein persönliches Sprachprofil von dir angelegt, das vom System kontinuierlich weiterentwickelt wird. Spezielle Ausdrücke, Eigennamen oder Fachbegriffe kannst du dem Programm auf diese Weise beibringen, wodurch es dich im Laufe der Zeit immer besser verstehen und unterstützen wird.

Ein weiterer Pluspunkt: Du kannst deinen Text mit einem Diktiergerät aufnehmen, was dich unabhängiger und flexibler macht. In ein Diktiergerät sprechen kann man schließlich überall, und die Laufzeit eines solchen Geräts ist sehr viel ausdauernder als ein Smartphone-Akku. Die Sprachdatei kannst du dann später nach den Transkriptionsregeln und mit einer Transkriptionssoftware in Text umwandeln lassen.

Beispiel für ein Sprachsignal:

Spracherkennung: Veranschaulichung der Verschiedenheit von Text und Sprachsignal
Abb. 1: Veranschaulichung der Verschiedenheit von Text und Sprachsignal (Pfister/Kaufmann 2017, 7)

Software zur Spracherkennung und Sprachaufzeichnung für unterschiedliche Berufe

Um die Anwendung von Spracherkennung und Sprachaufzeichnung für verschiedene Berufsfelder zu optimieren, werden spezialisierte Versionen angeboten, zum Beispiel für Juristen, für den medizinischen Bereich, für Finanzdienstleister, für die Verwaltung oder das Bildungswesen. Hier ist die Spracherkennung bereits auf die besonderen Bedürfnisse der Nutzer trainiert.

Die Programme nutzen die Deep-Learning-Technik. Da das Modell hinter dem Deep-Learning-Ansatz als „neuronales Netz“ bezeichnet wird, wird häufig der Vergleich zur Biologie und dem menschlichen Gehirn angestellt. Doch Deep-Learning-Modelle stellen „keine Nachbildung des menschlichen Gehirns“ dar, sondern ein „mathematisches Framework zum Erlernen der Repräsentationen anhand von Daten“ (Chollet, 2018).

Überblick über den Zusammenhang von Künstlicher Intelligenz, Machine Learning und Deep Learning:

Spracherkennung: Künstliche Intelligenz, Machine Learning und Deep Learning
Abb. 2: Künstliche Intelligenz, Machine Learning und Deep Learning (Chollet 2018)

Spracherkennung und Sprachaufzeichnung für Abschlussarbeiten

Kommt dir beispielsweise die folgende Situation bekannt vor? Du musst eine Abschlussarbeit oder eine Hausarbeit schreiben und hast dazu gerade einen wichtigen Gedankenblitz. Die Formulierungen rasen nur so durch deinen Kopf, deine Finger können allerdings gar nicht schnell genug tippen. Und schon hast du dabei den roten Faden verloren … In diesem Fall kann daher die Technik eine wertvolle Hilfe sein, um deine Gedanken festzuhalten.

Sprechen statt tippen – das klingt zu schön, um wahr zu sein! Dabei solltest du den Kosten- sowie den Zeitfaktor jedoch nicht unterschätzen. Zunächst musst du Geld investieren, denn an einer professionellen Software zur Spracherkennung führt kein Weg vorbei. Bevor du mit der Sprachaufzeichnung loslegst, musst du die Software auf deine Sprechgewohnheiten trainieren. Und je nachdem, wie gut das System dich versteht, fällt die Nachbearbeitung mehr oder weniger umfangreich aus.

Spracherkennung studieren

Du willst Spracherkennung nicht nur nutzen, sondern auch an der Weiterentwicklung mitwirken? Im Rahmen eines Informatik- bzw. Technikstudiums mit entsprechendem Schwerpunkt kannst du tiefer eintauchen in das Thema Spracherkennung und Sprachaufzeichnung. Der Studiengang wird häufig als „Computerlinguistik“ bezeichnet und schließt mit dem Bachelor ab.

Über Inhalte und Aufbau des Studiums sowie zukünftige Arbeitsfelder informiert zum Beispiel die Universität Potsdam. Auch im Flyer der Universität Heidelberg erfährst du Wissenswertes über den Studiengang Computerlinguistik und die Forschungsschwerpunkte, ebenso im Informationsblatt der Uni Trier.

Hier findest du eine kleine beispielhafte Aufstellung von Hochschulen, die einen Studiengang zum Thema Spracherkennung anbieten:

Tabelle 1: Universitäten mit thematischem Bezug zur Spracherkennung

Hochschule Studiengang Kontakt
Universität Bielefeld Kognitive Informatik Technische Fakultät
Postfach 10 01 31
33501 BielefeldTel.: +49 (0)521/106-00
E-Mail: post@uni-bielefeld.de
Universität Stuttgart Maschinelle Sprachverarbeitung Studiengangsmanagement
Maschinelle Sprachverarbeitung
Pfaffenwaldring 5b
70569 StuttgartTel.: +49 (0)711/685-81379
E-Mail: studienberatung@ims.uni-stuttgart.de
Eberhard-Karls-Universität Tübingen Computerlinguistik Eberhard Karls Universität Tübingen
Geschwister-Scholl-Platz
72074 TübingenTel: +49 (0)7071/29-0
E-Mail: info@uni-tuebingen.de
Universität Heidelberg Computerlinguistik Institut für Computerlinguistik
Im Neuenheimer Feld 325
69120 HeidelbergTel.: +49 (0)6221/54-3245
E-Mail: icl@cl.uni-heidelberg.de

Zukunft der Spracherkennung und Sprachaufzeichnung

Eine der Herausforderungen bei digitalen Assistenten besteht in der Verbesserung der Spracherkennung sowie der  Sprachverarbeitung. „Da jedes Smartphone mit mindestens einem Mikrofon ausgestattet ist und überdies auch viele andere Geräte mittlerweile über ein Mikrofon verfügen (…), liegt die Frage nahe, ob mit diesen verteilten Mikrofonen nicht eine viel bessere Signalerfassung möglich ist als mit dem einen Gerät, das irgendwo im Raum steht“, erklärt der Sprecher der DFG-Forschungsgruppe „Akustische Sensornetzwerke“, Prof. Dr. Reinhold Häb-Umbach (Häb-Umbach, 2019).

Künstliche Intelligenz steckt bereits jetzt in den verschiedensten Maschinen und Anwendungen wie Smartphones, Computer, Autos, aber auch Industrierobotern und vielen mehr (vgl. Simon 2019, 26). Sie begegnet uns ebenfalls überall im Alltag. Diese Systeme sind zudem auf ein klar umgrenztes Anwendungsgebiet spezialisiert. „Das Ziel der KI-Forschung ist es aber, eine Künstliche Intelligenz zu entwickeln, die wie ein Mensch ein allgemeines Verständnis besitzt und entsprechend anpassungsfähig ist“ (Simon 2019, 35).

Die Entwicklung in Sachen Spracherkennung hat also in den vergangenen Jahren enorme Fortschritte gemacht. Doch nicht alle sehen dem technologischen Wandel mit Begeisterung entgegen. Wie viel Technik ist hilfreich – ab wann wird sie jedoch als Bedrohung wahrgenommen? Somit werden zukünftig sicherlich noch so einige Diskussionen rund um ethische Aspekte geführt werden.

Literatur

Chollet, Francois (2018): Deep Learning mit Python und Keras: Das Praxis-Handbuch vom Entwickler der Keras-Bibliothek, 1. Auflage Frechen.

Häb-Umbach, Reinhold (2019): Akustische Sensornetzwerke: Lektionen für Alexa & Co?!, In: forschung – Das Magazin der Deutschen Forschungsgemeinschaft, Ausgabe 1/2019.

Pfister, Beat / Kaufmann, Tobias (2017): Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, 2. Auflage Berlin.

Simon, Walter (2019): Künstliche Intelligenz: Blick in die digitale Zukunft, 1. Auflage Norderstedt.

Anderen Studenten hat auch das noch gefallen
Autor: