Dialekt Erkennung

Die Umwandlung von Sprache in Text ist der Prozess der automatischen Umwandlung von gesprochenen Wörtern in geschriebene Texte. Alle Speech-to-Text-Systeme stützen sich auf mindestens zwei Modelle: ein akustisches Modell und ein Sprachmodell. Bei Systemen mit großem Wortschatz wird zusätzlich ein Aussprachemodell verwendet.

Um die beste Transkriptionsqualität zu erzielen, können alle diese Modelle für eine bestimmte Sprache, einen bestimmten Dialekt, eine bestimmte Art von Sprache und einen bestimmten Kommunikationskanal trainiert werden.

Die Genauigkeit der Sprachtranskription hängt aber in hohem Maße vom Sprecher, dem Sprachstil und den Umgebungsbedingungen ab.

Die größte Herausforderung ist jedoch die Erkennung von Dialekten - denn nur wenn dies möglich ist, können automatisch generierte Transkripte und Untertitel nahezu fehlerfrei sein.

Im Rahmen des STADIEM Programms hat sich aiconix zum Ziel gesetzt, die automatische Erkennung von österreichischen Dialekten in audiovisuellen Medien zu verbessern. Zu diesem Zweck trainiert das Unternehmen ein Sprachmodell, das auf die Erkennung von österreichischen Dialekten spezialisiert ist. Der Schwerpunkt des Projekts liegt auf der Erkennung von "Wiener-Standard-Deutsch", gefolgt von anderen österreichischen Dialekten und der Erkennung von anderen Dialekten innerhalb Europas.

Entscheidend für den Erfolg des Projekts sind die Daten, die dem Start-up zum Training des Sprachmodells zur Verfügung stehen. Zu diesem Zweck arbeitete aiconix eng mit österreichischen Partnern wie dem Österreichischen Parlament, dem Österreichischen Fernsehen (ORF), der Austria Presse Agentur (APA) und Russmedia zusammen.
Sie alle unterstützen das Unternehmen mit Daten wie Video- und Audio-Datein sowie passenden handgeschriebenen Transkripten, die Inhalte mit starkem Dialekt aufweisen. Die Sammlung dieser Trainingsdaten ist bereits ein großer Erfolg für aiconix und bildet einen wesentlichen Grundstein für das Training eines Dialekt-Sprachmodells.

In der Entwicklungsphase des Projekts konzentrierte sich das aiconix-Entwicklungsteam auf das Training des Sprachmodells mit den vorhandenen Daten. Ziel ist es, die Fehlerquote in automatisch generierten Transkripten zu reduzieren. Am Ende des Projekts werden die Partner das entwickelte Dialektmodell für die automatische Transkription und Untertitelung von audiovisuellen Inhalten einsetzen. Dies soll zu Kosten- und Zeiteinsparungen für die Partner führen. Darüber hinaus soll dem Zielpublikum die digitale Zugänglichkeit zu den Inhalten der jeweiligen Partner garantiert werden.

In Österreich leben rund 450.000 Menschen mit einer dauerhaften Hörbeeinträchtigung. Ohne Untertitel können sie Videoinhalte nur sehr schwer nachvollziehen. Vor allem im Informationsbereich ist es wichtig, dass ein Großteil der Bevölkerung den übermittelten Content versteht. Indem der ORF seine wichtigsten Nachrichtensendungen mit Live-Untertiteln ausstattet, nimmt er hier eine wichtige Rolle bei der Informationsverbreitung ein. Besonders in Krisenzeiten ist das ein wesentliches Asset und am österreichischen Medienmarkt fast ein Alleinstellungsmerkmal.

Lisa Zuckerstätter, Head of "Access Services" at ORF

Mehr dazu

"Die Parlamentsdirektion fördert die gleichberechtigte und selbstbestimmte Teilhabe an der Demokratie. Das ist aber nur möglich, wenn Barrieren abgebaut werden. Automatisierte Spracherkennung und andere moderne Technologien können dabei helfen."

Tatjana Novakovic

Barrierefreiheitsbeauftragte

"Die Zusammenarbeit zwischen ORF und aiconix läuft reibungslos und zielgerichtet."

Lisa Zuckerstätter

Head of "Access Services"

"Die Zusammenarbeit mit aiconix im Projekt „Stadiem“ stellt für die APA - Austria Presse Agentur einen wichtigen Meilenstein in der Weiterentwicklung ihrer Media Intelligence Services dar. APA nützt für die Beobachtung von audiovisuellen Medien (Radio, TV, Podcasts, Web-TV) Speech-2-Text Technologie. Je besser diese Technologie und das Sprachmodell für den österreichischen Medienmarkt individualisiert ist, desto höher ist der Nutzen. Darüber hinaus ergeben sich mit Qualitätssprüngen im Sprachmodell auch weitere Anwendungsgebiete für die Nutzung in der Kernzielgruppe der Medieneigentümer der APA sowie darüberhinausgehend."

Klemens Ganner

CEO APA-DeFacto GmbH

"Russmedia sieht einen erhöhten Bedarf an Dialekterkennung. Dadurch können Inhalte einem größeren Zielpublikum zugänglich gemacht und eine höhere Reichweite erzielt werden. Außerdem ermöglicht sie einen barrierefreien Zugang zu den produzierten Inhalten und bietet einen USP im Vergleich zu anderen Sendern."

Georg Burtscher

CEO

Speech-to-Text mit Dialekt Erkennung

Dieses Projekt wurde indirekt durch das Rahmenprogramm Horizont 2020 der Europäischen Kommission über das Projekt STADIEM (Grant Agreement 957321) gefördert.

Zitate unserer Partner

Möchten Sie mehr über unsere Lösungen für audiovisuelle Inhalte erfahren, z.B. wie die Transkription von Live-Veranstaltungen funktioniert oder wie Sie Ihre Inhalte auffindbar, durchsuchbar und verwertbar machen können?

Melden Sie sich gerne bei uns!