Audio-Transkription

Ab dem Basic-Paket gibt es die Option beim kodieren einen Audio-Transkriptions-Algorithmus mitlaufen zu lassen.

Was kann der Transkriptions-Algorithmus leisten?

Der Algorithmus versucht gesprochene Wörter in Text um zu wandeln und Sprechabschnitte im Text in Zeiteinheiten zusammen zu fassen. Am Schluss wird ein Textdokument erstellt, in welcher die Transkription gespeichert wird.

Bild: So sieht das erstellte Text-Dokument im Transkript-Editor aus, noch ohne manuelle Nachbearbeitung.

Was kann der Transkriptions-Algorithmus nicht leisten?

Beim Einsatz einer automatischen Transkription ist es wichtig, keine zu hohen Erwartungen an das Endergebnis zu haben. Obwohl die Spracherkennung immer besser wird, hat der Algorithmus vor allem bei Fachwörtern, undeutlicher Aussprache und geringer Tonqualität Probleme. Und selbst bei einer sehr guten Studioproduktion, bei dem alle Sprecher*innen reines Hochdeutsch reden, kommt es zu Fehlern in der Erkennung. 

Deswegen ist eine Nachbearbeitung des Textes immer notwendig. Eine zu 100% automatisierte Transkription ist im Moment nicht möglich. Doch der Zeitaufwand das automatisch erstellte Textdokument nachzubearbeiten ist immer noch geringer als die Transkription komplett von Hand anzufertigen.

Nachdem das Transkript erstellt wurde kann man es in den Einstellungen der Episode im Reiter "Transkript" abrufen und im Transkript-Editor bearbeiten. Im Editor gibt es die Möglichkeit möglichst einfach kurze Passagen erneut zu hören und direkt den Text an der Stelle zu bearbeiten. Natürlich gibt es auch die Möglichkeit das Transkript als Text-Datei direkt herunter zu laden. Ein herunter geladenes Transkript kann beispielsweise aussehen wie in der folgenden Abbildung.

Kostet die Transkription zusätzlich?

Ja.

Wir berechnen pro transkribierter Minute 0,10€/0,12$. In den Podcast-Einstellungen lässt sich das Feature im Reiter "Medien" ein- oder ausschalten. Wenn die Option der Transkription aktiviert ist, wird sie auf jede neu kodierte Folge angewandt. Bei einer Transkription gibt es keine kostenlose Neu-Kodierung innerhalb von 7 Tagen. Wenn man eine Folge, die transkribiert wurde, noch erneut kodieren möchte, so sollte man dieser Feature zuerst abschalten.

Wozu brauche ich Transkripte?

Ein großer Nachteil von Podcasts im Vergleich zu Text ist die Durchsuchbarkeit. Erst wenn der Podcast zu Text umgewandelt wurde, kann man nach Stichworten suchen. Ein Anwendungsfall für Transkripte wäre also eine Textsuche für alle Podcast-Inhalte. Im Idealfall sind alle Podcasts transkribiert und korrigiert, so dass über alle Folgen hinweg ein bestimmter Begriff gesucht werden kann.

Ein zweiter Anwendungsfall wäre für Personen, die die Sprache im Podcast nicht zu 100% verstehen und mit Hilfe des Transkripts mitlesen können, was im Podcast gesagt wird. Hilfreich für Personen, die gerade eine Sprache lernen oder deren Gehör temporär oder dauerhaft beeinträchtigt ist, trotzdem aber euren Podcast hören wollen.

Ein dritter Anwendungsfall ist für Freund*innen der Statistik interessant: Wie viel haben die verschiedenen Teilnehmer*innen eurer Podcasts gesprochen? Im Idealfall habt ihr ein Transkript, das die Redeanteile einer Person zuordnet (siehe Best Practice). An der Länge der einzelnen Redenanteile lässt sich schnell erkennen, wer wie viel in einer Folge oder über einen ganzen Podcast hinweg gesagt hat.

Es gibt bestimmt noch viel mehr Anwendungsbeispiele, die hier nicht genannt werden. Wir hoffe da aber ganz auf die Kreativität unserer User*innen.

Best Practice

Es gibt ein paar Dinge, die man schon bei der Aufnahme und im Schnitt beachten kann: Möglichst gute Audioqualität, Sprecher*innen sollten nicht zu sehr durcheinander und möglichst deutlich reden. Im Grunde alles Aspekte, die einen guten Podcast generell ausmachen, aber hier im speziellen helfen, dem Algorithmus die Erkennung zu erleichtern.

Beim Hochladen der Folge sollte das Multi-Track-Feature verwendet werden. Also jede*r Sprecher*in hat eine eigene Audio-Spur. In der Multi-Track-Ansicht im Podigee-Dashboard kann man die Spur mit dem Namen gleich versehen, so dass im Transkript später die Redeabschnitt der richtigen Person zugeordnet werden können.

Bild: So sieht das Multi-Track-Interface aus. Es können bis zu 8 Spuren angelegt werden. Jede Spur muss benannt werden, entweder mit einem Eigennamen oder mit einem Kontributor. Kontributoren können zuvor in den Podcast-Einstellungen im Reiter "Leute" angelegt werden.

Wenn das Transkript erstellt ist, sollte man es auf jeden Fall nochmal nachbearbeiten, sonst kann es zu sehr verwirrenden Textpassagen kommen.