automatische Transkription des Audios (KI-Transkription)

Bei Podigee gibt es die Option beim Kodieren einen Audio-Transkriptions-Algorithmus (KI) mitlaufen zu lassen.
Dieses Transkript speichern wir einmal als JSON und einmal als VTT Datei auf unseren Servern ab. Die URLs zu den Dateien werden als Link Tag via <podcast:transcript> in deinem RSS Feed ausgewiesen.

Was kann der Transkriptions-Algorithmus leisten?

Der Algorithmus versucht gesprochene Wörter in Text umzuwandeln und Sprechabschnitte im Text in Zeiteinheiten zusammen zu fassen. 

Nachdem das Transkript erstellt wurde, kann man es in den Einstellungen der Episode im Reiter "Transkript" abrufen und im Transkript-Editor bearbeiten. So sieht das erstellte Text-Dokument im Transkript-Editor aus, noch ohne manuelle Nachbearbeitung:

Im Editor gibt es die Möglichkeit einfach kurze Passagen erneut zu hören und direkt den Text an der Stelle zu bearbeiten, sonst kann es nämlich auch mal zu verwirrenden Textpassagen kommen.

Ebenfalls hast du auch die Möglichkeit im Editor das Transkript als Text-Datei direkt herunter zu laden. Ein herunter geladenes Transkript kann beispielsweise aussehen wie in der folgenden Abbildung.

Was kann der Transkriptions-Algorithmus nicht leisten?

Beim Einsatz einer automatischen Transkription ist es wichtig, keine zu hohen Erwartungen an das Endergebnis zu haben. Obwohl die Spracherkennung immer besser wird, hat der Algorithmus vor allem bei Fachwörtern, undeutlicher Aussprache und geringer Tonqualität Probleme. Und selbst bei einer sehr guten Studioproduktion, bei dem alle Sprecher*innen reines Hochdeutsch reden, kann es zu Fehlern in der Erkennung kommen. 

Deswegen ist eine Nachbearbeitung des Textes immer notwendig. Eine zu 100% automatisierte Transkription ist im Moment nicht möglich. Doch der Zeitaufwand das automatisch erstellte Textdokument nachzubearbeiten ist immer noch geringer als die Transkription komplett von Hand anzufertigen.

Kostet die Transkription zusätzlich und wie aktiviere ich sie?

Ja, bei dem Advanced Plus Plan | Nein, bei dem Business Pro Plan ist dieses Feature kostenfrei 

Wir berechnen pro transkribierter Minute 0,10€/0,12$. Eine separate Rechnung wird dazu erstellt. In den Podcast-Einstellungen lässt sich das Feature auf der Ebene der Episodeneinstellungen ein- oder ausschalten. Unter dem Reiter "Medien-Datei" kannst du entweder bei dem Veröffentlichungs-Button in dem Pop-up Fenster bei "Erweiterte Optionen" ein Häkchen in der Checkbox  Automatisches Transkript setzen und auch ein Häkchen bei Als Standardeinstellungen speichern, wenn du diese Einstellungen für jede weitere Episode nutzen möchtest. Bei bereits veröffentlichten Episoden kannst du auch auf "Audiodatei aktualisieren" klicken und dann das Transkript ebenfalls im Pop-up Fenster unter "Erweiterte Einstellungen" auswählen. Dann auf Speichern klicken und die Audiodatei wird neu kodiert und ein Transkript erstellt. 

Bitte beachte: Wenn die Option der Transkription aktiviert ist, wird sie auf jede neu kodierte Episode angewandt. Bei einer Transkription gibt es keine kostenlose Neu-Kodierung innerhalb von 7 Tagen. Wenn man eine Episode, die transkribiert wurde, noch erneut kodieren möchte, so sollte man dieser Feature zuerst abschalten.

Vor der Veröffentlichung und als Standardeinstellung:

Nach der Veröffentlichung:

Wie sieht das Transkript in dem Web-player und dem Podigee Blog aus?

Podigee Web-player:

Podigee Blogseite der Episode, mit Sprecher:

ohne Sprecher:


Wozu brauche ich Transkripte?

Ein großer Nachteil von Podcasts im Vergleich zu Text ist die Durchsuchbarkeit. Erst wenn der Podcast zu Text umgewandelt wurde, kann man nach Stichworten suchen. Ein Anwendungsfall für Transkripte wäre also eine Textsuche für alle Podcast-Inhalte. Im Idealfall sind alle Podcasts transkribiert und korrigiert, so dass über alle Episoden hinweg ein bestimmter Begriff gesucht werden kann.

Ein zweiter Anwendungsfall wäre für Personen, die die Sprache im Podcast nicht zu 100% verstehen und mit Hilfe des Transkripts mitlesen können, was im Podcast gesagt wird. Hilfreich für Personen, die gerade eine Sprache lernen oder deren Gehör temporär oder dauerhaft beeinträchtigt ist, trotzdem aber euren Podcast hören wollen.

Ein dritter Anwendungsfall ist für Freund*innen der Statistik interessant: Wie viel haben die verschiedenen Teilnehmer*innen eurer Podcasts gesprochen? Im Idealfall habt ihr ein Transkript, das die Redeanteile einer Person zuordnet (siehe Best Practice). An der Länge der einzelnen Redeanteile lässt sich schnell erkennen, wer wie viel in einer Episode oder über einen ganzen Podcast hinweg gesagt hat.

Es gibt bestimmt noch viel mehr Anwendungsbeispiele, die hier nicht genannt werden. Wir hoffen da aber ganz auf die Kreativität unserer User*innen.


Best Practice

Es gibt ein paar Dinge, die man schon bei der Aufnahme und im Schnitt beachten kann: Möglichst gute Audioqualität, Sprecher*innen sollten nicht zu sehr durcheinander und möglichst deutlich reden. Im Grunde alles Aspekte, die einen guten Podcast generell ausmachen, aber hier im speziellen helfen, dem Algorithmus die Erkennung zu erleichtern.