Mit Hilfe einer neuen Analyse-KI aus dem Hause Google soll es Geräten und Systemen in der Zukunft möglich sein, einzelne Stimmen aus einem Raum oder einem Gespräch “herauszufiltern” und sich auf diese zu konzentrieren. Die KI soll damit das beherrschen, was den Menschen schon in die Wiege gelegt wurde.
Forscher orientieren sich am Menschen
Im Fachjargon spricht man von einem “Cocktail-Party-Effekt”. Das ist die Fähigkeit des menschlichen Gehörs und Gehirns, sich selbst in einer lauten Umgebung mit mehreren Stimmen auf lediglich eine dieser Stimmen zu konzentrieren. Weitere Geräusche, beispielsweise aus dem Hintergrund oder durch ein Stimmgewirr anderer Personen, werden automatisch gefiltert, um die benötigte Schallquelle noch präziser hören zu können.
Diese Eigenschaft, die auch im Tierreich zu finden ist, nahmen sich die Forscher zum Vorbild und nutzten ein Deep-Learning-Verfahren inklusive einem auf die Bildanalyse ausgerichteten neuronalen Netz, um auch der KI (künstlichen Intelligenz) diese Eigenschaft “anzulernen”. Für die KI ist es nämlich notwendig, eine Brücke zwischen den audiovisuellen Informationen zu schlagen, indem sowohl Video- als auch Audiodaten zur Auswertung herangezogen werden. Nur so ist es dieser möglich, die Schallquelle zu identifizieren und separat zu filtern.
Aus technischer Sicht funktioniert das mit Hilfe von Spektrogrammen, welche dazu dienen, einen bestimmten Klang auf grafische Art und Weise darzustellen. Passend dazu erfolgt eine Zuordnung zu Gesichtern. Damit soll es unter anderem möglich werden, aus einem Video mit Stimmgewirr eine Person auszuwählen, deren Töne man deutlicher hören möchte.
Viele Stunden Training flossen in die KI
Da es sich hierbei um eine künstliche Intelligenz handelt, ist auch zwingend notwendig, dass diese den Prozess eigenmächtig erlernt. Die Forscher zeigen dem System lediglich auf, wie es lernen soll, die “harte Arbeit” wird dann aber der KI selber zu Teil. So geben Google an, dass die KI mit mehr als 2.000 Stunden Audiomaterial versorgt wurde, in dem Menschen gut erkennbar in eine Kamera sprechen. Extrahiert wurde das Material aus etwa 100.000 YouTube-Vorträgen und einzelnen Gesprächen, danach wurden die Quellen gewissermaßen zu einer “künstlichen Cocktailparty” abgemischt. Hintergrundgeräusche wurden separat hinzugefügt, um die Präzision der KI weiter zu schulen.
Geht es nach Google, gibt es zahlreiche Anwendungen für diese neue KI. So könnte sie genutzt werden, um die Spracherkennung von Sprachassistenten noch einmal deutlich zu verbessern oder aber automatisch Untertitel zu erstellen. Mitunter ist es sogar denkbar größere Datenbanken, wie beispielsweise YouTube, so nach einzelnen gesprochen Wörtern und Sätzen zu durchforsten.