Neue Google-KI: Technik unterscheidet zwischen verschiedenen Stimmen

Eine neue Erfindung kann zukünftig nicht nur für Smart Speaker von Interesse sein. Die Rede ist von einer neuen Google-KI, die Stimmen voneinander unterscheiden kann.

Ralf 17. April 2018

0 2 Minuten zu lesen

Mit Hilfe einer neuen Analyse-KI aus dem Hause Google soll es Geräten und Systemen in der Zukunft möglich sein, einzelne Stimmen aus einem Raum oder einem Gespräch “herauszufiltern” und sich auf diese zu konzentrieren. Die KI soll damit das beherrschen, was den Menschen schon in die Wiege gelegt wurde.

Forscher orientieren sich am Menschen

Im Fachjargon spricht man von einem “Cocktail-Party-Effekt”. Das ist die Fähigkeit des menschlichen Gehörs und Gehirns, sich selbst in einer lauten Umgebung mit mehreren Stimmen auf lediglich eine dieser Stimmen zu konzentrieren. Weitere Geräusche, beispielsweise aus dem Hintergrund oder durch ein Stimmgewirr anderer Personen, werden automatisch gefiltert, um die benötigte Schallquelle noch präziser hören zu können.

Diese Eigenschaft, die auch im Tierreich zu finden ist, nahmen sich die Forscher zum Vorbild und nutzten ein Deep-Learning-Verfahren inklusive einem auf die Bildanalyse ausgerichteten neuronalen Netz, um auch der KI (künstlichen Intelligenz) diese Eigenschaft “anzulernen”. Für die KI ist es nämlich notwendig, eine Brücke zwischen den audiovisuellen Informationen zu schlagen, indem sowohl Video- als auch Audiodaten zur Auswertung herangezogen werden. Nur so ist es dieser möglich, die Schallquelle zu identifizieren und separat zu filtern.

Aus technischer Sicht funktioniert das mit Hilfe von Spektrogrammen, welche dazu dienen, einen bestimmten Klang auf grafische Art und Weise darzustellen. Passend dazu erfolgt eine Zuordnung zu Gesichtern. Damit soll es unter anderem möglich werden, aus einem Video mit Stimmgewirr eine Person auszuwählen, deren Töne man deutlicher hören möchte.

Viele Stunden Training flossen in die KI

Da es sich hierbei um eine künstliche Intelligenz handelt, ist auch zwingend notwendig, dass diese den Prozess eigenmächtig erlernt. Die Forscher zeigen dem System lediglich auf, wie es lernen soll, die “harte Arbeit” wird dann aber der KI selber zu Teil. So geben Google an, dass die KI mit mehr als 2.000 Stunden Audiomaterial versorgt wurde, in dem Menschen gut erkennbar in eine Kamera sprechen. Extrahiert wurde das Material aus etwa 100.000 YouTube-Vorträgen und einzelnen Gesprächen, danach wurden die Quellen gewissermaßen zu einer “künstlichen Cocktailparty” abgemischt. Hintergrundgeräusche wurden separat hinzugefügt, um die Präzision der KI weiter zu schulen.

Geht es nach Google, gibt es zahlreiche Anwendungen für diese neue KI. So könnte sie genutzt werden, um die Spracherkennung von Sprachassistenten noch einmal deutlich zu verbessern oder aber automatisch Untertitel zu erstellen. Mitunter ist es sogar denkbar größere Datenbanken, wie beispielsweise YouTube, so nach einzelnen gesprochen Wörtern und Sätzen zu durchforsten.

Schlagwörter

Ralf 17. April 2018

0 2 Minuten zu lesen

Barry
Hey Ralf, Do you have a supplier that I could purchase the D...
Ich
Keine klare Kaufempfehlung. Haben sie und sind mehr enttäusc...
Lars
Hallo, jemand hat cleverer weise ein Netzteil an der Klinken...
klaus
Kann man mit der Refoss P11 auch die Einspeise-Leistung mess...
Kristina Perisic
Guten Abend, Ich habe leider den Stecker, in den die Ohren f...

Neue Google-KI: Technik unterscheidet zwischen verschiedenen Stimmen

Eine neue Erfindung kann zukünftig nicht nur für Smart Speaker von Interesse sein. Die Rede ist von einer neuen Google-KI, die Stimmen voneinander unterscheiden kann.

Forscher orientieren sich am Menschen

Viele Stunden Training flossen in die KI

Ralf

Schreibe einen Kommentar Antwort abbrechen

Dreame L10s Ultra im Test – Saugroboter der Spitzenklasse

Shark HydroVac WD210EU im Test: Kraftvoller Wischsauger für gründliche Reinigung

Der Shark Stratos IZ420EUT Akku-Staubsauger mit Auto IQ im Test

Dreame H12 Pro Wischsauger Test – Der beste Wischsauger auf dem Markt?

Amazon Alexa Text to Speech (TTS) übers Smart Home nutzen

Alexa Text-to-Speech (TTS) über Fibaro Zentrale nutzen

Samsung Smart TV PVR Funktion aktivieren –ᐅ Tutorial zur Aktivierung der PVR Aufnahmefunktion und Timeshift

Toniebox reparieren – Do it yourself

Installation eines Raspberry Pi mit einem Webserver inkl. Php, MySQL & FTP

Fibaro & ioBroker Teil 1: Wie bekommt Ihr Geräte & Daten vom ioBroker in Euer Fibaro Home Center?

Forscher orientieren sich am Menschen

Viele Stunden Training flossen in die KI

Ralf

Apple verspricht: Siri soll bald keine versteckten Nachrichten mehr vorlesen

WLAN Steckdose für Alexa & Google Home - 46 % Rabatt

Ähnliche Artikel

Saubere Böden, Frohe Feiertage: Eine Übersicht von Ecovacs aktuellem Portfolio

Amazon Haul Beta startet in Deutschland – Schnäppchen-Portal unter 20 € geht live

Warum Blockchainwelt.de die beste Ressource für Updates zur Blockchain-Technologie ist

Überraschende Neuigkeiten! Redkey R10 Saugroboter mit Absaugstation für nur 204,99€

Schreibe einen Kommentar Antwort abbrechen

Dreame L10s Ultra im Test – Saugroboter der Spitzenklasse

Shark HydroVac WD210EU im Test: Kraftvoller Wischsauger für gründliche Reinigung

Der Shark Stratos IZ420EUT Akku-Staubsauger mit Auto IQ im Test

Dreame H12 Pro Wischsauger Test – Der beste Wischsauger auf dem Markt?

Amazon Alexa Text to Speech (TTS) übers Smart Home nutzen

Alexa Text-to-Speech (TTS) über Fibaro Zentrale nutzen

Samsung Smart TV PVR Funktion aktivieren –ᐅ Tutorial zur Aktivierung der PVR Aufnahmefunktion und Timeshift

Toniebox reparieren – Do it yourself

Installation eines Raspberry Pi mit einem Webserver inkl. Php, MySQL & FTP

Fibaro & ioBroker Teil 1: Wie bekommt Ihr Geräte & Daten vom ioBroker in Euer Fibaro Home Center?

Amazon Haul Beta startet in Deutschland – Schnäppchen-Portal unter 20 € geht live