In Folge der Digitalisierung verbreitet sich Bewegtbild (Video) immer mehr als zentrale Form von Kommunikation und Wissensvermittlung, im privaten wie im beruflichen Leben. Künstliche Intelligenz (KI / AI) ist inzwischen in der Lage, Videos zu «verstehen» und zu analysieren. Dieser Beitrag zeigt am Beispiel des Video Indexers aus Microsoft Azure, welche Möglichkeiten zur Verfügung stehen und wie sich diese auch ohne Spezialkenntnisse nutzen lassen.

Wo ich früher Anleitungen gelesen habe, schaue ich mir heute häufig ein YouTube-Video an, statt mich über unklare Skizzen aufzuregen. Will ich mir einen ersten Eindruck von einem Produkt verschaffen, schaue ich mir ein «Unboxing»-Video an oder suche Erfahrungsberichte auf YouTube. YouTube ist heute die zweit häufigst genutzte Suchmaschine hinter der Google-Websuche.

YouTube – das neue Google?!?

Mehr als 300 Stunden Videomaterial wird aktuell pro Minute (!) von Anwendern bei YouTube hochgeladen. Unter anderem um solche Mengen an Video zu verarbeiten und Videoinhalte durchsuchbar zu machen, ist Künstliche Intelligenz notwendig. Dank Cloud-Service-Angeboten  lässt sich solche Künstliche Intelligenz heute «sofort» und ohne jegliches Spezialwissen nutzen, um Videos zu analysieren.

Microsoft Azure - Video Analyzer

KI für Nicht-Experten mit Microsoft Azure

Der Video Indexer ist ein Service auf Basis von Microsoft Azure, welcher sich in einer Beta-Phase befindet und aktuell kostenlos für jedermann zur Verfügung steht. Eine kleine Auswahl der Möglichkeiten:

  • Transkript – Audio in Text konvertieren und Untertitel generieren
  • Übersetzung – auf Basis des Transkripts Inhalte von Videos  in unzählige Sprachen übersetzen
  • Sprecher identifizieren – unterschiedliche Sprecher innerhalb eines Videos identifizieren, unterscheiden und jeweilige Sprechzeiten bestimmen
  • Automatische Zusammenfassung einzelner Videoabschnitte generieren
  • Erwähnung von Marken und anderer Schlüsselwörter erkennen
  • Sentiment-Analyse – positive oder negative Stimmung innerhalb des Gesprochenen erkennen
  • Gesichtserkennung – sei es von Prominenten oder im Abgleich mit eigenen Bilddateien

Ich habe mal testweise eines der Videos («Kundenreferenz: saarriva setzt auf Microsoft Dynamics CRM online») aus unserem Data One YouTube-Kanal analysieren lassen.

Microsoft Azure - Video Analyzer - Hochladen eines Videos

Einige schräge Übersetzungen ins Deutsche später (z.B. «In der Nähe» für einen Button, der im Englischen garantiert «Close» heißt, oder «Lautsprecher» für etwas, was im Englischen wohl «Speaker» hieß) und nach wenigen Minuten Wartezeit zur Indexierung des Videos kommen spannende Einsichten.

Microsoft Azure Video Analyzer - Ergebnisse (1)

Insgesamt 7 verschiedene Sprecher hat der Video Analyzer identifiziert – wenn auch keinen davon namentlich. Ich selbst erscheine z.B. für 9,94% der Dauer des Videos – grafisch dargestellt, an welchen Positionen innerhalb des Videos. Auch dass viele Personen einen Anzug tragen, dass sowohl drinnen wie auch draußen gedreht wurde, und dass eine Wand und ein Fenster zu sehen sind, hat der Video Analyzer erkannt.

Microsoft Azure Video Analyzer - Ergebnisse (2)

Das Transkript des Videos ist nicht perfekt (gerade auch beim Eigennamen des Kunden) – auch hier ist zu erkennen, welcher Sprecher was wann sagt und wird ergänzt durch (den Versuch), per OCR auch eingeblendete Textinhalte zu transkribieren.

Weiteres