Automatische Indizierung von Audio Content jeder Art

Grundkonzept - Um Musik – oder auch jedes andere Tonsignal – zu identifizieren, wird daraus ein kompakter und einzigartiger Datensatz extrahiert, die so genannte Signatur. In einer Einlernphase werden von bekanntem Tonmaterial derartige Signaturen erstellt und in einer Datenbank abgelegt.

Danach kann ein beliebiger Ausschnitt von diesem Tonmaterial erkannt werden, indem dessen Signatur mit denen in der Datenbank verglichen wird.

Zuverlässigkeit des Systems

Um diese zu bewerten wurden die verwendeten Musikstücke verschiedensten Manipulationen unterworfen, welche die Signalqualität beeinflussen, wie z. B. Ver- und Entzerrung, akustische Übertragung oder MP3-Codierung.

Ähnlich dem menschlichen Erkennungsvermögen, das auch bei geringer Signalqualität erstaunlich hoch ist, zeigte sich das AudioID-System sogar gegenüber starken akustischen Verzerrungen resistent.

Dabei lag die erreichte Erkennungsrate normalerweise bei über 99 Prozent. Zur Erkennung waren lediglich rund 10 Prozent der Rechenleistung eines Standard-Computers mit 800 MHz nötig. Broadcast Monitoring mit acht bis 16 Radiokanälen ist so problemlos auf einem 2-GHz-PC möglich.

AudioID & MPEG-7 Audio

Das Verfahren der AudioID-Signatur-Extraktion ist im neuen MPEG-7-Audio-Standard (ISO/IEC International Standard 15938-4: »Multimedia content description interface – part 4: Audio«) festgelegt. Dies bringt eine Reihe von Vorteilen offener Standards mit sich:

Die Identifikation beruht auf einer nicht-proprietären Lösung.
Signaturen, die auf MPEG-7 basieren, werden zukünftig als Teil eines Standard-Metadaten-Pakets produziert, das zur nächsten Generation von Medienformaten gehören wird.

Durch die exakt standardisierte Spezifikation der Signatur ist weltweite Kompatibilität gewährleistet. So kann zum Beispiel jede Suchmaschine, die auch MPEG-7-basiert sucht, kompatible Beschreibungen nutzen, egal wo sie generiert wurden.

Eine weitere einzigartige Eigenschaft der AudioID-Signaturen ist ihre Skalierbarkeit, d. h. sie erlauben einen flexiblen Kompromiss zwischen der Kompaktheit der Signatur und der Mindestlänge der für die Erkennung nötigen Musiksequenzen.