Terugblik Project 158

Music retrieval & classification

door Daniël Schobben (©2003)

Op 18 november 2003 waren ruim 20 leden en introducés te gast bij het Philips natuurkundig laboratorium (Nat.Lab.) te Eindhoven. De avond stond in het teken van het automatisch classificeren en eenvoudig toegankelijk maken van audio.

De eerste spreker is Steffen Pauws (Philips Nat.Lab.) met als onderwerp 'Query by humming'. Deze technologie maakt het mogelijk om een systeem een lied uit een collectie te laten terugvinden door enkel en alleen een gedeelte van de melodie te zingen dat je je herinnert van het lied. Uit onderzoek blijkt dat slechts 8% van de mensen de titel van een bekend nummer kan noemen aan de hand van de melodie. Aan de hand van de tekst is 21% hiertoe in staat. Vaak wordt een melodie echter wel onthouden zodat 'Query by humming' een interessante optie is.

Een belangrijke vraag is echter; hoe goed kunnen mensen zingen? Overwegend kunnen mensen vaak wel het tempo redelijk goed aanhouden. De toonhoogte klopt echter meestal niet en ook de timing is vaak slecht. Dit werd geïllustreerd met enige zangfragmenten welke dan ook nogal wat gelach opwekten bij het publiek.

Steffen legt uit hoe hij bij 'query by humming' een transcriptie maakt van zang naar een soort midi-file welke dan wordt vergeleken met een database van midi-files van nummers. Speciale aandacht wordt besteed aan het bepalen van toonhoogte en de detectie van onsets. Een snelle zoekmethode wordt beschreven welke de zoektijd in de database reduceert tot ruwweg een seconde. Ter afsluiting wordt het systeem gedemonsteerd waarbij automatisch nummers worden gespeeld nadat Steffen ze in de microfoon geneuried heeft.

 

Na de pauze verteld Jeroen Breebaart (Philips Nat.Lab.) over automatische muziek classificatie. Jeroen rekent voor dat op een 200GB harddisk ongeveer een jaar lang non-stop muziek past van een redelijke kwaliteit. Verder is er een trend dat draagbare audio spelers steeds kleiner worden zodat er een steeds kleiner display beschikbaar is waarmee een gebruiker door zijn enorme muziekcollectie moet navigeren. Er is dus duidelijk een sterke behoefte aan nieuwe user interfaces.

Hiervoor is beschrijvende data ofwel metadata nodig. Deze metadata kan met de hand worden ingevoerd hetgeen erg veel werk is. Het kan ook uit een database worden betrokken hetgeen vaak onnauwkeurig is zoals ook uit een aantal voorbeelden blijkt. Een alternatieve methode is automatische muziekclassificatie waarvoor geen database, handwerk of internet verbinding nodig is.

Het automatisch muziek classificatiesysteem dat wordt uitgelegd is getraind met zo'n 80 uur audio die voor deze training met de hand van labels is voorzien zoals 'pop', 'classiek', 'achtergrondruis', etc. De verschillen tussen deze classes worden gevonden aan de hand van de onderlinge afhankelijkheid van een aantal features als functie van de tijd. Deze features hebben te maken met bijvoorbeeld pitch (toonhoogte) of nuldoorgangen van het muzieksignaal. Door het systeem te baseren op een psychoakoestisch model worden relevante resultaten gevonden.

Uit onderzoek blijkt dat mensen audio catagoriseren met beperkte nauwkeurigheid van 70%. Met automatische muziek classificatie worden vergelijkbare resultaten behaald. Over sommige nummers zal echter altijd onenigheid blijven bestaan; wat voor de een jazz is, is voor de ander blues. Een aardige eigenschap is dat ook automatisch muziek kan worden gesuggereerd die sterk lijkt op een gekozen nummer. Dit kan bijvoorbeeld worden geprobeerd op http://www.playola.org. Hoewel het soms mis gaat worden vaak aardige resultaten gevonden. Verdere verbeteringen voor video materiaal kunnen worden gehaald door zowel audio als video te analyseren. Zo kunnen bijvoorbeeld reclameblokken worden gevonden. De resultaten werden middels een aantal demonstraties geïllustreerd. De interactie met het publiek kreeg naar het einde toe een brainstorm karakter waarbij allerlei mogelijke toepassingen werden genoemd.