Terugblik Project 162

Tijd-frequentie analyse met het cochleogram

door Rinus Boone (©2004)

Het is al weer enige tijd geleden dat Titia Bakker mij een krantenknipsel toestuurde over het onderzoek van Tjeerd Andringa waarop hij aan de Universiteit van Groningen promoveerde bij prof. Duifhuis. Het ging onder meer over spraakherkenning met een nieuwe analysemethode, gebaseerd op een computermodel van het binnenoor: de cochlea. Titia leek dit wel een aardig onderwerp voor een AES-avond. Bij toeval kwam ik op mijn werk aan de TU in Delft in aanraking met Tjeerd waarbij het ging om een heel ander onderwerp, namelijk het meten van vliegtuiglawaai, maar ook hierbij met de tijd-frequentie analysemethode met het cochleogram. Dit trok onze aandacht. Wij hadden in het verleden al naar verscheidene tijd-frequentie-analyse methoden gekeken, waaronder het spectrogram, de Wigner distributie, de Gabor transformatie en de wavelet transformatie. Het leek ons aardig om die methodes nog eens door een student op een rijtje te laten zetten en te laten vergelijken met deze nieuwe methode. Deze student werd Rolf Hut, die de eerste spreker was tijdens onze avond over dit onderwerp.

Hij liet zeer aanschouwelijk zien en horen wat tijd-frequentie analyse is en waarvoor je het zou willen toepassen. Hij gaf hierbij een overzicht van de bekendste analysemethoden:

Het spectrogram, waarbij steeds korte signaalgedeelten worden afgevensterd en via een Fourierberekening als een amplitudespectrum worden zichtbaar gemaakt.

Hieronder links het spectrogram van twee gelijktijdige sweeps: de ene loopt van 2000 Hertz naar 0 Hertz, de ander juist van 0 Hertz naar 2000 Hertz. Door het afkappen van de signalen in de verschillende tijdvensters treedt spectrale verbreding op die duidelijk zichtbaar is als vertikale strepen. Rechts zien we het spectrogram van hetzelfde signaal, maar nu met een klokvormig venster, waardoor de spectrale verbreding minder is. Een probleem met het spectrogram is dat de tijdresolutie beperkt is, omdat die moet worden afgestemd op de laagste frequenties.

 

De Wignerdistributie, waarbij het signaal zelf als tijdvenster wordt gebruikt. De Wigner distributie geeft een hoge resolutie in tijd en frequentie maar heeft als nadeel dat er interferentie tussen de verschillende frequentiecomponenten optreedt, waardoor het resultaat van audiosignalen met veel frequentiecomponenten (zoals spraak) erg vertroebelt. Dit is bij het voorbeeld van de dubbele sweep al goed te zien.

 

Vervolgens kwam Tjeerd Andringa aan het woord die de basisprincipes van het cochleogram uitlegde. In het middeenoor (de cochlea) functioneert het basilair membraan als een frequentie-analysator, waarbij verschillende frequenties verschillende delen van het basilair membraan laten trillen. Omdat dit membraan een onverbrekelijk geheel vormt is ook de beweging bij verschillende frequenties een aaneengesloten geheel, wat leidt tot zogenaamde continuity preserved signal analysis.

Een typische toepassing van het cochlegram is spraakanalyse. Hieronder het cochleogram van het woord "nul", waarin duidelijk de formanten zijn te herkennen.

Interessante andere toepassingen van het cochleogram zijn het herkennen van geluiden voor beveiligingstoepassingen en de monitoring van bijvoorbeeld vliegtuiglawaai.

Na deze introductie over het cochleogram door Tjeerd Andringa nam Rolf Hut de microfoon en de beamer weer over en toonde enkele interessante toepassingen: het analyseren van reflectogrammen voor seismische toepassingen en het analyseren van impulsresponsies van concertzalen.

Als voorbeeld hieronder een detail van het cochleogram van de pulsresponsie van het Concertgebouw in Amsterdam, zonder publiek, waar een "bijna direct" reflectie van het podium duidelijk zichtbaar is.

Na afloop van de voordrachten ontspon een interessante discussie over de verschillende tijd-frequentie analyse methoden. Met name de fundamentele tijd-frequentie onzekerheidsrelatie (Heisenberg) leidde tot intrigerende vragen over de essenties van het cochleogram. Dit heeft alles te maken met het feit dat de tijdresolutie zich via het model van het basilair membraan automatisch aanpast aan de frequentie: bij lage frequenties is de tijdresolutie lager en bij hoge frequenties hoger. Dergelijke eigenschappen kunnen ook worden toegeschreven aan wavelet analyse, maar het werd wel duidelijk dat ons eigen oor het nog niet zo slecht doet.