Košutić, Tomislav

Noise cancellation in automatic lip sync by speech signal analysis = Poništavanje šuma pri automatskoj sinkronizaciji usana pomoću analize govornog signala : master thesis = magistarski rad / Tomislav Košutić ; [mentor Igor S. Pandžić] - Zagreb T. Košutić ; Fakultet elektrotehnike i računarstva, 2011. - x, 96 str. : ilustr. ; 30 cm + CD

Magistarski rad je izrađen na Zavodu za Telekomunikacije Fakulteta elektrotehnike i računarstva, Sveučilišta u Zagrebu

Bibliografija: 87-90. - Kazalo kratica: 91-92. Sažetak na hrv. i eng.

Ovaj rad istražuje tehnike poništavanja šuma s ciljem poboljšanja performansi postojećeg sustava za automatsku sinkronizaciju usana u bučnom okruženju. Automatska sinkronizacija usana je metoda generiranja animacije govora virtualnog lika na temelju zvučnog signala govora. Postupak se sastoji od analize signala govora, mapiranja govora u vizualni skup parametara i sinteze animacije virtualnog lika. Mapiranje signala govora u skup vizualnih parametara ostvaruje se podsustavom za prepoznavanje kodiranog govornog signala. Pozadinska buka u zučnom signalu degradira postupak prepoznavanja kodiranog govornog signala, što rezultira lošijom kvalitetom animacije govora virtualnog lika. U radu su istraženi različiti postupci za poboljšanje zašumljenog zvučnog signala govora. Na temelju istraživanja predložen je odgovarajući algoritam za poništavanje šuma u zvučnom signalu, zasnovan na spektralnoj subtrakciji. Algoritam je implementiran kao nadogradnja postojećeg sustava za automatsku sinkronizaciju usana. Algoritam spektralne subtrakcije efikasno prepoznaje i uspješno poništava šum u stvarnom vremenu. Uz poništavanje šuma dodatnim filtriranjem kodiranog govornog signala pospješuje se prepoznavanje govora u zvučnom signalu. Postojeći podsustav za prepoznavanje kodiranog govornog signala unaprijeđen je korištenjem dinamičkih neuronskih mreža. Rezultat jest kvalitetnija animacija govora virtualnog lika. Implementirani sustav validiran je pomoću različitih metoda za testiranje koje pokazuju otpornost sustava prema različitim razinama buke u zvučnom signalu. Potencijalne primjene sustava za automatsku sinkronizaciju usana izložene su do detalja. Poboljšani sustav za automatsku sinkronizaciju usana neovisan je o govorniku i prikladan za primjenu u stvarnom vremenu. - Ključne riječi: virtualni likovi , automatska sinkronizacija usana, animacija lica, poništavanje šuma u signalu, spektralna subtrakcija, dinamičke neuronske mreže This master thesis investigates noise cancellation techniques in order to enhance the performance of existing automatic lip synchronization system in noisy environments. Automatic lip synchronization is a method for generating virtual character face animation where animation is driven by the speech signal. The method consists of speech signal analysis, audio to visual mapping and face animation synthesis. Speech signal is mapped to visual representations of speech, visemes, by speech feature recognition. The presence of background noise in the speech signal degrades the speech feature recognition and results in poor lip sync animation quality. The thesis investigates different speech signal enhancement methods, proposes and implements algorithms for noise cancellation as part of the enhanced automatic lip synchronization system. Proposed method based on spectral subtraction effectively tracks and cancels the stationary and nonstationary noise in real time. Additional filters applied on speech features improve the recognition accuracy of the speech signal. Existing speech recognition system performance is improved with the use of dynamic neural networks, resulting in overall better lip sync animation quality. Implemented system is validated with several evaluation methods, showing robustness to different noise environments. Potential applications of the system are discussed in details. Enhanced lip synchronization system is speaker independent and suitable for real-time and offline applications. - Keywords: virtual characters, lip synchronization, facial animation, noise cancellation, spectral subtraction, speech signal enhancement, dynamic neural networks

004.934.02 621.391.8

Središnja knjižnica Fakulteta elektrotehnike i računarstva, Unska 3, 10000 Zagreb
tel +385 1 6129 886 | fax +385 1 6129 888 | ferlib@fer.hr