Normal view MARC view ISBD view

Percepcijska utemeljenost kepstralnih mjera udaljenosti za primjene u obradi govora : magistarski rad / Antonio Vasilijević ; [mentor Davor Petrinović]

By: Vasilijević, Antonio.
Contributor(s): Petrinović, Davor [ths].
Material type: TextTextPublisher: Zagreb : A. Vasilijević ; Fakultet elektrotehnike i računarstva, 2008Description: iv, 79 str. : graf.prikazi ; 30 cm + CD.Summary: Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera Euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeficijenata zasniva se na filtarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel filtarskog sloga utvrdili smo da filtar sa 24 pojasa, širine 220 mel-a i faktorom preklapanja filtra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel filtarski slog granica čujnosti razlike između glasova je 0.4 – 0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je korištenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeficijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj aliasing-a u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj aliasing-a generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj aliasing-a prisutan, te su one posebno analizirane. Ključne riječi: obrada govora, prepoznavanje govora, MFCC, mel kepstar, aliasing, SD mjera, homomorfna analiza, LSF parametri, LPC parametri Summary: Currently, one of the most widely used distances in speech and speaker recognition is the Euclidean distance between MFCCs. Mel frequency cepstral coefficients are based on filter bank algorithm whose filters are equally spaced on a perceptually motivated mel frequency scale. The value of Mel cepstral vector, as well as the characteristics of cepstral distance, is determined by a number of parameters used in Mel cepstral analysis. The topic of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing Mel filter bank parameters it is found that filter bank with 24 bands, 220 mels bandwidth and band overlap coefficient equal and higher than one gives optimal SD distance measures. For this kind of Mel filter bank, difference between vowels can be recognised for full-length Mel cepstral SD RMS measure higher than 0.4 – 0.5 dB. Further on, it will be shown that usage of short Mel cepstral vector (12 coefficients) is justified for speech recognition, but arguable for speaker recognition. We analysed the impact of aliasing in cepstral domaine on cepstral distortion measures. The results have shown high correlation of SD distances calculated from aperiodic and periodic Mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and they were also analysed. Keywords: digital speech processing, speech recognition, MFCC, Mel cepstrum, aliasing, SD measure, homomorphic analysis, LSF parameters, LPC parameters.
Tags from this library: No tags from this library for this title. Log in to add tags.
Item type Current location Call number Vol info Copy number Status Date due Barcode Item holds
Knjiga Knjiga Središnja knjižnica
KF
KF-4231 004.934 VASIL per 26395 Available 0000000769822
Knjiga Knjiga Središnja knjižnica
KF-4231 004.934 VASIL per 26395/cd 4 0000000769815
Total holds: 0

Bibliografija str. 72-75

Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera Euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeficijenata zasniva se na filtarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu.
Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel filtarskog sloga utvrdili smo da filtar sa 24 pojasa, širine 220 mel-a i faktorom preklapanja filtra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel filtarski slog granica čujnosti razlike između glasova je 0.4 – 0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je korištenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeficijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj aliasing-a u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj aliasing-a generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj aliasing-a prisutan, te su one posebno analizirane.
Ključne riječi: obrada govora, prepoznavanje govora, MFCC, mel kepstar, aliasing, SD mjera, homomorfna analiza, LSF parametri, LPC parametri

Currently, one of the most widely used distances in speech and speaker recognition is the Euclidean distance between MFCCs. Mel frequency cepstral coefficients are based on filter bank algorithm whose filters are equally spaced on a perceptually motivated mel frequency scale. The value of Mel cepstral vector, as well as the characteristics of cepstral distance, is determined by a number of parameters used in Mel cepstral analysis.
The topic of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing Mel filter bank parameters it is found that filter bank with 24 bands, 220 mels bandwidth and band overlap coefficient equal and higher than one gives optimal SD distance measures. For this kind of Mel filter bank, difference between vowels can be recognised for full-length Mel cepstral SD RMS measure higher than 0.4 – 0.5 dB. Further on, it will be shown that usage of short Mel cepstral vector (12 coefficients) is justified for speech recognition, but arguable for speaker recognition. We analysed the impact of aliasing in cepstral domaine on cepstral distortion measures. The results have shown high correlation of SD distances calculated from aperiodic and periodic Mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and they were also analysed.
Keywords: digital speech processing, speech recognition, MFCC, Mel cepstrum, aliasing, SD measure, homomorphic analysis, LSF parameters, LPC parameters.

There are no comments for this item.

Log in to your account to post a comment.

Središnja knjižnica Fakulteta elektrotehnike i računarstva, Unska 3, 10000 Zagreb
tel +385 1 6129 886 | fax +385 1 6129 888 | ferlib@fer.hr