Reiner Bamberger defended his Master's thesis on 'Voice Activity Detection in Speaker Recognition'

Sprachaktivitätserkennung in der Sprechererkennung

Sprachaktivitätserkennung kann einen deutlichen Beitrag zur Verbesserung von Sprechererkennungssytemen leisten und wird auch in der Kompression von Audiodaten und der Spracherkennung verwendet. Als Vorverarbeitungsschritt wird dies durch die Aufteilung der Sprachaufnahme in Sprache- und Nichtsprache-Frames gewährleistet. Somit können Speicherplatz und Berechnungszeiten eingespart, sowie ggf. bessere biometrische Referenzen erstellt werden. Für Sprechererkennungssysteme bedeutet dies auch, dass störende Einflüsse wie Stille vor dem Prozess der Merkmalsextraktion herausgefiltert werden können und sich eine Implementierung von Problembehandlungen für die spezifischen Anwendungsfelder somit erübrigt. Aufgrund der Vielzahl möglicher Störungen und Merkmale von Sprache existieren eine Vielzahl von Sprachaktivitätserkennungssystemen mit unterschiedlichen Ansätzen. Ein Teil dieser wird im Folgenden erläutert und in Szenarien mit Störungen in unterschiedlichem Schwierigkeitsgrad getestet. Als Basis hierzu wird die Mobio Datenbank der sechsten International Conference on Biometrics verwendet. Hierbei wird auch parallel das unterschiedliche Verhalten der Sprachaktivitätserkennungsalgorithmen ausgewertet. Somit kann ein Eindruck von den Resultaten bestimmter Entscheidungsmuster gewonnen werden.

Mit Hilfe einfacher, performanter Techniken wird ein Ansatz zur Verbesserung bestehender Algorithmen unter schwierigen Bedingungen vorgestellt. Weiterhin wird eine Kombination der untersuchten Algorithmen getestet und geprüft, ob diese eine Verbesserung gegenüber den einzelnen Ansätzen darstellt.

Voice Activity Detection in Speaker Recognition

Voice actitvity detection can afford a significant improvement for speaker recognition systems and is also used in the compression of audio data and speaker recognition. As pre-processing in the systems, this will be ensured through the segmentation of voice records in voiced and unvoiced frames. Thus, memory and calculation time can be saved, as well as more accurate biometric references are formed. For speaker recognition systems, this means also that disturbing influences can be cut out before feature extraction and therefore, in this task an implementation of troubleshooters for specific fields is unnecessary. Due to the large number of possible noises and characteristics of human voice a variety of voice activity detection systems exist with different approaches. A selection of these will be described and tested in scenarios with added noises in differents Signal-to-Noise Ratios. As a speech corpus for this purpose the Mobio database of the sixth International Conference on Biometrics is used. Herby the different behavior of the voice activity detection algorithms is also evaluated in parallel. Thus, an impression can be gained from the results of certain decision-making strategies. With the use of simple, performant techniques, an approach to improve existing algorithms will be presented under specific conditions. Furthermore, a combination of the studied algorithms is tested and verified whether this represents an improvement over the individual approaches.