Скрытые марковские модели в системах распознования речи

  • 15 июня 2010 г.
  • 2568 Слова
Оглавление:
Введение. 3
Определение СММ. 7
3 задачи СММ 10
1 задача 10
Решение 10
Алгоритм прямого хода 12
Алгоритм обратного хода 12
2 задача 13
Решение 13
3 задача 15
Решение 15
Применение СММ 16
Список литературы 18

Введение.
Скрытые марковские модели (СММ или на английском HMM) широко распространены в системах распознавания речи.
Общая схема распознавания речи[1] показана на рисунке 1.

Акустическая модель

“Раз два три”
Декодер
Выделение признаков

Языковая модель

Рис. 1: Общая схема распознавания речи
Основные этапы:
Получение входного сигнала через устройства ввода и его обработка (устранение шумов с помощью различных фильтров и др.);
Выделение признаков. Так как воздух выходит из легких, напряжение голосовых связок заставляетвибрировать воздушный поток. Эти квази-периодические импульсы затем фильтруются, проходя через голосовой тракт и носовой трактат, создавая озвученные звуки [7]. Различные позиции артикуляционных органов, как например челюсть, язык, губы, и мягкое небо, производят различные звуки. Когда голосовые связки расслаблены, воздушный поток проходит через сокращение в голосовом тракте, или создает давление сзадипункта прекращения и давление внезапно ослабевает, порождая глухие звуки [7]. Позиции сокращения или прекращения создают различные звуки. Речь это просто последовательность озвученных и не озвученных звуков, которые изменяют медленно (5..100 миллисекунд) поскольку конфигурация органов артикуляции изменяется медленно. Для автоматического распознавания речи компьютерами, характеристические векторыизвлекаются из звуковой формы волны. Характеристический вектор обычно считается от окна разговорных сигналов (20..30 миллисекунд) в каждом коротком интервале времени (около 10 миллисекунд). Произнесение представлено как последовательность этих характеристических векторов особенностей [1]. Cepstrum [8][9] - широко используемая особенность вектор для распознавания речи. Cepstrum определен, как обратноепреобразование логарифмического спектра короткого времени. Низшие порядковые cepstral коэффициенты представляют голосовой ответ импульса тракта. В усилии взять слуховые характеристики во внимание, взвешенные средние величины спектральных значений на логарифмическом частотном масштабе используются вместо спектра величины, производя mel-частотные cepstral коэффициенты (MFCC) [10]. Производные MFCC обычно присоединены длязахватывания динамики речи. Рисунок 2 (b) и (c) - спектрограмма и MFCC, извлеченный от произнесения “She had your dark suit” [1].

Рис.2: пример звуковой формы волны, спектрограммы, и характеристических векторов.
Акустическая модель. Эта модель описывает звуки слов, например, говорит о том, что слово "ceiling" (потолок) начинается с мягкого звука "с" и звучит так же, как "sealing" (уплотнение) [3].Позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Современные акустические модели для так называемого пофонемного распознавания основаны на использовании СММ. Идея заключается в том, что для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Для того, чтобы акустические модели учитывали произнесениезвуков людьми разного пола, возраста, с разным тембром и акцентом, акустические модели «обучаются» на специально подобранных и отсегментированных речевых базах большого объема, включающих речь сотен различных людей. В результате, несколько тысяч моделей фонем в разных фонетических контекстах являются основой дикторонезависимого пофонемного распознавания речи на определенном языке [2].
Языковаямодель. Эта модель задает вероятность каждого фрагмента речи, например указывает, что последовательность слов "high ceiling" (высокий потолок) является гораздо более вероятной, чем "high sealing" (высокое уплотнение) [3].
Декодер - программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и...
tracking img