Применение скрытых марковских моделей для распознавания речи.

  • 10 мая 2012 г.
  • 2798 Слова
4.2. Применение скрытых марковских моделей для распознавания речи.
Скрытой Марковской моделью (СММ) называется модель состоящая из N состояний, в каждом из которых некоторая система может принимать одно из M значений какого-либо параметра. Вероятности переходов между состояниями задается матрицей вероятностей A={aij}, где aij – вероятность перехода из i-го в j-е состояние. Вероятности выпадениякаждого из M значений параметра в каждом из N состояний задается вектором B={bj(k)}, где bj(k) – вероятность выпадения k-го значения параметра в j-м состоянии. Вероятность наступления начального состояния задается вектором π={πi}, где πi – вероятность того, что в начальный момент система окажется в i-м состоянии. 
Таким образом, скрытой марковской моделью называется тройка λ={A,B,π}. Использованиескрытых марковских моделей для распознавания речи основано на двух приближениях:
1) Речь может быть разбита на фрагменты, соответствующие состояниям в СММ, параметры речи в пределах каждого фрагмента считаются постоянными.
2) Вероятность каждого фрагмента зависит только от текущего состояния системы и не зависит от предыдущих состояний.
Модель называется «скрытой», так как нас, как правило, неинтересует конкретная последовательность состояний, в которой пребывает система. Мы либо подаем на вход системы последовательности типа O={o1,o2,…o?} - где каждое oi – значение параметра (одно из M), принимаемое в i-й момент времени, а на выходе ожидаем модель ?={A,B,?}с максимальной вероятностью генерирующую такую последовательность, - либо наоборот подаем на вход параметры модели и генерируемпорождаемую ей последовательность. И в том и другом случае система выступает как “черный ящик”, в котором скрыты действительные состояния системы, а связанная с ней модель заслуживает названия скрытой.
Если последние высказывания несколько запутали вас, то не оттаивайтесь: дальше все должно проясниться.
Относительно скрытых Марковских моделей решаются как правило три задачи:
Задача 1.
Данапоследовательность наблюдений O={o1,o2,…oτ} и модель λ={A,B,π}. Необходимо вычислить вероятность появления указанной последовательности для данной модели. 
То есть решение этой задачи непосредственно связано с задачей распознавания речи. Если, например, состояния модели соответствуют отрезкам времени, в которые снимаются параметры речевого сигнала, и в каждом из этих состояний (отрезков) некие параметрыречевого сигнала принимают некоторые значения, которые мы представляем в виде O={o1,o2,…oτ}, то решив задачу отыскания вероятности появления этой последовательности для каждой из имеющихся у нас моделей λ={A,B,π}, соответствующих, например, фонемам (звукам речи) или словам, мы можем выбрать ту из фонем (слов), которая(ое) в наибольшей степени соответствует исходному отрезку речевого сигнала. А это и значитраспознать речевую единицу (фонему или слово).
Задача 2.
Дана последовательность наблюдений O={o1,o2,…oτ} и модель λ={A,B,π}. Необходимо выбрать последовательность состояний Q= {q1,q2,…qτ}, которая с наибольшей вероятностью порождает указанную последовательность. 
Данные, полученные при решении этой задачи используются для изучения поведения полученной модели.
Задача 3.
Дана последовательностьнаблюдений O={o1,o2,…oτ} и модель λ={A,B,π}. Необходимо подобрать параметры модели так, чтобы максимизировать вероятность данной последовательности наблюдений. 
Это в чистом виде задача обучения модели на наборах входных данных, для того чтобы в дальнейшем использовать эту модель для решения задачи 1, то есть распознавания. То есть опять же состояния модели соответствуют отрезкам времени ( какправило 10-30 мс), в которых снимаются значения параметра речевого сигнала, а принимаемые на некотором временном отрезке значения параметра и образуют последовательность наблюдений O.
Рассмотрим алгоритмы решения указанных задач.
Итак,
Решение задачи 1, распознавание.

Наиболее простое решение состоит в том, чтобы посчитать вероятность появления последовательности наблюдений...