RSS    

   Реферат: Информационный критерий оценки фонетической неопределенности

Реферат: Информационный критерий оценки фонетической неопределенности

2.2.2. Информационный критерий оценки фонетической неопреде­ленности.  При распознавании устной речи необходимо стремиться  к тому, чтобы  все фонемы классифицировались правильно, поэтому нас интересует распознавание полной последовательности  фонетических единиц, составляющих высказывание.  При  этом основным источником неопределенности  при  распознавании речи является сам акустичес­кий сигнал. Еще большую неопределенность представляет параметри­ческое  описание речевой волны. Рассмотрим неопределенности  аку­стического сигнала  и приведем меру оценки фонетической неопре­деленности. Используя эти  мерь, можно оценить лексическую и фра­зеологическую неопределенности. Слитная речь расчленяется на пос­ледовательность сегментов  по  признакам способа образования зву­ков.  К этим признакам добавляются признаки места образования, ко­торые изменяются непрерывно  как внутри сегментов, так и через их границы  [91,97]. С некоторыми дискретными единицами-звуками ре­чи - фонемами или квазифонемами сегменты связаны таким образом, что смысловые единицы речи (слова) представляются цепочкой фонем.

Большинство систем автоматического распознавания речи  [79] преобразует речевой сигнал  в  такую фонемную цепочку, которая за­тем сравнивается  с  ожидаемыми  в слове звуками. Процесс  преобразования речевого сигнала  в последовательность фонем включает нахождение признаков, сегментацию  и  маркировку сегментов.

Опишем модель фонетической неопределенности, позволяющую оце­нивать результаты неправильного распознавания фонем. Далее будем использовать матрицу ошибок распознавания фонем  и фонетическую структуру слов словаря при  оценке лексической неопределенности.

Лексическая неопределенность будет иметь место тогда,  когда слова неверно классифицируются из-за близости  их фонетической структуры, т.е. последовательности параметров, определяющих   эту структуру,  на  конкурирующих словах. Например, в словах "слезать" и "срезать"  первичные параметры звуков, входящих  в  эти  слова, сходны. Когда оба эти слова входят в один и тот же словарь, их точ­ная классификация затруднена, поэтому  их  можно считать   лекси­чески неопределенными.  В реальных системах, если позволяет  зада­ча, следует подбирать слова, чтобы такой ситуации не возникло. При­ведем критерии сложности словаря для  того, чтобы можно было  оце­нить степень различимости словарей   [63].

Рассмотрим распознавание речи как процесс передачи  речевой информации через канал  с  шумом и оценим информацию,  теряющуюся в  канале. Потерянная информация является мерой неопределенности или  сложности распознавания фонем. В идеальном канале число вход­ных идеальных, полученных после сегментации высказывания  экспер­тами-фонетистами, и  выходных фонетических единиц должно быть оди­наковым,  а  последовательность фонем  на  выходе должна соответ­ствовать входной последовательности. Если  же  это условие не соб­людается,  в  канале теряется информация, и в зависимости от величины потерь можно говорить  о  большей или меньшей неопределенно­сти классификации фонем. При практической оценке фонетической не­определенности  в данной работе использовались система   призна­ков   [73]  и алгоритм сегментации речи  на семь типов сегментов:

V   - гласный,  Т  - переходный,  М  - сонорный, L - низкоча­стотный,  Н  - высокочастотный,  R  - шумный,  П  - пауза.  Затем алгоритм маркировки ставил   в  соответствие каждому сегменту  не­который фонетический символ, используя априорно полученные гисто­граммы параметров.  От  надежности маркировки сегментов во многом зависит точность работы CPP.

Так как СРР рассматривается здесь  как канал передачи  инфор­мации, предположим, что имеются  R   возможных входных символов алфавита  А  и  s   возможных выходов алфавита  В . Таким  об­разом, СРР описывается канальной матрицей. 

Канал передачи информации, используемой для описания  сис­темы распознавания речи, представленной цепочкой фонем, преобразу­ет не зашумленную последовательность звуков в выходную последова­тельность "машинных " фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.

Пусть элемента входного фонетического алфавита {Ai} появля­ются на входе с некоторой априорной вероятностью p(A1 ),р(A2 ),.,p(Ar), а элементы алфавита {Bj}  на выходе - с вероятностью P(B1,), p(B2),..., р(Bs).  Как отмечено ранее, работу канала пере­дачи входного алфавита {Ai} характеризует канальная матрица, поэтому

P{Bj}=∑ri=1P(Ai)*P(Bj/Ai)   

Символ А О И
А 0,89 0,1 0,01
O 0,15 0,75 0,1
И 0,01 0,1 0,89

2.2       Пример матрицы условных вероятностей распознавания изолированных звуков(2.2)

Информация I(Ai,Bj), получаемая от канала, когда на   его вход поступила фонема  Ai ,   а на выходе распознавалась как Bj, , определяется    [91]

I(Ai,Bj)=LOG(P(Ai/Bj)/P(Ai))               (2.3)

Средняя информация, получаемая на выходе канала с потерями при передаче (распознавании) входного алфавита фонем A(Ai), который распознается   как алфавит B=(Bj) , будет

I(A, B)=∑A, BP(Ai,Bj)*I(Ai,Bj)= ∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj)/P(Ai)=

=-∑A, BP(Ai,Bj)*LOG2 P(Ai)+ ∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj);

I(A, B)=H(A)+∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj);                       (2.4 )

Отметим, что Н(A)- энтропия, характеризующая степень неопределенности входного алфавита А=(Ai) .  Из (2.4) получаем, что

H(A)- I(A, B)=-∑A, BP(Ai,Bj)*LOG2 P(Ai/Bj)=

=-∑A, BP(Ai,Bj)*P(Bj)LOG2 P(Ai/Bj)=-∑ BP(Bj)∑AP(Ai/Bj)LOG2 P(Ai/Bj)=H(A/B)

Н(А/B)- апостериорная энтропия входного алфавита фонем, которая


характеризует меру информации, теряемой в системе распознавания при передаче входного алфавита (Ai) .   Апостериорная энтропия и является мерой, оценивающей сложность входного словаря для авто­матического распознавания при  фиксированном параметрическом описании.

При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный 2H(A), а значения 2 H|(A/B)   ха­рактеризуют среднее количество возможных альтернативных (конку­рентных) элементов алфавита (Ai)     на входе СРР после того, как на выходе получили множество (Bj) ,  т.е. меру   сложно­сти распознавания входного алфавита фонем. Назовем эту     меру эквивалентным размером алфавита фонем. Значение 2 H|(A/B)  можно назвать энтропийным критерием оценки фонетической неопределенно­сти, который является обобщенной характеристикой сложности рас­познавания алфавита фонем (Ai)   данной системы распознавания. Если СРР работает без ошибок, условная энтропия    Н(А/В)=О и эквивалентный размер алфавита фонем 2 H|(A/B)   =1.   Естественно, что если Н(А/В)=0, то 2 H|(A/B)   =1, а в случае, когда СРР не   рас­познает Н(А/В)=Н(А), то эквивалентный размер алфавита    фонем равен 2 H|(A)  .

Эквивалентный размер алфавита фонем дает возможность коли­чественно оценить среднее число возможных конкурентных    фонем (имеющие близкие параметрические описания), и для его определе­ния необходимо знать апостериорные вероятности P(Ai/Bj) вхо­дного алфавита.

Для решения конкретных проблем автоматического распознава­ния ограниченных наборов слов все многообразие фонем    можно свести к двум-трем рабочим фонетическим единицам   (например, к классам длительных шумных, звонких и смычных звуков),    которые при использовании простой системы признаков и несложных   алго­ритмов распознавания дают нулевую апостериорную энтропию. Однако при решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенно­го слова такого количества рабочих фонем сказывается явно недо­статочно. Работать же с полным набором фонем "ложно из-за оши­бок их автоматического распознавания. Поэтому и приходится идти на компромиссные решения - искать какой-то оптимум при фонетичес­ком описании рабочих словоформ. Эти проблемы будут частично рассмотрены в п. 2.2.3.

Условные вероятности распознавания фонем P(Ai/Bj), опреде­ляющие эквивалентный размер фонетического алфавита, можно определить несколькими методами.

83


Статистический метод позволяет получать вероятности распоз­навания фонем, используя реальную СРР. Это осуществляется   путем сравнения результата распознавания системы с точной ручной сегментацией и маркировкой речевого сигнала (иди его параметрического представления), поступающего на вход системы   распознава­ния. В результате получается классическая матрица правильной и ошибочной классификации входного алфавита фонем.

Акустико-параметрический метод, когда матрица ошибок клас­сификации фонем получается путем прямого сравнения их параметрического описания. При этом эталон фонемы выбирается из   мно­жества реализации данной фонемы. Расстояние между фонемами исполь­зуется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объе­ма исследовательского материала.

Страницы: 1, 2


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.