Исходя из того, что различные алгоритмы распознавания проявляют себя по-разному на одной и той же выборке, то встает вопрос о синтетическом решающем правиле, которое бы использовало лучшие стороны всех алгоритмов. Для этого существует синтетический метод или коллективы решающих правил, которые собирают в себе максимально положительные стороны каждого из методов.
1.4. Алгоритм распознавания речи.
Распознавание речи – процесс автоматического преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Обратной задачей считается синтез речи.
Основными понятиями, характеризующие параметры речи человека, являются форма, размеры, динамика изменения речеобразующего тракта и описывающие эмоциональное состояния человека, в свою очередь они делятся на четыре группы признаков, которые позволяют различать речевые образцы: кепстральные, спектрально-временные, признаки нелинейной динамики и амплитудно-частотные.
Задача распознавания речи заключается в том, чтобы убрать посредника в общении между человеком и компьютера. Управление машиной с помощью голоса в реальном времени, а также ввод информации с помощью человеческой речи упрощает жизнь человека. Научить машину понимать без посредника– задачи распознавания речи.
Первое устройство распознавания речи появилось в 1952, и имело способность распознавать цифры, которые были произнесены человеком. Коммерческие программы по распознаванию речи появилялись в начале девяностых годов. Обычно такие программы используют люди, которые из-за травмы не в состоянии набирать большое количество текста. Такие программы, как VoiceNavigator, Dragon NaturallySpeaking (безошибочное распознавание составляет 95%) переводят голос пользователя в текст. Надёжность их перевода с английского не высока, но с годами она постепенно улучшается. Увеличение вычислительных мощностей мобильных устройств дает возможность и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложения Microsoft Voice Command, Алиса, Siri, голосовой переводчик Google Translate, которые позволяют работать со многими приложениями при помощи голоса, можно включить воспроизведение музыки или создать новый документ посредством голоса или переводить сказанные фразы.
Все большую популярность в применении распознавания речи обретает в разнообразных сферах жизни человека, в медицине (заполнение электронных карточек врачом), автомобилестроение (управление автомобилем с помощью голосовых команд) или домашнем быту «Умный дом» (включение с помощью голоса света, телевизора или настроить будильник), в телефонной связи (автоматическая обработки исходящих и входящих звонков путём создания голосовых систем самообслуживания), кроме того, создаются спецсервисы для людей с ограниченными возможностями, которые позволяют производить голосовой ввод. Общение с голосовым порталом становится естественным в 21 веке, выбор в нём может осуществляться с помощью тонового набора и с помощью голосовых команд, к тому же системы распознавания являются независимыми от вещателей, и могут распознавать голос любого человека.
Следующим шагом в технологии распознавания речи считается развитие интерфейсов безмолвного доступа (silent speech interfaces, SSI). Такие системы основываются на получении и обработке сигналов на стадии артикулирования. Данный этап имеет два существенных недостатка современных систем идентификации: избыточная чувствительность к шуму и потребность в четкости и ясности речи при обращении к системе опознавания. Подход, основанный на SSI, заключается в использовании новых сенсоров, не подверженных влиянию шумов в качестве дополнения к обработанным звуковым сигналам.
Системы опознавания речи систематизируются в зависимости от:
назначения;
размера словаря (ограниченность набора слов, словарь большого объема);
используемого алгоритма;
механизма функционирования (простейшие детекторы, экспертные системы с разным способом образования и обработки базы знаний, вероятностно-сетевые модели принятия решения, в том числе нейронные сети);
диктора;
типа речи (слитная или раздельная);
типа структурной единицы (фразы, слова);
принципа выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).
Для систем автоматического распознавания речи, защищённость от помех обеспечивается, использованием двух механизмов:
Использованием некоторого количества, работающих параллельно, способов выделения одних и тех же элементов речевого сигнала на базе анализа звукового сигнала;
Параллельным независимым использованием фонемного и целостного восприятия слов в речи.
В настоящее время распознавание речи сводится к решению трех задач:
распознавание отдельно произносимых слов (для звукового управления ЭВМ);
распознавание слитной речи (целью является преобразования речи человека в текст);
идентификация по образцу речи (используется для целей обеспечения безопасности), которая состоит из трех стадий: регистрации, тестирования и допуска.
В ходе регистрации пользователя запоминаются особенности его голоса и формируется вербальная модель. Во время тестирования производится сравнение представленного образца с зафиксированной моделью, а также с моделью «самозванца», которая составлена на базе голосов множества других людей. Тестирование считается успешным, если результат сравнения окажется положительным для первого случая и отрицательным для второго.
Основные цели программных пакетов идентификации личности по голосу заключаются в следующем:
повышение надежности идентификации путем совокупного анализа речевого сигнала;
уменьшение субъективности эксперта и времени проведения экспертизы путем непроизвольной обработки информации;
использование компьютера для непроизвольного выделения вербального сигнала и механического измерения параметров.