Для решения этих проблем в данной статье предлагается использовать методологию системного анализа. В отличие от традиционных подходов, при которых описывается сложный фонемный объект с построением индивидуальных акустических моделей для каждого типа минимальных речевых единиц индивидуального типа фонемы, в данной работе предлагается рассмотреть взаимосвязи между различными фонемами. Предложен новый алгоритм принятия решений и обработки информации речевого кодирования фонетических нечетких слов (НЧС) [5], который описывает фонему как диффузную совокупность единиц голосового минимума (СПМ)
Алгоритм принятия решений и обработки речевой информации с точностью диффузного фонетического кодирования до номера сегмента с использованием алгоритма амплитудного детектирования.
Согласные звуковые отрезки [6], описываемые акустическими характеристиками, такими как длина отрезка, отношение максимальной амплитуды фонемы к максимальной амплитуде содержащегося в ней слога и частота, при которой спектральная мощность сигнала принимает максимальное значение. Параметр D¡l выбирается экспериментально для каждого класса согласных
звук. На предварительном этапе пользователя необходимо научить стабильному произношению всех опорных звуков. С этой целью в работе [5] была предложена модификация метода NFCS, где, в отличие от задачи распознавания, класс звука известен заранее.
Архитектура Информационной Системы
В данном разделе мы рассмотрим архитектуру информационной системы интеллектуальной поддержки принятия решений по обработке речевой информации на основе алгоритма НКЦ, реализующего следующие функции:
— автоматическое распознавание голоса на основе алгоритма NFCs с фонетической сегментацией речевого сигнала и классификацией согласных фонем;
— автоматическое формирование словаря для метода NFCS по текстовому файлу;
— предварительная подготовка пользователей для стабильного произношения эталонных фонем;
Функциональная схема разработанной информационной системы
Здесь голосовой сигнал поступает с микрофона на блок записи, где производится и автоматически сохраняется в нужном формате. Полученный аудиофайл поступает в блок обработки информации, где выполняет его предварительную обработку (снимает паузы в начале и конце сигнала), разделение речевого сигнала на кадры и сегментацию акустики, после чего для каждого кадра извлекается из знаков акустика и вычисляется мера близости к опорным точкам ФБД. Единица произношения вводится в запись единицы формирования словаря (пользователь обучается
стабильное произношение эталонных фонем), затем выполняется фонетическое кодирование команд. Выход из блока обработки и транскрипции
опорные команды вводятся на вход блока принятия решений в соответствии с алгоритмом, предложенным НКЦ.
Результаты экспериментальных исследований
Рассмотрим задачу распознавания изолированных слов русского языка на основе предложенного подхода в сравнении с базовым методом уху и системами распознавания, традиционным: реализация СММ с МГС в медиабиблиотеке Pocketsphinx и акустических моделей на основе ГНС в рамках СА не осуществляется. FBB использовал 10 вокальных звуков, произносимых вещателем после предыдущего этапа обучения произношению.
Словарь содержит 1900 наименований препаратов, реализуемых в аптеке Нижнего Новгорода. В эксперименте приняли участие 12 вещателей (8 мужчин и 4 женщины). Каждый из них произнес 200 слов, изолированных от словаря. Распознавание слов осуществлялось в Метрике Кульбак-таг и ОФ. Кроме того, традиционный подход, используемый для сравнения прямоугольный коэффициенты (MFCC, Мел-частотного Кепстрального коэффициента) в евклидовой метрике. Частота дискретизации речевого сигнала составляет 8 кГц, порядок модели AR / > = 12, длительность кадра составляла M = 120 аккаунтов или T = 15 мс за раз, отношение сигнал / шум-20 дБ. В таблице 2 приведена средняя оценка всех громкоговорителей вероятности ошибки распознавания, средней длительности одного распознавания звука и громкости, необходимой для хранения акустической модели. Для оценки последнего показателя, фактическое число предполагается равным 4 байтам.
Предлагаемый подход, основанный на операциях диффузного набора, на 10-13% превосходит традиционные методы распознавания точности, а на 3-6% — базовый метод FCS. Методы распознавания FCS и NFCS, основанные на теоретико-информационном подходе, значительно превосходят традиционные системы распознавания по вычислительной сложности и объему памяти, необходимой для хранения акустической модели. Предлагаемый подход к этим показателям несколько ниже, чем метод FCC, из-за дополнительных затрат на операцию диффузного пересечения.
Рекомендация для разработки автоматизированной информационной системы голосового кодирования текста
- Леонид Федотов
- Информатика
Диплом777
Email: info@diplom777.ru
Phone: +7 (800) 707-84-52
Url: https://diplom777.ru/
Никольская 10
Москва, RU 109012
Содержание
Леонид Федотов
Окончил НИУ ВШЭ факультет компьютерных наук. Сам являюсь кандидатом наук. По специальности работаю 13 лет, за это время создал 8 научных статей и 2 диссертации. В компании подрабатываю в свободное от работы время уже более 5 лет. Нравится помогать школьникам и студентам в решении контрольных работ и написании курсовых проектов. Люблю свою профессию за то, что это направление с каждым годом становится все более востребованным и актуальным.