Приём заказов:
Круглосуточно
Москва
ул. Никольская, д. 10.
Ежедневно 8:00–20:00
Звонок бесплатный

Рекомендация для разработки автоматизированной информационной системы голосового кодирования текста

Диплом777
Email: info@diplom777.ru
Phone: +7 (800) 707-84-52
Url:
Логотип сайта компании Диплом777
Никольская 10
Москва, RU 109012
Содержание

Для решения этих проблем в данной статье предлагается использовать методологию системного анализа. В отличие от традиционных подходов, при которых описывается сложный фонемный объект с построением индивидуальных акустических моделей для каждого типа минимальных речевых единиц индивидуального типа фонемы, в данной работе предлагается рассмотреть взаимосвязи между различными фонемами. Предложен новый алгоритм принятия решений и обработки информации речевого кодирования фонетических нечетких слов (НЧС) [5], который описывает фонему как диффузную совокупность единиц голосового минимума (СПМ)
Алгоритм принятия решений и обработки речевой информации с точностью диффузного фонетического кодирования до номера сегмента с использованием алгоритма амплитудного детектирования.
Согласные звуковые отрезки [6], описываемые акустическими характеристиками, такими как длина отрезка, отношение максимальной амплитуды фонемы к максимальной амплитуде содержащегося в ней слога и частота, при которой спектральная мощность сигнала принимает максимальное значение. Параметр D¡l выбирается экспериментально для каждого класса согласных
звук. На предварительном этапе пользователя необходимо научить стабильному произношению всех опорных звуков. С этой целью в работе [5] была предложена модификация метода NFCS, где, в отличие от задачи распознавания, класс звука известен заранее.
Архитектура Информационной Системы
В данном разделе мы рассмотрим архитектуру информационной системы интеллектуальной поддержки принятия решений по обработке речевой информации на основе алгоритма НКЦ, реализующего следующие функции:
— автоматическое распознавание голоса на основе алгоритма NFCs с фонетической сегментацией речевого сигнала и классификацией согласных фонем;
— автоматическое формирование словаря для метода NFCS по текстовому файлу;
— предварительная подготовка пользователей для стабильного произношения эталонных фонем;
Функциональная схема разработанной информационной системы
Здесь голосовой сигнал поступает с микрофона на блок записи, где производится и автоматически сохраняется в нужном формате. Полученный аудиофайл поступает в блок обработки информации, где выполняет его предварительную обработку (снимает паузы в начале и конце сигнала), разделение речевого сигнала на кадры и сегментацию акустики, после чего для каждого кадра извлекается из знаков акустика и вычисляется мера близости к опорным точкам ФБД. Единица произношения вводится в запись единицы формирования словаря (пользователь обучается
стабильное произношение эталонных фонем), затем выполняется фонетическое кодирование команд. Выход из блока обработки и транскрипции
опорные команды вводятся на вход блока принятия решений в соответствии с алгоритмом, предложенным НКЦ.
Результаты экспериментальных исследований
Рассмотрим задачу распознавания изолированных слов русского языка на основе предложенного подхода в сравнении с базовым методом уху и системами распознавания, традиционным: реализация СММ с МГС в медиабиблиотеке Pocketsphinx и акустических моделей на основе ГНС в рамках СА не осуществляется. FBB использовал 10 вокальных звуков, произносимых вещателем после предыдущего этапа обучения произношению.
Словарь содержит 1900 наименований препаратов, реализуемых в аптеке Нижнего Новгорода. В эксперименте приняли участие 12 вещателей (8 мужчин и 4 женщины). Каждый из них произнес 200 слов, изолированных от словаря. Распознавание слов осуществлялось в Метрике Кульбак-таг и ОФ. Кроме того, традиционный подход, используемый для сравнения прямоугольный коэффициенты (MFCC, Мел-частотного Кепстрального коэффициента) в евклидовой метрике. Частота дискретизации речевого сигнала составляет 8 кГц, порядок модели AR / > = 12, длительность кадра составляла M = 120 аккаунтов или T = 15 мс за раз, отношение сигнал / шум-20 дБ. В таблице 2 приведена средняя оценка всех громкоговорителей вероятности ошибки распознавания, средней длительности одного распознавания звука и громкости, необходимой для хранения акустической модели. Для оценки последнего показателя, фактическое число предполагается равным 4 байтам.
Предлагаемый подход, основанный на операциях диффузного набора, на 10-13% превосходит традиционные методы распознавания точности, а на 3-6% — базовый метод FCS. Методы распознавания FCS и NFCS, основанные на теоретико-информационном подходе, значительно превосходят традиционные системы распознавания по вычислительной сложности и объему памяти, необходимой для хранения акустической модели. Предлагаемый подход к этим показателям несколько ниже, чем метод FCC, из-за дополнительных затрат на операцию диффузного пересечения.

Picture of Леонид Федотов
Леонид Федотов
Окончил НИУ ВШЭ факультет компьютерных наук. Сам являюсь кандидатом наук. По специальности работаю 13 лет, за это время создал 8 научных статей и 2 диссертации. В компании подрабатываю в свободное от работы время уже более 5 лет. Нравится помогать школьникам и студентам в решении контрольных работ и написании курсовых проектов. Люблю свою профессию за то, что это направление с каждым годом становится все более востребованным и актуальным.