Курсовая работа о неструктурированном тексте

2020-06-02
Леонид Федотов
Информатика

Диплом777

Email: info@diplom777.ru

Phone: +7 (800) 707-84-52

Url: https://diplom777.ru/

Никольская 10

Москва, RU 109012

Например, бинарный файл, содержащий изображение, может считаться структурированными данными при его визуализации программным обеспечением для работы с цифровыми изображениями. В то же самое время этот же файл может рассматриваться как неструктурированные данные при решении задачи распознавания контура изображения.
Зачастую бинарные файлы, такие как звуковые файлы или изображения в PDF-формате, требуют предварительной обработки для извлечения текста в формат, который далее может быть обработан с помощью подходов, которые описаны ниже.
Общей особенностью большинства реализованных систем является использования ими электронного тезауруса для английского языка WordNet. Этот тезаурус является одним из самых полных для английского языка, также в нем присутствует множество различных отношений между элементами.
В работе, выполненной в ВШЭ [Градосельская, 2011]. алгоритм основан на работе с зерновыми концептами. Утверждается, что алгоритм структурирования экспертных текстов при помощи зерновых концептов можно разбить на следующие этапы:
-задаем зерновые концепты статьи — основные смысловые термины;
-проводим предварительный дискурс-анализ, где основными «центрами напряжения» становятся зерновые концепты;
-остальные концепты добавляются только в том случае, если они обеспечивают связь (посредничество) между зерновыми концептами:
-укрупнение посредничающих концептов в «смысловые гнезда».
Автоматизация алгоритма была проведена с помощью пакета программ Matlab. В данной работе никак не рассмотрена возможность накопления зерновых концептов, для последующего проведения поиска по ним. Также для анализа используются структурированные экспертные тексты. Рассматривать работу с точки зрения ограничения по контексту не совсем корректно, поскольку контекст был задан соответствующим фильтром экспертных текстов, проведенным до исполнения алгоритма.
В ряде зарубежных источников данная задача ставится как задача классификации с использованием соответствующей математической модели Precision-Recall [Stede. 2008]. На выходе такого классификатора будет ряд текстов с коэффициентом корреляции текста относительно заданного дискурса. При такой постановке задачи нет необходимости уделять внимание особенностями лексического, синтаксического анализа языков, но основная сложность перемещается в другую область -необходимо выделить максимально правдоподобные признаки, по которым можно классифицировать текст [Theijssen, 2007].
Признаки, при этом, организуют в следующую устоявшуюся структуру:
-поверхностные признаки;
-синтаксические признаки:
-лексические признаки:
-ссылочные признаки:
-дискурсивные признаки.
Также в настоящее время существуют так называемые комбинированные работы — в них присутствует, как и элементы лингвистики (корпусный анализ, анализ лингвистических концептов), так и подходы, имеющие в своей основе алгоритмы машинного обучения [Hilbert et al., 2010].
В качестве примера можно привести пакет программ GATE. Он представляет собой мощную систему для всевозможного анализа текстов [Gate. 2011]. В данном случае проблемой является его недискурсивная направленность — с помощью данного пакета можно провести свой сколько угодно глубокий разбор, вплоть до использования внутренних хранилищ и лингвистических онтологий, но для получения статистической информации необходимо создавать свой модуль с достаточно сложной семантикой.
Можно сделать вывод, что общей нерешенной к настоящему времени проблемой для всех рассмотренных подходов является отсутствие строго заданного и изменяемого контекста, в рамках которого происходит дискурсивный анализ. Также не развиты подходы к накоплению и поиску информации — большинство подходов предполагают использование только неструктурированных текстов на входе. Тем самым, создание программной системы, предназначенной для мониторинга больших информационных потоков в сетевом публицистическом дискурсе на английском и русском языках для их анализа, извлечения требуемой информации и обобщения этой информации в соответствии с заданными контекстами, является актуальной задачей.

Леонид Федотов

Окончил НИУ ВШЭ факультет компьютерных наук. Сам являюсь кандидатом наук. По специальности работаю 13 лет, за это время создал 8 научных статей и 2 диссертации. В компании подрабатываю в свободное от работы время уже более 5 лет. Нравится помогать школьникам и студентам в решении контрольных работ и написании курсовых проектов. Люблю свою профессию за то, что это направление с каждым годом становится все более востребованным и актуальным.