Приём заказов:
Круглосуточно
Москва
ул. Никольская, д. 10.
Ежедневно 8:00–20:00
Звонок бесплатный

Курсовая работа о неструктурированном тексте

Диплом777
Email: info@diplom777.ru
Phone: +7 (800) 707-84-52
Url:
Логотип сайта компании Диплом777
Никольская 10
Москва, RU 109012
Содержание

Например, бинарный файл, содержащий изображение, может считаться структурированными данными при его визуализации программным обеспечением для работы с цифровыми изображениями. В то же самое время этот же файл может рассматриваться как неструктурированные данные при решении задачи распознавания контура изображения.
Зачастую бинарные файлы, такие как звуковые файлы или изображения в PDF-формате, требуют предварительной обработки для извлечения текста в формат, который далее может быть обработан с помощью подходов, которые описаны ниже.
Общей особенностью большинства реализованных систем является использования ими электронного тезауруса для английского языка WordNet. Этот тезаурус является одним из самых полных для английского языка, также в нем присутствует множество различных отношений между элементами.
В работе, выполненной в ВШЭ [Градосельская, 2011]. алгоритм основан на работе с зерновыми концептами. Утверждается, что алгоритм структурирования экспертных текстов при помощи зерновых концептов можно разбить на следующие этапы:
-задаем зерновые концепты статьи – основные смысловые термины;
-проводим предварительный дискурс-анализ, где основными «центрами напряжения» становятся зерновые концепты;
-остальные концепты добавляются только в том случае, если они обеспечивают связь (посредничество) между зерновыми концептами:
-укрупнение посредничающих концептов в «смысловые гнезда».
Автоматизация алгоритма была проведена с помощью пакета программ Matlab. В данной работе никак не рассмотрена возможность накопления зерновых концептов, для последующего проведения поиска по ним. Также для анализа используются структурированные экспертные тексты. Рассматривать работу с точки зрения ограничения по контексту не совсем корректно, поскольку контекст был задан соответствующим фильтром экспертных текстов, проведенным до исполнения алгоритма.
В ряде зарубежных источников данная задача ставится как задача классификации с использованием соответствующей математической модели Precision-Recall [Stede. 2008]. На выходе такого классификатора будет ряд текстов с коэффициентом корреляции текста относительно заданного дискурса. При такой постановке задачи нет необходимости уделять внимание особенностями лексического, синтаксического анализа языков, но основная сложность перемещается в другую область -необходимо выделить максимально правдоподобные признаки, по которым можно классифицировать текст [Theijssen, 2007].
Признаки, при этом, организуют в следующую устоявшуюся структуру:
-поверхностные признаки;
-синтаксические признаки:
-лексические признаки:
-ссылочные признаки:
-дискурсивные признаки.
Также в настоящее время существуют так называемые комбинированные работы – в них присутствует, как и элементы лингвистики (корпусный анализ, анализ лингвистических концептов), так и подходы, имеющие в своей основе алгоритмы машинного обучения [Hilbert et al., 2010].
В качестве примера можно привести пакет программ GATE. Он представляет собой мощную систему для всевозможного анализа текстов [Gate. 2011]. В данном случае проблемой является его недискурсивная направленность – с помощью данного пакета можно провести свой сколько угодно глубокий разбор, вплоть до использования внутренних хранилищ и лингвистических онтологий, но для получения статистической информации необходимо создавать свой модуль с достаточно сложной семантикой.
Можно сделать вывод, что общей нерешенной к настоящему времени проблемой для всех рассмотренных подходов является отсутствие строго заданного и изменяемого контекста, в рамках которого происходит дискурсивный анализ. Также не развиты подходы к накоплению и поиску информации – большинство подходов предполагают использование только неструктурированных текстов на входе. Тем самым, создание программной системы, предназначенной для мониторинга больших информационных потоков в сетевом публицистическом дискурсе на английском и русском языках для их анализа, извлечения требуемой информации и обобщения этой информации в соответствии с заданными контекстами, является актуальной задачей.

Леонид Федотов
Леонид Федотов
Окончил НИУ ВШЭ факультет компьютерных наук. Сам являюсь кандидатом наук. По специальности работаю 13 лет, за это время создал 8 научных статей и 2 диссертации. В компании подрабатываю в свободное от работы время уже более 5 лет. Нравится помогать школьникам и студентам в решении контрольных работ и написании курсовых проектов. Люблю свою профессию за то, что это направление с каждым годом становится все более востребованным и актуальным.
Поделиться курсовой работой:
Поделиться в telegram
Поделиться в whatsapp
Поделиться в skype
Поделиться в vk
Поделиться в odnoklassniki
Поделиться в facebook
Поделиться в twitter
Похожие статьи
Раздаточный материал для дипломной работы образец

Когда студент выходит на защиту перед экзаменационной комиссией, ему требуется подготовить все необходимые материалы, которые могут повысить шансы на получение высокого балла. Один из таких

Читать полностью ➜
Задание на дипломную работу образец заполнения

Дипломная — это своеобразная заключительная работа, которая демонстрирует все приобретенные студентом знания во время обучения в определенном вузе. В зависимости от специализации к исследовательским работам

Читать полностью ➜