[Введите текст]
РЕФЕРАТ
СИСТЕМЫ АНАЛИЗА, СИСТЕМЫ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ, WEB-СЕРВЕР, LOG-ФАЙЛЫ.
Объектом разработки дипломной работы является система, предназначения для обработки логов, а так же выбор аналитики для качественного анализа логов
Целью работы является разработка системы, способной хранить и обрабатывать большие объемы статистических данных результатов работы web-сервера.
В результате выполнения дипломной работы спроектирована и разработана база данных для хранения статистики, разработаны графический интерфейс и создано 4 отчета статистики.
ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
CLF |
Common Log Format |
|
URL |
Единый указатель ресурсов |
|
NCSA |
National Center for Supercomputing Application (Национальный центр суперкомпьютерных приложений |
|
URI |
Uniform Resource Identifie |
|
БД |
База данных |
|
SQL |
Structured Query Language |
|
PSQL |
Procedural Structured Query Language |
ВВЕДЕНИЕ
файл программирование конвенция кроссплатформленость
Современное общество невозможно представить без интернета. Число пользователей интернета растёт темпами, опережающими любые возможности ручного анализа. В России, за период с 2011 по 2013, число пользователей возросло с 52 процентов до 62 процентов. Для эксперта оказывается невозможным охватить такое количество данных, а так же применение классических методов анализа, требующие от него формулирования гипотез или создания обучающих данных. При этом корректное получение данных о поведении пользователей на сайте необходимо для улучшения структуры сайта, его наполняемости, устранение ошибок в структуре, созданию криптостойкой защите и качественное обеспечение пользователей той информации, которая необходима именно ему.
Современная интеграция интернета прослеживается во всех сферах деятельности человека. Основной причиной роста интеграции интернета послужила простота и скорость, с которой можно осуществлять операции через интернет. В результате текущей динамике произошли серьезные изменения в общении с конечными пользователями, а так же появилась возможность персонифицировать предложения для каждого посетителя.
Целью моей дипломной работы ознакомиться с современными средствами анализа log-файлов, структурой и правилами ведения логов, а так же разработать систему для анализа этих файлов.
Основные этапы анализа. Анализ существующих решений.
Основные этапы анализа.
Процесс автоматического изучения характеристик доступа пользователей к серверам может включать изучение наиболее популярных путей решения, нахождении ассоциативных правил, созданию кластеризации. Для решения данных задач можно использовать существующие технические документы, в частности собираются огромные объемы информации, автоматически создаваемой серверами и оседающих в журналах регистрации. Источником информации может также являться ссылочный журнал, в котором хранится информация для каждой страницы, на которую осуществляется ссылка, журналы браузеров и регистрационные данные пользователей, собранные CGI-сценариями. Извлечение знаний и последовательный анализ принято разделять на две части:
РАЗРАБОТКА СИСТЕМЫ АНАЛИЗА LOG-ФАЙЛОВ
Web content mining описывает автоматический поиск информационных ресурсов в интернете и включает в себя добычу содержимого из веб-данных. Аналогом content mining является метод интеллектуального анализа данных для реляционных баз данных( Data mining), так как существует возможность найти похожие типы знаний из неструктурированных данных, находящихся в веб-документах. Веб-документ в себе может содержать несколько типов данных:
Текст.
Мультимедийные данные (изображение, аудио, видео).
Метаданные.
Гиперссылки.
Существуют различные методы поиска информации в интернете. Наиболее распространенным методом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации, методы индексирования для хранения информации и обработки запросов, чтобы пользователь мог получить более точную информацию. Технология web content mining выходит за рамки традиции технологии Information Retrieval или сокращенно IR. Под IR понимается процесс неструктурированной документальной информации, удовлетворяющей информационным потребностям и так же наука об этом поиске.
В web content mining существует два подхода: агентный и ориентированный на базу.
Первый подход включает такие системы:
Интеллектуальные поисковые агенты.
Фильтрация информации / классификация.
Персонифицированные агенты сети.
Второй подход включает систмы:
Многоуровневые базы данных.
Систему веб-запросов ( Web Query Systems).
Web usage mining.
Web usage mining — это процесс добычи полезной информации из пользовательских журналов доступа, прокси-сервера, браузерных журналов и пользовательских сессионных данных. Целью такого анализа является выявлений предпочтений пользователей при использовании ресурсов сети интернет. В данном методе производится анализ следующей информации:
История просмотра страниц пользователем.
Последовательность просмотра.
Web usage mining включает в себя следующие составляющие:
Предварительная обработка
Операционная идентификация.
Инструменты обнаружение шаблонов.
Инструменты анализа шаблонов.
Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида данных, результатом работы могут являться:
Данные веб-сервера.
Данные серверных приложений.
Данные прикладного уровня.
Сбор информации.
В дипломной работе применяется метод анализа, основанный на web usage mining. В частности сбор информации происходит на уровне сервера и представляет собой отбор информации из журналов web-сервера. Данный способ используется наиболее часто, поскольку без лишних накладных ресурсов можно получить достаточно полную картину работы пользователя с сервером, к тому же, для этого метода уже существуют заранее накопленные данные. Все современные серверы автоматически ведут логирование или журнализацию; при этом данные журналы занимают достаточно мало места и могут храниться годами. Для дальнейшего рассмотрения необходимо понять, что представляет из себя журнал сервера, принцип заполнения его сервером и какую именно информацию он хранит.
Журнал сервера должен отвечать требованиям стандарта Common Log Format (CLF). В переводе дословно с английского CLF — общий формат регистрации, также известный как NCSA Common Log Format. Под аббревиатурой NCSA имеется ввиду National Center for Supercomputing Application или в переводе на русский язык Национальный центр суперкомпьютерных приложений.
Рассмотрим типовую конфигурацию лог файла веб-сервера apache:
«%h %l %u %t «%r»» %>s %b»»