Орг-ция сбора инф-ции из открытых и закрытых поисковых систем о субсид-нии образ-ных орг-ций

2020-06-08
Матвей Ковалёв
Педагогика

Диплом777

Email: info@diplom777.ru

Phone: +7 (800) 707-84-52

Url: https://diplom777.ru/

Никольская 10

Москва, RU 109012

Чаще всего поисковый запрос задаётся в виде набора слов или фразы, иногда — используя расширенные возможности языка запросов поисковой системы. Но бывают и совсем иные виды запросов. В некоторых поисковых системах запросом является изображение, а результатом поиска — страницы в интернете, на которых это изображение встречается.
Так или иначе, поиск информации сводится к поиску необходимого в базе проиндексированных документов (чаще всего имеются в виду HTML документы).
Рассмотрим алгоритмы поисковых систем как способы поиска информации в собранной поисковиками базе html-документов, такие как прямой поиск и алгоритм обратных индексов.
Метод простого перебора всех html-страниц содержащихся в базах данных поисковых систем называется алгоритмом прямого поиска, но даже притом, что этот метод позволяет, точно найти нужную информацию, не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных из-за длительности обработки. И поэтому более результативным методом поиска, является алгоритм обратных индексов, на котором основан полнотекстовый поиск. Именно этот алгоритм используется всеми крупными поисковыми системами в мире. Прямые индексы, содержащие оригинальный текст документов, поисковики тоже сохраняют, но только для составления сниппетов Snippet (англ.) — фрагмент, отрывок. Термин сниппет иногда используется для небольших отрывков текста из найденной поисковой машиной страницы сайта, использующихся в качестве описания ссылки в результатах поиска. .
При использовании алгоритма обратных индексов, поисковые системы преобразовывают html-документы в текстовые файлы, которые содержат полный список имеющихся в документе слов. Эти слова располагаются в алфавитном порядке, а рядом с ними указаны координаты мест, где они встречаются. Кроме этого для каждого слова приводятся еще некоторые параметры (которые являются секретной информацией), определяющие его значение в документе. На примере это выглядит как список слов используемых в книге, с указанием номеров страниц, где эти слова встречаются. При вводе запроса поисковые системы выдают информацию не сразу из сети, а из собственных баз данных на основе обратных индексов. [12]
Так же в последнее время поисковые системы осваивают искусственный интеллект, направленный на развитие методов построения алгоритмов на основе машинного обучения, которые тесно связаны с извлечением информации и интеллектуальным анализом данных. В 2009 году Яндекс внедрил новый метод машинного обучения Матрикснет, который учитывает очень много факторов ранжирования и при этом не увеличивает количество оценок асессоров Асессор (англ. Assessor) — человек (программа), который просматривает страницу и определяет её релевантность. . [13]
При вводе одного и того же поискового запроса в разных поисковых системах результаты выдачи будут отличаться, потому что каждая поисковая система использует свои алгоритмы ранжирования.
Некоторые поисковые системы, которые занимаются непосредственно поиском именно текстовых данных, основываются на графовых базах данных, то есть структура хранения индексов – это граф. Это обусловлено тем, что эти структуры нагляднее предоставляют информацию и все возможные связи, а определения объединяются в области, что дает возможность искать не только по точным совпадениям, но и по смежным определениям.

Матвей Ковалёв

Закончил ВГУ факультет философии и психологии. Моя основная работа – преподавание, но в свободное время я занимаюсь репетиторством и написанием студенческих работ на сайте «Диплом777». В компании работаю шесть лет. Нравится помогать студентам в учебе, начиная от написания рефератов и эссе и заканчивая созданием курсовых и дипломных проектов.