Поисковые системы список – Поисковые системы Интернета, список Топ 14 лучших поисковиков

Содержание

Поисковые системы Интернета, список Топ 14 лучших поисковиков

Мы рассмотрим поисковые системы Интернета, список лучших поисковиков в этой статье. Возможно Вы ещё новичок и не определились, какую именно поисковую систему использовать для поиска информации и работы в Интернете. С помощью этого обзора, Вы точно будете знать, какой поисковик лучше.

Что такое поисковая система в Интернете

Здравствуйте друзья! Существуют огромное количество поисковых систем в Интернете. Они исполняют только одну цель – поиск той или иной информации в Сети. В основном новички ещё не знают, что такое поисковая система в Интернете. Поэтому, подробно об этом расскажу.

Поисковая система – это программно-аппаратный комплекс для поиска различной информации (текст, видео, музыка, картинки, книги). Функции этой системы предназначены для поиска нужной информации, для любого пользователя Интернета.

Например, человек хочет найти какую-нибудь книгу. И вводит поисковый запрос в поисковой строке – «Скачать книги бесплатно». Так же можно написать её название. После этого, мы как обычно нажимаем «Enter» или на значок поиска «Найти» (Скрин 1).

Результат поиска нам выдал 12 000 000 результатов. Выбирать можно любой из них. Вот именно так и работает поисковая система. Дальше, мы будем рассматривать поисковые системы Интернета, список по рейтингу всех основных поисковых систем. Для безопасной работы в Сети, вероятно Вас могут заинтересовать несколько  поисковиков, которые будут служить Вам для удобной и комфортной работы в Интернете.

к оглавлению ↑

Поисковые системы Интернета, список 2019 года

Перед тем, как пополнить поисковые систем списком, сделаем для начала небольшой обзор на топ 14 лучших поисковых систем 2019 года.

  1. Поисковая система Google. Она является самой популярной и известной во всём мире в том числе США и Европе.
  2. Поиск Яндекс. Эта российская поисковая система. В основном она имеет популярность в русскоязычном Интернете.
  3. Bing. Данный поиск в Интернете был разработан компанией Майкрософт. Его часто используют в США, Германии, и в Китае.
  4. Поисковик Yahoo. Данная поисковая «машина» Интернета не так популярна в России, как например в странах Индии, США, Индонезии и так далее.
  5. Китайская поисковая система Baidu. Этим поисковиком пользуются только китайцы. Поскольку у него полностью отсутствует перевод на русский язык.

к оглавлению ↑

Низкие по рейтингу поисковые системы

  1. AOL. Название данного поисковика Америка Онлайн. Это американский поисковик.
  2. ASK.COM.  Такая поисковая система, немного похожа на ресурс Ответы Мейл ру. Только в виде ответов выдаёт полноценные статьи.
  3. EXCITE. Эта поисковая система, включает в себя не только поиск, но и различные сервисы. Например, Новости, погода, с помощью него можно узнать в какие страны ездят отдыхать и так далее.
  4. DuckDuckGo. Такая поисковая система позволяет пользователям «сидеть в Интернете» в приватной зоне.
  5. WOLFRAM ALPHA. Данный поисковик очень хорошо подойдёт студентам. Поскольку он выдаёт информацию на основе различных знаний и поможет Вам написать студенческие работы.
  6. Спутник. Поисковая система в основном предназначена для поиска в Рунете. Она потеряла свою популярность, поскольку ею никто не пользуется. Но со временем, на неё должны перейти государственные служащие.
  7. TUT BY. Поисковик относится к белорусской поисковой системе.
  8. Рамблер. Это встроенный поисковик в систему поиска Яндекса.
  9. MIL.RU. Русскоязычная поисковая система. Она популярна и её посещают не более чем 54 000 000 пользователей Рунета.

Итак, мы рассмотрели лучшие поисковые системы Интернета, список, которых Вы можете посмотреть здесь (Скрин 2).

Далее, мы эти поисковые системы разберём ещё подробнее.

к оглавлению ↑

Обзор поисковых систем Интернета

Выше мы сделали небольшое описание поисковых систем. А здесь, хотелось бы Вам рассказать о них немного подробно. Когда их создали, и какие у них плюсы и минусы:

  1. Google. Эта поисковая система была создана в США в 1998 году. Её создали программисты Сергей Брин и Ларри Пейдж. Сейчас она включает в себя более 25 миллиардов веб-сайтов и её используют 200 миллионов пользователей из разных стран мира. Плюсы этой поисковой системы в том, что можно найти качественную информацию быстрее, чем не качественную. Минусы – нагрузка на компьютер, так как частое обновление Гугла нагружает оперативную память компьютера.
  2. ЯНДЕКС. Её создали в 1997 году. Создатели этой поисковой системы – Аркадий Волож и Илья Сегалович. Занимает второе место по популярности в России. Плюсов у этой системы много и  из них – использование электронной почты, кошелька Яндекс деньги, и быстрый доступ к любой информации. Компания установила фильтры поиска, но это не спасает пользователей посещать сомнительные сайты в Интернете. Это один главный минус и недостаток этого поисковика.
  3. YAHOO. Поисковик является более старым из всех поисковых систем, которые мы рассматриваем. Его создание принято считать в 1995 году, предпринимателями Джерри Янгом и Дэвидом Филом. Он является достаточно крупным Интернет порталом и у него есть только один минус – не устанавливается на компьютер, а используется через браузер.
  4. MAIL.RU. Эту поисковую систему организовали в 1998 году. Её авторы и создатели – Евгений Голанд и Владимир Шутов. Этот портал принадлежит крупной компании – Мейл Ру Групп. Так же включает в себя популярные проекты: Одноклассники, Вконтакте, Мой мир. Пользоваться этим поисковиком удобно. Но минусы в том, что электронная почта от Мейл не имеет хорошей защиты от взлома и нередко браузеры заражаются вирусной рекламой от этой системы.
  5. BING. Она была создана в 2009 году. Эта поисковая система работает, как на компьютерах, так и на Смартфонах. В большинстве случаев, ей выгодно пользоваться на телефонах, это считается её главным преимуществом.

к оглавлению ↑

Менее популярные поисковые системы

  1. DUCKDUCK.GO. Наличие поисковика на компьютере, позволит Вам использовать его в полной мере и вместе с этим сохранить свои конфиденциальные данные. Её создал предприниматель Гэбриель Вайнберг в 2006 году. Эта система не сохраняет во время поиска кэш и историю браузера.
  2. СПУТНИК. Как было уже сказано выше, это поисковая система пока ещё не всеми используется. Её создали в 2014 году, и создателем считают компанию Ростелеком. Эту поисковую систему, планирует использовать государство.
  3. РАМБЛЕР. Самый известный в Рунете поисковый портал. Создатель портала Дмитрий Крюков – 1996 год. Он существовал до 2011 года, и сейчас по-прежнему работает в полной мере, как поисковая система.
  4. BAIDU. Данную китайскую поисковую систему основали в 2000 году, предприниматели – Робин Ли и Эрик Сю. Этим поисковиком пользуется только китайское население. К нему очень негативное отношение во многих странах из-за рекламного вируса и нет возможности перевода языка.
  5. TUT BY. Данная поисковая система была создана в Белоруссии в 2000 году. Его основал журналист Сергей Дмитриев. Посещаемость поисковика уже превышает более 2 000 000 пользователей в этой стране.

к оглавлению ↑

Известные поисковики за рубежом

  1. AOL (Американская поисковая система). Была разработана в США в 90-е годы. У неё довольно слабая популярность среди пользователей.  Работают с поисковиком, в основном, жители Америки.
  2. ASK.COM. Создание поисковой системы принято считать в 1995 году. Чтобы пользоваться этой системой, достаточно лишь внести в поисковую строку какой-либо вопрос, и она выдаст результаты. Её поиск распределяет результаты по порядку, и всегда можно найти необходимую информацию и качественную.
  3. ECITE. Данная поисковая машина, особо ничем от других не отличается. Сайт был запущен в 1994 году и в данный момент принадлежит компании IAC Search Media. Этот сервис может предлагать пользователям различную информацию в виде обмена быстрыми сообщениями, отправка писем по электронной почте, и имеет полную настройку домашней страницы в браузере.
  4. Wolfram Alpha. Он был запущен в Интернет – 15 мая 2009 года. Имеет огромную базу знаний, и мощные вычислительные алгоритмы для нахождения этой информации в поиске.

Итак, эти поисковые системы на сегодняшний день самые лучшие. Думаю, Вы сможете выбрать для себя подходящий вариант. Часто приходиться использовать несколько поисковиков для эффективного поиска нужной информации.

к оглавлению ↑

Заключение

В статье мы рассмотрели вопрос, какие есть поисковые системы Интернета, список этих поисковых систем в том числе. Возможно Вы заинтересуетесь одной из них, или будете использовать несколько. Выбирайте только те, которые имеют защиту и приватные настройки. Ведь работа и поиск в Интернете должны быть максимально безопасны. Спасибо и удачи!

С уважением, Иван Кунпан.

Просмотров: 603

Получайте новые статьи блога прямо себе на почту. Заполните форму, нажмите кнопку «Подписаться»

Вы можете почитать:

biz-iskun.ru

Поисковые системы в Интернете — полный список

Основная задача поисковой системы — быстро сформировать страницу с правильными ответами на запрос пользователя. На первый взгляд, это несложная задача, но если учесть количество пользователей, несколько сотен способов ввода поисковых запросов и десятки миллионов сайтов — она уже не такая простая.

Лидерами рынка в России безусловно являются Яндекс или Google, что заставляет SEO-специалистов уделять им основное время. Большинство пользователей не задумываются о том, как устроены поисковые системы и сколько пользы можно извлечь с помощью них. Сегодня я разберу полностью данный вопрос.

Темы материала

Как работают поисковые системы?

Поисковые системы могут работать полностью с помощью роботов или людей, а также представлять из себя гибридные системы. В архитектуру поисковой системы чаще всего входят:

  • робот — собирает информацию с различных документов (страниц сайтов),
  • индексатор — отвечает за быстрый поиск информации,
  • поисковик — формирует страницу с поисковой выдачей.

Системы стараются дать не только ссылки на полезные для пользователя документы, но и частично сформировать ответ из разных источников сразу на странице выдачи.

Основные характеристики качественного поиска:

  • Полнота. Чем больше проанализированных документов, тем полнее поиск.
  • Точность. Пользователь не захочет искать иголку в стоге сена. Ответ должен быть релевантным.
  • Актуальность. Особенно важно с новостными тематиками.
  • Скорость поиска. Никто не будет ждать, пока система генерирует страницу с ответами.
  • Наглядность. Удобное представление информации.

В интернете очень много документов, но всегда можно быть лучше и создавать более полезные для пользователя сайты. Полезность может проявляться в контенте и удобстве его восприятия. Большинство SEO-оптимизаторов делают поиск качественнее, позволяя найти нужные документы. Именно поэтому представители ПС развивают свои сервисы для нас: вебмастеров, владельцев проектов и сеошников.

Какую пользу несут поисковые системы для нас?

  • Быстрый способ получить ответ на свой вопрос;
  • Поисковые системы уже давно стали отличным источником получения новых клиентов;
  • Благодаря спросу на трафик, появился рынок услуг: SEO-продвижение, контекстная реклама и т.д.

Сегодня не требуется добавлять свой сайт в современные поисковые системы. Рано или поздно роботы обойдут Ваш сайт и включат его в индекс, если с ним нет проблем. Но для получения эффективных результатов, обязательно необходимо прорабатывать ресурс — начиная с семантического ядра и структуры сайта и заканчивая аудитом на наличие технических ошибок.

Кстати, ранее я уже затрагивал тему поисковых систем:

Крупнейшие поисковые системы России

Мировым лидером является Google, но самой популярной поисковой системой в России остается Яндекс. Это заметно по источникам трафика на основе данных из Яндекс.Метрики.

  • Подробнее про Yandex.ru

Поиск №1 в России по количеству переходов на сайты из поисковой выдачи. LiveInternet (июнь 2017). На долю Яндекса приходится около 50% поискового трафика, но Google постепенно догоняет отечественную поисковую систему. В последнее время Яндекс стал более активно проводить рекламные компании, возможно, это позволит замедлить рост доли Google на российском рынке. Один из основных источников трафика на российском рынке.

Занимают большую долю в мобильном поиске России. Также является одним из основных источников трафика для наших проектов. Благодаря росту посетителей с мобильных устройств, доля Google растет.

Полезные и интересные поисковые системы

Самая полная свободная интернет-энциклопедия, которая запущена в 2001 году. Контент создают пользователи Интернета.

Приватный и конфиденциальный поисковик, серверы которого расположены в США. Имеет собственный робот, а также использует данные других сервисов (например, «Википедия», Wolfram|Alpha). В отличии от Яндекса и Google, данная поисковая система не пытается персонализировать результаты выдачи.

Крупнейшая библиотека видеофайлов также обладает поиском, который используют большое количество людей. К сожалению, нет информации о количестве запросов, но если сложить аудиторию Google и YouTube — то доля Google получается очень ощутимой. Но у и Яндекса есть свои интересные проекты.

Поисковая система от выпускников МГУ использует индексы других систем. Больше не нужно искать один и тот же запрос в разных системах. Кроме этого, позволяет решать задачи по Математике и Химии.

Поиск информации о конкретном человеке в США и Европе. Для российского рынка не очень.

Огромная база информации о фильмах. Проект принадлежит Яндексу, что делает его долю на рынке еще большей.

  • Bing.com — система от Microsoft, которая практически не используется в России.
  • www.baidu.com — китайская поисковая система.
  • mail.ru — крупный игрок на рынке, которому принадлежат социальные сети vk.com, ok.ru и множество других крупных проектов. Доля поиска, к сожалению, незначительна.
  • rambler.ru — также развивает собственные проекты, например: lenta.ru, livejournal, афиша.

  • www.multitran.ru — один из популярных инструментов среди переводчиков.
  • avia.travel.ru — поиск авиабилетов.
  • www.sputnik.ru — еще один относительно свежий проект от Ростелеком.

***

Хороших поисковых систем много. Я привел лишь небольшую часть из них. Мне кажется, что для поиска, как и любого проекта, важна аудитория, которую нужно привлекать с помощью рекламных компаний и технологий.

Если Вам известны интересные поисковые системы или фишки при работе с ними, делитесь в комментариях.

albakoff.ru

Поисковые системы Интернета




Google

Google — русскоязычная версия глобальной поисковой системы, ищите нужную информацию среди миллиардов веб-страниц.



4100001101



Yahoo

Поисковая система Yahoo, которая помогает найти в точности то, что вы ищете. Найдите наиболее подходящую информацию, видео, изображения и ответы со всего Интернета.



25020348



Яндекс

Яндекс — национальная поисковая система, поиск картинок, видео, товаров, музыки, недвижимости, поиск по блогам.



380000366120



Поиск@Mail.ru

Социальный поиск в интернете — поисковая система Поиск@Mail.ru: поиск по картинкам, поиск в интернете, бесплатный поиск по видео, поиск c рекомендациями, поиск по новостям, поиск людей.



2760019330



Bing

Bing — русский вариант поисковой системы от компании Microsoft, поисковик после ребрендинга поисковых сайтов бывших MSN.com и Live.com, глобальный поиск картинок, видео.



460016034



DuckDuckGo

DuckDuckGo — поисковая система с открытым исходным кодом, расположенная в Вэлли-Фордж, штат Пенсильвания, которая использует информацию из многих источников с целью предоставления более точных, актуальных и более разнообразных результатов поиска



5250182164



Ask

Ask.com — русская версия популярной в мире поисковой системы, 3-я по популярности в рейтинге мировых поисковиков после Google и Bing.



400103178



Jooble

Jooble — это поисковая система, предназначенная для одной единственной цели: помочь Вам найти достойную работу. Jooble не хранит в себе информацию, а только умеет ее искать, но именно это он делает лучше остальных.



1085932



Ojooo Search

Мультипоиск Ojooo — мульти мата поисковая система: фото, видео, форумы, pdf, спорт, аудио, блоги.



20654023



META

META — украинская поисковая система. Поиск в Украине.



51600915800



Babylon Search

Babylon Search — поисковая система.



2409512243



RedTram

Новостная поисковая система RedTram



91008824376



ZapMeta

ZapMeta — все веб-результаты, одна поисковая система



1010538832



Спутник

Новая российская поисковая система Спутник



170015453016



Aport

Поисковая система цен Aport.ru — мы найдем лучшие цены на мобильные телефоны, компьютеры, мониторы, аудио, видео, фото, бытовую технику и другие товары. Актуальные прайс-листы интернет-магазинов в России.



497005378659



Mitula

Поисковая система недвижимости, авто и работы в России



36013583790



ВебАльта

Поисковая система Webalta



2750119100528



МногоНадо

Бизнес-поисковая система России, и СНГ. Бизнес портал — МНОГОНАДО.net



1550055216972



Plazoo

Plazoo это поисковая система новостей и прочей информации (например, электронные дневники) в RSS-формате (Really Simple Syndication).PLAZOO — это быстрый и простой способ получить свежую информацию.



120050255687



Генон

Генон — удобный поиск ответов на вопросы. Генон — удобный поиск ответов на вопросы



500060385627



TourIndex

TourIndex — поисковая система по турам



72021452114



Acesse

Поисковая система Acesse. С такими услугами, как целевые рекламные кампании, бизнес справочник, конструкторы веб и мобильных сайтов, регистрация доменных имен и пакетов хостинга, Acesse — ваш единый инструмент.



15021658161



Yambler

Ямблер — релевантный поиск сразу в трех поисковиках!



301351113933



Мой компас

Мой Компас — социальная поисковая система.



3600911125369



Метабот

MetaBot.ru — Мощнейшая российская мета-поисковая система!



2600871595375



Sindex

Поисковая система Sindex



201061610010



Нигма

Нигма — интеллектуальная поисковая система



108001022900015



Тындекс

Tyndex.ru — ищет лучшие цены на телефоны, одежду, стиральные машины, инструмент, подарки, планшеты, матрасы и другое в прайс-листах фирм Москвы, Санкт-Петербурга, Екатеринбурга, Новосибирска и всей России



210543948141



AnalyzeThis

Анализаторы поисковых машин — ANALYZETHIS.RU



975614658079



Kaz.kz

Kaz.kz — казахстанская поисковая система



240979185347

www.bravica.com

Поисковые системы Интернета: Яндекс, Google, Rambler, Yahoo — информация, принципы работы

1. Введение

2. Понятие и функции поисковой системы

3. Основные характеристики поисковой системы

4. Краткая история развития поисковых систем

5. Состав и принципы работы поисковой системы

6. Заключение

1. Введение

Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, — директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система — это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.


Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота — одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность — еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность — не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

    Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска. Подробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937.

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google — самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и MSN, имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo. 

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее — Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) — программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы — это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

По информации ООО «Рамблер Интернет Холдинг» обработка поискового запроса в системе «Рамблер» происходит, так, как это изображено на рисунке.

Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня — frontend (1.1 — 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (2.1 — 2.8, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 — 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 — 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, — backends (5.1.х — 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.) Та же информация отправляется на машины с «быстрой базой» (6.1 — 6.2).

На текущий момент в поиск включено 77 backend’ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend’ах первой группы (5.1.1 — 5.1.11 на рис), оранжевый сектор — на backend’ах второй группы (5.2.1 — 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend’ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.

После того, как запрос обработан на backend’ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин «быстрой базы». Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend’ах. Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим — с 6.1, четвертым — с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.

Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.

При написании мастер-класса были использованы материалы и данные ООО «Рамблер Интернет Холдинг», RuSeo.info

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

www.seonews.ru

Самые крупные поисковые системы в интернете

Для того, чтобы человечество развивалось, нужны энергетические, инструментальные, материальные и информационные ресурсы. Последние два десятка лет мы, как никогда раньше, переживаем настоящий информационный взрыв. В торговле, промышленности, образовательной и финансовой сферах наблюдается самый большой оборот объема информации. А совершают этот оборот, в эру интернета, крупные и небольшие поисковые системы.

Все мы пользуемся интернетом и знаем, что количество сайтов во всемирной сети бесчисленное множество. Но какие из них самые «правдивые» и достоверные? Чтобы это выяснить, специалисты стали упорядочивать сайты в каталоги и сортировать по темам. Так возникли поисковые системы, о них и пойдет речь в данной статье.

Неизвестное об известном

Поисковая система являет собой технические и программные средства, которые сообща выполняют одну или несколько подобных задач, с целью выдачи искомой информации. Эти задачи включают в себя последовательные программные действия по собиранию, обрабатыванию и предоставлении текстовой и графической информации. Такая система считается лучше, если она больше использует документов, соответствующих введенному запросу человека.

Что касается сервиса и методов розыска сведений, то поисковики бывают четырех типов:

  1. Управляемые человеком. В этих проектах каталоги содержат в себе сведения о местонахождении, названии и коротких «зарисовках» сайтов. Достоверность всех ресурсов контролируется вручную людьми, а значит, и качество наполнения намного выше в сравнении с системами машинального типа.
  2. Использующие для собирания информации роботов. Поисковые роботы формируют списки интернет-страниц, копируют их в архив и делают оценку результатов поиска. Они постоянно мониторят сеть, поэтому информация всегда свежая. Основная часть теперешних ПС использует такой тип.
  3. Системы гибридные. Управляются людьми, но используют при этом поисковых роботов. Это такие гиганты-поисковики, как Googlе, Yahoo!, MSN.
  4. Мета-системы. Ищут, проверяют, объединяют и выдают вам немедленно лучшие итоги нескольких поисковых ресурсов. Данные системы были очень популярны, когда вышеназванные типы систем были не такими «умными», но так, как теперь поиск стал намного лучше, потребность в мета-системах стала меньше.

Дальше мы выясним, какие же, кроме Гугла, существуют крупные поисковики. Но, чтобы яснее представить, какой должна быть хорошая ПС, рассмотрим их основные характеристики. Точность, актуальность, полнота, скорость выдачи, наглядность — вот основные параметры, по которым стоит рассматривать полезность той или иной поисковой системы.

Точность — характеристика определяет уровень соответствия выданных компьютером документов на запрос. Чем четче сформулированная ключевая фраза в поисковике, тем скорее человек найдет необходимую информацию.

Полнота — представляет собой соотношение числа выданных по запросу файлов к общему количеству файлов в сети.

Актуальность — оппозиционируется периодом времени, который прошел с того момента, как файлы публиковались в сети, до момента внесения их в базу индексации. Например, новостная лента создается с помощью т. н. «быстрой» базы, обновляющейся не один раз на дню.

Скорость выдачи — зависит от устойчивости системы к нагрузкам. В рабочее время человек хочет иметь быстрый результат, а машине надо оперативно по максимуму обработать запрос.

Наглядность является весомым компонентом для удобства при поиске. Бывает, что на главных страницах выданного документа нет нужной человеку информации и ему приходится самому искать внутри списка. Для этого на страницах выдачи поисковика существуют разные элементы, которые помогают сориентироваться в выданных результатах, например, ссылки на сайты, пояснения по странице и пр.

Поисковые системы по регионам и популярности

Где-то с двухтысячного года самой крупной поисковой системой в мире считается Google. Однако не все страны и континенты пользуются одинаковыми поисковиками. Так, в странах Восточной Азии Гугл не в фаворитах.

В Китае популярны поисковики Soso и Baidu. Причём, последняя ПС ворвалась в десятку сайтов, лидеров по посещаемости, и продолжает там находится по сегодняшний день. Baidu — 8-ой поисковый сайт в мире по посещаемости.

В Тайване и Японии используют Yahoo! Taiwan и Yahoo! Japan.

В Южной Корее большинство жителей пользуются «отечественной» разработкой Naver.

В России Яндекс опережает Гугл.

В странах Ближнего Востока существуют поисковые системы, выдающие только «дозволенную» информацию с точки зрения религии. Это либо такие «молодые» системы, как Halalgoogling, либо уже знакомые нам Яху!, Гугл и Бинг с обусловленной системой фильтрации.

Самые крупные поисковые системы России на 2015 год

Самые крупные поисковые системы мира на 2015 год

Конечно, эти списки не является окончательными, так как разные источники на основе своих критериев оценки формируют перечни популярных поисковиков, включая такие порталы, как: Infoseek, HotBot, Teoma, Exite, Galaxy, Microsoft MSN, AltaVista и др. Если говорить отдельно о такой поисковой системе, как Байду, то в китайском информационном пространстве в последнее время Baidu намного перегнал Google, Sina и Sohu.com, и на данный момент занимает 2 место в мире по числу обработанных запросов.

Система МСН для выдачи результатов поиска использует базы порталов Яху, Альтависты, Инктоми и др. Она тоже является одним из значимых ресурсов интернета и ею широко пользуются в Бельгии, Дании, Англии, Японии и Новой Зеландии.

Яху насчитывает более 345 миллионов пользователей. Представительства компании (больше 30-ти) работают в тихоокеанском регионе, Европе, Азии и Северной Америке.

Подробную информацию про каждую из заинтересовавших вас систем вы можете с легкостью найти в интернете, при помощи рассмотренных ПС.

Надеемся, статья принесла вам пользу и теперь вы будете увереннее ориентироваться в просторах Всемирной паутины.

Автор публикации

1 995

не в сети 6 дней


x64 (aka andi)

Комментарии: 2847Публикации: 395Регистрация: 02-04-2009

Загрузка…

a-panov.ru

Поисковая система — WiKi

Поиск информации во Всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х годов осуществлять поиск стало намного удобней

Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации[источник не указан 88 дней]. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[1]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[2]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов (см. «Пузырь фильтров»[⇨]) или вследствие человеческого фактора[⇨]. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %[⇨].

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨]. В архитектуру поисковой системы обычно входят:

  • поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,
  • индексатор, обеспечивающий быстрый поиск по накопленной информации, и
  • поисковик — графический интерфейс для работы пользователя[⇨].

История

На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН[3]. Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What’s New!)[4], где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете была программа Арчи[en] (англ. archie — архив без буквы «в»). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреале. Программа скачивала списки всех файлов со всех доступных анонимных FTP-серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержимое этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher, придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты, привело к созданию двух новых поисковых программ, Veronica[en] и Jughead[en]. Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) позволяла выполнять поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy’s Universal Gopher Hierarchy Excavation And Display) извлекала информацию о меню от определённых Gopher-серверов. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи»[en], тем не менее Veronica и Jughead — персонажи этих комиксов.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl, которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog, первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года[5].

Вероятно, первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» — бот Мэтью Грэя (Matthew Gray) из Массачусетского технологического института в июне 1993 года. Этот робот создавал поисковый индекс «Wandex». Цель робота Wanderer состояла в том, чтобы измерить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась и вторая поисковая система «Aliweb». Aliweb не использовала поискового робота, но вместо этого ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате.

JumpStation[en], [6] созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Первой полнотекстовой индексирующей ресурсы при помощи робота («craweler-based») поисковой системой, стала система «WebCrawler»[en], запущенная в 1994 году. В отличие от своих предшественниц, она позволяла пользователям искать по любым словам, расположенным на любой веб-странице — с тех пор это стало стандартом для большинства поисковых систем. Кроме того, это был первый поисковик, получивший широкое распространение. В 1994 году была запущена система «Lycos», разработанная в Университете Карнеги-Меллон и ставшая серьёзным коммерческим предприятием.

Вскоре появилось множество других конкурирующих поисковых машин, таких как: «Magellan»[en], «Excite», «Infoseek»[en], «Inktomi»[en], «Northern Light»[en] и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими как «Yahoo!». Но поисковые возможности каталогов ограничивались поиском по самим каталогам, а не по текстам веб-страниц. Позже каталоги объединялись или снабжались поисковыми роботами с целью улучшения поиска.

В 1996 году компания Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключила контракт сразу с пятью крупнейшими поисковыми системами (Yahoo!, Magellan, Lycos, Infoseek и Excite). За 5 млн долларов США в год они предлагались по очереди на поисковой странице Netscape[7][8].

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х[9]. Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light[en].

Google взял на вооружение идею продажи ключевых слов в 1998 году, тогда это была маленькая компания, обеспечивавшая работу поисковой системы по адресу goto.com[en]. Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете[10]. Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.

Поисковая система Google занимает видное положение с начала 2000-х[11]. Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank. Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google[12]. Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая система Google стала настолько популярной, что появились подражающие ей системы, например, Mystery Seeker[en](тайный поисковик).

К 2000 году Yahoo! осуществлял поиск на основе системы Inktomi. Yahoo! в 2002 году купил Inktomi, а в 2003 году купил Overture, которому принадлежали AlltheWeb[en] и AltaVista. Затем Yahoo! работал на основе поисковой системы Google вплоть до 2004 года, пока не запустил, наконец, свой собственный поисковик на основе всех купленных ранее технологий.

Фирма Microsoft впервые запустила поисковую систему Microsoft Network Search (MSN Search) осенью 1998 года, используя результаты поиска от Inktomi. Совсем скоро в начале 1999 года сайт начал отображать выдачу Looksmart[en], смешанную с результатами Inktomi. Недолго (в 1999 году) MSN search использовал результаты поиска от AltaVista. В 2004 году фирма Microsoft начала переход к собственной поисковой технологии с использованием собственного поискового робота — msnbot[en]. После проведения ребрендинга компанией Microsoft 1 июня 2009 года была запущена поисковая система Bing. 29 июля 2009 Yahoo! и Microsoft подписали соглашение, согласно которому Yahoo! Search[en] работал на основе технологии Microsoft Bing. На момент 2015 года союз Bing и Yahoo! дал первые настоящие плоды. Теперь Bing занимает 20,1 % рынка, а Yahoo! 12,7 %, что в общем занимает 32,60 % от общего рынка поисковых систем в США по данным из разных источников.

Поиск информации на русском языке

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт. 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник, которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty»[en] компании Vivisimo[en]. В 2005 году в России при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала[13] с визуальной кластеризацией.

Как работает поисковая система

  Высокоуровневая архитектура стандартного краулера

Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик[14].

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно[14].

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML-страниц. Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя[15].

Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц[15]. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая[15]. Эта ситуация связана с потерей ссылок (англ. linkrot[en]) и дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления, пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц (User expectations[en]). Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска[14].

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста[15]. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц[11]. С 2007 года поисковик Google позволяет искать с учётом времени, создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона).

Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было введено. В некоторых поисковых системах есть возможность приближённого поиска[en], в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов[15]. Есть также концептуальный поиск[en], при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке. Примером такой поисковой системы является сайт ask com.

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному[15]. Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы, в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Типы поисковых систем

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы[16].

  • системы, использующие поисковые роботы
Состоят из трёх частей: краулер («бот», «робот» или «паук»), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс — большой архив копий веб-страниц. Цель программного обеспечения — оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем являются системами данного типа.
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток — обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Ранжирование страниц не может мгновенно меняться. В качестве примеров таких систем можно привести каталог Yahoo[en], dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo, Google, MSN, сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.
Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler[en] и MSN Search.

Рынок поисковых систем

Google — самая популярная поисковая система в мире с долей на рынке 69,24 %. Bing занимает вторую позицию, его доля 12,26 %[17].

Самые популярные поисковые системы в мире[18]:

Поисковая системаДоля рынка в июле 2014Доля рынка в октябре 2014Доля рынка в сентябре 2017
Google68,69 %58,01 %69,24 %
Bing17,17 %29,06 %12,26 %
Baidu6,22 %8,01 %6,48 %
Yahoo!6,74 %4,01 %5,19 %
AOL0,13 %0,21 %1,11 %
Excite0,22 %0,00 %0,00 %
Ask0,13 %0,10 %0,24 %

Азия

В восточноазиатских странах и в России Google — не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso[en].

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей[19]Yahoo! Japan и Yahoo! Taiwan — самые популярные системы для поиска в Японии и Тайване соответственно[20].

Россия и русскоязычные поисковые системы

Яндексом пользуются 53,3 % пользователей в России (Google — 42,9 %)[21].

Согласно данным LiveInternet в декабре 2017 года об охвате русскоязычных поисковых запросов[22]:

  • Всеязычные:
    • Google (42,9 %)
    • Bing (0,3 %)
    • Yahoo! (0,0 %) и принадлежащие этой компании поисковые машины: Inktomi[en], AltaVista, Alltheweb[en]
  • Англоязычные и международные:
  • Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском, татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Количественные данные поисковой системы Google

Число пользователей Интернета и поисковых систем и требований пользователей к этим системам постоянно растёт. Для увеличений скорости поиска нужной информации крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру[23].

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании[24].

О работе дата-центров поисковой системе Google известно следующее[23]:

  • Суммарная мощность всех дата-центров Google, по состоянию на 2011 год, оценивалась в 220 МВт.
  • Когда в 2008 году Google планировала открыть в Орегоне новый комплекс, состоящий из трёх зданий общей площадью 6,5 млн м², в журнале Harper’s Magazine подсчитали, что такой большой комплекс потребляет свыше 100 МВт электроэнергии, что сравнимо с потреблением энергии города с населением 300 000 человек.
  • Ориентировочное число серверов Google в 2012 году — 1 000 000.
  • Расходы Google на дата-центры составили в 2006 году — $1,9 млрд, а в 2007 году — $2,4 млрд.

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4,36 миллиарда страниц[25].

Поисковые системы, учитывающие религиозные запреты

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента, способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере.

Незадолго до мусульманского месяца Рамадан, в июле 2013 года, миру был представлен Halalgoogling[en] — система, выдающая пользователям только халяльные «правильные» ссылки[26], фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing. Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, из-за отсутствия финансирования[27].

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim[en]. Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь — в соответствии с последним сообщением от I’mHalal перед его закрытием — выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока, если вы поддержите нашу блестящую молодёжь»[28].

Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату, и классифицируют веб-сайты как «халяль» или «харам». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ, азартных играх и каким-либо другим, тематика которых считается антиисламской[28].

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle — еврейская версия Google и SeekFind.org — христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру[29].

Персональные результаты и пузыри фильтров

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров»[30].

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения[31].

Предвзятость поисковых систем

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу[32][33].

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста незаконно[34].

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов[35]. Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам[33].

Поисковая бомба — один из примеров попытки управления результатами поиска по политическим, социальным или коммерческим причинам.

См. также

Примечания

  1. ↑ Chu & Rosenthal, 1996, p. 129.
  2. ↑ Tarakeswar & Kavitha, 2011, p. 29.
  3. ↑ World-Wide Web Servers.
  4. ↑ What’s New.
  5. ↑ Oscar Nierstrasz.
  6. ↑ Archive of NCSA.
  7. ↑ Yahoo! And Netscape.
  8. ↑ Netscape, 1996.
  9. ↑ The dynamics of competition, 2001.
  10. ↑ Intro to Computer Science.
  11. 1 2 Google`s history.
  12. ↑ Брин и Пейдж, p. 3.
  13. ↑ Nigma.
  14. 1 2 3 Risvik & Michelsen, 2002, p. 290.
  15. 1 2 3 4 5 6 Knowledge Management, 2011.
  16. ↑ Tarakeswar & Kavitha, 2011, p. 29.
  17. ↑ NMS.
  18. ↑ Статистика.
  19. ↑ Naver.
  20. ↑ Age of Internet Empires.
  21. ↑ LiveInternet.
  22. ↑ Liveinternet
  23. 1 2 Antula.
  24. ↑ Where the Internet lives.
  25. ↑ World wide web size.
  26. ↑ Islam.
  27. ↑ I’mHalal
  28. 1 2 Halalblog
  29. ↑ ChristianNews.
  30. ↑ Pariser, 2011.
  31. ↑ Auralist, 2012, p. 13.
  32. ↑ Segev, 2010.
  33. 1 2 Search engine coverage bias, 2004.
  34. ↑ Replacement of Google.
  35. ↑ Shaping the Web, 2000.

Литература

  • Gandal, Neil. The dynamics of competition in the internet search engine market. — 2001. — Vol. 19. — P. 1103–1117. — DOI:10.1016/S0167-7187(01)00065-0.
  • Tarakeswar M. K., Kavitha M. D. Search Engines:A Study (англ.) // Journal of Computer Applications (JCA) : journal. — 2011. — Vol. 4, no. 1. — P. 29—33. — ISSN 0974-1925.
  • Vaughan L., Thelwall M. Search engine coverage bias: evidence and possible causes (англ.) // Information Processing & Management : journal. — 2004. — Vol. 40. — P. 693–707. — DOI:10.1016/S0306-4573(03)00063-3.

Ссылки

  • FAQ (неопр.). NetMarketShare. Проверено 23 ноября 2014.

ru-wiki.org

Отправить ответ

avatar
  Подписаться  
Уведомление о