Запущена новая интеллектуальная поисковая система Nigma.ru
Подтверждением известной мысли выдающегося ученого Михаила Ломоносова о том, что «может собственных Платонов и быстрых разумом Невтонов российская земля рождать», может служить одна из последних разработок студентов и аспирантов Московского государственного университета имени Михаила Ломоносова. Речь идет об интеллектуальной поисковой системе…
Подтверждением известной мысли выдающегося ученого Михаила Ломоносова о том, что «может собственных Платонов и быстрых разумом Невтонов российская земля рождать», может служить одна из последних разработок студентов и аспирантов Московского государственного университета имени Михаила Ломоносова. Речь идет об интеллектуальной поисковой системе Nigma.ru, официально запущенной в статусе альфа-версии (то есть самой ранней). Несмотря на то, что работы над поисковой системой научный коллектив продолжал меньше трех месяцев, уже разработаны оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии, и двухуровневая кластеризация.
В чем же суть этого изобретения и его практическая значимость? По мнению специалистов, оно может облегчить работу в Интернете. Дело в том, что на подавляющее большинство поисковых запросов Nigma.ru выдает на порядок больше найденных сайтов, чем, например, при простом поиске на сайте Google.ru. Для того чтобы пользователь не запутался в этих результатах, они группируются в так называемые «кластеры». Каждый кластер — это группа сайтов, относящихся, по разумению поисковой системы, к общей тематике.
Научная группа, состоящая из студентов и аспирантов, решила использовать частотную кластеризацию по ключевым словам, поэтому названия кластеров — это тоже ключевые слова, которые пользователь может применять для расширения своего запроса. В свою очередь, поскольку количество найденных кластеров также зачастую очень велико, интеллектуальный алгоритм объединяет кластеры в иерархию (пока — двухуровневую), которая позволяет представить их в более компактном виде. Например, введя очень общий запрос «новости», на который поисковая система Nigma.ru выдает порядка полумиллиарда документов, в левой колонке пользователь видит самые популярные темы новостей, которые встречаются в Интернете. Нажав на тему (например, «спорт»), он получает примеры новостных ресурсов, которые освещают эту тему. Если он захочет получить больше ресурсов о новостях спорта, нужно нажать на «Расширить запрос» — тогда система выдаст более двух миллионов ссылок о новостях спорта. Они, в свою очередь, тоже отклассифицированы по темам — есть футбол, хоккей и т.п.
Как сообщают сами же исследователи при помощи сети Интернет, работа их научной группы в части кластеризующих алгоритмов находится в начальной стадии, и ее участники планируют продолжать ее совершенствование. В ближайшее время поисковая система будет расширена экспертными системами, психологическими тестами и другими методами, базирующимися на алгоритмах искусственного интеллекта.
Добавим, что проект системы Nigma.ru сформировался из благотворительного проекта Виктора Лавренко, который в течение нескольких лет спонсировал научные исследования студентов МГУ в области искусственного интеллекта. С этого года он является соискателем на степень кандидата физико-математических наук, занимается научной работой на факультете ВМиК МГУ имени М.В.Ломоносова, являясь руководителем проекта Nigma.ru.
Несомненно, подобные разработки в их окончательном виде найдут своих поклонников, ведь они чрезвычайно актуальны.
Автор: Любовь Колоколова
Нигма.РФ – интеллектуальная поисковая система
- Подробности
- Категория: Продвижение сайтов
Нигма.РФ – интеллектуальная поисковая система. Первая поисковая система в рунете, которая использует в своих алгоритмах метод кластеризации.
Нигма – научный проект, который был создан 12 апреля 2005 года при поддержке НГУ имени М. В. Ломоносова, а также Stanford University. Команда программистов работает над реализацией задачи создания интеллектуальной системы поиска, которая на каждый запрос пользователя будет анализировать имеющуюся информацию в сети Интернет и выдавать нужные данные, а не просто ссылки на другие веб-ресурсы.
Идея создания данной поисковой системы с новым методом обработки и анализа полученных данных (этот метод называется кластеризация) появилась в 2004 году. Официальная же дата появления интеллектуальной поисковой системы Нигма.РФ является 12 апреля 2005 года. Почему название посиковой системы именно Нигма? Всё просто. Во-первых, это один из родов пауков + короткое и запоминающееся. Название происходит из рода пауков – получается аналогия со всемирной сетью Интернет. На данный момент в штате компании насчитывается 25 человек, планируется расширение штата. А вот в 2005 году в компании было всего 3.
Для школьников, а также студентов интересно и полезно будет знать о некоторых «фичах» Нигмы, а именно — Нигма – математика и Нигма – химия. Просто введите в строку поиска формулу, Нигма Вам подскажет и решение, и результат. Поисковик – как дополнительный способ обучения на практике.
Специально для меломанов Нигма – музыка. Вы можете введя запрос в поиск, и получив нужные результаты, прослушивать любимые мелодии прямо с сайта, в режиме онлайн, скачивать не обязательно. При поиске музыки результаты поиска группируются по исполнителю, альбому, жанру песни. Это очень удобно. Также Нигма сразу выводит под композицией текст песни.
Основные Нигма — фичи. Читайте, ищите, наслаждайтесь!
Поиск информации в библиотеке — Интеллектуальные системы поиска
В библиотеках хранятся огромные объемы информации различных форматов и на различных носителях. Поиск по такому разнообразию материалов часто требует участия специалиста. Поиск требуемых материалов усложняется еще больше, если пользователь затрудняется сформировать четкий запрос, а лишь обрисовывает тематику.
Традиционно библиотеки предоставляют возможность поиска по электронному каталогу и подписным электронным ресурсам. В единичных случаях предоставляется доступ к оцифрованным электронным фондам, не попадающим под ограничения авторского права. Сложность поиска информации заключается в том, что для каждого электронного ресурса существует своя поисковая система.
Корпорация ЭЛАР предлагает решение «Интеллектуальная система поиска», которое обеспечит быстрый и эффективный поиск информации поиск по всему многообразию материалов – как традиционным способом (по классификаторам, рубрикаторам и атрибутам), так и с использованием аналитических инструментов.
Интеллектуальная система поиска, реализованная на основе специализированного программного обеспечения «Индекс», обеспечивает повышение удовлетворенности пользователей (читателей библиотеки) за счет:
- полноты охвата библиотечного контента
Поиск осуществляется по всем электронным ресурсам – каталогам, оцифрованным фондам, полнотекстовым коллекциям, медиа-ресурсам, электронным подпискам, диссертациям, а также по описаниям, аннотациям и другому электронному контенту. - полного набора поисковых инструментов
- многоуровневой системы фильтров и аналитических инструментов поиска
Интерактивное сужение поиска с помощью многоуровневой системы фильтрации, в том числе с использованием графических фильтров. Анализ запросов (семантический, морфологический, таксономический, кластерный и др.) для предоставления адекватного результата. - предоставления искомой информации с ограничением доступа к контенту в соответствии с правами пользователей
Результат предоставляется в виде документов с возможностью просмотра, если на них не распространяются ограничения авторского права, или в виде цитат с искомой информацией и указанием источника, если доступ к документам ограничен. - интеграции системы в структуру web-портала
Система интеллектуального поиска может быть встроена в web-портал библиотеки, обеспечивая возможность удаленной работы.
Схема решения
Описание модулей решения и принцип работы интеллектуальной системы поиска.
Для того, чтобы скорость отработки поискового запроса была минимальной, осуществляется предварительный сбор и анализ информации (текстов, метаданных и др.) — полнотекстовое индексирование.
Сбор информации из различных источников осуществляется благодаря интеграции с информационными системами (АБИС, Электронная библиотека) или за счет использования коннекторов (например, файловые репозитории – полнотекстовые коллекции, видеоматериалы и т.п.). Для каждого источника информации используется свой коннектор, который настраивается в соответствии с задачами библиотеки: какую информацию получать, где она находится, с какой периодичностью отслеживать появление новых данных и другие параметры.
Вся полученная информация проходит обработку, которая включает в себя извлечение текстов и метаданных из файлов различного формата, включая изображения, определение языка и кодировки, преобразование стандартизованных данных в единый формат. Анализ текста предусматривает определение словоформ, частей речи и взаимосвязей слов в предложении, выявление различных сущностей в тексте (имен, географических названий, названий организаций), и даже анализ эмоциональной окраски текста.
Результаты обработки информации помещаются в поисковый индекс, который содержит тексты документов, исходные метаданные документов, связанную информацию, полученную на этапе анализа. Ядром поискового индекса является инвертированный список – отсортированный перечень всех слов, встречающихся в документах, где для каждого слова указаны документы, в которых оно [слово] встречается. Благодаря этому списку осуществляется оперативный поиск информации.
Сама система устанавливается и настраивается на сервере библиотеки. Часть операций администрирования требуется выполнять непосредственно на сервере, но большинство настроек может быть установлено через браузер.
Работа пользователей также осуществляется через браузер. При подключении к интеллектуальной системе поиска требуется авторизация пользователей через логин и пароль, назначенный или наследуемый из внутренних систем библиотеки. Например, для читателей может использоваться электронный читательский билет, для сотрудников библиотеки – рабочая учетная запись.
Служба разграничения прав доступа осуществляет контроль над правомерным использованием ресурсов. Интеллектуальная система, как и большинство поисковых платформ, строится на наследовании прав доступа, принятых для источников информации (Active Directory, АБИС, Электронная библиотека и др.). В результате, пользователю доступна только та информация, право на чтение которой он имеет.
Интеллектуальная поисковая система использует различные методы поиска и их сочетания:
- Традиционный атрибутный поиск
Классический поиск по рубрикатору или атрибутам библиографического описания с использованием перекрестной фильтрации. - Поиск по терминологическим словарям
Позволяет сузить поиск по области знаний, или жанрам, или другой тематической направленности. - Контекстный поиск
Поиск осуществляется из единой строки по набору ключевых слов с учётом морфологических форм. Такой метод позволяет быстро найти информацию в тех случаях, когда пользователь владеет терминологией и имеет представление о том, что ищет. Ограничить диапазон поиска можно при использовании логических и контекстных операторов. - Нечеткий поиск
Данный метод позволяет найти информацию по запросам, введенным с опечатками или ошибками. Или по документам и данным, содержащим ошибки. Результат, корректируя ошибки в документах и данных, по которым осуществляется поиск. При нечетком поиске, как правило, используется автозаполнение запроса. - Семантический поиск
Наиболее удобный вариант в тех случаях, когда пользователь затрудняется сформулировать запрос. Поиск информации осуществляется по смысловому содержанию поискового запроса, с учетом многозначных слов, омонимов, синонимов и лингвистических связей между словами. В результате предоставляется информация, как содержащая слова из запроса, так и не имеющая совпадений с поисковой фразой. - Интеллектуальный анализ
Данный метод является дополнительным и представляет собой набор инструментов анализа, визуализации и интерактивного сужения поиска. Средства интеллектуального анализа позволяют определять закономерности и группировать результаты, проводить анализ и адаптацию поисковых запросов, отображать похожие материалы и т.д. для выявления данных в огромных объемах электронных ресурсов.
Преимущества решения:
- Высокий уровень информационно-библиотечного обслуживания читателей
- Интеграция системы с различными источниками информации: автоматизированные библиотечно-информационные системы, базы данных, электронные полнотекстовые коллекции, аудио- и видео-контент и др.
- Максимальный набор поисковых возможностей и аналитических инструментов
- Встраиваемость системы интеллектуального поиска в web-портал библиотеки
Что думают суды о поисковых системах и их функционировании в сети Интернет?
Несмотря на то, что практики по конкретному вопросу не так много, подход вполне себе сформирован.
Например, в Постановлении Девятого арбитражного апелляционного суда от 19.01.2018 N 09АП-63724/2017 по делу N А40-133167/17 указано, что
Принцип действия поисковых систем основан на автоматическом индексировании общедоступной информации, созданной и размещенной в открытом доступе в Интернете третьими лицами (владельцами или администраторами сайтов). … [Л]ица размещают и распространяют информацию независимо от владельцев поисковых систем, самостоятельно посредством специальных программных средств определяют уровень доступности размещаемой ими информации, а также возможность или невозможность ее индексирования поисковыми системами. Результаты поиска по каждому запросу конечного пользователя формируются полностью автоматически и представляют собой список ссылок, указывающих, по каким сетевым адресам в Интернете в текущий момент времени согласно данным индексирования, имеющимся в базе данных поисковой системы, может присутствовать информация, релевантная заданному пользователем запросу. Ознакомление с информацией (доступ к ней) осуществляется пользователями непосредственно на указанных сайтах, а не на сайтах поисковых систем, при этом они имеют доступ к той или иной информации независимо от того, проиндексирована она или нет соответствующей поисковой системой
В Апелляционном определении Московского городского суда от 18 августа 2017 г. по делу № 33-32480/1 содержится почти дословно совпадающий вывод, а также следующее дополнение:
пользователь может осуществить доступ к информации, размещенной в общем доступе в сети Интернет независимо от того, была ли такая информация проиндексирована какой-либо поисковой системой…. [поэтому] …поисковый сервис …не осуществляет распространение (использование) информации, а предоставляет пользователям услуги поиска информации, размещенной третьими лицами в сети Интернет, что исключает возложение на него ответственности за содержание информации, размещенной иными лицами
Аналогичный подход можно найти в постановлении Московского городского суда от 17 февраля 2017 г. № 4г/7-1197/17.
В Решении Арбитражного суда г. Москвы от 30 ноября 2017 г. по делу № А40- 68026/17-110-636 применительно к деятельности поисковых систем и особенностям функционала их сервисов сделан вывод в контексте использования объектов интеллектуальной собственности:
под использованием результата интеллектуальной деятельности или средства индивидуализации всегда понимаются определенные действия определенного лица, направленные на взаимодействие с объектом, которому предоставлена правовая охрана в соответствии с частью четвертой ГК РФ. Следовательно, лицо, которое не осуществляет напрямую [такое] взаимодействие … не может считаться лицом, использующим соответствующий объект, … [и] не может являться нарушителем исключительных прав правообладателя
Апелляционное определение Московского городского суда от 18 ноября 2015 г. по делу № 33-42727/2015 примечательно тем, что в нем не просто под «копирку» воспроизведен подход к пониманию алгоритм действия поисковых систем, но еще и сделана ремарка об общеизвестности этого обстоятельства:
Судом первой инстанции верно указано в решении, что данные обстоятельства являются общеизвестными. В материалы дела стороной ответчиков представлены пользовательские соглашения поисковых сервисов, лицензии на использование поисковых систем. … суд пришел к правильному выводу о том, что ответчики не размещали оспариваемые истцом сведения, а предоставляют информацию по запросам пользователей о том, на каких информационных ресурсах могут находиться интересующие их сведения
В Решении АС города Москвы от 09 апреля 2013 г. по делу № А40-164436/12 раскрывается такой аспект поискового алгоритма, как ключевое слово:
Ключевое слово представляет собой технический параметр, …При введении ключевого слова пользователь получает ряд ссылок на возможные ресурсы, для которых выбрано соответствующее ключевое слово… Ключевое же слово не позволяет точно определить какое-либо рекламное объявление, лицо или товар… [ввиду] отсутствии[я] способности к индивидуализации.
В Решении Арбитражного суда г. Москвы от 05 апреля 2010 г. по делу № А40-170203/09-67-1113 просто указано, что
поисковая система … является техническим инструментом, позволяющим пользователям осуществлять поиск информации, размещенной третьими лицами в сети Интернет, с использованием специализированного программно-аппаратного комплекса. В случае, когда лица, разместившие информацию в сети Интернет, меняют ее содержание или удаляют ее, эти изменения автоматически отражаются в индексе и в результатах поиска (информация удаляется или изменяется) через поисковую систему … при очередной индексации страницы. Так как, на сегодняшний день в открытой части интернета существует несколько миллиардов страниц, то мгновенно проиндексировать все содержание сети и отразить все изменения, происходящие в сети беспрерывно, пока не может ни одна поисковая система…
Такой подход поддерживается в доктрине (см., например, К.М. Егелев, С.С. Калашников. Поисковые системы и информационные посредники//»Журнал Суда по интеллектуальным правам», № 16, июнь 2017 г., с 30-35// http://ipcmagazine.ru/re-views/3951-bots-et-les-interm-diaires-d-information; А.П. Сергеев, Т.А. Терещенко. Принцип действия поисковых систем: правовая квалификация // Арбитражные споры. 2018. № 3(83). С. 82-90 // http://fasszo.arbitr.ru/welcome/showall/633200035/458200064) и признается самим поисковиками (https://yandex.ru/company/technologies/searchindex ).
В итоге, механизм поиска выглядит так:
а) «кэширование» (сaching — cоздание слепка), то есть обход и временное копирование с определенной периодичностью большого количества сайтов с созданием архива страниц с общедоступной информацией с целью
б) создания поискового индекса: из скопированных страниц в результате анализа выбираются ключевые и значимые для поиска слова. Этот процесс автоматизирован и осуществляется регулярно. В итоге, поисковый индекс вместе с данными о типе документов, кодировке, языке и си т.п. образуют поисковую базу, с использованием которой осуществляется
в) поисковая выдача, то есть ответ cервера поисковика на запрос пользователя в форме ссылок (b[ списка) на сайты, содержащие релевантную информацию. Знакомство c информацией и доступ к ней осуществляется непосредственного на том или ином сайте (например, там, где пользователь разрешил индексирование информации о себе).
Практические выводы из этого следующие:
Первое — деятельность по созданию поисковых индексов правомерна и не нарушает права третьих лиц, разместивших информацию на своих ресурсах и сделавших ее общедоступной. Читай — индексируемой.
Второе — поисковые системы не используют проиндексированную информацию в смысле законодательства о защите информации и законодательства об интеллектуальной собственности. Значит, формально не подпадают под те категории, которые отсылают к вопросу об использовании объектов интеллектуальной собственности.
Третье – в контексте проблем, связанных с т.н. прорывными технологиями, базами данных и прочей «информационной нефтью», становится понятно, что действующее регулировании, в том числе об исключительных правах, не позволяет сейчас и не позволит без сущностного пересмотра отдельных подходов ответить на вопросы кому и что принадлежит, в каком режиме должно охраняться.
В Рунете запущена новая интеллектуальная поисковая система
Nigma.ru имеет оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии и двухуровневой кластеризации.
Интеллектуальная поисковая система Nigma.ru, результат работы студентов и аспирантов факультетов ВМиК и психологии МГУ им. Ломоносова, официально запущена в статусе альфа-версии.
Членами команды разработаны оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии и двухуровневой кластеризации. Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращает, а увеличивает количество найденных документов, т.к. морфологически измененный запрос объединяется с исходным. Релевантность также увеличивается, т.к. используются специальные алгоритмы объединения результатов. Позиция найденной ссылки в результатах поиска отображается в виде «Поисковая система: позиция» (например, «Google: 5» означает, что ссылка находится на пятом месте в поисковой системе Google), а ссылки от морфологически измененных запросов — в виде «Поисковая система-M: позиция» (например, «Google-M: 10» — десятая ссылка в морфологически измененном запросе).
Результаты поиска объединяются с помощью специального алгоритма, причем только те результаты, которые Nigma.ru успевает получить от поисковых систем за 1,5 секунды (в очень редких случаях — за 5 секунд). Соответственно, алгоритм не выделяет какие-то поисковые системы таким образом, что результаты поиска от них имеют большую значимость, чем от других, т.к. нет гарантии, что за это время система успеет обработать эти результаты. Вместо этого для их объединения используется статистическая информация о русскоязычном интернете, такая как посещаемость (на базе публичных счетчиков) и цитируемость сайтов. Кроме того, учитываются другие специфичные для Рунета и русского языка особенности при объединении результатов.
В итоге, по утверждению разработчиков, на подавляющее большинство поисковых запросов Nigma.ru выдает на порядок больше найденных сайтов, чем, например, при простом поиске на сайте Google.ru. Для того чтобы пользователь не запутался в этих результатах, они группируются в так называемые кластеры. Каждый кластер — это группа сайтов, относящихся, по «мнению» поисковой системы, к общей тематике. Разработчики решили использовать частотную кластеризацию по ключевым словам, поэтому названия кластеров — это тоже ключевые слова, которые пользователь может применять для расширения своего запроса. В свою очередь, т.к. количество найденных кластеров также часто очень велико, интеллектуальный алгоритм объединяет кластеры в иерархию (пока — двухуровневую), которая позволяет представить их в более компактном виде. Например, введя очень общий запрос «новости», на который поисковая система Nigma.ru выдает порядка полумиллиарда документов, в левой колонке можно увидеть самые популярные темы новостей, которые встречаются в интернете. Нажав на тему (например, «спорт»), вы получите примеры новостных ресурсов, которые освещают эту тему. Если Вы хотите получить больше ресурсов о новостях спорта, нужно нажать на «Расширить запрос» — тогда система выдаст более двух миллионов ссылок о новостях спорта. Они, в свою очередь, тоже отклассифицированы по темам — футбол, хоккей и т.п.
Участники исследовательской группы планируют продолжить разработку кластеризующих алгоритмов. В ближайшее время поисковая система будет расширена экспертными системами, психологическими тестами, системами поведенческого анализа и другими методами, базирующимися на таких алгоритмах искусственного интеллекта как искусственные нейронные сети, генетические алгоритмы, алгоритмы нечеткой логики и т.п. После того как будет создана стабильная версия кода, планируется опубликовать его исходные тексты.
Нигма — интеллектуальная поисковая система — Другие поисковики
Nigma – пауки семейства Dictunidae, имеющие три разновидности. Все окрашены в зеленоватый цвет, длина пауков – 2-3 мм. Типичным местом обитания являются кустарники и деревья.
Поисковая система Nigma была запущена в знаменательный день – 12 апреля 2005 года – День космонавтики. Намеренным или случайным был выбор даты для запуска поисковой системы, история умалчивает, но то, что она лишний раз подчеркивает научную направленность Нигмы – факт.
Основателем проекта является Виктор Лавренко, бывший вице-президент компании Mail.ru. С самого начала ему помогал Владимир Чернышов, тогда еще студент кафедры вычислительной техники и кибернетики МГУ. На сегодняшний день в проекте поисковой системы Нигма занято порядка 15 человек.
Главная особенность Нигмы — это ее научно-прикладной характер: она является своего рода исследовательской лабораторией для студентов и аспирантов МГУ. На ее базе уже сейчас защищаются различные дипломы и диссертации. Но не забывают создатели Нигмы и о коммерческой составляющей проекта. Так, на страницах поисковой выдачи Нигмы присутствует реклама от Яндекс.Директа. Впрочем, сам Виктор Лавренко говорит о том, что коммерческая выгода от проекта является далеко не первоочередной целью. Главное – это построение эффективного поиска на основе новых поисковых алгоритмов: в частности, это метод, основанный на кластеризации документов.
Нигма использует индексную базу нескольких поисковых машин: Google, Yahoo, MSN, Yandex, Rambler, Altavista, Aport. Также имеется и собственная документальная база. При поисковом запросе пользователя формируется ряд документов, которые группируются в тематические классы, имеющие определенное описание. Таким образом, пользователь может уточнить условия поиска, убрав из него определенные кластеры (сняв галочки перед их названиями).
Основную аудиторию поисковой системы Нигма, по словам Виктора Лавренко, составляют студенты. А главной «фишкой» поисковика, которая привлекает все новых и новых пользователей, является кластеризация документов. Общая популярность Нигмы среди пользователей Рунета остается на достаточно низком уровне. Так, по данным статистики LiveInternet, за июль 2007 года доля переходов с Нигмы среди других поисковых машин составила 0,4%. Но это уже выше доли в 0,3% старейшего рунетовского поисковика – Апорта. Нельзя сказать, что руководство Нигмы не принимает никаких мер по увеличению популярности своей поисковой машины. Напротив, как и любая научная разработка, Нигма нуждается в испытателях, коими для нее являются обычные пользователи. С целью привлечения новых пользователей проводились и проводятся различные мероприятия. Так, с октября 2006 по апрель 2007 года Нигма рекламировалась в Яндекс.Директе, что обеспечило ей более 1100 тыс. переходов. После чего руководство Яндекса сочло неразумным далее рекламировать своего конкурента. Также проводилась небольшая рекламная кампания на радио, которая дала новых посетителей.
С июля 2007 года Нигма проводит новую акцию, направленную на увеличение популярности своего поисковика. Пользователи, которые часто пользуются результатами поиска Нигмы, в один прекрасный момент могут быть осчастливлены сообщением «Вы выиграли компьютер». Однако, не стоит рассчитывать на халяву – система автоматического отбора внимательно следит за теми, кто пытается обмануть поисковую систему. Кроме того, результаты автоматического отбора выигравших пользователей могут быть подкорректированы вручную.
Пользователи Нигмы имеют возможность пожаловаться на плохие результаты поиска прямо на странице поисковой выдачи, с помощью специальной формы. Кроме того, разработка новых сервисов и алгоритмов «согласуется» с рядовыми пользователями при помощи различных опросов.
Так, одним из нововведений Нигмы стала система исправления ошибок в запросах, разработанная и введенная именно из-за частых жалоб со стороны пользователей. Причем, по эффективности и возможностям она превосходит разработки как наших, так и зарубежных поисковиков.
Таким образом, можно надеяться, что рулевые Нигмы и в дальнейшем будут прислушиваться к мнению своих пользователей, что, несомненно, будет только увеличивать ее популярность. В любом случае, тех, кого не устраивают результаты поиска «монстров» Рунета – Гугла и Яндекса, могут попробовать Нигму в качестве источника информации.
Nigma.ru запустила антикризисный поиск товаров — CMS Magazine
Команда разработчиков Nigma.ru выпустила новую версию поисковой подсказки. Теперь, набирая в поисковой строке названия товаров, пользователи видят их минимальную стоимость даже не нажимая кнопку «найти».
Для наиболее востребованных категорий товаров, поисковая система составляет списки, в первую очередь предлагая самые дешевые и популярные.
База данных товаров автоматически составляется на базе проекта Яндекс.Маркет. В ближайшем будущем разработчики добавят информацию из других каталогов товаров.
Виктор Лавренко: «Когда мы научили подсказку отвечать на вопросы типа «вес nokia e65», то стали получать просьбы пользователей выводить цены, если в запросе речь идет о конкретном товаре. Теперь наши пользователи смогут покупать товары по самой дешевой цене».
Каждую минуту система подсказок Nigma.ru отвечает на 8000 запросов пользователей.
Краткая информация о Nigma.ru
Интеллектуальная поисковая система Nigma.ru — это первая кластеризующая поисковая система в Рунете.
Главное отличие от существующих поисковых систем — это кластеризация, т.е. тематическая группировка найденных документов. На сайте существует фильтр ненужных пользователю тем, например, Интернет-магазинов, что значительно облегчает поиск необходимой информации.
В рамках проекта команда программистов работает над созданием системы, построенной на основе разработок в области искусственного интеллекта. Конечная цель проекта — это создание программного обеспечения, позволяющего анализировать проиндексированные документы и выдавать конкретную информацию на запрос пользователя, а не ссылки на другие сайты. Разработчиками были созданы такие сервисы, как: Nigma-математика, Nigma-химия и Nigma-музыка.
Ежедневно пользователи поисковой машины Nigma.ru делают более 1 миллиона переходов на сайты, ежемесячная аудитория составляет более 2 100 000 уникальных посетителей.
Руководитель проекта — Виктор Лавренко — выпускник факультета Вычислительной математики и Кибернетики (ВМК) Московского Государственного Университета, ранее работавший в компании Mail.ru в должности вице-президента по стратегии и финансам.
Технический директор проекта — Владимир Чернышов, начавший работу над Nigma, будучи еще студентом-старшекурсником, в данный момент является выпускником ВМК МГУ и Stanford University.
Научные разработки ведутся при участии Stanford University.
Научный руководитель проекта в Stanford University Гектор Гарсия Молина.
Если хотите получать новости о Nigma.ru, подпишитесь на эту рассылку: http://nigma.ru/nigma.rssИнтеллектуальный поиск | Yext
С учетом того, что 77% взрослого населения США владеют смартфонами, и прогноз, что голосовой поиск будет составлять 50% всего поиска к 2020 году, ясно указывает на то, что ландшафт поиска быстро меняется. Компании должны учитывать это и готовиться к следующей волне сбоев: интеллектуальный поиск .
Поиск больше не может определяться ключевыми словами и 10 синими ссылками на странице результатов поисковой системы. Интеллектуальные системы, такие как карта знаний Google и Alexa от Amazon, теперь предоставляют единые и прямые ответы о вашей компании поисковым потребителям.Например, если потребитель ищет новый автомобиль, ему теперь предоставляется карта знаний, в которой содержится такая информация, как цены, конфигурации и характеристики. Точно так же, если кто-то ищет продукты или банки, результат поиска возвращает карты, поскольку теперь Google предполагает, что люди ищут место, если они ищут что-то, присутствующее в физическом мире.
Благодаря увеличению использования голосовых и подключенных устройств более чем на 130% в период с 2016 по 2017 год интеллектуальный поиск — это не то, что компании могут игнорировать.Интеллектуальный поиск — это новая сеть систем, дающих прямые ответы. Примерами интеллектуальных поисковых систем являются голосовой поиск, например Siri от Apple или Alexa от Amazon, карта знаний Google, искусственный интеллект и машинное обучение. Search Engine Land недавно сообщил, что каждый четвертый поиск в Google дает карту знаний. Это означает, что 25% всех поисковых запросов Google дают разумные ответы. Это также означает, что пользователи с большей вероятностью будут полагаться на эти интеллектуальные результаты, а не переходить на веб-сайт компании, чтобы найти информацию о компании или местоположении.Недавнее аналитическое исследование Yext показало, что обычные онлайн-списки привлекают в 2,7 раза больше внимания на картах, в социальных сетях, поисковых системах и приложениях, чем на их собственных веб-сайтах. Эти новые механизмы продолжают развиваться и изменять способ взаимодействия потребителей с результатами поиска, а также с брендами.
Интеллектуальный поиск, возможно, только начинает развиваться, но скоро ваш бренд будет жить и в других интеллектуальных системах, таких как беспилотные автомобили от Uber и Tesla, а позже и в технологиях, таких как дроны, датчики, виртуальная реальность и умная одежда. .Появление интеллектуального поиска и интеллектуальных систем создало и будет создавать беспрецедентный уровень потребности в управлении цифровыми знаниями. Вы можете только представить, какую головную боль это вызовет у ваших клиентов, если ответы, данные им этими системами о вашей компании, будут неправильными, и, что еще хуже, эти неточные цифровые знания плохо отразятся на вашей компании, а не на поисковой системе. Потребители теперь полагаются на интеллектуальные услуги, чтобы обеспечить им релевантные результаты в цифровой экосистеме.По мере развития поисковой среды веб-сайт бренда становится менее важным для потребителей, которые становятся более мобильными и требуют немедленных ответов.
В то время как расширенный контент имеет решающее значение для SEO, структурированные данные еще более важны для интеллектуального поиска. Структурированные данные — это высокоорганизованная информация, которая хранится в фиксированных полях и включает такие вещи, как атрибуты бизнеса и категории, такие как варианты без глютена. Эти интеллектуальные ответы часто основываются на фрагментах детализированных данных; Таким образом, структурированные данные становятся еще более важными для работы вашего бренда в поисковой сети.Структурированные данные позволяют поисковым системам и интеллектуальным поисковым службам определять, соответствуют ли цифровые знания вашей компании каждому запросу. Чем более структурированные данные вы сможете предоставить, тем более заметным будет ваш бренд в интеллектуальных ответах. Например, если вы спросите Siri: «, что такое надгробие?» она откроет определение из Википедии с изображениями и описанием надгробий, но если вы спросите ее: «, где находится надгробие ?» Она открывает карту, указывающую на город, Надгробие, Аризона.По мере того, как поиск становится более интеллектуальным, интеллектуальные службы получают структурированные данные и используют ИИ для интерпретации того, что вы ищете. Чтобы получать разумные ответы, ваша компания должна предоставлять структурированные данные, соответствующие поисковым запросам ваших клиентов.
Какими бы умными ни были интеллектуальные сервисы, они хороши ровно настолько, насколько хороши данные, которые вы вводите. Повысьте эффективность интеллектуального поиска, изучив долю вашего бизнеса в интеллектуальном поиске и положение по сравнению с конкурентами с помощью интеллектуального поискового трекера Yext.Intelligent Search Tracker, запатентованный Yext подход к отслеживанию рейтинга, позволяет оценить ваше истинное влияние в сегодняшней новой эпохе. Интеллектуальный поисковый трекер Yext позволяет измерять не только ваш рейтинг в поиске, но и ваш контроль над данными, которые потребители видят в результатах поиска. Интеллектуальный поисковый трекер позволяет вам отслеживать до семи ключевых слов, каждое по четырем шаблонам запросов, на основе данных, которые вы храните в Yext Knowledge Manager, таких как ваше имя и категория.Или создайте собственные ключевые слова, которые представляют трафик, который вы хотите привлечь. Затем измерьте свою эффективность по нескольким показателям.
Интеллектуальный поисковый трекер может помочь вам понять, как ваша компания работает в интеллектуальном поиске. Щелкните здесь, чтобы узнать больше об этой функции в блоге Yext. Вы также можете узнать больше о показателях интеллектуального поискового трекера Yext Analytics. Чтобы узнать больше о структурированных данных в развивающейся среде интеллектуального поиска, ознакомьтесь с нашей электронной книгой.
Пять шагов для создания интеллектуальной поисковой системы с нуля
Иногда, устав от обычных поисковых систем, наши клиенты хотят сделать что-то особенное или другое.В этом случае было бы неплохо создать собственную платформу для самостоятельного поиска. Сегодня нетрудно создать интеллектуальный поисковый софт с существующими технологиями с открытым исходным кодом.
Конечно, это непростой процесс, а в некоторые моменты бывает довольно сложно. Также нужно быть готовым к длительному запуску, ведь на сканирование всех данных, а также на их обработку и анализ уходит не месяц.
Благодаря нашему опыту, даже новичок может разработать простую поисковую систему для полуструктурированных данных за несколько недель или около того.Но каждый раз разработка поисковой системы — это немного другой процесс из-за постоянного развития технологий.
Надеюсь, есть несколько общих шагов, с которыми мы обычно сталкиваемся, отвечая на вопрос о том, как создать поисковую систему, и эти шаги мы раскрываем в этой статье. Наша команда надеется, что эта статья поможет вам понять ключевые этапы и сэкономит вам несколько дней на первоначальное исследование.
ПЕРВОНАЧАЛЬНЫЙ АНАЛИЗ ДАННЫХ
Перед началом разработки нам необходимо проанализировать исходные данные, чтобы понять, какие алгоритмы поиска лучше всего подходят для ваших данных.
Данные могут быть структурированными, неструктурированными и полуструктурированными:
- Например, структурированные данные — это любые данные, содержащие фиксированное поле, конкретный файл или запись. Матрицы, структурированные таблицы и реляционные (SQL) базы данных также можно рассматривать как структурированные данные. Во время первоначального анализа данных специалист по данным исследует, очищает и преобразует данные для поиска атрибутов.
- Если мы работаем со структурированными данными, мы можем классифицировать данные по разным группам, используя атрибуты данных — уникальные свойства, которые отличают одну запись от другой.
- Если данные неструктурированы — например, фотографии, видео, изображения, документы — самый простой способ поиска по этим данным — преобразовать их в структурированный или полуструктурированный формат с использованием различных методов. В зависимости от типа данных специалисты по обработке данных разрабатывают способ обработки этих данных, чтобы предотвратить ложноположительные результаты.
Этот важный шаг позволяет нам добиться существенного результата — исходя из нашего опыта, на это уходит около 40 процентов времени.
РАЗБОР ЗАПРОСА ПОЛЬЗОВАТЕЛЯ
Следующим шагом в развитии поисковой системы является анализ запросов пользователей.
На этом этапе специалист по данным анализирует:
- Способ формирования входящего запроса пользователем
- Как извлечь из него параметры
- Как эти параметры связаны между собой.
Для сложных данных не рекомендуется вводить простой запрос во входные данные для поиска — вам необходимо разработать специальный язык запросов, который поможет клиенту быстро и эффективно искать данные с помощью комбинации атрибутов.
Если вы ищете альтернативу для разработки определенного языка запросов, мы предлагаем вам попробовать машинное обучение для извлечения данных из поисковых запросов.Машинное обучение можно использовать для создания семантической поисковой системы на базе расширенного модуля анализа текста.
Основная особенность семантического поисковика — он помогает обрабатывать естественный язык, автоматически извлекая атрибуты объектов из поисковых запросов. Он также находит взаимосвязи между различными характеристиками входа, которые позже используются для эффективного извлечения данных.
РАЗРАБОТКА АЛГОРИТМА ПОИСКА
Существуют разные алгоритмы поиска: разные алгоритмы используются для поиска разных типов данных.Применение неправильного алгоритма к конкретным данным может привести к значительной потере производительности, а поиск общих данных может занять гораздо больше времени, чем ожидалось.
Еще один факт, который следует учитывать — существующие реализации конкретных алгоритмов поиска. Самыми популярными языками программирования для создания поисковых систем являются Python, Java, PHP, Ruby и C #. Вы можете легко найти различные реализации на GitHub.
Но давайте посмотрим на более конкретный пример — алгоритм поиска строки Бойера – Мура — его можно закодировать с использованием различных языков программирования.Но важно, чтобы алгоритм, разработанный на C ++, работал лучше, чем тот же алгоритм, написанный на PHP.
При разработке интеллектуальной поисковой системы вам необходимо понимать слабые стороны языка программирования и алгоритма, который вы планируете использовать. Для новичка это, наверное, не проблема, но особенно сложно при разработке решения для крупного предприятия.
Давайте посмотрим на другой пример, текстовый поиск. Текстовый поиск часто основан на так называемом сопоставлении строк — методе поиска строк, соответствующих определенному шаблону.
Существует несколько типов сопоставления строк: наиболее распространены строгие и нечеткие (приблизительное сопоставление строк). Строгое сопоставление — это тип сопоставления, когда данные полностью соответствуют шаблону, а нечеткое сопоставление — когда только часть шаблона соответствует части данных.
Если копнуть немного глубже, мы обнаружим, что одни и те же правила работают как для строк, так и для сложных объектов. Прекрасно, когда система обнаруживает объект, соответствующий запросу пользователя, но чаще всего этого не происходит.В этой ситуации движок оценивает существующие записи и ранжирует их.
Машинное обучение может значительно улучшить этот процесс — оно может анализировать не только вводимые пользователем данные, но и данные оценки, которые имеют атрибуты, аналогичные запрашиваемому объекту. Вы также можете напрямую использовать машинное обучение. Это предоставит поисковой системе возможность изучать наиболее релевантные поисковые запросы и постоянно улучшать их без ручного программирования.
ОЦЕНКА И НАСТРОЙКА АТРИБУТА
Четвертым этапом разработки интеллектуальной поисковой системы является настройка SERP.SERP означает страницу результатов поисковой системы — это страница, созданная поисковой системой, на которой отображаются все релевантные результаты.
Когда поисковая система находит несколько релевантных результатов, она должна расположить их в правильном порядке, чтобы удовлетворить пользователя. Результаты расположены в правильном порядке из-за оценки атрибутов. Каждый объект, найденный поисковой системой, имеет набор атрибутов или параметров, описывающих конкретную запись.
Каждый атрибут имеет числовое значение, называемое « вес », и эти значения суммируются поисковой машиной для определения правильного порядка результатов.На этом этапе мы обычно анализируем поведение поисковой системы и настраиваем веса атрибутов для достижения результата, удовлетворяющего клиента.
Машинное обучение может значительно улучшить оценку атрибутов. С помощью расширенного машинного обучения мы можем анализировать цепочку поисковых запросов — то, как пользователь ищет конкретную запись.
Принимая во внимание историю поиска, мы можем вычислить точные веса, динамически корректируя или уменьшая значения в соответствии с результатами, которые пользователь уже видел .С помощью машинного обучения легко анализировать наиболее популярные записи и автоматически выдвигать их на вершину, не искажая при этом пользователя или разработчика программного обеспечения.
ГЕНЕРАЦИЯ SERP
Последний этап развития интеллектуальной поисковой системы — создание поисковой выдачи. Мы уже упоминали, что SERP — это страница результатов поисковой системы — определенная страница, на которой пользователь может видеть результаты, соответствующие поисковому запросу. Когда обычный человек думает о том, как должны выглядеть результаты поисковой системы, он обычно представляет Google или Yahoo.
Что ж, надо признать — Google SERP выглядит хорошо и просто отображает информацию. Но пока мы говорим о более конкретных поисковых системах, пользовательский интерфейс может быть совсем непростым.
Пример страниц результатов поисковой системы из одного из наших последних проектовПоскольку каждая поисковая система обеспечивает поиск данных с помощью различных типов данных, это типичная ситуация, когда страницы результатов выглядят по-разному. Обычно рекомендуется отображать список атрибутов, извлеченных из поискового запроса, но иногда это может быть сложно, поскольку могут быть сотни различных взаимосвязанных атрибутов.
Поисковые системы промышленного уровня обычно имеют динамический пользовательский интерфейс , построенный на популярных интерфейсных фреймворках, таких как React или Vue. Эти фреймворки позволяют исследовать богатые результаты поиска без перезагрузки страницы, что снижает нагрузку на веб-сервер.
Итак, если вы думаете о создании поисковой системы для сложных данных, вам следует подумать о том, как легко визуализировать результаты и какие технологии использовать.
ИТОГ
Мы живем в увлекательном мире данных, поэтому невозможно представить нашу жизнь без современных поисковых систем, таких как Google или Yahoo.Но есть также типы данных, которые обычные поисковые системы не могут обработать, и для этих данных вам, вероятно, понадобится что-то другое.
Если вы хотите создать интеллектуальную поисковую систему для сложных структурированных или неструктурированных данных, пункты, перечисленные в этой статье, будут вам полезны — теперь вы знаете, с чего начать и с какими проблемами вы можете столкнуться.
В Azati мы уже создали десяток различных поисковых систем для нескольких клиентов из различных отраслей, поэтому у нас есть захватывающий опыт, которым мы можем поделиться.Итак, если вы сейчас разрабатываете свой движок или только думаете об этом — напишите нам, и мы поговорим об этом.
Что должна делать поисковая система, управляемая искусственным интеллектом?
ФОТО: ShutterstockSearch всегда был ключевой корпоративной технологией еще со времен появления первых систем управления корпоративным контентом. Это неудивительно, учитывая, насколько важен поиск правильных данных для любого из приложений, используемых предприятиями в своих бизнес-процессах.С появлением больших данных и использованием больших наборов данных поиск стал еще более важным. Если корпоративные данные — это настоящее богатство бизнеса, то поиск — это инструмент, который раскрывает это богатство. Но что делать с постоянно растущими объемами данных, к которым теперь имеют доступ предприятия? Как и во многих других областях бизнес-технологий, поставщики поисковых систем обращаются к искусственному интеллекту, чтобы повысить эффективность своих поисковых предложений.
Поиск на рабочем месте с использованием ИИ
Существует множество видов поиска на основе искусственного интеллекта, многие из которых используются предприятиями для повышения производительности своих веб-сайтов.По словам Дэрила Пламмера, вице-президент и сотрудник Gartner выступил на симпозиуме Gartner / ITxpo 2017 в Орландо в октябре прошлого года. По его словам, к 2021 году бренды-первопроходцы, которые модернизируют свои веб-сайты для поддержки визуального и голосового поиска, увеличат доход от цифровой торговли на 30 процентов. В связи с быстрым ростом популярности визуального и голосового поиска и переходом к доминирующим режимам мобильного поиска предприятиям необходимо экспериментировать, чтобы определить наилучшие способы извлечь выгоду из этого потребительского сдвига.
Многие предприятия прислушались.Магазин одежды Forever 21 из Лос-Анджелеса выходит за рамки текстового онлайн-поиска и предлагает покупателям визуальный поиск и навигацию на базе искусственного интеллекта. Их клиенты больше не будут ограничены поиском новых образов в Интернете, вводя модные термины в строку поиска. Теперь они смогут искать предметы, просто щелкая значки, которые представляют функции, которые им нужны в одежде.
Дубай, ОАЭ, лучший сайт вакансий на Ближнем Востоке, Bayt.com, добавил новые функции на базе искусственного интеллекта, которые предназначены для более мощного и эффективного сопоставления талантов с возможностями, что позволяет 33 300 000 соискателей (по данным Байта) и сотням тысяч пользователей, которые посещают сайт каждый день, чтобы просмотреть более 15 000 вакансий, работая над тем, чтобы найти соискателям подходящие возможности карьерного роста.
Google также недавно запустил новый инструмент поиска работы в рамках своего пакета Google for Jobs, чтобы заработать на рынке найма в США на сумму 200 миллиардов долларов. Google отличается от LinkedIn, CareerBuilder, Monster и других онлайн-форумов по трудоустройству, используя машинное обучение и искусственный интеллект, чтобы помочь соискателям найти работу, специально адаптированную к их потребностям.
Статья по теме: 8 примеров искусственного интеллекта (ИИ) на рабочем месте
Элементы надежного AI-поиска
Итак, что предлагает поиск, управляемый искусственным интеллектом, Кавита Ганесан, основатель компании Opinosis Analytics из Солт-Лейк-Сити, указал на три основных элемента искусственного интеллекта, которые сейчас должны быть у поисковых систем.В их числе:
Завершение запроса — Почему бы не направить пользователей к правильному запросу вместо того, чтобы позволить им слепо вводить ключевые слова, которые могут дать плохие результаты? Завершение запроса также позволяет пользователям работать продуктивно, поскольку им не нужно набирать каждое слово.
Похожие запросы — Иногда пользователи могут не знать, что именно они ищут или какие ключевые слова использовать для получения наилучших результатов поиска. Было бы здорово, если бы мы могли предложить, что искать, исходя из их первоначальных ключевых слов.Это помогло бы пользователям сузить круг поиска и очень быстро завершить поиск. Например, если вы ищете Activate 2018 в Google, вы ищете очень конкретную конференцию в Монреале. Однако первые несколько элементов в списке результатов поиска вызывают другую конференцию с тем же именем. Google помогает мне устранить неоднозначность, предлагая другие запросы, которые вам следует использовать. Проблема решается одним из связанных поисков.
Связанные статьи / продукты — Когда поисковика интересует элемент поиска, например, статья об искусственном интеллекте в области здравоохранения, вы можете изучить другие связанные статьи, чтобы расширить наши знания по этой теме.Предложения в результатах поиска (например, прямо под описанием результата поиска) могут помочь пользователям изучить и найти больше того, что им действительно нужно. Это не только помогает пользователям, но и помогает предприятию вовлекать пользователей. Удержание пользователей на сайте дольше означает, что пользователи получают больше пользы от того, что предлагается, и приводит к увеличению конверсии.
Определите проблему поиска
Патрик Рейнхарт, старший директор по цифровым стратегиям в Conductor из Сан-Франциско, отметил, что одна из самых больших проблем, с которыми сегодня борются поисковые системы, — это выяснить, какую проблему они пытаются решить для своих пользователей.Большинство компаний обращаются к Google за этим ответом, который имеет смысл. Проблема, однако, в том, что эти компании также теряют свою идентичность, потому что они просто пытаются клонировать то, что делает Google, что невозможно. «Google знает, чего хочет достичь, и всегда делал это. Он хочет ответить на ваши вопросы вместе с индексированием и организацией Интернета », — сказал он.
«Теперь, возможно, вы заметили, что это сказал я, а не они, и это потому, что Rankbrain Google позволил компании выйти из мира, когда ей говорят, что делать, и теперь выясняет большую часть того, что она делает, самостоятельно. .Google использовал этот искусственный интеллект машинного обучения, чтобы его алгоритм работал лучше и быстрее и продвигался к своей миссии ». Вот что делает хорошую поисковую систему четкой миссией, над которой может работать группа людей и не отвлекаться на детали, которые уводят их от основной цели. «Именно здесь многие другие поисковые системы не достигают цели. Они не знают, какую проблему хотят решить, у них нет личности », — сказал Рейнхарт.
Как только другие поисковые системы поймут это, ИИ может помочь в достижении этой цели и улучшить опыт, взяв повседневные задачи из рук инженеров, чтобы они могли сосредоточиться на более широкой картине и общей миссии своей поисковой системы. .
Связанная статья: В поисках успеха бренда с помощью голосовых помощников
Классификация содержимого и результаты групп
По словам доктора Манджита Реге из инженерной школы Университета Сент-Томас в Миннесоте, есть две другие основные функции, которые должна иметь современная поисковая система: классификация контента на основе искусственного интеллекта и результаты сгруппированных групп. Обе функции предоставляют пользователям точную и точную информацию.
Классификация AI-контента — Раньше роботы поисковых систем были запрограммированы на поиск только ключевых слов в статическом каталоге данных.Теперь наши поисковые системы могут принимать условия поиска и настраивать их в зависимости от поведения пользователя. AI теперь позволяет поисковым системам замечать, соответствует ли один веб-сайт запросам пользователя больше, чем другой, и поднимает этот URL-адрес в верхние строчки результатов поиска. С помощью ИИ классификация контента теперь может помочь найти не только контент, который соответствует вашему поисковому запросу, но и мультимедиа, включая изображения и видео.
Двадцать лет назад поисковые системы были в основном текстовыми. Веб-сайт с изображением будет получен только в том случае, если вокруг него есть соответствующий текст.Теперь с помощью ИИ можно было обнаруживать содержимое изображений и видео. Таким образом, даже если существует веб-ресурс без какого-либо текста или подписей, он все равно будет извлечен из-за содержимого внутри изображений и видео.
AI теперь учится на основе реакции пользователей. Если верхний результат поиска не соответствует вашим потребностям и вы быстро покидаете страницу, ИИ отслеживает это движение. Если четвертый результат поиска соответствует вашим потребностям и вы остаетесь на этой странице некоторое время, ИИ отслеживает эти данные.В конце концов, динамический рейтинг AI распознает четвертый результат как более полезный результат поиска и постепенно сделает его первым, на котором появляется
Результаты сгруппированной группы — Результаты сгруппированной группы относятся к представлению информации, которую поисковая система находит для вас. Если бы мы искали слово «лист» 10 лет назад, робот поисковой системы предоставил бы URL-адреса и изображения листьев на деревьях или кустах. Теперь, когда мы ищем слово «лист», нам предоставляется выбор между листьями на дереве или компактным автомобилем, известным как Chevy Leaf.
AI помог поисковым системам распознать, что слова могут иметь более одного значения, и, чтобы лучше обслуживать пользователей, вы предоставляете им все возможности. «По мере того, как AI продолжает двигаться вперед, мы можем ожидать увеличения числа голосовых поисковых систем . Мы уже видим, как это изучается с помощью Alexa и Googl «, — сказал Ридж.
Согласно исследованию, проведенному Dimensional Research в тандеме с M-Files, почти 50 процентов сотрудников заявили, что у них возникли проблемы с документами и контентом, разбросанными в разных местах по всей их организации.Кроме того, исследование Dimensional Research показало, что 40 процентам сотрудников приходилось искать в трех или более местах, чтобы найти файл или документ, и что почти половина сотрудников не были уверены, что у них самая последняя версия.
Огромный объем данных, генерируемых ежедневно, является кошмаром для сотрудников, и именно здесь на помощь приходит искусственный интеллект. Новые разработки в области искусственного интеллекта создают основу для интеллектуального цифрового помощника, который призван помочь сотрудникам выполнять задачи, ориентированные на данные, такие как определение приоритетов электронной почты на основе о срочности, балансировке рабочих процессов и упреждающем прикреплении релевантного контента к электронным письмам и, в конечном итоге, облегчить им жизнь в наш век информационной перегрузки.
Интеллектуальные поисковые системы | Expert.ai
Тенденция к информационному самообслуживанию повышает актуальность полных приложений по сравнению с инструментами
В ходе бесед с клиентами мы заметили тенденцию, которая существенно влияет на то, как семантические решения вписываются в корпоративный ландшафт. В «старые добрые времена» сотрудник с вопросом отправлял его внутренней группе информационных экспертов, которые использовали набор экспертных инструментов, чтобы ответить (в виде отчета или списка обратной связи) первоначальному запросу.
Хотя это все еще распространено во многих местах, мы замечаем тенденцию все больше и больше полагаться на решения самообслуживания , которые ставят сотрудника в положение конечного пользователя , получая доступ к решениям, которые пытаются ответить на большую часть входящих вопросов с помощью веб-решения. Добро пожаловать в мир интеллектуальной поисковой системы .
Здесь играет роль ряд факторов. Все больше и больше пользователей чувствуют себя уверенно, выполняя поиск самостоятельно .Воодушевленные (часто вводящим в заблуждение) впечатлением, что, поскольку они знают, как использовать свою любимую поисковую систему, они думают, что тот же тип поиска также эффективен на профессиональном уровне. Вместо того, чтобы консультироваться с внутренней командой экспертов, средний пользователь просто пошел бы дальше и поискал бы себя.
В то же время решений, обеспечивающих быстрый доступ к актуальной информации, т.е. Интеллектуальные поисковые системы — становятся все более мощными и интуитивно понятными. . Наконец, бюджеты информационных отделов ограничены и часто пересматриваются.
В результате все больше и больше пользователей, которые являются экспертами в своей конкретной области — например, биологии, юриспруденции или инженерии — оказываются непосредственно открытыми для интерфейсов поиска и анализа без обнадеживающего присутствия специалиста по информации, который помог бы направить или улучшить опыт. Это возлагает большую ответственность за производительность на технологические решения и инструменты. Хотя для частных пользователей может быть приемлемо заниматься поиском без более детального понимания принципов, лежащих в основе поисковой машины [1], в корпоративной среде это не так. В корпоративной среде, где неполные или ошибочные результаты поиска могут иметь гораздо большее влияние, необходимость иметь соответствующие инструменты, конечно, намного выше.
Как выразился один из спонсоров проекта: «Цель решения, которое мы хотим, — не сделать 5% наших сотрудников на 100% умнее, а сделать 80% наших сотрудников на 10% умнее». В конце концов, многие пользователи даже не используют логический поиск. В результате они не смогут оценить весь потенциал индексации на основе тезауруса или более продвинутых технологий, которые доступны для повышения эффективности поиска.
Прочтите также статью о системах обработки естественного языка в искусственном интеллекте.
Интеллектуальные поисковые системы в Expert System
В Expert System мы переводим это в , увеличивая усилия по разработке не только основного механизма обработки информации, но и всего приложения . Мы знаем, что должны уметь учитывать тот факт, что интуитивно понятные интерфейсы и эффективная обработка документов, как правило, скрывают сложности того, что происходит «под капотом», когда дело доходит до интеллектуальной поисковой машины .
Наш Biopharma Navigator — прекрасный пример этого подхода . Информация, к которой необходим доступ профессионалов в области наук о жизни и фармацевтики, слишком сложна, неоднородна и распределена, чтобы ее можно было быстро усвоить без помощи профессионалов в области информации и интеллектуальных поисковых технологий.
Biopharma Navigator — это веб-решение, которое позволяет экспертам в предметной области, не являющимся специалистами в области информации, проводить набор типичных сценариев, таких как поиск экспертов, новости о терапевтической области или деятельность конкурентов .Результаты, обогащенные типичными синонимами за сценой, представлены на многофункциональных панелях мониторинга, которые обеспечивают немедленный доступ к информации, которую они ищут.
Рис. 1. Навигатор Biopharma Navigator предоставляет пользователям быстрый и интуитивно понятный доступ к более чем 40 миллионам документов.
Сегодня нашим Biopharma Navigator профессионально пользуются более 1000 отраслевых экспертов , чтобы быстро и легко получить доступ к необходимой информации.
Аналогичным образом, наше программное обеспечение Analysts ’Workspace реализует ту же идею: Передача мощных семантических технологий в руки людей, которым нужны быстрых и исчерпывающих результатов (без необходимости начинать с нуля для каждого нового поиска).
Не каждый может быть экспертом в анализе текста. : Некоторым из нас необходимо уметь лечить рак, принимать правильные инвестиционные решения или оценивать политические риски и возможности, оставляя анализ необходимых источников на усмотрение экспертов. В Expert System это наша миссия.
Штефан Гейсслер
Старший когнитивный ученый, экспертная система
приложений искусственного интеллекта в поисковых системах | Габриэль Хименес | AIMA: AI Marketing Magazine
Искусственный интеллект проникает во все области знаний и многие виды деятельности, которые мы выполняем изо дня в день.
Трансформация может затронуть повторяющиеся ручные задачи, которые не требуют большой мощности, но могут быть умеренно просто оптимизированы.
Есть и другие, которые, хотя и являются автоматическими, благодаря искусственному интеллекту имеют больший импульс для быстрого получения улучшенных результатов, улучшения качества обслуживания клиентов и обучения на лету.
Присоединяйтесь к лидерству AIMA @ bit.ly/AIMA-MeetUpПоиск в Интернете
Для большинства из нас уже характерны поисковые системы, такие как Google, который является самым популярным в Мексике, хотя Bing и Yahoo все еще далеко позади.
Этим компаниям, которые живут, чтобы предоставлять отличные поисковые услуги для того, что мы ищем, необходимо постоянно улучшать и реагировать на запросы пользователей наиболее точно и быстро.
Именно здесь Google и позже Bing в течение некоторого времени совершенствовали свои алгоритмы, которые, несмотря на сложный набор автоматических правил, были исправлены, а возможности обучения были ограничены.
В разделе, который может иметь большее влияние, находятся новые запросы, для которых нет истории поиска, и они составляют примерно 15% каждый год от общего объема поиска, чтобы определить намерения и цели в запросах и включить их. новые знания в уже имеющуюся базу.
С 2015 года Google усовершенствовал свой алгоритм с помощью RankBrain, части, которая применяет машинное обучение, чтобы определить, какие результаты будут наиболее интересными для данного поиска.
Со своей стороны Bing запустил в 2017 году интеллектуальный поиск, который дает более быстрые ответы и учитывает больше информации для простого взаимодействия с поисковой системой.
Выходя за рамки сигналов, которые обычно учитываются при интерпретации намерений пользователя, таких как местоположение устройства, тип устройства (сотовый телефон, планшет, компьютер), время дня, его история поиска, параметры персонализации, предыдущие запросы и использованные слова.
Одним из улучшений, которые потенциально могут быть использованы для машинного обучения, является то, что вы можете учиться и давать персонализированные ответы, а не просто рассматривать самые популярные результаты, о которых все говорят в данный момент.
Принимая во внимание весь набор сигналов и то, как пользователь вел себя раньше, можно предсказать лучший ответ, и если он неверен, научитесь на ошибке исправить себя.
История
Чтобы эта модель искусственного интеллекта и любая другая работала, необходимо иметь историю действий, которые мы ожидаем предсказать, и которые имеют множество переменных (местоположение, история, время, используемые ключевые слова) в порядке чтобы обогатить рекомендации и иметь большую вероятность комбинаций, которые возникают в ответ с высокой вероятностью того, что они будут правильными для пользователя.
Одним из преимуществ поисковых систем в Интернете является то, что у них есть большие объемы данных для обучения своих моделей.
Контекст
Фундаментальной частью поисковых систем является понимание контекста запросов.
Например, если мы поищем или , Google выдаст нам билеты, связанные с фильмом, который (он) был очень популярен. Но я мог бы искать местоимение или, может быть, информационные технологии.
Хотя сложно получить контекст только для одного слова, он учитывает то, что пользователи ищут и что они особенно искали в прошлом.
Результаты Google для ИТ-отделаЕсли мы зададим тот же вопрос в Bing, результат будет аналогичным, в первую очередь отобразится ИТ-результаты фильма.
И если мы хотим получить информацию об указательном местоимении, мы должны написать его специально для получения результатов, поскольку этот вопрос менее популярен.
Следовательно, контекст слов в запросе очень важен для того, чтобы точно понимать, что имеет в виду пользователь, и давать ему то, что ему нужно.
Результаты Bing для ИТНамерение
Ключевой концепцией результатов поиска является понимание и предвидение мотивации пользователей при написании их запроса, чтобы они могли дать им то, что они ожидают найти.
Да, например, я ищу «Чемпионат мира по футболу в Мексике». 4 июля 2018 года, казалось бы, ответ прост, я имею в виду, как он попал в Мексику во время чемпионата мира по футболу в России.
Отображает результаты матча этого дня.
Результаты Google для чемпионата мира по футболу в Мексике (июль 2018 г.)Но если мы подумаем о пользователе, что он на самом деле пытается узнать?
— Об участии Мексики в этом чемпионате мира?
— О новом чемпионате мира по футболу, который состоится в Мексике к 2026 году?
— Кубка мира в Мексике 86 или Мексике 70?
— Игроки каждой редакции?
— Историческая статистика?
И сегодня, 2 августа 2018 года, результаты Google следующие.
Результаты Google для чемпионата мира по футболу в Мексике (август 2018 г.)Bing ответил на это намерение в июльском запросе, предоставив информацию о мировом будущем и истории прошлых мировых событий в Мексике.
Результаты Bing для чемпионата мира в Мексике (июль 2018 г.)Но по тому же запросу сегодня, 2 августа 2018 г., результаты сосредоточены на только что завершившемся чемпионате мира по футболу в России.
Результаты Bing для чемпионата мира по футболу в Мексике (август 2018 г.)Чтобы ответить на него традиционным способом, он будет учитывать только такие сигналы, как качество контента сайтов или количество ссылочных ссылок, которые сайт получил.
Как и в примере, используя RankBrain в качестве фактора для определения ответов, было учтено, что в июле пользователей больше интересовала информация о чемпионате мира по футболу в России, на котором Мексика только что выбыла, а в августе — такой же интерес сохраняется, но в более общем плане.
Хотя эти результаты могут отличаться, если бы я был в России, он должен дать мне информацию о следующих играх или проживании, а также о наличии билетов на матчи или местах, где можно их посмотреть.
Идея реализации RankBrain и интеллектуального поиска как части алгоритма, определяющего результаты поиска, заключается в наиболее точном прогнозировании намерений пользователя при выполнении запроса.
Применение искусственного интеллекта для определения наилучших результатов
Одним из значительных изменений, которые он производит, является прекращение практики насыщения ключевыми словами (наполнение ключевыми словами) и сосредоточение внимания только на этих словах и их распространении на сайте, что было устарело в течение некоторого времени, но с применением методов машинного обучения и понимания естественного языка станет менее полезным, и нам придется изменить образ мышления, который ранее был адаптирован к тому, как алгоритм поисковой системы работал, чтобы делать это так, как мы выражать себя.
Как устно, так и письменно, в мобильных поисковых системах или на рабочих столах, все, что влияет на результаты, для одного и того же пользователя может отличаться в зависимости от контекста и того, как он это делает.
Благодаря этому поисковая машина сможет понять смысл и реальную ценность содержания сайта и его информации, а также тональность содержания, чтобы определить позицию в результатах.
Поиск по изображениям
Еще одно приложение, использующее искусственный интеллект в поисковых системах, — это возможность поиска по изображениям.
Вы можете определить продукт, из чего он сделан, где его купить, людей и места, просто сделав снимок.
Или, как в фильме «Анон» от Netflix, мы можем через наши глаза объединить ИИ и дополненную реальность для поиска всего, используя изображения.
Анонимный роликБудет очень полезно сделать более плавным процесс поиска информации или, что еще лучше, продуктов.
Это то, что все еще находится в разработке, но скоро будет доступно и будет улучшаться день ото дня по мере использования.
Пример поиска изображений BingЧтобы узнать больше об искусственном интеллекте и чат-ботах, поговорите с моим чат-ботом в мессенджере: https://www.messenger.com/t/GaboJimenez0
AI повышает интеллектуальный поиск
Он никогда не подводит. Вы ищете определенный оттенок общего термина или что-то, имеющее несколько значений, и обнаруживаете, что тонете в нерелевантных результатах поиска.
Но наука приходит на помощь. Исследователи обнаруживают, что с помощью искусственного интеллекта поиск может узнать о контексте, так что у него есть представление о том, когда вы имеете в виду «серфинг» для серфинга в Интернете по сравнению ссерфинг на волнах.
Вы можете благодарить такие технологии, как семантическая сеть. Фактически, по этой причине некоторые люди называют интеллектуальный поиск «семантическим поиском», потому что он включает этот контекст, пишет Серджио Редондо в Search Engine Journal . « Намерение , исходящее от пользователя, явно указывает, что он или она ищет», — объясняет он. «И контекст можно понимать как все, что окружает поиск и заставляет его двигаться в любом направлении, т.е.е., что придает этому значение. Таким образом, понимая и связывая намерение и контекст, поисковые системы могут понимать различные запросы, как то, что мотивирует, так и то, что от них ожидается ».
Как следует из отчета IDC, Unlocking the Hidden Value of Information , повышение эффективности поиска имеет значение, потому что деловые люди тратят очень много времени на поиск вещей. Более трети рабочего времени информационных работников тратится на поиск и сбор информации из различных систем.И при этом они находят нужную информацию чуть более чем в половине случаев. Это может складываться. Для организации, в которой работает 1000 человек, это 5,7 миллиона долларов ежегодно, которые тратятся на безуспешные поиски.
Такие компании, как Google, уже некоторое время занимаются разработкой интеллектуального поиска. Сеть знаний Google, доступная с 2012 года, использует такие источники, как Википедия и другие исследовательские сайты, чтобы быстро ответить на вопрос о поисковом элементе в надежде быстрее ответить на ваш вопрос.
«Поиск Тадж-Махала сразу же отображает список фактов, фотографии и карту знаменитой достопримечательности, а также быстрые ссылки на другие популярные варианты использования этого поискового запроса (например, музыкант или казино в Нью-Джерси). , — пишет Натан Ингрэхэм в книге The Verge . «Цель Google — предоставить вам информацию, которую вы ищете, за меньшее количество кликов, а также повысить релевантность того, что вы видите при поиске».
В частности, Google стремится активно отвечать на дополнительные вопросы, которые люди обычно затем ищут.Например, информация, отображаемая в «Сети знаний» при поиске Тома Круза, отвечает на 37% следующих поисковых запросов, сделанных о нем, пишет Ингрэм.
Google также тестирует продукт под названием Springboard, который предназначен для использования интеллектуального поиска, чтобы помочь пользователям находить информацию по всему спектру корпоративных продуктов Google, пишет Джон Рассел для TechCrunch . «Он предлагает единый поисковый интерфейс, который использует искусственный интеллект для поиска информации в пользовательском наборе продуктов Google, таких как Google Диск, Gmail, Календарь и Документы Google», — пишет он.
Аналогичным образом Microsoft Delve собирает информацию из различных источников, включая электронную почту, Yammer и OneDrive. «Delve отображает информацию, которая наиболее актуальна для каждого человека в зависимости от выполняемой им работы и людей, с которыми они взаимодействуют», — писала Джулия Уайт, генеральный менеджер отдела технического управления продуктами Office 365, при анонсе продукта. « С помощью Delve информация находит вас, а не то, что вам нужно ее искать».
Поисковые системы также используют метаданные, чтобы помочь ответить на заданный вами вопрос, даже если сайт не использует точную формулировку, которую вы использовали, пишет Ноз Урбина из Urbina Consulting.«Пользователи не ищут страницу, им нужен ответ», — заявляет он.
Например, поиск «Лучшая группа когда-либо» приводит к «карусели» веб-сайтов музыкантов, отмечает Урбина. «Несмотря на то, что на многих закулисных страницах на самом деле не обязательно написано« лучшая группа когда-либо », эти результаты перечислены», — пишет он. «Это гораздо умнее, чем сопоставление ключевых слов прямо со страницами. Механизм интерпретирует, чтобы получить то, что я, , хотел, , основываясь на том, что я сказал, сопоставляя неоднозначную концепцию («лучший диапазон») с ключевыми словами, а затем с содержанием.«
Интеллектуальный поиск также используется на собственных веб-сайтах компаний, — пишет Мэтт Линднер для интернет-магазина . «Интеллектуальные инструменты поиска собирают данные о клиентах в виде треков кликов и поведения в Интернете, чтобы адаптировать инструменты поиска для предоставления персонализированных результатов», — пишет он.
С другой стороны, интеллектуальный поиск по изображениям далек от совершенства. Даже на таком популярном сайте, как Google Фото, возможности поиска ограничены. «Мой поиск по запросу« Dog »нашел несколько собак, рыбу, двух уток, группу кенгуру и детеныша (обратите внимание, он не смотрел в камеру)», — пишет Урбина.Так что, возможно, интеллектуальному поиску еще есть куда пойти.
Как мы создали поисковую систему на базе искусственного интеллекта (не являясь Google) | Коул Тиенес
Поиск информации AI (ИИ) — это быстро развивающаяся область исследований. Исследования в этой области сосредоточены на получении наиболее релевантных результатов поиска, основанных на значении результата поиска, а не только на ключевых словах. Передовые исследования обычно включают использование существующих глубоких нейронных сетей (таких как Google BERT) и обучение их ранжированию результатов поиска.Однако проблем много (о которых я расскажу ниже). Создание надежной, масштабируемой семантической поисковой системы — непростая задача, поэтому неудивительно, что Google зарабатывает так много денег.
- Трудно превзойти существующие решения. Существующие поисковые системы, такие как Elasticsearch, используют алгоритмы сопоставления текста, такие как Best Match 25. Эти алгоритмы работают, учитывая частоту терминов и другие шаблоны слов. Они действительно работают на удивление хорошо. Поэтому их сложно победить.
- Даже если вы превзойдете существующие решения, сделать обобщения сложно. Часто встречающаяся проблема в машинном обучении — это настолько много тренировать модель для конкретной задачи, что она не может делать выводы о новой задаче. Это называется переобучением. Даже если ваша модель дает лучшие результаты поиска по исследовательским статьям, чем текстовые поисковые системы, это не значит, что она будет работать и с рецептами приготовления блюд.
- Современные модели (SoTA) часто медленные и масштабируемые. Даже если у вас есть идеальная модель, которая превосходит алгоритмы сопоставления текста и работает во многих различных областях, она может оказаться слишком медленной для использования в производственной среде. Как правило, модели SoTA (например, BERT) должны запускаться на специальном оборудовании (графическом процессоре) для масштабирования до производственных рабочих нагрузок. Это оборудование дорого с вычислительной точки зрения (и, следовательно, с финансовой точки зрения). Чтобы создать поисковую систему, которая ранжирует миллионы документов, вы не можете просто указать большой модели для ранжирования каждого результата поиска по одному.
Как я уже упоминал ранее, проводится огромное количество исследований, посвященных изучению последствий машинного обучения для поисковых систем.Это означает, что исследователи соревнуются за первые места в тестах для поиска информации, таких как MS MARCO.