Производители / Апорт (Интернет)



Поисковая система Апорт впервые была презентована на пресс-конференции компании «Агама» в феврале 1996 года. Тогда система работала только по сайту russia.agama.com. К моменту официальной презентации, 11 ноября 1997 года, в поисковой системе Апорт был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Отцом www.aport.ruстала компания «Агама» - разработчик программного обеспечения для Windows. Это отразилось и на создании поисковой системы, в отличие от большинства конкурентов Aport продолжает работать под управлением ОС Windows.

К важным свойствам первой версии поисковой системы Апорт можно отнести перевод запроса и ответа на английский язык и обратно. Второе свойство – реконструкция проиндексированных страниц из собственной базы. Это дает возможность просмотра уже несуществующих страниц.

Ноябрь 1998 года – Aport продан гражданину Израиля Джозефу Авчуку. Сумма сделки составила 55 тысяч долларов. Торговые марки «Апорт» и «Агама» сохранились, каталогу Ау! повезло гораздо меньше. В 1999 году Авчук окончательно покупает каталог и переименовывает его в AtRus, а после и вовсе уничтожает при экспорте на сайты «Омен», «Россия он-лайн» и «Апорт».

Конец 1999 года – в поисковую систему Апорт вложен первый миллион долларов, это позволило, некоторое время спустя, представить на компьютерных выставках «Апорт - 2000». Полностью интегрированный с AtRus; теперь Каталог – Апорт (Catalog - Aport).

Поисковая система Aport 2000 была построена на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог AtRus, или владельцы ресурсов.

www.aport.ru – первым из поисковых систем Рунета реализовал базовые технологии Google. «Page rank» - характеристика популярности ресурса по формуле «обратных ссылок»: ссылки с других сайтов на данный ресурс. Причем учитывается не только количество, но и важность ссылок. Вес ссылки с популярного сайта больше, а ссылки включающие слова запроса ценятся выше, чем ссылки со словом «здесь». К тому же, при обработке запроса поисковая система Aport 2000 ориентируется на HTML – код страницы, и наличие слов запроса в URL.

Еще одна особенность приоритет сайтам, вошедшим в высшую и элитную лиги Апорт – Каталог. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам.

Первым www.aport.ru стал использовать платную нулевую строку в выдаче. Но на Апорт купить не нулевое, просто более высокое место в ответной странице.

Масштабируемость в архитектуре Aport 2000 построена таким образом, что его поисковую базу можно дробить на несколько отдельных фрагментов, каждый из которых будет работать на своем компьютере. После поиска по фрагментам для пользователя рассчитывается общий ответ.

31 июля 2000 года Golden Telecom купил семейство интернет-проектов "Агама", включающее "Апорт" и AtRus, для включения в "Россию-он-лайн" и околоконтентные проекты.

Май 2001 - года окончательно завершилась сделка по смене владельца "Апорт" самого "Golden Telecom", новым владельцем стал "Альфа-Банк". NASDAQ к тому времени переживал бурный спад, и шансов перепродать Интернет проекты за приемлемую сумму не было. Это обусловило решение новых хозяев "Golden Telecom" минимизировать расходы на поддержку дорогостоящих Интернет проектов.

 

1. САЙТЫ

Многие поисковые системы сегодня, так или иначе, оперируют понятием сайта, но подразумевают под этим просто адрес сервера типа www.server.com. В этом случае адрес сайта определяется из адреса страницы простым отрезанием хвоста: из http://www.server.com/users/~vasya получается сайт www.server.com. Для больших серверов, где размещены сайты множества фирм или людей, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения того, какая группа страниц является логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, информация о сайтах в котором вводится человеком, а потому гораздо точнее, чем то, что дает любой автоматический алгоритм (специальные алгоритмы тоже используются, но только, если сайт не зарегистрирован в каталоге).

2. ДОКУМЕНТЫ

Апорт дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной из наиболее релевантных найденных на сайте страниц : адрес, заголовок, дата и цитата из документа . Важно, что цитаты выбираются из полного текста документа и содержат слова запроса.

Также имеется ссылка на реконструкцию полного текста документа . Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.)

Если нужно получить информацию о всех остальных страницах, которые Апорт нашел на сайте, то можно воспользоваться ссылкой , которая замыкает блок результатов. По этой ссылке выдается дополнительное окно, в котором отображаются результаты поиска только по данному сайту. Они состоят из блоков данных по отдельным страницам.

3. СОРТИРОВКА

Общие принципы

Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, из-за большой неоднородности ранжируемых документов и из-за попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию “мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами: неоднородностью ссылочной структуры и ее сознательным искажением спамерами.

Ещё одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами.

Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учёту максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию).

Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов.

Критерии ранжирования

Апорт применяет следующие критерии при ранжировании документов:

    * частота и взаимное расположение слов запроса в тексте документа;
    * размер документа;
    * присутствие и взаимное расположение слов запроса в выделенном (размером шрифта или html-тегами <b>, <strong>, <h1>...<h6>) тексте;
    * присутствие и расположение слов запроса в заголовке документа;
    * присутствие и расположение слов запроса в мета-тегах "keywords" и "description";
    * присутствие и расположение слов запроса в ссылках на ранжируемый документ и авторитетность этих ссылок;
    * присутствие и взаимное расположение слов запроса в названии и описании сайта в каталоге Апорта (учитывается при вычислении веса главной страницы сайта);
    * взвешенный индекс цитирования документа;
    * количество страниц сайта, имеющих высокую релевантность запросу.

Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев.

Частотные характеристики

Учитывается как абсолютная, так и относительная частота слова в тексте документа.

И для той и для другой величины существуют пороговые значения, после достижения которых дальнейшее увеличение частоты не влияет на вес документа. Для небольших документов, размер которых (в словах) меньше заданной константы, относительная частота рассчитывается не от их фактического размера, а от этой константы.

В заголовке, мета-тегах, а также в названии и описании сайта из каталога частота слов не учитывается.

Ссылочное ранжирование

Алгоритмы ссылочного ранжирования в Апорте учитывают не более одной ссылки с каждого домена второго уровня для отдельного запроса (то есть, для разных запросов могут учитываться разные ссылки).

Вес каждой ссылки зависит (помимо ее текста) от взвешенного индекса цитирования ссылающейся страницы.

Взвешенный индекс цитирования

Алгоритм вычисления взвешенного индекса цитируемости является модификацией классического алгоритма PageRank. В качестве одной из наиболее существенных особенностей следует отметить, что учитывается не более одной ссылки на документ с каждого домена второго уровня.

Индексом цитирования сайта считается взвешенный индекс цитирования страницы, самый высокий среди всех страниц сайта (в большинстве случаев это бывает взвешенный индекс цитирования главной страницы сайта).

Мета-теги "keywords" и description"

Ключевые слова (meta keywords) учитываются Апортом даже в случае их отсутствия в тексте документа. Индексируется не более 16 ключевых слов для каждого документа. Мета-тег description также учитывается при ранжировании, однако, в большинстве случаев, имеет очень небольшой вес.

 



Официальный сайт: http://www.aport.ru