Роботы Avalanche – "внедорожники Интернета"
  Андрей Масалович - кто это?
(495) 517-33-83 am@inforus.biz
Наполнением папок занимается специализированный робот, который запускается с компьютера "хозяина"
и приносит только то, что просили.
Avalanche - одно из первых эффективных решений на базе современных технологий глубинного анализа текстов.

Дмитрий Ландэ. Добыча знаний
 
Avalanche - система интернет-мониторинга и конкурентной разведки
Андрей Масалович

10 октября 2007 года Евгений Ющук, известный специалист по конкурентной разведке, опубликовал в Интернете результаты "полевых испытаний" новой версии персональной системы интернет-мониторинга Avalanche 2.0. Это вызвало волну интереса и поток вопросов от специалистов и простых пользователей. На вопросы отвечает Андрей Масалович, автор и руководитель проекта Avalanche

В ряду программных средств, обслуживающих аналитика и специалиста по конкурентной разведке, особняком стоит семейство информационно-поисковых программ Avalanche. В отличие от большинства разработчиков аналитических программ, создатели Avalanche сосредоточились не на детальной обработке полученных документов, а на их поиске и первичной рубрикации.

Фактически, технология Avalanche базируется на трех "китах": концепции "умных папок" (Smart Folders), автономном интеллектуальном поисковом роботе ("пауке") и встроенной базе данных, допускающей преобразование в "персональную энциклопедию".

"Умные папки" - это рубрикатор с расширенными возможностями, не только отображающий документы, найденные в Интернете, но и хранящий дополнительную информацию, конкретизирующую смысловой шаблон (по сути, структура папок отражает модель предметной области в том виде, в котором она существует в голове аналитика). Работа с "умными папками" напоминает обычную работу с каталогами в проводнике Microsoft Windows. Однако "умные папки" позволяют сортировать найденные документы по словам и фразам, по стоп-словам, по датам, по выражению и по подобию.

Поисковый робот предназначен для поиска в Сети информации по заранее заданному расписанию, прохода по нескольким уровням ссылок и оценки адекватности найденных ссылок, загрузки найденной информации на локальный компьютер пользователя. Изюминкой робота Avalanchе является возможность автоматически расширять зону поиска для последующих запросов (в любой другой системе набор информационных источников определен и фиксирован заранее). Роботы Avalanche относятся к классу т.н. «проникающих» роботов, способных передвигаться по Интернету не только по гипер-ссылкам (как в большинстве поисковых систем), но также «по бездорожью» (невидимому или «глубинному» Интернету) - сканированием адресного пространства порталов, перебором компонентов индексов баз данных, распознаванием расширяемых адресных наборов и др. Как результат, на крупных порталах робот Avalanche может находить большее количество страниц, нежели любая поисковая система, включая Google.

С помощью Avalanche можно провести экспорт имеющейся базы данных в персональную HTML-энциклопедию, что позволяет в удобном виде представить и хранить информацию в форме персонального Интернет-сайта.

Avalanche – история создания

В настоящее время в Интернете насчитывается около полутора тысяч популярных поисковых систем. (термином "популярный" определим системы, которые хотя бы единожды похвалил кто-то, кроме их создателей. Вообще-то поисковиков значительно больше).

Поисковые системы отлично справляются с простыми однократными запросами. Однако если информационный поиск надо повторять постоянно, если предметная область сложна по структуре и если от результатов поиска зависит ваш доход или заработок - вы довольно быстро обнаружите, что:

- Поисковики перегружают вас тысячами бесполезных ссылок

- Интернет не помнит, что вы уже видели, а что нет, и завтра принесет вам тот же миллион уже просмотренных ссылок

Поисковики не отличают действительно важную для вас информацию от шелухи

Поисковики не умеют правильно сортировать полученную информацию и раскладывать ее по нужным рубрикам

Поисковики не видят свежих тематических новостей. Задержка в индексировании конкретного сообщения может доходить до двух недель

Поисковики принципиально не видят некоторых сайтов (например, большинства сборников компромата). А пользователи Интернета, наоборот - видят. И увидят компромат на вас раньше вас, если вы решите положиться на любимую поисковую систему

Результаты работы многих поисковых машин можно, увы, купить или подделать (специалисты помнят, как накануне 8 марта 2001 года один популярный российский поисковик на запросы о цветах давал адрес только одного поставщика, кстати, не самого крупного).

Поисковая система в Интернет выполняет поиск по вашему запросу, а значит, нагружает вас повторяющейся рутинной работой

А если на фирме работают несколько аналитиков, то однотипные запросы нескольких человек многократно увеличивают ваш трафик.

И список можно продолжить.

Люди долго мирились с такими неудобствами, пока финансовые аналитики (для которых и время - деньги, и результаты поиска - деньги) не сформировали спрос на более умную поисковую систему, которая бы решала хотя бы часть перечисленных выше проблем.

И вот в 98-м году появился пакет Enfish Tracker. Он чуть лучше формировал запросы, чуть удобнее хранил результаты и сам лазил в Интернет за обновлениями. За это "чуть" авторитетнейшая Investor's Business Daily объявила Enfish "Программой года".

Однако проблемы с поиском оставались. И в конце 98-го группа аналитиков Гарвардского университета сформулировала российским разработчикам постановку задачи на создание более совершенной поисковой системы. Так появился пакет Avalanche (что означает - "лавина").

Возможности Avalanche

Что умеет пакет Avalanche в отличие от других систем поиска в Интернет?

Во-первых, вы формируете модель предметной области в виде набора "умных папок" (в американском патенте они называются Smart Folders). Каждая папка "знает", что именно должно в нее попадать и, естественно, способна проследить, чтобы не было дублирования.

Во-вторых, наполнением этих умных папок занимается специализированный поисковый робот, который запускается с вашего компьютера с вашими настройками. Его нельзя обмануть или подкупить - он принесет ровно то, что просили.

В-третьих, робот может запускаться и автоматически, принося и раскладывая по папкам свежие новости для вас аккурат к вашему приходу на работу.

Есть и еще несколько маленьких приятных особенностей, благодаря которым Аваланч сегодня используют не только в аналитических или консалтинговых компаниях, но и в торговых фирмах.

Зачем? Например, один из самых крупных поставщиков супов в пакетиках, чье имя вы слышите в каждой ТВ-рекламе, с помощью пакета Avalanche решает три основные задачи:

Ведет мониторинг своей популярности, автоматически собирая все свежие упоминания о фирме в Интернет.

Автоматически пополняет досье на основных конкурентов, мгновенно фиксируя появление любых новых материалов.

Фильтрует результаты поиска других поисковых систем, устраняя ненужные ссылки (например, упоминания о своей фирме в прайс-листах многочисленных дилеров) - такая настройка тоже есть в Аваланче.

Ниже представлен пример использования персональной версии программы Avalanche для мониторинга одной (довольно запутанной и неоднозначной) ситуации вокруг Альфа-банка. Действия аналитика можно представить в виде последовательности трех основных шагов:

1. Аналитик определил предметную область в виде набора вложенных папок, описывающих основные объекты анализа: «Альфа-банк», «Петр Авен», «Михаил Фридман», «Банкротство Соцбизнесбанка» и т.д.

Avalanche Андрей Масалович

2. Далее аналитик определил основные сайты в Интернете, с которых роботу следует начинать поиск новых документов по заданной тематике (Этот список виден на рисунке в окне «Список сайтов»). Впоследствии робот будет самостоятельно расширять зону поиска, находя и собирая новые интересные ссылки.

3. Далее, по заданному регламенту (например, каждое утро в 8:00) робот Avalanche будет отправляться в Интернет, обходя заданный список источников и собирая новые документы. Потом проснутся умные папки, и каждая разберет себе относящиеся к ней документы. И когда к экрану подойдет аналитик, он увидит окно результатов, стилизованное под окно типичного почтового клиента, где свежие документы будут отображаться уже разложенными по рубрикам (см. рисунок внизу).

Avalanche Андрей Масалович

Конечно, не стоит ждать чуда - стопроцентная полнота и релевантность результатов поиска в Интернете в принципе недостижима. Avalanche - не более чем инструмент, легкий и гибкий, который избавляет аналитика от рутины, а результаты Интернет-поиска делает более точными и удобными для работы.



Назад на сайт Тора-центра  Тора-центр Андрея Масаловича  Copyright © 2006