Avalanche 2.0

Avalanche – одно из первых эффективных решений,
использующих современные технологии
глубинного анализа текстов."

Дмитрий Ландэ, Ловцы данных
Avalanche 2.0 показал себя с самой лучшей стороны."
Евгений Ющук, Результаты испытаний

 О продукте   Тесты   Отзывы   Форум   Об авторе  
 
Avalanche 2.0. Первые шаги
Побеждает тот, кто лучше вооружен и обучен..."
Андрей Масалович

Шаг 1. Установка программы

Чтобы установить на компьютере персональную поисковую систему Avalanche 2.0, необходимо найти на инсталляционном диске папку Avalanche 2_0 и скопировать из нее папку Avalanche на диск С:\ своего компьютера.

После этого программа готова к работе.

 (Текущая версия Avalanche 2.0 является предварительным релизом, не снабжена инсталлятором, все пути в ней заданы непосредственно в ini-файлах и она будет корректно работать, только если ее разместили в папке С:\Avalanche ).

А вот такой значок - - здесь и далее отмечает важную дополнительную информацию, на которую стоит обратить внимание.

Шаг 2. Проверка правильности установки

На диске C: должна появиться папка Avalanche с таким содержимым (всего 11 файлов):



Здесь Avalanche.exe – собственно, программа Avalanche (точнее, ее основная часть -менеджер для работы с хранилищем «умных папок»)
Avalanche_spider.exe – поисковый интернет-робот программы Avalanche
Avalanche.mdb – индексная база данных Avalanche (Avalanche хранит индексы в виде файла MS Access – при этом наличие на компьютере самого MS Access не обязательно)
Набор файлов с расширением ini и txt – файлы настройки для работы Avalanche.

Сейчас в папке avalanche 11 файлов. Далее здесь же появится вложенная папка HTMDATA для собранных документов.
Больше нигде и ничего Аваланч на компьютере не хранит.

Avalanche: программа-невидимка

Кстати, если во всех ini-файлах Avalanche поменять диск с:\ на имя какого-либо внешнего накопителя, то Avalanche вместе со всеми его архивами можно хранить и запускать прямо с флэшки, не оставляя на компьютере никаких следов его деятельности.

Шаг 3. Первый проверочный запуск

В качестве тестового примера в данном релизе Avalanche сделана настройка на мониторинг новостей вокруг Альфа-банка и его руководителей. Единственная причина такого выбора: при подборе примеров на глаза попалась страничка Медиалогии с результатами мониторинга Альфа-банка и нам захотелось сравнить качество результатов.

3.1 Запустите Avalanche_spider.exe. Должен открыться вот такой экран:



3.2 Укажите роботу стартовые страницы для обхода. Для этого отметьте несколько источников в списке «Стартовые страницы» (например, первые три), дважды кликнув мышкой по каждой из них. На иконках активных страниц появится галочка (по умолчанию все источники неактивны и робот не будет запускаться, пока вы не сделаете активной хотя бы одну стартовую страницу). Выглядит это так (здесь отмечены первые три источника, и робот будет обходить только их):



Попытка запуска робота без активных источников – самая распространенная ошибка при освоении программы. В новом релизе мы добавим диагностику: «Вы забыли активировать хотя бы один источник».

3.3 Запустите робота в Интернет, нажав кнопку "Пуск" (если навести на нее мышку, появится надпись «Начать сканирование Интернета»):



3.4 Теперь проверьте, сумел ли робот зайти в Интернет. Для этого подождите 5-10 секунд и взгляните на окно «Статистика».

3.4а Если робот начал обход интернет-страниц, статистика сразу начнет меняться:



РЕЗУЛЬТАТЫ ТЕСТОВОГО ЗАМЕРА: Когда мы тестировали начальный пример, активировав все источники (их 23), то робот отработал 15 минут с трафиком 13.8 Мб, загрузил 471 страницу и выделил 446 новостей про Альфа-банк.

3.4b Если прошло более десяти секунд, а все показатели статистики остались нулевыми – проверьте интернет-соединение на вашем компьютере (например, запустите Explorer).

КСТАТИ: Если у вас просто нет соединения с Интернетом, то робот пробежит все активные источники за несколько секунд, в окне статистики появится информация "Обработано источников: Х, Загружено страниц: 0" (здесь Х - число активных источников, и оно не равно 0).
Также, если робот не обнаруживает соединения с Интернетом, в левом нижнем углу экрана появляется сообщение "Отсоединен":



3.4c Настройки Прокси-сервера. Если Эксплорер может выйти в Интернет, а Avalanche не может, наиболее вероятно, что вы подключены к Интернету через прокси-сервер. Тогда в основном меню робота Avalanche надо задать параметры Прокси: В меню Сервис выбрать Настройки, а в нем – закладку «Настройки прокси» - и задать адрес и порт, используемые данным компьютером для выхода в Интернет (их можно посмотреть в настройках Microsoft Explorer). Экран настройки параметров прокси-сервера выглядит так:



Когда параметры заданы, надо поставить галочку «Использовать» и нажать кнопку «Применить». После этого снова запустите робота и проверьте, начала ли меняться статистика обхода.

3.5 Когда робот завершает обход Интернета, появляется окошко "Загрузка завершена":




Шаг 4. Проcмотр результатов

Когда робот Avalanche завершает обход заданных интернет-сайтов и ссылок с них, все результаты он складывает в папку HTMDATA в папке Avalanche.
Загляните туда. Вы увидите, что папка наполняется вложенными папками с файлами htm и txt (Те новости, от которых остался только текст, хранятся в формате txt, если же вместе с новостью необходимо также сохранить ее картинки и элементы форматирования, она записывается в формате htm).
Каждая вложенная папка хранит результаты одного "сеанса" Avalanche - т.е. результаты обработки одного источника при одном запуске робота.

Теперь необходимо запустить собственно Avalanche (файл Avalanche.exe).

Откроется главное окно системы, в левой части которого надо щелкнуть по надписи "Список источников" (а если вы ее не видите - открыть закладку "По источникам" в левом нижнем углу).
Попробуйте пооткрывать вложенные папки (вложенность папок такова: источник - страница - новости со страницы) и выбрать для просмотра какой-нибудь документ. Окно примет следующий вид:



Обратите внимание - вы видите на экране отдельную новость, с выделенным заголовком, датой и текстом.
Робот Avalanche сумел найти ее и выделить из контекста весьма насыщенной страницы, которая в оригинале выглядит так:




Шаг 5. Рубрикация

Робот собрал в Интернете свежие публикации по интересующей нас теме и сложил в базе Avalanche, отсортировав по источникам и сеансам обхода. Это хорошо. Но аналитику проще и привычнее, когда материалы разложены по тематическим папкам в зависимости от его сферы интересов.
Давайте создадим три папки и заставим Avalanche разложить в них собранные материалы (провести рубрикацию).
Итак, пусть нам надо создать тематические папки (досье) "Альфа-банк", "Петр Авен" и "Михаил Фридман".

Чтобы создать папку "Альфа-банк", надо в левом окне Avalanche открыть снизу закладку "По рубрикам" и навести курсор на строчку "Все рубрики".



Нажмите правую кнопку мыши, в появившемся окне выберите команду "Настройка рубрик".
Откроется окно "Настройка рубрик", в нем надо снова навести курсор на строчку "Все рубрики", нажать правую кнопку и выбрать "Добавить".

Avalanche допускает многократную вложенность папок, поэтому при создании новой папки надо всегда курсором указывать ее "материнскую" папку.

В данном случае папка у нас одна - это общая папка "Все рубрики", и пока она пуста.
В открывшемся окне "Новая рубрика" задаем название рубрики "Альфа-банк", шаблон поиска "Альфа" и нажимаем "Применить":



Аналогично создаем рубрики "Петр Авен" (шаблон поиска "Авен") и "Михаил Фридман" (наблон поиска "Фридман").
Теперь дерево рубрик выглядит так:




Очень важный момент - правильно выбрать шаблон поиска для данной папки - именно по этим шаблонам новые документы будут впоследствии сортироваться по папкам.
В программе Avalanche для этого реализован специальный язык запросов (сходный с языком поисковой системы Rambler), который мы будем рассматривать ниже.
Стоит отметить, что если папки нижнего уровня делать достаточно конкретными по смыслу, то можно обойтись весьма простыми шаблонами поиска.


[Продолжение следует...]



Поисковая технология Avalanche (+ документация)

Истории успеха

Это часть авторской подборки по теме "Конкурентная разведка", содержащейся на диске "Оружие успеха"
  Copyright © 2007