Avalanche – одно из первых эффективных решений,
использующих современные технологии глубинного анализа текстов."
Дмитрий Ландэ, Ловцы данных Avalanche 2.0 показал себя с самой лучшей стороны."
Евгений Ющук, Результаты испытаний
Побеждает тот, кто лучше вооружен и обучен..."
Андрей Масалович
Шаг 1. Установка программы
Чтобы установить на компьютере персональную поисковую систему Avalanche 2.0, необходимо найти на инсталляционном диске папку Avalanche 2_0
и скопировать из нее папку Avalanche на диск С:\ своего компьютера.
После этого программа готова к работе.
(Текущая версия Avalanche 2.0 является предварительным релизом, не снабжена инсталлятором, все пути в ней заданы непосредственно в ini-файлах и она будет корректно работать, только если ее разместили в папке С:\Avalanche ).
А вот такой значок -
- здесь и далее отмечает важную дополнительную информацию, на которую стоит обратить внимание.
Шаг 2. Проверка правильности установки
На диске C: должна появиться папка Avalanche с таким содержимым (всего 11 файлов):
Здесь Avalanche.exe – собственно, программа Avalanche (точнее, ее основная часть -менеджер для работы с хранилищем «умных папок»)
Avalanche_spider.exe – поисковый интернет-робот программы Avalanche
Avalanche.mdb – индексная база данных Avalanche (Avalanche хранит индексы в виде файла MS Access – при этом наличие на компьютере самого MS Access не обязательно)
Набор файлов с расширением ini и txt – файлы настройки для работы Avalanche.
Сейчас в папке avalanche 11 файлов. Далее здесь же появится вложенная папка HTMDATA для собранных документов.
Больше нигде и ничего Аваланч на компьютере не хранит.
Avalanche: программа-невидимка
Кстати, если во всех ini-файлах Avalanche поменять диск с:\ на имя какого-либо внешнего накопителя,
то Avalanche вместе со всеми его архивами можно хранить и запускать прямо с флэшки, не оставляя на компьютере никаких следов его деятельности.
Шаг 3. Первый проверочный запуск
В качестве тестового примера в данном релизе Avalanche сделана настройка на мониторинг новостей вокруг Альфа-банка и его руководителей.
Единственная причина такого выбора: при подборе примеров на глаза попалась страничка Медиалогии с результатами мониторинга Альфа-банка и нам захотелось сравнить качество результатов.
3.1 Запустите Avalanche_spider.exe. Должен открыться вот такой экран:
3.2 Укажите роботу стартовые страницы для обхода.
Для этого отметьте несколько источников в списке «Стартовые страницы» (например, первые три), дважды кликнув мышкой по каждой из них. На иконках активных страниц появится галочка (по умолчанию все источники неактивны и робот не будет запускаться,
пока вы не сделаете активной хотя бы одну стартовую страницу).
Выглядит это так (здесь отмечены первые три источника, и робот будет обходить только их):
Попытка запуска робота без активных источников – самая распространенная ошибка при освоении программы.
В новом релизе мы добавим диагностику: «Вы забыли активировать хотя бы один источник».
3.3 Запустите робота в Интернет, нажав кнопку "Пуск" (если навести на нее мышку, появится надпись «Начать сканирование Интернета»):
3.4 Теперь проверьте, сумел ли робот зайти в Интернет. Для этого подождите 5-10 секунд и взгляните на окно «Статистика».
3.4а Если робот начал обход интернет-страниц, статистика сразу начнет меняться:
РЕЗУЛЬТАТЫ ТЕСТОВОГО ЗАМЕРА: Когда мы тестировали начальный пример, активировав все источники (их 23),
то робот отработал 15 минут с трафиком 13.8 Мб, загрузил 471 страницу и выделил 446 новостей про Альфа-банк.
3.4b Если прошло более десяти секунд, а все показатели статистики остались нулевыми – проверьте интернет-соединение на вашем компьютере (например, запустите Explorer).
КСТАТИ: Если у вас просто нет соединения с Интернетом, то робот пробежит все активные источники за несколько секунд,
в окне статистики появится информация "Обработано источников: Х, Загружено страниц: 0" (здесь Х - число активных источников, и оно не равно 0).
Также, если робот не обнаруживает соединения с Интернетом, в левом нижнем углу экрана появляется сообщение "Отсоединен":
3.4c Настройки Прокси-сервера. Если Эксплорер может выйти в Интернет, а Avalanche не может,
наиболее вероятно, что вы подключены к Интернету через прокси-сервер.
Тогда в основном меню робота Avalanche надо задать параметры Прокси: В меню Сервис выбрать Настройки,
а в нем – закладку «Настройки прокси» - и задать адрес и порт, используемые данным компьютером для выхода в Интернет
(их можно посмотреть в настройках Microsoft Explorer). Экран настройки параметров прокси-сервера выглядит так:
Когда параметры заданы, надо поставить галочку «Использовать» и нажать кнопку «Применить».
После этого снова запустите робота и проверьте, начала ли меняться статистика обхода.
3.5 Когда робот завершает обход Интернета, появляется окошко "Загрузка завершена":
Шаг 4. Проcмотр результатов
Когда робот Avalanche завершает обход заданных интернет-сайтов и ссылок с них, все результаты он складывает в папку HTMDATA в папке Avalanche.
Загляните туда. Вы увидите, что папка наполняется вложенными папками с файлами htm и txt (Те новости, от которых остался только текст, хранятся в формате txt,
если же вместе с новостью необходимо также сохранить ее картинки и элементы форматирования, она записывается в формате htm).
Каждая вложенная папка хранит результаты одного "сеанса" Avalanche - т.е. результаты обработки одного источника при одном запуске робота.
Теперь необходимо запустить собственно Avalanche (файл Avalanche.exe).
Откроется главное окно системы, в левой части которого надо щелкнуть по надписи "Список источников"
(а если вы ее не видите - открыть закладку "По источникам" в левом нижнем углу).
Попробуйте пооткрывать вложенные папки (вложенность папок такова: источник - страница - новости со страницы) и выбрать для просмотра какой-нибудь документ.
Окно примет следующий вид:
Обратите внимание - вы видите на экране отдельную новость, с выделенным заголовком, датой и текстом.
Робот Avalanche сумел найти ее и выделить из контекста весьма насыщенной страницы, которая в оригинале выглядит так:
Шаг 5. Рубрикация
Робот собрал в Интернете свежие публикации по интересующей нас теме и сложил в базе Avalanche, отсортировав по источникам и сеансам обхода.
Это хорошо. Но аналитику проще и привычнее, когда материалы разложены по тематическим папкам в зависимости от его сферы интересов.
Давайте создадим три папки и заставим Avalanche разложить в них собранные материалы (провести рубрикацию).
Итак, пусть нам надо создать тематические папки (досье) "Альфа-банк", "Петр Авен" и "Михаил Фридман".
Чтобы создать папку "Альфа-банк", надо в левом окне Avalanche открыть снизу закладку "По рубрикам" и навести курсор на строчку "Все рубрики".
Нажмите правую кнопку мыши, в появившемся окне выберите команду "Настройка рубрик".
Откроется окно "Настройка рубрик", в нем надо снова навести курсор на строчку "Все рубрики", нажать правую кнопку и выбрать "Добавить".
Avalanche допускает многократную вложенность папок, поэтому при создании новой папки надо всегда курсором указывать ее "материнскую" папку.
В данном случае папка у нас одна - это общая папка "Все рубрики", и пока она пуста.
В открывшемся окне "Новая рубрика" задаем название рубрики "Альфа-банк", шаблон поиска "Альфа" и нажимаем "Применить":
Аналогично создаем рубрики "Петр Авен" (шаблон поиска "Авен") и "Михаил Фридман" (наблон поиска "Фридман").
Теперь дерево рубрик выглядит так:
Очень важный момент - правильно выбрать шаблон поиска для данной папки - именно по этим шаблонам новые документы будут впоследствии сортироваться по папкам.
В программе Avalanche для этого реализован специальный язык запросов (сходный с языком поисковой системы Rambler), который мы будем рассматривать ниже.
Стоит отметить, что если папки нижнего уровня делать достаточно конкретными по смыслу, то можно обойтись весьма простыми шаблонами поиска.