Учебные материалы для студентов

Здравоохранение, медицина


Здравоохранение, медицина



Знакомство с аналитической платформой DEDUCTOR


(Знакомство с архитектурой, основными частями и пользовательским интерфейсом Deductor. Понятие сценария. Создание сценариев обработки и визуализации данных.)

Deductor состоит из 3-х частей – многомерного хранилища данных Deductor Warehouse, аналитического приложения Deductor Studio и рабочего места конечного пользователя Deductor Viewer.

Deductor Warehouse – многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.

Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование. В Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья…) и экспортировать результаты на сторону. Это полностью соответствует концепции извлечения знаний из баз данных (KDD).

Deductor Viewer – рабочее место конечного пользователя. Позволяет отделить процесс построения моделей от использования уже готовых моделей. Все сложные операции по подготовке моделей выполняются аналитиками-экспертами при помощи Deductor Studio, а обеспечивает пользователям простой способ работы с готовыми результатами, скрывает от них все сложности построения моделей и не предъявляет высоких требований к квалификации сотрудников.

Архитектура системы построена таким образом, что вся работа по анализу данных в Deductor Studio базируются на выполнении следующих действий:

- импорт данных;

- обработка данных;

- визуализация:

- экспорт данных.

Процесс построения моделей в Deductor основывается на следующих трех принципах:

1. Использование обработчиков;

2. Использование визуализаторов;

3. Создание сценариев.

Обработчик и визуализатор – это две атомарные операции с данными в Deductor. Под обработкой понимают любые манипуляции над набором данных: от самых простых (например, сортировка) до сложных (построение нейронной сети). Классификацию обработчиков (алгоритмов), реализованных в Deductor можно представить в виде схемы:

Любой набор данных можно визуализировать каким-либо доступным способом или несколькими способами, поскольку визуализация помогает интерпретировать построенные модели.

В Deductor предусмотрены следующие способы визуализации данных:

- OLAP. Многомерное представление данных. любые данные, используемые в программе, можно посмотреть в виде кросс-таблицы или кросс-диаграммы.

- Таблица. Стандартное табличное представление данных с возможностью фильтрации.

- Диаграмма. График изменения любого показателя.

- Статистика. Статистические показатели набора данных.

- Диаграмма рассеяния. График отклонения прогнозируемых при помощи модели значений от реальных. Используется для визуальной оценки качества построенной модели. Доступна только после построения моделей.

- Таблица сопряженности. Таблица сопряженности отображает результаты сравнения значений исходного и рассчитанного выходного столбца.. Используется для оценки качества классификации.

- «Что-если». Таблица, позволяющая «прогонять» через модель любой набор исходных (непротиворечивых) данных и оценить влияние того или иного фактора на результат.

- Обучающая выборка. Набор данных, используемых для построения модели.

- Диаграмма прогноза. Применяется после использования метода обработки – Прогнозирование.

- Граф нейросети. Визуальное отображение обученной нейросети. Отображается структура нейронной сети и значения весов.

- Дерево решений. Отображение в виде дерева ассоциативных правил.

- Правила. Отображает в текстовом виде правила, полученные при помощи алгоритма построения деревьев решений или поиска ассоциаций.

- Карта Кохонена. Отображение карт, построенных с помощью соответствующего метода.

- Описание. Текстовое описание параметров импорта/обработки/экспорта в дереве сценариев обработки.

Сценарий представляет собой иерархическую последовательность обработки и визуализации наборов данных. Сценарий всегда начинается с импорта набора данных из произвольного источника. После импорта может следовать произвольное число обработчиков любой степени глубины и вложенности. Каждой операции обработки соответствует отдельный узел дерева, или объект сценария. Можно сказать, что сценарий – наиболее естественный с точки зрения аналитика способ представления этапов построения модели.

Все сценарии создаются на основе запуска мастеров: импорта , экспорта, обработки , отображения (визуализации) .

Мастер импорта предназначен для автоматизации получения данных из любого источника, предусмотренного в системе.

Мастер обработки предназначен для настройки всех параметров выбранного алгоритма.

Мастер отображений позволяет выбрать и настроить наиболее удобный способ представления данных.

Мастер экспорта позволяет выполнить экспорт данных в файлы наиболее распространенных форматов.