Учебные материалы для студентов

Здравоохранение, медицина


Здравоохранение, медицина



OLAP-технологии как средство визуализации данных


(Определение OLAP. Аналитическая отчетность и многомерное представление данных. Изменение макета OLAP-кубов. Способы агрегирования данных. Детальный просмотр агрегированных данных. Фильтрация данных. Настройка кросс-диаграммы. Преобразование даты и время. Создание пользовательских выражений. Создание OLAP-кубов на основе данных из разных процессов или источников.)

Существует 2 подхода к анализу данных: 1) визуализация информации – извлечение данных из источников и представление их аналитику для самостоятельного анализа и принятия решений; 2) построение моделей, имитирующих требуемые процессы.

Базовым методом анализа данных и представления результатов анализа в удобной для использования форме является OLAP (On Line Analytical Processing) – технология. OLAP – оперативная аналитическая обработка данных. OLAP дает возможность в реальном времени генерировать описательные и сравнительные сводки данных. OLAP-кубы представляют собой проекцию исходного куба данных на куб данных меньшей размерности. При этом значения ячеек агрегируются, то есть объединяются с применением функции агрегации – сумма, среднее, количество, минимум, максимум. Такие проекции или срезы исходного куба представляются в виде кросс-таблицы или кросс-диаграммы.

Проиллюстрируем идею OLAP-куба на простом примере. Пусть, информацию, хранящуюся в базе данных или подмножество данных, получаемое в результате выполнения запроса можно представить в виде таблицы:

Основываясь на данных из таблицы, можно дать ответы на несколько вопросов, которые могут возникнуть при анализе объемов продаж. Например, каков объем продаж по одной из торговых точек?

Данную выборку можно интерпретировать как одномерную, поскольку объемы продаж расположены только вдоль одного измерения с группой товаров. Если «подключить» измерение по аптекам, то выборка может быть представлена в виде двумерной таблицы или «плоского куба»:

При добавлении нового измерения, например, номера квартала, выборка может быть представлена в виде следующей таблицы:

На основе подобной выборки можно построить 3-х мерный куб:

Такая модель представления данных позволяет получать нужную информацию, производя соответствующие сечения (срезы) OLAP-куба. Геометрическую интерпретацию куба с размерностью больше 3 представить нельзя, однако в информационном пространстве существует понятие многомерного куба. В принципе, используемое число измерений может быть любым. Однако следует отметить, что задача с большим числом измерений, во-первых, является трудоемкой с точки зрения ее выполнения на ПК и, во-вторых, ее осмысление и интерпретация результатов аналитиком могут быть затруднены и даже приводить к ошибочным решениям. Поэтому с методической точки зрения, сложные задачи, требующие анализа данных большой размерности, следует по возможности сводить к нескольким более простым.

Сама по себе визуализация данных, безусловно, не может открыть никакого нового знания, однако в анализе данных визуализация занимает очень важное место.

Способы создания многомерных отчетов (OLAP-кубов) и кросс-диагамм средствами аналитической платформы Deductor подробно описаны в Практикуме в Deductor (Лабораторная №2).