Учебные материалы для студентов

Здравоохранение, медицина


Здравоохранение, медицина



Data Mining и KDD – Knowledge Discovery in Databases как средства построения моделей (интеллектуального анализа данных)


(Описание технологий Data Mining и KDD – Knowledge Discovery in Databases. Основные стадии технологии KDD.)

Современные информационные технологии позволяют автоматизировать процессы анализа накопленной первичной информации, строить аналитические модели и на их базе получать готовые решения, а так же использовать их на практике. Причем, основными требованиями к методам анализа являются: эффективность, простота, автоматизм. Эта концепция лежит в основе двух современных технологий: Data Mining и KDD – Knowledge Discovery in Databases.

Технология Data Mining (добыча данных) – это методы обнаружения в исходных «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. Например, при анализе данных страховой компании был установлен социальный портрет человека, страхующего жизнь – это оказался мужчина 35-50 лет, имеющий 2 или более детей и среднемесячный доход выше 2000 долларов.

Обнаружение знаний в базах данных (Knowledge Discovery in Database, KDD) – это последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Перечислим основные стадии KDD:

1. Постановка задачи. Анализируются задачи пользователя и особенности области приложения. Выбирается набор входных и выходных (целевых) параметров.

2. Организация сбора и хранения данных. Создается хранилище данных, ориентированное на их анализ. Организуется схема сбора и обновления данных.

3. Предобработка данных. Очень важный шаг, включающий преобразование данных из формы, в которой их наиболее удобно собирать, в форму, требуемую для наиболее эффективного применения выбранных методов KDD (трансформация данных). Она также включает очистку данных от ошибок, заполнению пропусков, выявлению шумов и аномальных явлений и многие другие преобразования данных.

4. Собственно автоматический анализ данных (data mining). Применяются различные методы KDD, наиболее целесообразные для конкретной задачи. Возможно уточнение параметров найденной модели для достижения наилучших результатов.

5. Анализ и интерпретация полученных знаний. Включает оценку значимости и других характеристик обнаруженных знаний. Они могут быть как объективными (вычисление некоторых статистических показателей) так и субъективными – оценка осмысленности полученных моделей в контексте уже имеющихся знаний о предметной области.

6. Интеграция полученных знаний с другими компонентами информационной системы (тиражирование знаний).

Конечно, системы интеллектуального анализа данных находятся в стадии становления, а их использование в медицинских исследованиях делает только первые робкие шаги. Однако гигантский объем накопленный знаний, а главное сам характер медицинских знаний позволяют надеяться, что в ближайшее время системы интеллектуального анализа данных займут прочное положение в системе здравоохранения.