Учебные материалы для студентов

Здравоохранение, медицина


Здравоохранение, медицина



Методы извлечения знаний и области их применения в здравоохранении


(Типы задач, решаемые методами Data Mining. Примеры задач из области здравоохранения. Наиболее известные (самообучающиеся) методы Data Mining. Деревья решений. Нейронные сети. Кластеризация. Карты Кохонена. Ассоциативные правила. Регрессия. Их классификация для решения поставленных задач. Реализация Data Mining-технологий в аналитической платформе Deductor.)

Data Mining – это совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов:

1. Классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

2. Кластеризация – это группировка объектов (наблюдений, событий) на основе свойств, описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объектов внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация. Часто вместо термина кластеризация используется сегментация.

3. Регрессия, в том числе задача прогнозирования. Это установление зависимости непрерывных выходных переменных от входных. К этому же типу задач относится прогнозирование временного ряда на основе исторических данных.

4. Ассоциация – выявление закономерностей между связанными событиями. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины. Ассоциации полезны для более удобного размещения товара на прилавках, стимулирования продаж.

5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями.

Классификация используется в случае, если заранее известны классы отнесения объектов. В задачах классификации требуется найти правила, позволяющие отнести записи базы данных к одному из двух или нескольких классов. Такого вида задачи характерны, например, в диагностике заболеваний (здоров/болен), в дифференциальной диагностике (здоров/диагноз1/диагноз2) а также в задачах прогноза: Можно ли прогнозировать эффективность хирургического лечения, исходя из данных до операционного обследования? Можно ли спрогнозировать возникновение осложнений в послеоперационном периоде.

Кластеризация может использоваться для сегментации и определения профилей пациентов клиники. В качестве исходного материала можно использовать небольшой фрагмент из истории болезни, включающий данные о поле и возрасте пациента, контингенте (работник ведомства, член семьи, пенсионер), код направившего учреждения, код отделения поступления, признак экстренной или плановой госпитализации, признак перевода в другое отделение и количество койко-дней в стационаре. Методы кластерного анализа были применены к данным из архива одной крупной ведомственной клиники. В результате были выделены два кластера пациентов со схожими свойствами и определен набор переменных, для которого разделение на кластеры наиболее эффективно. Это: возраст пациента, признак экстренной госпитализации и перевод из одного отделения в другое.

Наиболее характерными признаками пациентов первого класса являются: «почтенный» возраст, госпитализация в плановом порядке (более 70% записей) и возможно неправильно поставленный диагноз (15% записей в кластере 1 имеют признак перевода в другое отделение). А наиболее характерными признаками пациентов второго класса являются: возраст до 50 лет, госпитализация в экстренном порядке (более 80% записей) с практически верно поставленным диагнозом (только 3% записей в кластере 2 имеют признак перевода в другое отделение).

Как оказалось, время пребывания в стационаре пациентов кластера 1 в среднем в 5 раз больше, чем в кластере 2. Для дальнейшего, более детального анализа, желательно привлекать данные о диагнозах поступления и выписки, о подробностях собственно лечебного процесса. Это позволит построить достаточно надежные прогнозы длительности лечения, а, следовательно, и его стоимости для отдельных групп и категорий пациентов, а также выявлять случаи необоснованных отклонений в ту или иную стороны.

Другим примером кластеризации может служить разбиение лекарственных препаратов по группам, включающим препараты со схожими сезонными колебаниями. Речь в данном случае идет о наличии схожих тенденций в продажах товаров одной группы в течение года. Учет сезонного фактора необходим для грамотного формирования ассортимента товаров и точного прогнозирования продаж.

Регрессия используется, например, для прогноза объемов продаж товаров, принадлежащих к различным кластерам.

Ассоциации помогают, например, выделить группу сопутствующих диагнозов у пациентов с основным диагнозом.

Последовательные шаблоны могут быть также использованы при планировании продаж, например, резкие перепады атмосферного давления приведут к увеличению спроса на сердечно-сосудистые препараты.

Для решения вышеперечисленных задач используются различные методы и алгоритмы Data Mining. На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение. Рассмотрим несколько наиболее известных методов.