Учебные материалы для студентов

Здравоохранение, медицина


Здравоохранение, медицина



Ассоциация, или метод корзины покупателя


Ассоциация, или метод корзины покупателя (market basket analysis) является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых, большей частью, одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом. Строимые модели характеризуют близость различных одновременно наблюдаемых категориальных характеристик и могут быть выражены в виде простых правил. Такими характеристиками могут быть одновременно покупаемые потребителем товары и услуги или диагнозы наблюдаемых у пациентов болезней. Метод был впервые предложен для анализа структуры покупок и широко используется в этой сфере бизнес-приложений. С таким использованием метода связано и его образное название– большое количество покупок совершается в супермаркетах, где покупатели для удобства складывают закупаемый товар в корзины или тележки.

Использование этого метода целесообразно как один из первых шагов исследования, когда известна (или существенна) только некоторая группа однородных характеристик, например, при исследовании характера жалоб больных, обратившихся в клинику в первый раз. Такие пациенты как бы обезличены – они не имеют истории болезни, результатов специализированных анализов, а характеризуются только “букетом” диагнозов, выявленных при первичном осмотре.

Анализируя результаты осмотра, можно установить, какие болезни характеризуют каждого пациента. На основе этой информации легко построить таблицу совпадений диагнозов – таблицу, в ячейках которой указано число пациентов, страдающих одновременно от двух болезней, маркирующих строки и столбцы таблицы.

В ячейках главной диагонали этой таблицы указано число пациентов, которым вынесен диагноз одной из болезней. Анализируя приведенную таблицу, легко определить, что заболевания A и D одновременно встречаются наиболее часто, что больные E, напротив, редко одновременно страдают болезнями B или C, а диагноз С редко сопровождается диагнозом D или E. Таким образом, таблица совпадений позволяет устанавливать на основании наблюдений правила типа

если A то D

если E то не B .

Частота появления каждого отдельного диагноза, или группы диагнозов, определяется очень просто – считается количество появления этого диагноза(ов) и делится на общее количество пациентов. Эта величина измеряется в процентах и называется поддержкой (support). Низкий уровень поддержки (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.

О важности установленного правила можно судить, анализируя число событий, определяющих это правило. Степень достоверности равна отношению числа событий, удовлетворяющих правилу, к числу событий, удовлетворяющих только условию если этого правила. Например, достоверность первого из приведенных правил равна отношению числа пациентов, страдающих болезнями A и D одновременно, к числу пациентов, которым поставлен диагноз A. Заметьте, что поскольку числа пациентов, страдающих болезнями A и D, как правило, различается, достоверность правил если A то D и если D то A также различается. В приведенном примере достоверность первого утверждения выше.

Рассмотренный анализ таблицы совпадений двух событий (диагнозов) легко обобщается на случай нескольких событий. Основное отличие – невозможность одновременного восприятия многомерной таблицы человеком; в этом случае рутинный перебор различных возможностей необходимо перепоручить компьютеру даже в случае небольшого числа анализируемых параметров. И, конечно, правила, которые могут быть выведены в многомерной таблице совпадений, становятся более разнообразными. В случае одновременно случающихся трех параметров к уже рассмотренным правилам могут добавиться правила типа

если ( A и B ) то C

если ( A и не B ) то C.

Эти правила принято называть правилами ассоциации и диссоциации соответственно.

Основным достоинством метода корзины потребителя является простота генерируемых правил. Действительно, генерируемые правила имеют форму

если условие то результат

и легко воспринимаются человеком. Такие правила легко формулируются обычным языком и, соответственно, их можно непосредственно использовать. С другой стороны, генерируемое правило представляет собой оператор многих языков программирования, в частности языка SQL, и, следовательно, этот метод легко сопрягается с базами данных. Другими его достоинствами являются способность работать с записями различной длины и принципиальная (для понимания человеком) вычислительная простота. Наконец, его удобно использовать “для затравки” исследований, когда у Вас нет почти никаких начальных представлений о данных и Вы не знаете с какой стороны подступиться к задаче.

Основными недостатками метода являются: резкий (экспоненциальный) рост объема вычислений с увеличением числа параметров, фактически полное неприятие в расчет редко встречаемых параметров и ограниченные возможности метода по учету дополнительных знаний о свойствах параметров. С точки зрения метода все анализируемые параметры (потребительские товары, диагнозы болезней) абсолютно идентичны во всех смыслах, кроме одного – названия параметра. Естественно, далеко не все задачи укладываются в эту жесткую схему.

Метод корзины покупателя дает наилучшие результаты, когда различные параметры наблюдаются в примерно одинаковом числе случаях. В противном случае, поскольку установленные методом правила будут связывать только наиболее часто встречаемые параметры, мы не узнаем ничего нового о редко встречаемых параметрах, а только потратим впустую время на ненужный перебор малозначимых случаев. В рассмотренном примере бессмысленно включать в анализ редкие диагнозы, лучше попытаться их обобщить, сгруппировать близкие в медицинском смысле редкие диагнозы в один обобщенный и включить его в анализ. При этом при группировке редко встречаемых параметров желательно руководствоваться систематикой свойств, их таксономическими свойствами. В соответствии с ними следует выбрать такой уровень обобщения, который обеспечивает примерно равную встречаемость включенных в анализ параметров.

Использование метода покупательской корзины также целесообразно при исследовании временных рядов, когда необходимо выявить группы нескольких событий, имеющих тенденцию происходить в строго фиксированной последовательности. При таком исследовании любая последовательность фиксированного числа событий может быть обозначена своим идентификатором, эквивалентным диагнозу болезни или названию покупаемого продукта.