Учебные материалы для студентов Здравоохранение, медицина |
Здравоохранение, медицинаАссоциация, или метод корзины покупателяАссоциация, или метод корзины покупателя (market basket analysis) является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых, большей частью, одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом. Строимые модели характеризуют близость различных одновременно наблюдаемых категориальных характеристик и могут быть выражены в виде простых правил. Такими характеристиками могут быть одновременно покупаемые потребителем товары и услуги или диагнозы наблюдаемых у пациентов болезней. Метод был впервые предложен для анализа структуры покупок и широко используется в этой сфере бизнес-приложений. С таким использованием метода связано и его образное название– большое количество покупок совершается в супермаркетах, где покупатели для удобства складывают закупаемый товар в корзины или тележки.
Использование этого метода целесообразно как один из первых шагов исследования, когда известна (или существенна) только некоторая группа однородных характеристик, например, при исследовании характера жалоб больных, обратившихся в клинику в первый раз. Такие пациенты как бы обезличены – они не имеют истории болезни, результатов специализированных анализов, а характеризуются только “букетом” диагнозов, выявленных при первичном осмотре. Анализируя результаты осмотра, можно установить, какие болезни характеризуют каждого пациента. На основе этой информации легко построить таблицу совпадений диагнозов – таблицу, в ячейках которой указано число пациентов, страдающих одновременно от двух болезней, маркирующих строки и столбцы таблицы. В ячейках главной диагонали этой таблицы указано число пациентов, которым вынесен диагноз одной из болезней. Анализируя приведенную таблицу, легко определить, что заболевания A и D одновременно встречаются наиболее часто, что больные E, напротив, редко одновременно страдают болезнями B или C, а диагноз С редко сопровождается диагнозом D или E. Таким образом, таблица совпадений позволяет устанавливать на основании наблюдений правила типа если A то D если E то не B . Частота появления каждого отдельного диагноза, или группы диагнозов, определяется очень просто – считается количество появления этого диагноза(ов) и делится на общее количество пациентов. Эта величина измеряется в процентах и называется поддержкой (support). Низкий уровень поддержки (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна. О важности установленного правила можно судить, анализируя число событий, определяющих это правило. Степень достоверности равна отношению числа событий, удовлетворяющих правилу, к числу событий, удовлетворяющих только условию если этого правила. Например, достоверность первого из приведенных правил равна отношению числа пациентов, страдающих болезнями A и D одновременно, к числу пациентов, которым поставлен диагноз A. Заметьте, что поскольку числа пациентов, страдающих болезнями A и D, как правило, различается, достоверность правил если A то D и если D то A также различается. В приведенном примере достоверность первого утверждения выше. Рассмотренный анализ таблицы совпадений двух событий (диагнозов) легко обобщается на случай нескольких событий. Основное отличие – невозможность одновременного восприятия многомерной таблицы человеком; в этом случае рутинный перебор различных возможностей необходимо перепоручить компьютеру даже в случае небольшого числа анализируемых параметров. И, конечно, правила, которые могут быть выведены в многомерной таблице совпадений, становятся более разнообразными. В случае одновременно случающихся трех параметров к уже рассмотренным правилам могут добавиться правила типа если ( A и B ) то C если ( A и не B ) то C. Эти правила принято называть правилами ассоциации и диссоциации соответственно. Основным достоинством метода корзины потребителя является простота генерируемых правил. Действительно, генерируемые правила имеют форму если условие то результат и легко воспринимаются человеком. Такие правила легко формулируются обычным языком и, соответственно, их можно непосредственно использовать. С другой стороны, генерируемое правило представляет собой оператор многих языков программирования, в частности языка SQL, и, следовательно, этот метод легко сопрягается с базами данных. Другими его достоинствами являются способность работать с записями различной длины и принципиальная (для понимания человеком) вычислительная простота. Наконец, его удобно использовать “для затравки” исследований, когда у Вас нет почти никаких начальных представлений о данных и Вы не знаете с какой стороны подступиться к задаче. Основными недостатками метода являются: резкий (экспоненциальный) рост объема вычислений с увеличением числа параметров, фактически полное неприятие в расчет редко встречаемых параметров и ограниченные возможности метода по учету дополнительных знаний о свойствах параметров. С точки зрения метода все анализируемые параметры (потребительские товары, диагнозы болезней) абсолютно идентичны во всех смыслах, кроме одного – названия параметра. Естественно, далеко не все задачи укладываются в эту жесткую схему. Метод корзины покупателя дает наилучшие результаты, когда различные параметры наблюдаются в примерно одинаковом числе случаях. В противном случае, поскольку установленные методом правила будут связывать только наиболее часто встречаемые параметры, мы не узнаем ничего нового о редко встречаемых параметрах, а только потратим впустую время на ненужный перебор малозначимых случаев. В рассмотренном примере бессмысленно включать в анализ редкие диагнозы, лучше попытаться их обобщить, сгруппировать близкие в медицинском смысле редкие диагнозы в один обобщенный и включить его в анализ. При этом при группировке редко встречаемых параметров желательно руководствоваться систематикой свойств, их таксономическими свойствами. В соответствии с ними следует выбрать такой уровень обобщения, который обеспечивает примерно равную встречаемость включенных в анализ параметров. Использование метода покупательской корзины также целесообразно при исследовании временных рядов, когда необходимо выявить группы нескольких событий, имеющих тенденцию происходить в строго фиксированной последовательности. При таком исследовании любая последовательность фиксированного числа событий может быть обозначена своим идентификатором, эквивалентным диагнозу болезни или названию покупаемого продукта. (c) Aбракадабра.py :: При поддержке InvestOpen |