Технология анализа «Data Mining»

Появление технологии Data Mining связано с необходимостью извлекать знания из накопленных информационными системами разнородных данных. Возникло понятие, которое по–русски стали называть «добыча», «извлечение» знаний. За рубежом утвердился термин «Data Mining».

Широко использовавшиеся раньше методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification–driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing – OLAP).

Ключевое достоинство «Data Mining» по сравнению с предшествующими методами – возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной–двух порожденных им самим гипотез. В тех случаях, когда начальных предположений нет, а объем данных значителен, существующие системы теряют работоспособность и превращаются в пожирателей времени аналитика.

Еще одна важная особенность систем Data Mining возможность обработки многомерных запросов и поиска многомерных зависимостей. Уникальна также способность систем data mining автоматически обнаруживать исключительные ситуации – т.е. элементы данных, "выпадающие" из общих закономерностей.

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining

· ассоциация

· последовательность

· классификация

· кластеризация

· прогнозирование

Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в таблице.

Таблица

Сравнение формулировок задач при использовании методов

OLAP и Data Mining

OLAP	Data Mining
Каковы средние показатели травматизма для курящих и некурящих?	Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?	Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?	Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (см. рис. 1).

Системы Data Mining интегрируют в себе сразу несколько подходов, но, как правило, с преобладанием какого–то одного компонента.

Приведем примеры некоторых возможных бизнес–приложений Data Mining.

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Типичные задачи, которые можно решать с помощью DataMining в сфере розничной торговли, это анализ покупательской корзины, исследование временных шаблонов, создание прогнозирующих моделей.

Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?».

Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.

Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:

Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

Сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.

Прогнозирование изменений клиентуры.Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.

Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь также можно использовать методы Data Mining: для выявления мошенничества и анализа риска.

Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

Анализ риска.Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

В настоящее время для решения задач DM используются нейросетевые технологии, статистические пакеты SAS, SPSS, STATISTICA, STATGRAPHICS и др. Исследование данных (Data Mining – DM) – одно из самых ценных новшеств SQL Server 2000.

В версии SQL Server 7.0 специалисты Microsoft впервые реализовали аналитическую службу OLAP, предоставляющую возможности составления нерегламентированных (гибких) запросов и анализа данных. В процессе работы с нерегламентированными запросами аналитик точно знает, на какие вопросы клиент хотел бы получить ответы, и просто извлекает нужную информацию из куба OLAP. Например, управляющий заведением типа Fast–food мог бы спросить: "Какова тенденция роста доходов и прибыли от продажи гамбургеров за последние четыре квартала?"

При проведении специального анализа данных аналитик имеет представление о том, что интересует его клиента, но перечня точно сформулированных вопросов у него нет. Например, в компании известно, что некоторые принадлежащие ей магазины розничной торговли не приносят дохода, но никто не понимает, чем это вызвано. Аналитик начинает навигацию по кубу данных OLAP, следуя за предположением, которое кажется ему наиболее верным. При этом он то углубляется в детали, то вращает размерности многомерного куба данных.

Исследование данных средствами DM отличается и от работы с нерегламентированными запросами, и от специального анализа данных. При проведении исследования данных службы Analysis Services путешествуют по информационным измерениям самостоятельно, отыскивают данные, которые относятся к делу, и представляют эти данные пользователю.

SQL Server 2000 применяет для предоставления возможностей DM новый интерфейс приложений (API), называемый OLE DB for Data Mining (OLE DB for DM).

В состав SQL Server 2000 вошли два алгоритма DM, так называемые деревья принятия решений и алгоритм кластеризации.

Не нашли, что искали? Воспользуйтесь поиском по сайту: