pollusauto.ru сайт наших партнеров         d9e5a92d

Свойства методов Data Mining


Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств.

Среди основных свойств и характеристик методов Data Mining рассмотрим следующие: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность.

Масштабируемость - свойство вычислительной системы, которое обеспечивает предсказуемый рост системных характеристик, например, быстроты реакции, общей производительности и пр., при добавлении к ней вычислительных ресурсов.

В таблице 3.1 приведена сравнительная характеристика некоторых распространенных методов [15]. Оценка каждой из характеристик проведена следующими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая.

Как видно из рассмотренной таблицы, каждый из методов имеет свои сильные и слабые стороны. Но ни один метод, какой бы не была его оценка с точки зрения присущих ему характеристик, не может обеспечить решение всего спектра задач Data Mining.

Большинство инструментов Data Mining, предлагаемых сейчас на рынке программного обеспечения, реализуют сразу несколько методов, например, деревья решений, индукцию правил и визуализацию, или же нейронные сети, самоорганизующиеся карты Кохонена и визуализацию.

В универсальных прикладных статистических пакетах (например, SPSS, SAS, STATGRAPHICS, Statistica, др.) реализуется широкий спектр разнообразнейших методов (как статистических, так и кибернетических). Следует учитывать, что для возможности их использования, а также для интерпретации результатов работы статистических методов (корреляционного, регрессионного, факторного, дисперсионного анализа и др.) требуются специальные знания в области статистики.

Универсальность того или иного инструмента часто накладывает определенные ограничения на его возможности. Преимуществом использования таких универсальных пакетов является возможность относительно легко сравнивать результаты построенных моделей, полученные различными методами. Такая возможность реализована, например, в пакете Statistica, где сравнение основано на так называемой "конкурентной оценке моделей". Эта оценка состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей из них.



Таблица 3.1. Сравнительная характеристика методов Data Mining

 

Алгоритм

Точность

Масштаби-руемость

Интерпрети -руемость

Пригод-ность к исполь-зованию

Трудо-емкость

Разносто -ронность

Быстрота

Популяр-ность, широта исполь-зования

класси-

нейтраль высокая высокая / высокая нейтраль нейтраль высокая низкая

 

ческие

-ная нейтраль--ная -ная

 

методы

ная

 

(линейная

 

регрессия)

высокая низкая низкая низкая нейтраль -ная низкая очень низкая низкая высокая очень высокая высокая очень низкая чрезвы-высокая /

 

нейронны е сети

 

методы

 

визуали-

низкая высокая чайно нейтраль

 

зации

низкая -ная низкая высокая высокая высокая / нейтраль -ная высокая высокая высокая / нейтраль -ная высокая / нейтраль -ная высокая нейтральна низкая высокая / нейтраль нейтраль низкая / нейтраль

 

деревья решений

 

полино-

 

миальные

я нейтраль -ная / -ная нейтраль -ная

 

нейронны

-ная низкая -ная

 

е сети

 


Напомним, что в основу технологии Data Mining положена концепция шаблонов, представляющих собой закономерности. В результате обнаружения этих, скрытых от невооруженного глаза закономерностей решаются задачи Data Mining. Различным типам закономерностей, которые могут быть выражены в форме, понятной человеку, соответствуют определенные задачи Data Mining.

Задачи (tasks) Data Mining иногда называют закономерностями (regularity) [16] или техниками (techniques) [17].

Единого мнения относительно того, какие задачи следует относить к Data Mining, нет. Большинство авторитетных источников перечисляют следующие: классификация, кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение отклонений, оценивание, анализ связей, подведение итогов.

Цель описания, которое следует ниже, - дать общее представление о задачах Data Mining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются. Наиболее распространенные задачи Data Mining - классификация, кластеризация, ассоциация, прогнозирование и визуализация - будут подробно рассмотрены в последующих лекциях. Таким образом, задачи подразделяются по типам производимой информации [18], это наиболее общая классификация задач Data Mining. Дальнейшее детальное знакомство с методами решения задач Data Mining будет представлено в следующем разделе курса.




Содержание раздела