Интерфейсы
Простой графический интерфейс, создающий диаграммы процессов обработки данных:
• Быстрое создание большого числа качественных моделей.
• Возможность доступа через Web-интерфейс.
• Доступ к среде программирования SAS.
• Возможность обмена диаграммами в формате XML.
• Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.
Пакетная обработка:
• Включает в себя все те же возможности, что и графический интерфейс.
• Основана на языке SAS macro.
Экспериментальный интерфейс Java API.
Репозитарий моделей с Web-интерфейсом:
• Управление большими портфелями моделей.
• Поиск моделей по заданному алгоритму, целевой переменной и т.п.
• Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.
Масштабируемая обработка
• Серверная обработка -обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).
• Параллельная обработка -одновременный запуск нескольких диаграмм или инструментов.
• Многопоточные прогностические алгоритмы.
• Все хранение и обработка данных -на серверах.
Доступ к данным
Доступ более чем к 50 различным файловым структурам.
Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:
• SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.
• SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.
Выборки
• Простая случайная.
• Стратифицированная.
• Взвешенная.
• Кластерная.
• Систематическая.
• Первые N наблюдений.
• Выборка редких событий.
Разбивка данных
• Создание обучающих, проверочных и тестовых наборов данных.
• Обеспечение качественного обобщения моделей на основании контрольных данных.
• Стандартная стратификация по целевому классу.
• Сбалансированная разбивка по любой классовой переменной.
Преобразования
• Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное. • Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
• Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.
Фильтрация недостоверных данных
• Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.
• Объединение классовых значений, встречающихся менее n раз.
Замена данных
• С использованием мер центрированности.
• На основе распределения.
• Заполнение дерева суррогатными значениями.
• Методом усреднения расстояний.
• С использованием устойчивых M-оценок.
• С использованием стандартных констант.
Описательная статистика
Одномерные статистические таблицы и графики:
• Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.
• Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.
• Графики распределения.
• Статистическая разбивка для каждого уровня целевых классов.
Двумерные статистические таблицы и графики:
• Упорядоченные графики корреляции Пирсона и Спирмана.
• Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.
• График коэффициентов вариации.
Отбор переменных по logworth-критерию.
Другие интерактивные графики:
• "Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
• Графики стоимости переменных, ранжирующие первоначальные значенияна основании их стоимости по целевому признаку.
• Распределения классовых переменных по целевым признакам и/или сегментным переменным.
Графики масштабированного среднего отклонения.
Графика/визуализация
Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.
Удобный Java-мастер для построения графиков:
• Заголовки и сноски.
• Возможность применения к данным предложения WHERE.
• Возможность выбора из нескольких цветовых схем.
• Простота масштабирования осей.
• Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.
Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.
Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.
Кластеризация
• По выбору пользователя или автоматический -выбор k лучших кластеров.
• Различные стратегии кодирования классовых переменных в процессе анализа.
• Управление недостающими данными.
• Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.
• Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
• Оценочный код PMML.
Анализ рыночной корзины
Выявление ассоциаций и причинно-следственных связей:
• Сетевой график правил, упорядоченный по степени достоверности.
• Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.
• Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.
• График зависимости разброса достоверности от прогнозируемой достоверности.
• Таблица описания правил.
• Сетевой график правил.
Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.
Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.
Оценочный код PMML.
Анализ Web-активности
• Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.
• Выявление наиболее частых последовательностей в последовательных данных любого типа.
Уменьшение размерности
Выбор переменных:
• Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.
• Удаление переменных из иерархий.
• Удаление переменных со многими недостающими значениями.
• Сокращение числа классовых переменных с большим количеством уровней.
• Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.
• Выявление взаимодействий.
Главные компоненты:
• Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации. • Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.
• Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.
Исследование временных рядов:
• Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.
• Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.
• Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.