Простой графический интерфейс, создающий диаграммы

Интерфейсы

Простой графический интерфейс, создающий диаграммы процессов обработки данных:

• Быстрое создание большого числа качественных моделей.

• Возможность доступа через Web-интерфейс.

• Доступ к среде программирования SAS.

• Возможность обмена диаграммами в формате XML.

• Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.

Пакетная обработка:

• Включает в себя все те же возможности, что и графический интерфейс.

• Основана на языке SAS macro.

Экспериментальный интерфейс Java API.

Репозитарий моделей с Web-интерфейсом:

• Управление большими портфелями моделей.

• Поиск моделей по заданному алгоритму, целевой переменной и т.п.

• Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.

Масштабируемая обработка

• Серверная обработка -обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).

• Параллельная обработка -одновременный запуск нескольких диаграмм или инструментов.
• Многопоточные прогностические алгоритмы.

• Все хранение и обработка данных -на серверах.

Доступ к данным

Доступ более чем к 50 различным файловым структурам.

Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:

• SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.

• SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.

Выборки

• Простая случайная.

• Стратифицированная.

• Взвешенная.

• Кластерная.

• Систематическая.

• Первые N наблюдений.

• Выборка редких событий.

Разбивка данных

• Создание обучающих, проверочных и тестовых наборов данных.

• Обеспечение качественного обобщения моделей на основании контрольных данных.

• Стандартная стратификация по целевому классу.

• Сбалансированная разбивка по любой классовой переменной.

Преобразования

• Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное. • Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.

• Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.

Фильтрация недостоверных данных

• Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.

• Объединение классовых значений, встречающихся менее n раз.

Замена данных

• С использованием мер центрированности.

• На основе распределения.

• Заполнение дерева суррогатными значениями.

• Методом усреднения расстояний.

• С использованием устойчивых M-оценок.

• С использованием стандартных констант.

Описательная статистика

Одномерные статистические таблицы и графики:

• Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.

• Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.

• Графики распределения.

• Статистическая разбивка для каждого уровня целевых классов.

Двумерные статистические таблицы и графики:

• Упорядоченные графики корреляции Пирсона и Спирмана.

• Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.

• График коэффициентов вариации.

Отбор переменных по logworth-критерию.

Другие интерактивные графики:

• "Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.

• Графики стоимости переменных, ранжирующие первоначальные значенияна основании их стоимости по целевому признаку.

• Распределения классовых переменных по целевым признакам и/или сегментным переменным.

Графики масштабированного среднего отклонения.

Графика/визуализация

Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.

Удобный Java-мастер для построения графиков:

• Заголовки и сноски.

• Возможность применения к данным предложения WHERE.

• Возможность выбора из нескольких цветовых схем.

• Простота масштабирования осей.

• Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.

Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.

Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.

Кластеризация

• По выбору пользователя или автоматический -выбор k лучших кластеров.

• Различные стратегии кодирования классовых переменных в процессе анализа.

• Управление недостающими данными.

• Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.

• Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.

• Оценочный код PMML.

Анализ рыночной корзины

Выявление ассоциаций и причинно-следственных связей:

• Сетевой график правил, упорядоченный по степени достоверности.

• Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.

• Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.

• График зависимости разброса достоверности от прогнозируемой достоверности.

• Таблица описания правил.

• Сетевой график правил.

Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.

Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.

Оценочный код PMML.

Анализ Web-активности

• Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.

• Выявление наиболее частых последовательностей в последовательных данных любого типа.

Уменьшение размерности

Выбор переменных:

• Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.

• Удаление переменных из иерархий.

• Удаление переменных со многими недостающими значениями.

• Сокращение числа классовых переменных с большим количеством уровней.

• Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.

• Выявление взаимодействий.

Главные компоненты:

• Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации. • Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.

• Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.

Исследование временных рядов:

• Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.

• Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.

• Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.