WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Pages:     || 2 | 3 |
-- [ Страница 1 ] --

Министерство образования и науки Российской Федерации

Российский химико-технологический университет им. Д. И. Менделеева

Международный институт логистики ресурсосбережения и технологической инноватики

Кафедра Логистики и экономической информатики

ДЕГТЯРЕВ АНТОН СЕРГЕЕВИЧ

Повышение экономической эффективности складской и распределительной логистики фармацевтической продукции с использованием инструментов интеллектуального анализа данных

Дипломный проект по специальности

08.05.06 «Логистика и управление цепями поставок»

Исполнитель-дипломник
_______________ (подпись)
(Дегтярев А.С.)
Заведующий кафедрой логистики и экономической информатики член-корр. РАН, д.т.н., профессор
_______________ (подпись)
(Мешалкин В. П.)
Руководитель работы, старший преподаватель
_______________ (подпись)
(Заходякин Г. В.)
Научный консультант логистики и экономической информатики член-корр. РАН, д.т.н., профессор _______________ (подпись) (Мешалкин В. П.)
Рецензент, к.т.н., доцент кафедры УТИ. _______________ (подпись) (Богомолов Б.Б)

Москва 2012

Содержание

Список основных сокращений. 3

Аннотация 4

Введение 5

Глава 1. Анализ методов и инструментов интеллектуального анализа данных, используемых для решения экономических и управленческих задач. 8

1.1. История и методология интеллектуального анализа данных. 8

1.1.1. Основы анализа данных. Понятия данных, информации и знаний. 8

1.1.2. Классификация задач Data Mining 10

1.1.3 Задача кластеризации 18

1.2 Методология и инструменты Data Mining. 31

1.2.1. Стандарты Data Mining 31

1.2.2. Инструменты Data Mining 38

1.3. Анализ диссертационных исследований в области интеллектуального анализа данных. 53

1.4. Особенности логистики фармацевтических препаратов. 60

1.4.1. Тенденции развития фармацевтического рынка России. 60

1.4.2. Информационная поддержка и автоматизация процессов в складской логистике. 65

Глава 2. Анализ предметной области на примере ЗАО Центр внедрения «ПРОТЕК». 76

2.1. Анализ логистической системы компании 76

2.2. Анализ технологического процесса набора и комплектации заказа на центральном складе ЦВП. 83

2.3. Разработка концептуальной модели аналитического решения для оптимизации операций РЦ. 95

Глава 3. Разработка решения с помощью методов кластерного анализа на базе платформы Deductor Studio. 99

3.1. Описание сценария анализа данных 99

3.2. Использование результатов и анализ эффективности 110

3.3. Архитектура решения 115

Заключение 117

Глоссарий. 119

Список литературы 123

Приложения. 126

П1. Обзор основных диссертационных работ на тему использования методов интеллектуального анализа данных 126

П2. Список обозначений 128

Приложение П3. Проверка на плагиат 129

Список основных сокращений.

OLAP - Online Analytical Processing - Аналитическая обработка в реальном времени
CRISP-DM - The Cross Industrie Standard Process for Data Mining - Стандартный межотраслевой процесс Data Mining
SOM – Self Organized Map – Самоорганизующаяся карта
SQL - Structured Query Language – Структурированный язык запросов
KDD – Knowledge Discovery In Databases – Извлечение знаний из баз данных
WMS – Warehouse Management System – Система управления складом
БД – База данных
ЦВП – Центр внедрения «Протек»
ЦП – Цепь поставок

Аннотация

В данной работе разработан прототип аналитического решения, основанного на методах кластерного анализа данных и предназначенного для снижения затрат на складскую обработку товара на примере фармацевтического дистрибьютора. В работе приведен анализ методологии и инструментов Data Mining, приведено описание цепи поставок и технологических процессов компании, решено две задачи, направленные на сокращение расходов, даны экономические обоснования и предложена архитектура решения.

Введение

В последнее время, благодаря развитию информационных технологий, существенно вырос объём наблюдаемых и сохраняемых данных о различных процессах, характеризующих деятельность компании. Для того чтобы находить в этих данных скрытые закономерности и преобразовывать их в знания, пригодные для принятия решений, используются методы и алгоритмы, объединенные общим названием Data Mining или интеллектуальный анализ данных. Данное направление исследований в последнее время становится всё более и более актуальным.

Целью данной дипломной работы является разработка аналитического решения для оптимизации затрат на складскую обработку товара. В ходе выполнения работы решались следующие задачи:

  • анализ методов и инструментов Data Mining
  • анализ логистической системы компании ЗАО фирма Центр внедрения «Протек»
  • анализ технологического процесса набора товара на центральном складе
  • разработка концептуальной модели аналитического решения
  • разработка прототипа аналитического решения с использованием платформы Deductor Studio
  • расчёт экономической эффективности решения

В результате выполнения работы были получены следующие результаты:

  • разработано решение, направленное на снижение затрат на складскую обработку товара,
  • предложены методология решения
  • показана эффективность его применения,
  • продемонстрирована актуальность использования методов Data Mining для решения задач в логистике.

Исходя из прототипа аналитического решения, была предложена архитектура, основывающаяся на взаимодействии базы данных WMS-системы, хранилища данных и аналитической платформы.

Глава 1. Анализ методов и инструментов интеллектуального анализа данных, используемых для решения экономических и управленческих задач.

1.1. История и методология интеллектуального анализа данных.

На развитие методов поиска знаний в базах данных и интеллектуального анализа данных во многом повлияло совершенствование информационных технологий. Бурный рост объёмов сохраняемой информации привёл к возникновению существенных сложностей при анализе традиционными методами. В данной главе будут изложены основы Data Mining, рассмотрены основные задачи, решаемые методами интеллектуального анализа данных, методологии, используемые в проектах по анализу данных, и подробно рассмотрена задача кластеризации.

1.1.1. Основы анализа данных. Понятия данных, информации и знаний.

Под анализом данных в широком смысле подразумевается процесс исследования сырых данных для получения полезной информации, пригодной для принятия решений. При анализе экономической деятельности компаний используется понятие бизнес-аналитики (Business Intelligence, BI), включающее в себя набор методов, моделей и инструментов, служащих для поддержки принятия решений.

Перед тем, как перейти к детальному рассмотрению методологий, моделей и алгоритмов анализа данных, стоит определиться с понятиями данных, информации и знаний, а также привести основную классификацию методов анализа.

Данные - сведения, полученные путем измерения, наблюдения, логических или арифметических операций, выступающие в форме, пригодной для постоянного хранения, передачи и (автоматизированной) обработки. Это цифровые представления атомарных фактов, текста, графиков, картинок, звука, аналоговых и цифровых видео сегментов. Данные являются "сырым" материалом для систем обработки и используются для извлечения информации [1]. Данные, используемые для анализа в экономике, обычно представляют собой либо временные ряды, либо двумерные таблицы. В последнем случае объекты, которыми могут являться клиенты, товары и т.д., описываются набором атрибутов или признаков, характеризующих их. В данной работе речь пойдет об анализе табличных данных.

Информация – любые сообщения о чем-либо; сведения, являющиеся объектом хранения, переработки и передачи; в математике и кибернетике - количественная мера устранения неопределенности (энтропии), мера организации системы [2]. Информация обладает следующими свойствами:

  • Полнота 
  • Достоверность 
  • Ценность 
  • Адекватность 
  • Актуальность 
  • Ясность 
  • Доступность 
  • Субъективность 

Для бизнеса информация является исходной составляющей принятия решений.

Всю информацию, возникающую в процессе функционирования бизнеса и управления им, можно классифицировать определенным образом. В зависимости от источника получения, информацию разделяют на внутреннюю и внешнюю.

Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача. Знания имеют определенные свойства, которые отличают их от информации [5]:

  • Структурированность.
  • Удобство доступа и усвоения.
  • Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания".
  • Непротиворечивость.

Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний - возможность их передачи другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т.е. наличие специальных форматов знаний.

В настоящее время существует огромное количество методов анализа данных, предназначенных на получение знаний. Ниже приведен обзор основных методов, существующих на сегодняшний день (рис. № 1.1).

 Рис № 1.1. Классификация методов анализа данных. (Источник: статья-0

Рис № 1.1. Классификация методов анализа данных.

(Источник: статья «Онтология анализа данных», http://www.basegroup.ru/library/methodology/ontology)

1.1.2. Классификация задач Data Mining

В данной работе речь пойдет о применении методов интеллектуального анализа данных (русская трактовка понятия Data mining), которые включают в себя подходы из различных областей, в первую очередь из статистики, теории баз данных и искусственного интеллекта (рис. № 1.2).

 Рис № 1.2. Мультидисциплинарный характер Data mining (Источник: Глоссарий-1

Рис № 1.2. Мультидисциплинарный характер Data mining

(Источник: Глоссарий сайта Basegroup.ru, http://www.basegroup.ru/glossary/definitions/data_mining/)

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации), процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей [2].

Бурное развитие технологий интеллектуального анализа данных и их применения в финансовой и экономической сфере обусловлено развитием информационных технологий, так как используемые алгоритмы требуют большого количества вычислений, что раньше являлось сдерживающим фактором.

Выделяют несколько основных классов задач, решаемых методами Data mining:

  • Классификация – это отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
  • Регрессия, в том числе задачи прогнозирования. Установление зависимости непрерывных выходных от входных переменных.
  • Кластеризация – это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера должны быть "похожими" друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
  • Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.
  • Последовательные шаблоны – установление закономерностей между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.

Согласно классификации по стратегиям, задачи Data Mining подразделяются на следующие группы:

  • обучение с учителем;
  • обучение без учителя;
  • другие.

Обучение с учителем — один из способов машинного обучения, в ходе которого модель обучается с помощью примеров. Между входами и эталонными выходами может существовать некоторая зависимость, но она не известна. Обучение с учителем предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход. Вместе они называются обучающей парой. Обычно модель обучается на некотором числе таких обучающих пар. Предъявляется выходной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором, разность (ошибка) с помощью обратной связи подается в сеть и веса изменяются в соответствии с алгоритмом, стремящимся минимизировать ошибку. Векторы обучающего множества предъявляются последовательно, вычисляются ошибки и веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемо низкого уровня [6].

Обучение без учителя — один из способов машинного обучения, при решении которых испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны экспериментатора. Как правило, этот тип обучения пригоден для задач, в которых известны описания множества объектов, и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами. Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта принудительно задаётся «правильный ответ», и требуется найти зависимость между стимулами и реакциями системы. Основные представители задач обучения с учителем – задачи классификации и регрессии. Кластеризация является примером обучения без учителя.

Так же задачи Data Mining, в зависимости от используемых моделей, могут быть дескриптивными и прогнозирующими. В результате решения дескриптивных (описательных) задач получаются шаблоны, описывающие данные, которые поддаются интерпретации. Решения этих задач описывают общую концепцию анализируемых данных, определяют информативные, итоговые, отличительные особенности данных. Прогнозирующие (predictive) основываются на анализе данных, создании модели, предсказании тенденций или свойств новых или неизвестных данных.

Проблемы бизнес-анализа в терминах предметной области чаще всего выглядят немного иначе, но их решения сводятся к одной из вышеперечисленных задач. Далее будут кратко рассмотрены вышеперечисленные типы задач и подробно рассмотрена задача кластеризации.

1.1.2.1 Задача классификации

Классификация - задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект. Задачей классификации часто называют предсказание категориальной зависимой переменной на основе выборки непрерывных и/или категориальных переменных.

Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам). Многомерная классификация была разработана биологами при решении проблем дискриминации для классифицирования организмов. Одной из первых работ, посвященных этому направлению, считают работу Р. Фишера (1930 г.), в которой организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров. Графическая иллюстрация задачи классификации приведена на рис № 1.3. Цель задачи заключается в отнесении нового объекта (отмечен белым цветом) к одному из известных классов.

 Рис № 1.3. Множество объектов различных классов в двумерном измерении. -2

Рис № 1.3. Множество объектов различных классов в двумерном измерении.

(Источник: Data Mining. Чубукова И.А.)

Для классификации используются различные методы. Основные из них:

  • классификация с помощью деревьев решений;
  • байесовская (наивная) классификация ;
  • классификация при помощи искусственных нейронных сетей;
  • классификация методом опорных векторов;
  • статистические методы, в частности, линейная регрессия;
  • классификация при помощи метода ближайшего соседа;
  • классификация CBR-методом;
  • классификация при помощи генетических алгоритмов.

Возможны несколько способов представления данных для обучения классификатора. Наиболее распространенным является способ, при котором образец представляется вектором. Компоненты этого вектора представляют собой различные характеристики образца, которые влияют на принятие решения о том, к какому классу можно отнести данный образец. Классификатор таким образом относит объект к одному из классов в соответствии с определенным разбиением N-мерного пространства, которое называется пространством входов, и размерность этого пространства является количеством компонент вектора. В задачах классификации выделяют три уровня сложности. Первый (самый простой) – когда классы можно разделить прямыми линиями (или гиперплоскостями, если пространство входов имеет размерность больше двух) – так называемая линейная разделимость. Во втором случае классы невозможно разделить линиями (плоскостями), но их возможно отделить с помощью более сложного деления –нелинейная разделимость (рис. № 1.4). В третьем случае классы пересекаются и можно говорить только о вероятностной разделимости [7].

 Рис №4. Пример линейной (слева) и нелинейной разделимости классов.(Источник:-3

Рис №4. Пример линейной (слева) и нелинейной разделимости классов.
(Источник: Алексей Стариков. Применение нейронных сетей для задач классификации)

Для оценки качества созданного классификатора используется таблица сопряженности, показывающая правильно и неправильно классифицированные объекты (рис. № 1.5).

Рис № 1.5. Пример использования таблицы сопряженности для оценки классификации

1.1.2.2. Задача регрессии

Регрессия – один из методов моделирования измеряемых данных и исследования их свойств. Регрессия — зависимость математического ожидания например, среднего значения случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть  . Регрессионным анализом называется поиск такой функции , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

где  — функция регрессионной зависимости, а  — аддитивная случайная величина с нулевым математическим ожиданием. 

Задача регрессии родственна задачи классификации, так как в обеих случаях находятся закономерности между входными и выходными переменными. Если эти переменные непрерывные, то решается задача регрессии, если выходная переменная одна и она является дискретной, то решается задача классификации [8].

Регрессионный анализ является одним из наиболее распространенных методов обработки результатов наблюдений при изучении зависимостей в физике, биологии, экономике, технике и др. областях. В аналитических технологиях Data Mining элементы регрессионного анализа широко используются для решения задач прогнозирования, оценивания, классификации, выявления зависимостей между показателями [1].

 Рис № 1.6. Линейная регрессия (Источник: http://www.machinelearning.ru) -10

Рис № 1.6. Линейная регрессия

(Источник: http://www.machinelearning.ru)

1.1.2.3. Задача ассоциации

Задача поиска ассоциативных правил называется аффинитивным анализом (от англ. affinity – близость, сходство). Цель данного анализа – исследование взаимной связи между событиями, происходящими одновременно. Одной из разновидностей аффинитивного анализа является часто используемый в экономике анализ рыночной корзины, цель которого – обнаружение наборов товаров, покупаемых вместе. Количественное описание подобных совместных событий называется ассоциативными правилами.

Базовым понятием аффинитивного анализа является транзакция – некоторое множество событий, происходящих одновременно. Другое важное понятие – предметный набор. Это непустое множество предметов, появившихся в одной транзакции [8]. В ходе решения задачи поиска ассоциативных правил производится поиск элементов предметного набора, влияющих на вероятность наличия в нём других предметов или их комбинаций.

Одним из основных алгоритмов поиска ассоциативных правил является алгоритм Apriori, ищущий наиболее часто встречающиеся предметные наборы и генерирующий на основе них ассоциативные правила.

1.1.3 Задача кластеризации

Задача кластеризации является одной из основных задач Data Mining, относящейся к стратегии обучения без учителя. Сущность кластеризации заключается в разделение объектов на кластеры на основе близости их свойств. Каждый кластер должен состоять из похожих объектов, а объекты разных кластеров должны существенно отличаться. Процедура кластеризации ставит любому объекту в соответствие метку кластера . В общем виде задача кластеризации изображена на рис № 1.7.

 Рис № 1.7. Иллюстрация задачи кластеризации [8] Пример решения задачи-13

 Рис № 1.7. Иллюстрация задачи кластеризации [8] Пример решения задачи-14

Рис № 1.7. Иллюстрация задачи кластеризации [8]


Пример решения задачи кластеризации на плоскости изображен на рис. № 1.8

 Рис. № 1.8 Пример кластеризации объектов по двум признакам Решение задачи-15

 Рис. № 1.8 Пример кластеризации объектов по двум признакам Решение задачи-16

Рис. № 1.8 Пример кластеризации объектов по двум признакам

Решение задачи кластеризации принципиально неоднозначно и носит субъективный характер. Во-первых, не существует однозначно наилучшего критерия качества кластеризации. Во-вторых, число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. В-третьих, результат кластеризации существенно зависит от метрики расстояния, выбор которой, как правило, также субъективен и определяется экспертом [10].

В бизнес-аналитике кластеризация используется для исследования данных, облегчения анализа, сжатия данных, прогнозирования и обнаружения аномалий. Независимо от предмета изучения и выбранного алгоритма применение кластерного анализа предполагает следующие этапы:

  • Отбор выборки для кластеризации.
  • Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть пространства признаков.
  • Вычисления меры сходства между объектами
  • Применение метода кластерного анализа для создания групп сходных объектов.
  • Проверка достоверности результатов кластерного решения.

1.1.3.1. Метрики, используемые в кластерном анализе

Для определения степени сходства и различия между объектами в n-мерном пространстве признаков используют меры следующие меры расстояний:

1. Евклидово расстояние. Является геометрическим расстоянием в многомерном пространстве [11].

(1.1)

где - расстояние между объектами и , - значение -го свойства объекта , - значение -го свойства объекта

Евклидово расстояние является наиболее часто используемой метрикой. При её использовании данные обязательно должны быть нормализованы.

2. Квадрат евклидова расстояния. Используется для придания больших значений более удаленным друг от друга объектов.

(1.2)
3. Взвешенное евклидово расстояние. Применяется для придания веса тому или иному признаку. Веса чаще всего определяются экспертно.

(1.3)

Где - вес признака

4. Хеммингово расстояние, также называется манхэттенским, сити-блок расстоянием или расстоянием городских кварталов. Это расстояние является разностью по координатам.

(1.4)

5. Расстояние Чебышева. Принимает значение наибольшего модуля разности между значениями соответствующих признаков объектов.

(1.5)

1.1.3.2. Классификация алгоритмов кластеризации

Далее будут рассмотрены основные группы алгоритмов кластеризации. Алгоритмы разделяют по трём основным критериям – по способу обработки данных на иерархические и итеративные, по способу анализа данных на чёткие и нечеткие, и по возможности расширения объёма обрабатываемых данных на масштабируемые и немасштабируемые.

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. По результатам работы иерархического алгоритма строится дерево вложенных друг в друга кластеров. Иерархические алгоритмы в свою очередь разделяются на агломеративные (Agglomerative Nesting, AGNES) и дивизимные (DIvisive ANAlysis, DIANA). В начале работы агломеративного алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер. Дивизимные методы являются логической противоположностью агломеративным. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп. Принцип работы этих групп алгоритмов приведен на рис. № 1.9.

 Рис. № 1.9. Дендрограмма агломеративных и дивизимных методов (Источник: Data-31

Рис. № 1.9. Дендрограмма агломеративных и дивизимных методов

(Источник: Data Mining. Чубукова И.А.)

Одним из примеров агломеративных иерархических алгоритмов является алгоритм CURE (Clustering Using REpresentatives), используемый для кластеризации числовых данных больших объёмов. CURE выполняет кластеризацию на высоком уровне даже при наличии выбросов, выделяет кластеры сложной формы и различных размеров.

К дивизимным относятся алгоритмы BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) и MST (Algorithm based on Minimum Spanning Trees).

При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки. Итеративная кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. В итеративной кластеризации существует два подхода: первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, то есть кластер определяется там, где имеется большое сгущение точек. Второй подход заключается в минимизации меры различия объектов внутри кластера [2].

Наиболее распространенным алгоритмом итеративной кластеризации является алгоритм k-means (k средних). Алгоритм был изобретён в 1950-х годов математиком Гуго Штейнгаузом. Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров:

(1.6)

где - число кластеров, - полученные кластеры, , - центры тяжести векторов . Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множество конечно, а на каждом шаге суммарное квадратичное отклонение V уменьшается, поэтому зацикливание невозможно. Иллюстрация работы алгоритма приведена на рис. № 1.10.

1. 2. 3. 4.

Рис № 1.10 Демонстрация работы алгоритма k-means

(Источник: Математический портал 49l.ru - http://49l.ru/a/k-means_-_demonstratsiya_algoritma)

  1. Случайный выбор начальных точек
  2. Отнесение исходных точек к выбранным центрам на основе меры близости
  3. Вычисление новых центров кластеров
  4. Повторение предыдущих шагов до момента завершения алгоритма

К достоинства алгоритма k-means относят простоту и быстроту использования, а также понятность и прозрачность. К недостаткам алгоритма относят чувствительность к выбросам и начальным случайно выбранным центрам кластеров.

Также к распространенным итеративным методам относят следующие алгоритмы:

  • PAM (partitioning around medoids), иначе называемый k medoids (k медиан), менее чувствителен к выбросам
  • G-means, определяющий оптимальное число кластеров, основываясь на гипотезе о нормальном распределении значений признаков внутри кластера
  • CLOPE, используемый для кластеризации категорийных данных.

Нечеткие методы кластеризации базируются на принципах нечеткой логики, позволяя одному и тому же объекту принадлежать одновременно нескольким (или даже всем) кластерам, но с различной степенью принадлежности. Нечеткая кластеризация во многих ситуациях более естественна, чем четкая, например, для объектов, расположенных на границе кластеров. При нечеткой кластеризации для каждого из определяется - вещественное значение, показывающее степень принадлежности к кластеру. Развитие и широкое применение нечёткая кластеризация получила благодаря Джеймсу Бездеку и его методу нечетких k-средних (Fuzzy c-means - FCM) [12]. Подробнее о нечеткой кластеризации можно прочитать в соответствующей литературе (например, J. C. Bezdek. Fuzzy Mathematics in Pattern>

Для оценки качества кластеризации используют следующие характеристики:

  • Среднее внутрикластерное расстояние - среднее расстояние от объектов до центра кластеров
  • Среднее межкластерное расстояние - среднее расстояние между центрами кластеров
  • Сумма средних межкластерных расстояний
  • Сумма межкластерных расстояний

Обычно для оценки используют отношение пары характеристик, например или [10].

1.1.3.3. Самоорганизующиеся карты Кохонена

Ещё одним интересным и распространенным методом кластерного анализа являются самоорганизующиеся карты Кохонена. Карта Кохонена является частным случаем сети Кохонена. Основная цель сетей Кохонена – преобразование сложных многомерных данных в более простую структуру малой размерности [8]. Структура сети Кохонена изображена на рис. № 1.11.

 Рис. № 1.11. Структура сети Кохонена (Источник: Нейский И.М. Классификация-51

Рис. № 1.11. Структура сети Кохонена

(Источник: Нейский И.М. Классификация и сравнение методов кластеризации)

Прежде, чем перейти к использованию SOM для кластеризации данных, вкратце поясню основные аспекты искусственных нейронных сетей.

Нейронные сети состоят из базовых элементов – нейронов, являющихся простейшими взвешенными сумматорами, а также связей между ними – синапсами и аксонами (см. рис. № 1.12). Нейрон характеризуется текущим состоянием и обладает группой синапсов - однонаправленных входных связей, соединенных с выходами других нейронов. Нейрон имеет аксон - выходную связь данного нейрона, с которой сигнал (возбуждения или торможения) поступает на синапсы следующих нейронов. Каждый синапс характеризуется величиной синаптической связи (ее весом ) [2].

Текущее состояние нейрона определяется как взвешенная сумма его входов:

(1.7)

 Рис. № 1.12 Общий вид искусственного нейрона (Источник: Data Mining.-54

Рис. № 1.12 Общий вид искусственного нейрона

(Источник: Data Mining. Чубукова И.А.)

Выход нейрона – есть функция его состояния.

(1.8)

Выходной сигнал нейрона получается путем преобразования состояния нейрона активационной (или передаточной) функцией. При работе с искусственными нейронными сетями обычно используют следующие активационные функции:

1) Линейная активационная функция , (1.9)

где - параметр функции;

Рис. № 1.13. Линейная активационная функция

2) Пороговая активационная функция

(1.10)

Рис. № 1.14. Пороговая активационная функция

3) Сигмоидальная активационная функция.

Является наиболее часто используемой активационной функцией в настоящее время. Использование сигмоидальных функций позволило перейти от бинарных выходов нейрона к аналоговым. Функции передачи такого типа, как правило, присущи нейронам, находящимся во внутренних слоях нейронной сети.

(1.11)

Где - параметр, отвечающий за крутизну сигмоиды.

Рис. № 1.15 Сигмоидальная активационная функция

Перед использованием нейронная сеть обучается под какую-то конкретную задачу. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в подборе коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

Выше вкратце были изложены основные аспекты теории искусственных нейронных сетей, поэтому далее речь пойдёт об использовании самоорганизующихся карт Кохонена для кластеризации данных.

Самоорганизующиеся карты подразумевает использование упорядоченной структуры нейронов. Обычно используются одно и двумерные сетки. Нейроны располагаются в узлах двумерной сетки с прямоугольными или шестиугольными ячейками (рис. 1.16) [14]. Величина этого взаимодействия определяется расстоянием между нейронами на карте.

Рис. № 1.16 Расположение ячеек в карте Кохонена

(Источник: Глоссарий сайта Basegroup.ru)

Карта Кохонена состоит всего из двух слоев – входного и выходного. Выходной слой часто называется «слой Кохонена». При этом каждый нейрон входного слоя связан со всеми нейронами выходного, а внутри слоев связей нет. На нейроны входного слоя подаются векторы признаков кластеризуемых объектов. Число входных нейронов равно размерности вектора признаков. [1]

Каждая связь между нейронами имеет определенный вес в диапазоне от 0 до 1, процесс обучения сети заключается в подстройке весов.

В процессе обучения и функционирования сеть Кохонена выполняет три процедуры:

  1. Конкуренция – выходные нейроны конкурируют за право стать победителем, в случае, если вектор весов нейрона оказывается наиболее близким к вектору признаков объекта
  2. Объединение – Нейрон-победитель становится центром ячейки (группы нейронов)
  3. Подстройка весов. Нейроны, располагающиеся рядом с нейроном-победителем, подстраивают свои веса.

Обучение состоит из последовательности коррекций векторов, представляющих собой нейроны. На каждом шаге обучения из исходного набора данным случайно выбирается один из векторов, а затем производится поиск наиболее похожего на него вектора коэффициентов нейронов. При этом выбирается нейрон-победитель, который наиболее похож на вектор входов. Под похожестью в данной задаче понимается расстояние между векторами, обычно вычисляемое в евклидовом пространстве [14].

Самоорганизующиеся карты используются для кластеризации объектов и визуализации данных. На рис. № 1.17 изображено расположение ячеек карты в трехмерном пространстве признаков. Карты Кохонена позволяют также представить полученную информацию в простой и наглядной форме путем нанесения раскраски. Для этого узлы карты раскрашиваются цветами, соответствующими признакам объектов [15]. Чаще всего пользуются градиентными палитрами: чем меньше значение в узле карты, тем темнее соответствующий участок изображения, по аналогии с географическими картами. (рис. № 1.18).

Рис. № 1.17 Наложение карты Кохонена на пространство признаков

(Источник: Использование самоорганизующихся карт в задачах кластеризации - http://www.basegroup.ru/library/analysis/clusterization/som_mine/)

 Рис. № 1.18 Раскраска карты Более подробно использование-66

Рис. № 1.18 Раскраска карты

Более подробно использование самоорганизующихся карт будет рассмотрено в главе 3 при реализации практической задачи.

1.2 Методология и инструменты Data Mining.

1.2.1. Стандарты Data Mining

В настоящее время существует несколько стандартов Data Mining, но все они довольно похожи друг на друга. Основные различия заключаются в терминологии и последовательности операций.

С точки зрения управления проектом Data Mining выделяют следующие основные стадии:

  • анализ предметной области;
  • постановка задачи;
  • подготовка данных;
  • построение моделей;
  • проверка и оценка моделей;
  • выбор модели;
  • применение модели;
  • коррекция и обновление модели.

В конце 1980-х годов Григорием Пятецким-Шапиро начали разрабатываться основы методологии, получившей название KDD (Knowledge discovery in databases) или обнаружения знаний в базах данных. Предпосылками этому послужило использование методов искусственного интеллекта для оптимизации выполнения запросов в масштабных базах данных [4].

KDD включает последовательность операций, необходимых для поддержки аналитического процесса (рис. № 1.19). К ним относятся:

Консолидация данных – процесс их извлечения из различных источников (OLTP-систем, СУБД, файлов отдельных пользователей, Интернета и т.д.) и загрузка в централизованное хранилище данных.

Подготовка анализируемых выборок данных (в том числе обучающих), загрузка их из хранилища или других источников в аналитическое приложение.

Очистка данных от факторов, мешающих их корректному анализу, таких как шумы и аномальные значения, дубликаты, противоречия, пропуски, фиктивные значения и т.д.

Трансформация – оптимизация данных для решения определенной задачи. Обычно на этом этапе выполняется исключение незначащих факторов, снижение размерности входных данных, нормализация, обогащение и другие преобразования, позволяющие лучше «приспособить» данные к решению аналитической задачи.

Анализ данных – применение методов и технологий Data Mining: построение и обучение моделей (нейронных сетей, деревьев решений, карт Кохонена и др.), решение задач классификации и регрессии, кластеризации, прогнозирования, поиска ассоциаций и т.д.

Интерпретация и визуализация результатов анализа, их применение в бизнес-приложениях.

 19 Последовательность стадий KDD (Источник: Глоссарий сайта-68

Рис. 1.19 Последовательность стадий KDD

(Источник: Глоссарий сайта Basegroup. ru, http://www.basegroup.ru/glossary/definitions/data_mining/)

Наравне с KDD, самым известным стандартом в области Data Mining является стандарт CRISP-DM (The Cross Industrie Standard Process for Data Mining - Стандартный межотраслевой процесс Data Mining) ), главное преимущество которой заключается в независимости от используемого ПО, методов анализа и предметной области. В соответствии со стандартом CRISP, Data Mining является непрерывным процессом со многими циклами и обратными связями. Data Mining по стандарту CRISP-DM включает следующие фазы [16], [17]:

1. Понимание бизнеса (Business Understanding)

Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Цели преобразуются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.

  • Определение бизнес-целей
  • Оценка ситуации
  • Определение цели интеллектуального анализа данных
  • Составление плана проекта

2. Понимание данных (Data Understanding)

Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. На этой стадии выявляются все трудности, связанные с очисткой и предобработкой данных и формируются гипотезы о наличии скрытых закономерностей в данных.

  • Сбор исходных данных
  • Описание данных
  • Проверка качества данных
  • Исследование данных

3. Подготовка данных (Data Preparation)

Фаза подготовки данных ставит целью получить итоговый набор данных, который будет использоваться при моделировании. Задачи подготовки данных могут выполняться много раз без какого-либо заданного порядка. Эти задачи включают в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования.

  • Отбор данных
  • Очистка данных
  • Подготовка производных данных
  • Консолидация данных
  • Перевод данных в требуемый формат

4. Моделирование (Modeling)

На этой стадии к данным применяются различные алгоритмы интеллектуального анализа, строятся модели и проверяются гипотезы. Некоторые подходы накладывают особые требования на представление данных. Таким образом, часто бывает нужен возврат на шаг назад к фазе подготовки данных.

  • Выбор методики моделирования
  • Построение модели
  • Проверка модели

5. Оценка (Evaluation)

На этом этапе проекта модель уже построена и её качество оценено Перед внедрением модели необходимо убедиться в достижении поставленных целей.

  • Оценка результатов
  • Подготовка ревью процесса
  • Определение следующих шагов

6. Использование (Deployment)

В зависимости от требований, фаза использования может быть как простой, так и сложной, начиная от составления отчёта и заканчивая автомазацией анализа и интеграции его в бизнес-процессы компании. Обычно развертыванием занимается заказчик.

  • Планирование внедрения
  • Планирование мониторинга и поддержки внедрения
  • Подготовка финального отчёта
  • Подготовка ревью проекта

 Рис. № 1.20 Схема проекта Data mining по методологии CRISP-DM(Источник:-69

Рис. № 1.20 Схема проекта Data mining по методологии CRISP-DM
(Источник: CRISP-DM 1.0 Step-by-step data mining guide)

При помощи методологии CRISP-DM Data Mining превращается в бизнес-процесс, в ходе которого технология Data Mining фокусируется на решении конкретных проблем бизнеса. Методология CRISP-DM, которая разработана экспертами в индустрии Data Mining, представляет собой пошаговое руководство, где определены задачи и цели для каждого этапа процесса Data Mining. Методология CRISP-DM описывается в терминах иерархического моделирования процесса, который состоит из набора задач, описанных четырьмя уровнями обобщения (от общих к специфическим): фазы, общие задачи, специализированные задачи и запросы.
На верхнем уровне процесс Data Mining организовывается в определенное количество фаз, на втором уровне каждая фаза разделяется на несколько общих задач. Задачи второго уровня называются общими, потому что они являются обозначением (планированием) достаточно широких задач, которые охватывают все возможные Data Mining-ситуации. Третий уровень является уровнем специализации задачи, т.е. тем местом, где действия общих задач переносятся на конкретные специфические ситуации. Четвертый уровень является отчетом по действиям, решениям и результатам фактического использования Data Mining [2].

CRISP-DM является самым известным, но далеко не единственным корпоративным стандартом проектом Data Mining. Компания SAS – американский разработчик продуктов Business Intelligence создала стандарт SEMMA (акроним от Sample, Explore, Modify, Model and Assess). Название стандарта подразумевает следующую последовательность процессов:

  1. Sample – Сэмплирование (Создание выборки)
  2. Explore – Исследование закономерностей а данных
  3. Modify – Модифицирование данных
  4. Model – Моделирование
  5. Assess – Оценка полученных моделей и результатов

Подход SEMMA подразумевает, что все процессы выполняются в рамках гибкой оболочки, поддерживающей выполнение всех необходимых работ по обработке и анализу данных. Подход SEMMA сочетает структурированность процесса и логическую организацию инструментальных средств, поддерживающих выполнение каждого из шагов. Благодаря диаграммам процессов обработки данных, подход SEMMA упрощает применение методов статистического исследования и визуализации, позволяет выбирать и преобразовывать наиболее значимые переменные, создавать модели с этими переменными, чтобы предсказать результаты, подтвердить точность модели и подготовить модель к развертыванию [2].

 Рис. № 1.21. Схема процесса Data Mining по методологии SEMMA (Источник: Data-70

Рис. № 1.21. Схема процесса Data Mining по методологии SEMMA

(Источник: Data Mining. Чубукова И.А.)

По результатам опросов KDnuggets (рис. № 1.21.), 42% опрошенных лиц использует методологию CRISP-DM, 19% - свою собственную методологию, 13% - методологию SEMMA, 7% - методологию KDD, 5% - методологию своей организации, 5% - методологию предметной области, другими методологиями пользуется 4% опрошенных. Не пользуются никакой методологией 5% опрошенных [18].

 Рис № 1.21. Опрос участников проектом Data Mining(Источник: KDnuggets ) -71

Рис № 1.21. Опрос участников проектом Data Mining
(Источник: KDnuggets )

Многие исследователи проводили сравнения этих трех наиболее распространенных методологий, на рис. №1.22 показаны совпадающие стадии различных методологий в хронологической последовательности. Обычно пишут, что CRISP-DM наиболее широко охватывает процесс Data Mining [19].

 Рис. № 1.22. Сравнение методологий Data Mining(Источник: KDD, SEMMA and-72

Рис. № 1.22. Сравнение методологий Data Mining
(Источник: KDD, SEMMA and CRISP-DM: A Parallel Overview)

1.2.2. Инструменты Data Mining

В настоящее время рынок программного обеспечения для Data Mining продолжает бурно развиваться. Инструменты для анализа данных представлены как разработками крупных компаний, интегрированными в продукты Business Intelligence или в СУБД, наподобие Oracle Data Mining, так и бесплатными open-source проектами вроде Weka. В этой главе будет дан небольшой обзор наиболее известных инструментам для Data Mining – SAS Enterprise Miner, PolyAnalist, Cognos 4Thought, STATISTICA Data Miner, KXEN и Deductor.

Программный продукт SAS Enterprise Miner - это интегрированный компонент системы SAS, созданный специально для выявления в огромных массивах данных информации, необходимой для принятия решений. Разработанный для поиска и анализа глубоко скрытых закономерностей в данных, Enterprise Miner включает в себя методы статистического анализа, соответствующую методологию выполнения проектов Data Mining (SEMMA) и графический интерфейс пользователя. Важной особенностью SAS Enterprise Miner является его полная интеграция с программным продуктом SAS Warehouse Administrator, предназначенным для разработки и эксплуатации информационных хранилищ, и другими компонентами системы SAS. Разработка проектов Data Mining может выполняться как локально, так и в архитектуре клиент-сервер [2].

 Рис. № 1.23 Окно SAS Enterprise Miner Пакет SAS Enterprise Miner-73

Рис. № 1.23 Окно SAS Enterprise Miner

Пакет SAS Enterprise Miner обеспечивает небывалую глубину анализа, пре доставляя не имеющий аналогов по разнообразию набор инструментов и алгоритмов прогностического и описательного моделирования, включающий деревья решений, нейронные сети, самоорганизующиеся нейронные сети, методы рассуждения, основанные на механизмах поиска в памяти (memory based reasoning), линейную и логистическую регрессии, кластеризацию, ассоциации, временные ряды и многое другое. Благодаря интеграции множества моделей и алгоритмов в одном приложении пакет Enterprise Miner позволяет производить последовательное сравнение моделей, созданных на основе различных методов, оставаясь в рамках единого графического интерфейса. Встроенные средства оценки формируют единую среду для сравнения различных методов моделирования, как с точки зрения статистики, так и с точки зрения бизнеса, позволяя выявить наиболее подходящие методы для имеющихся данных. Результатом является качественный анализ данных, выполненный с учетом специфических проблем конкретного бизнеса [20].

Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из данных практически полезных знаний. Разработчик системы PolyAnalyst - российская компания Megaputer Intelligence. По своей природе PolyAnalyst является клиент-серверным приложением. Пользователь работает с клиентской программой PolyAnalyst Workplace. Математические модули выделены в серверную часть - PolyAnalyst Knowledge Server. Такая архитектура предоставляет естественную возможность для масштабирования системы: от однопользовательского варианта до корпоративного решения с несколькими серверами.

 Рис. №1.24 Архитектура системы PolyAnalist Версия PolyAnalyst 4.6 включает-74

Рис. №1.24 Архитектура системы PolyAnalist

Версия PolyAnalyst 4.6 включает 18 математических модулей, основанных на различных алгоритмах Data и Text Mining [2]:

Модуль Find Laws (FL) - построитель моделей.

Модуль FL - это центр системы. Он предназначен для автоматического нахождения в данных нелинейных зависимостей и представления результатов в виде математических формул, включающих в себя блоки условий. Алгоритм основан на технологии эволюционного программирования.

PolyNet Predictor (PN) - полиномиальная нейронная сеть.

Работа этого алгоритма основана на построении иерархической структуры, подобной нейронной сети. При этом сложность этой сетевой структуры и другие ее параметры подбираются динамически на основе свойств анализируемых данных.

Stepwise Linear Regression (LR) - пошаговая многопараметрическая линейная регрессия.

Линейная регрессия, как широко распространенный метод статистического исследования, включена во многие статистические пакеты и электронные таблицы. Однако, реализация этого модуля в системе PolyAnalyst имеет свои особенности, а именно: автоматический выбор наиболее значимых независимых переменных и тщательная оценка статистической значимости результатов.

Memory based Reasoning (MR) - метод "ближайших соседей".

В системе PolyAnalyst используется модификация известного алгоритма "метод ближайших соседей". Алгоритм MR используется для предсказания значений числовых переменных и категориальных переменных, включая текстовые, а также для классификации.

Find Dependencies (FD) - N-мерный анализ распределений.

Данный алгоритм обнаруживает в исходной таблице группы записей, для которых характерно наличие функциональной связи между целевой переменной и независимыми переменными, оценивает степень (силу) этой зависимости в терминах стандартной ошибки, определяет набор наиболее влияющих факторов, отсеивает отскочившие точки. Целевая переменная для FD должна быть числового типа, в то время как независимые переменные могут быть и числовыми, и категориями, и логическими.

Find Clusters (FC) - N-мерный кластеризатор.

Данный алгоритм предназначен для решения задач кластеризации. Алгоритм FC сам определяет набор переменных, для которых разбиение наиболее значимо. Результатом работы алгоритма является описание областей (диапазонов значений переменных), характеризующих каждый обнаруженный кластер, и разбиение исследуемой таблицы на подмножества, соответствующие кластерам.

Classify (CL) - классификатор на основе нечеткой логики.

Алгоритм CL предназначен для классификации записей на два класса. В основе его работы лежит построение так называемой функции принадлежности и нахождения порога разделения на классы. Функция принадлежности принимает значения от окрестности 0 до окрестности 1. Если возвращаемое значение функции для данной записи больше порога, то эта запись принадлежит к классу "1", если меньше, то классу "0" соответственно. Целевая переменная для этого модуля должна быть логического типа.

Discriminate (DS) дискриминация.

Данный алгоритм является модификацией алгоритма CL. Он предназначен для того, чтобы выяснить, чем данные из выбранной таблицы отличаются от остальных данных, включенных в проект, иными словами, для выделения специфических черт, характеризующих некоторое подмножество записей проекта. В отличие от алгоритма CL, он не требует задания целевой переменной, достаточно указать лишь таблицу, для которой требуется найти отличия.

Decision Tree (DT) - дерево решений.

В системе PolyAnalyst реализован алгоритм, основанный на критерии максимизации взаимной информации (information gain). Алгоритм DT является одним из самых быстрых в PolyAnalyst.

Decision Forest (DF) - леса решений.

В случае, когда зависимая переменная может принимать большое количество разных значений, применение метода деревьев решений становится неэффективным. В такой ситуации в системе PolyAnalyst применяется метод, называемый лесом решений (decision forest). При этом строится совокупность деревьев решений - по одному для каждого различного значения зависимой переменной. Результатом прогноза, основанного на лесе решений, является то значение зависимой переменной, для которой соответствующее дерево дает наиболее вероятную оценку.

Market Basket Analysis (BA) - метод анализа потребительской корзины.

Название этого метода происходит от задачи определения вероятности, какие товары покупаются совместно. Однако реальная область его применения значительно шире. Например, продуктами можно считать страницы в Интернете, или те или иные характеристики клиента, или ответы респондентов в социологических и маркетинговых исследованиях и т.д. Алгоритм BA получает на вход бинарную матрицу, в которой строка - это одна корзина (кассовый чек, например), а столбцы заполнены логическими 0 и 1, обозначающими наличие или отсутствие данного признака (товара). На выходе формируются кластеры совместно встречаемых признаков с оценкой их вероятности и достоверности. Кроме этого, формируются ассоциативные направленные правила типа: если признак "А", то с такой-то вероятностью еще и признак "В" и еще признак "С". Алгоритм ВА в PolyAnalyst работает исключительно быстро и способен обрабатывать огромные массивы данных.

Transactional Basket Analysis (TB) - транзакционный анализ корзины.

Transactional Basket Analysis - это модификация алгоритма BA, применяемый для анализа очень больших данных, что не редкость для этого типа задач. Он предполагает, что каждая запись в базе данных соответствует одной транзакции, а не одной корзине (набору купленных за одну операцию товаров).

Text Analysis (ТА) - текстовый анализ.

Text Analysis представляет собой средство формализации неструктурированных текстовых полей в базах данных. Кроме того, этот метод может быть использован для лучшего понимания текстовой компоненты данных за счет автоматического выделения наиболее распространенных ключевых понятий.

Text Categorizer (TC) - каталогизатор текстов.

Этот модуль позволяет автоматически создать иерархический древовидный каталог имеющихся текстов и пометить каждый узел этой древовидной структуры наиболее индикативным для относящихся к нему текстов. Это нужно для понимания тематической структуры анализируемой совокупности текстовых полей и для эффективной навигации по ней.

Link Terms (LT) - связь понятий.

Этот модуль позволяет выявлять связи между понятиями, встречающимися в текстовых полях изучаемой базы данных, и представлять их в виде графа. Граф также может быть использован для выделения записей, реализующих выбранную связь.

Инструментальное средство Cognos 4Thought входит в состав семейства современных программных средств обработки, анализа и прогнозирования данных, разработанного компанией Cognos. В основу программного продукта Cognos 4Thought положена технология нейронных сетей. Использование нейронных сетей позволяет строить достаточно точные сложные нелинейные модели на основе неполной статистической выборки данных. Cognos 4Thought предназначен для моделирования и прогнозирования.

 Рис. № 1.25 Интерфейс программы Cognos 4Thought 4Thought поддерживает-75

Рис. № 1.25 Интерфейс программы Cognos 4Thought

4Thought поддерживает анализ на всех этапах:

Сбор данных.

Данные вводятся непосредственно или получаются из внешних источников, например, MS Excel. Данные могут быть взяты у других программных средств семейства Cognos ( Impromptu, ReportNet, PowerPlay и Scenario ) или прямо из хранилища. Введенные данные отображаются в 4Thought в виде электронных таблиц, что позволяет достаточно просто их просматривать и анализировать;

Преобразование данных.

Прежде чем попасть в модуль 4Thought, данные обычно очищаются в модуле Impromptu, который делает запросы к источникам данных (реляционным базам данных), позволяет накладывать фильтры на выборки данных (например, исключать строки, в которых значение показателя - целевой функции равно нулю, либо превращать одинаковые строки в одну строку, либо отсеивать строки если значение показателя является аномальным - выходит за пределы двух среднеквадратичных отклонений вверх и трех вниз, и т.п., правила очистки данных можно произвольно настраивать). Отчеты могут быть использованы в качестве входных данных для построения модели в 4Thought. В модуле 4Thought также есть возможность просматривать данные и исключать аномалии (задавая допустимые интервалы, в которых может изменяться значение показателя), а также заменить пустые значения показателей на конкретные значения. При этом создаются новые поля: коэффициенты, пропорции, процентные соотношения, дающие более полную картину проблемы.

Исследование данных.

Данные визуализируются для просмотра в виде электронных таблиц, графиков и диаграмм различного вида. Фактически, этот этап представляет собой предварительный просмотр данных перед построением модели в 4Thought (выявление аномалий, работа с дубликатами и пропусками).

Создание модели. 4Thought создает модель автоматически, но позволяет детальную интерактивную настройку параметров модели; пользователь контролирует ряд параметров, включая выбор факторов (например исключение несущественных факторов), отсеивание аномальных значений и т.д.

Интерпретация.

После загрузки данных в модель 4Thought создает ряд отчетов и дает возможность работы с разнообразными графиками. Таким образом модель просматривается, проверяется достоверность полученных результатов, выявляются взаимозависимости факторов.

Применение. Реализованная модель используется для прогнозирования и определения наиболее существенных факторов, задающих изменения ключевых показателей.

Система STATISTICA Data Miner (разработчик - компания StatSoft) спроектирована и реализована как универсальное и всестороннее средство анализа данных - от взаимодействия с различными базами данных до создания готовых отчетов, реализующее так называемый графически-ориентированный подход [2].

Рабочее пространство STATISTICA Data Miner состоит из четырех основных частей:

Data Acquisition - сбор данных. В данной части пользователь идентифицирует источник данных для анализа, будь то файл данных или запрос из базы данных.

Data Preparation, Cleaning, Transformation - подготовка, преобразования и очистка данных. Здесь данные преобразуются, фильтруются, группируются и т.д.

Data Analysis, Modeling,> - анализ данных, моделирование, классификация, прогнозирование. Здесь пользователь может при помощи браузера или готовых моделей задать необходимые виды анализа данных, таких как прогнозирование, классификация, моделирование и т.д.

Reports - результаты. В данной части пользователь может просмотреть, задать вид и настроить результаты анализа (например, рабочая книга, отчет или электронная таблица).

Средства анализа STATISTICA Data Miner можно разделить на пять основных классов:

General Slicer/Dicer and Drill-Down Explorer - разметка/разбиение и углубленный анализ. Набор процедур, позволяющий разбивать, группировать переменные, вычислять описательные статистики, строить исследовательские графики и т.д.

General>- классификация. STATISTICA Data Miner включает в себя полный пакет процедур классификации: обобщенные линейные модели, деревья классификации, регрессионные деревья, кластерный анализ и т.д.

General Modeler/Multivariate Explorer - обобщенные линейные, нелинейные и регрессионные модели. Данный элемент содержит линейные, нелинейные, обобщенные регрессионные модели и элементы анализа деревьев классификации.

General Forecaster - прогнозирование. Включает в себя модели АРПСС, сезонные модели АРПСС, экспоненциальное сглаживание, спектральный анализ Фурье, сезонная декомпозиция, прогнозирование при помощи нейронных сетей и т.д.

General Neural Networks Explorer - нейросетевой анализ. В данной части содержится наиболее полный пакет процедур нейросетевого анализа.

 Рис. № 1.26 Окно Statistica Data Miner Далее рассматривается программный-76

Рис. № 1.26 Окно Statistica Data Miner

Далее рассматривается программный продукт KXEN, разработанный одноименной компанией. Аббревиатура KXEN означает "Knowledge eXtraction Engines" - "движки" для извлечения знаний. KXEN имеет особый подход к анализу данных. В KXEN нет деревьев решений, нейронных сетей и других популярных техник. KXEN - это инструмент для моделирования, который позволяет говорить об эволюции Data Mining и реинжиниринге аналитического процесса в организации в целом.

KXEN охватывает четыре основных типа аналитических задач:

  1. Задачи регрессии/классификации (в т.ч. определение вкладов переменных);
  2. Задачи сегментации/кластеризации;
  3. Анализ временных рядов;
  4. Поиск ассоциативных правил (анализ потребительской корзины).

Построенная модель в результате становится механизмом анализа, т.е. частью бизнес-процесса организации. Главная идея здесь - на основе построенных моделей создать систему "сквозного" анализа происходящих процессов, позволяющую автоматически производить их оценку и строить прогнозы в режиме реального времени (по мере того, как те или иные операции фиксируются учетными системами организации) [2].

Особенность KXEN заключается в том, что заложенный в него математический аппарат (на основе Теории минимизации структурного риска Владимира Вапника) позволяет практически полностью автоматизировать процесс построения моделей и на порядок увеличить скорость проводимого анализа. Отличия традиционного процесса Data Mining и подхода KXEN приведены на рис. № 1.27.

 Рис. №1. 27 Особенности Data Mining процесса в KXEN KXEN Analytic Framework-77

Рис. №1. 27 Особенности Data Mining процесса в KXEN

KXEN Analytic Framework по своей сути не является монолитным приложением, а выполняет роль компонента, который встраивается в существующую программную среду. KXEN Analytic Framework представляет собой набор модулей для проведения описательного и предсказательного анализа. Учитывая специфику задач конкретной организации, конструируется оптимальный вариант программного обеспечения KXEN. Благодаря открытым программным интерфейсам, KXEN легко встраивается в существующие системы организации. Поэтому форма представления результатов анализа, с которой будут работать сотрудники на местах, может определяться пожеланиями Заказчика и особенностями его бизнес-процесса.

 Рис. № 1.28 Структура KXEN Analytic Framework Напоследок будет рассказано-78

Рис. № 1.28 Структура KXEN Analytic Framework

Напоследок будет рассказано об аналитической платформе Deductor, которая будет использоваться в процессе данной работы.

Deductor – разработка российской компании BasaGroup Labs. Deductor cостоит из пяти компонентов: аналитического приложения Deductor Studio,

многомерного хранилища данных Deductor Warehouse, средства тиражирования знаний Deductor Viewer, аналитического сервера Deductor Studio и клиента для доступа к серверу Deductor Client.

Deductor Warehouse – многомерное кросс-платформенное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить епротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.

Deductor Studio – это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других подключений, но наиболее оптимальным является их совместное использование.

Deductor Viewer – это облегченная версия Deductor Studio, предназначенная для отображения построенных в Deductor Studio отчетов. Она не включает в себя механизмов создания сценариев, но обладает полноценными возможностями по их выполнению и визуализации результатов. Deductor Viewer является средством тиражирования знаний для конечных пользователей, которым не требуется знать механику получения результатов или изменять способы их получения.

Deductor Server – сервер удаленной аналитической обработки. Он позволяет выполнять на сервере операции «прогона» данных через существующие сценарии и переобучение моделей. Deductor Server ориентирован на обработку больших объемов данных и работу в территориально распределенной системе.

Deductor Client – это клиент доступа в Deductor Server. Обеспечивает обмен данными и управление сервером [21].

Процесс анализа данных в Deductor придерживается методологии KDD и позволяет пройти все её этапы от выборки данных до тиражирования решения. Вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

  • импорт данных;
  • обработка данных;
  • визуализация;
  • экспорт данных.

На рисунке 1.28 изображена схема функционирования Deductor Studio.

 Рис. № 1.28 Схема Deductor Studio Deductor содержит следующие узлы анализа-79

Рис. № 1.28 Схема Deductor Studio

Deductor содержит следующие узлы анализа данных:

  • Узел Парциальная обработка
  • Узел Факторный анализ
  • Узел Корреляционный анализ
  • Узел Ассоциативные правила
  • Узел Нейросеть
  • Узел Дерево решений
  • Узел Карта Кохонена
  • Узел Линейная регрессия
  • Узел Логистическая регрессия
  • Узел Кластеризация
  • Узел Автокорреляция

Каждый узел осуществляет определенную обработку данных. Наиболее существенной особенностью механизмов обработки, реализованных в Deductor, является то, что полученные в результате их применения данные можно опять обрабатывать любым методом из доступных. Таким образом, есть возможность строить сколь угодно сложные сценарии.

 Рис. №1. 29 Направление обработки данных в Deductor 1.3. Анализ-80

Рис. №1. 29 Направление обработки данных в Deductor

1.3. Анализ диссертационных исследований в области интеллектуального анализа данных.

Вопросы, касающиеся методологии и использования интеллектуального анализа данных, консолидации данных, а так же систем поддержки принятия решений на предприятиях, освещаются в диссертационных работах по широкому ряду специальностей, что свидетельствует о междисциплинарном характере исследований в этой области. В аналитическом обзоре были изучены диссертационные работы, посвященные алгоритмам кластерного анализа, использованию методов интеллектуального анализа данных для поддержки принятия решений, а также информационным системам и технологиям хранения и передачи данных. Полные данные о диссертационных работах приведены в приложении П1.



Pages:     || 2 | 3 |
 




<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.