Pages: |

-- [ �� 1 ] --

��

�� -�� . �. �. ��

��

�� 

��

08.05.06 ��

��-��	_______________ (��)	(�� .�.)
�� -��. ��, �.�.�., ��	_______________ (��)	(�� . �.)
�� , ��	_______________ (��)	(�� . �.)
�� -��. ��, �.�.�., ��	_______________ (��)	(�� . �.)
��, �.�.�., �� .	_______________ (��)	(�� .�)

�� 2012

��

�� . 3

�� 4

�� 5

�� 1. �� ,�� . 8

1.1. �� . 8

1.1.1. �� . �� , �� . 8

1.1.2. �� Data Mining 10

1.1.3 �� 18

1.2 �� Data Mining. 31

1.2.1. �� Data Mining 31

1.2.2. �� Data Mining 38

1.3. �� . 53

1.4. �� . 60

1.4.1. �� . 60

1.4.2. �� . 65

�� 2. �� ʻ. 76

2.1. �� 76

2.2. �� . 83

2.3. �� . 95

�� 3. �� Deductor Studio. 99

3.1. �� 99

3.2. �� 110

3.3. �� 115

�� 117

��. 119

��  123

��. 126

�1. �� 126

�2. �� 128

�� 3. �� 129

�� .

OLAP - Online Analytical Processing - ��
CRISP-DM - The Cross Industrie Standard Process for Data Mining - �� Data Mining
SOM � Self Organized Map � ��
SQL - Structured Query Language � ��
KDD � Knowledge Discovery In Databases � ��
WMS � Warehouse Management System � ��
��
�� � ��
��

��

� �� , �� . � �� Data Mining, �� , �� , �� , �� .

��

� �� , �� , �� , �� . �� , �� , �� , �� Data Mining �� . �� .

�� . � �� :

�� Data Mining
��
��
��
�� Deductor Studio
��

� �� :

�� , �� ,
��
�� ,
�� Data Mining �� .

�� , �� , �� WMS-��, �� .

�� 1. �� ,�� .
1.1. �� .

�� . �� . � �� Data Mining, �� , �� , ��, �� , � �� .

1.1.1. �� . �� , �� .

�� , �� . �� -�� (Business Intelligence, BI), �� , �� , �� .

�� , �� , �� , �� , �� , � �� .

�� - ��, �� , ��, �� , �� , �� , �� (��) ��. �� , ��, ��, ��, ��, �� . �� "��" �� [1]. ��, �� , �� , �� . � �� , �� , �� .�., �� , �� . � �� .

�� -��; ��, �� , �� ; � �� - �� (��), �� [2]. �� :

��
��
��
��
��
��
��
��

�� .

�� , �� , �� . � �� , �� .

�� - �� , �� , � �� . �� , �� [5]:

��.
�� .
��. �� "�� ".
��.

�� . �� , �� . �� - �� . �� . �� , �.�. �� .

� �� , �� . �� , �� (��. � 1.1).

�� 1.1. �� . (��: ��-0

�� 1.1. �� .

(��: �� , http://www.basegroup.ru/library/methodology/ontology)

1.1.2. �� Data Mining

� �� (�� Data mining), �� , � �� , �� (��. � 1.2).

�� 1.2. �� Data mining (��: ��-1

�� 1.2. �� Data mining

(��: �� Basegroup.ru, http://www.basegroup.ru/glossary/definitions/data_mining/)

Data Mining - �� , �� (�� ), �� , ��, �� , �� . �� Data Mining �� : �� , �� , �� [2].

�� , �� , �� .

�� , �� Data mining:

�� (��, ��) � �� .
��, � �� . �� .
�� (��, ��) �� (��), �� . �� "��" �� , �� . �� , �� .
�� . �� , ��, �� X �� Y. �� .
�� , �.�. �� , �� X, �� Y.

�� , �� Data Mining �� :

�� ;
�� ;
��.

�� , � �� . �� , �� . �� , �� , �� . �� . �� . �� , �� , �� (��) � �� , �� . �� , �� , �� [6].

�� , �� , �� . �� , �� , � �� , � �� , ��, ��, �� . �� , �� , � �� . �� . �� .

�� Data Mining, � �� , �� . � �� (��) �� , �� , �� . �� , �� , ��, �� . �� (predictive) �� , �� , �� .

�� -�� , �� . �� .

1.1.2.1 �� 

�� - �� , �� , �� , �� . ��- �� , �� . �� , �� , �� , � �� . �� /�� .

�� (�� ) ��(�� ). �� . �� , �� , �� . �� (1930 �.), � �� . �� 1.3. �� (�� ) � �� .

�� 1.3. �� . -2

�� 1.3. �� .

(��: Data Mining. �� .�.)

�� . �� :

�� ;
�� (��)��;
�� ;
�� ;
�� , � ��, �� ;
�� ;
��CBR-��;
�� .

�� . �� , �� . �� , �� , � �� . �� N-�� , �� ,�� . � �� . �� (�� ) � �� (��, �� ) � �� . �� (��), �� (��. � 1.4). � �� [7].

�� 4. �� (��) � �� .(��:-3

�� 4. �� (��) � �� .
(��: �� . �� )

�� , �� (��. � 1.5).

�� 1.5. ��

1.1.2.2. �� 

�� . �� , �� (�� ), �� . �� , �� . �� .

�� , �� .�

�� , �� . �� , �� , �� , �� [8].

�� , ��, ��, �� . ��. � �� Data Mining �� , ��, ��, �� [1].

�� 1.6. �� (��: http://www.machinelearning.ru) -10

�� 1.6. ��

(��: http://www.machinelearning.ru)

1.1.2.3. �� 

�� (�� . affinity � ��, ��). �� , �� . �� , �� , �� . �� .

�� , �� . �� . �� , �� [8]. � �� , �� .

�� Apriori, �� .

1.1.3 �� 

�� Data Mining, �� . �� . �� , � �� . �� . � �� 1.7.

�� 1.7. �� [8] �� -13

�� 1.7. �� [8] �� -14

�� 1.7. �� [8]

�� . � 1.8

��. � 1.8 �� -15

��. � 1.8 �� -16

��. � 1.8 ��

�� . ��-��, �� . ��-��, �� , �� , �� . �-��, �� , �� , �� , �� [10].

� ��-�� , �� , �� , �� . �� :

�� .
�� , �� , �� .
��
�� .
�� .

1.1.3.1. ��, �� 

�� n-�� :

1. �� . �� [11].

(1.1)

�� - �� , - �� -�� , - �� -��

�� . �� .

2. �� . �� .

(1.2)
3. �� . �� . �� .

(1.3)

�� - ��

4. �� , �� , ��-�� . �� .

(1.4)

5. �� . �� .

(1.5)

1.1.3.2. �� 

�� . �� , �� , � �� .

�� . �� . �� (Agglomerative Nesting, AGNES) � �� (DIvisive ANAlysis, DIANA). � �� . �� . �� , �� . �� . � �� , �� , � �� . �� . � 1.9.

��. � 1.9. �� (��: Data-31

��. � 1.9. ��

(��: Data Mining. �� .�.)

�� CURE (Clustering Using REpresentatives), �� . CURE �� , �� .

� �� BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) � MST (Algorithm based on Minimum Spanning Trees).

�� . � �� , �� , �� . � �� , �� . �� . � �� : �� , �� , �� . �� [2].

�� k-means (k ��). �� 1950-� �� . �� , �� :

(1.6)

�� - �� , - �� , , - �� . �� , �� , �� , �� , �� . �� , �� -�� . �� , �� , � �� V ��, �� . �� . � 1.10.

1. 2. 3. 4.

�� 1.10 �� k-means

(��: �� 49l.ru - http://49l.ru/a/k-means_-_demonstratsiya_algoritma)

��
��
��
��

� �� k-means �� , � �� . � �� .

�� :

PAM (partitioning around medoids), �� k medoids (k ��), ��
G-means, �� , ��
CLOPE, �� .

�� , �� (�� ) ��, �� . �� , �� , ��, �� , �� . �� - �� , �� . �� k-�� (Fuzzy c-means - FCM) [12]. �� (��, J. C. Bezdek. Fuzzy Mathematics in Pattern>

�� :

�� - ��
�� - ��
��
��

�� , �� [10].

1.1.3.3. �� 

�� . �� . �� [8]. �� . � 1.11.

��. � 1.11. �� (��: �� .�. ��-51

��. � 1.11. ��

(��: �� .�. �� )

��, �� SOM �� , �� .

�� , �� , � �� (��. ��. � 1.12). �� - �� , �� . �� - �� , � �� (�� ) �� . �� (�� ) [2].

�� :

(1.7)

��. � 1.12 �� (��: Data Mining.-54

��. � 1.12 ��

(��: Data Mining. �� .�.)

�� .

(1.8)

�� (�� ) ��. �� :

1) �� , (1.9)

�� - �� ;

��. � 1.13. ��

2) ��

(1.10)

��. � 1.14. ��

3) �� .

�� . �� . �� , �� , �� , �� .

(1.11)

�� - ��, �� .

��. � 1.15 ��

�� -�� . �� . �� . � �� , � �� .

�� , �� .

�� . �� . �� (��. 1.16) [14]. �� .

��. � 1.16 ��

(��: �� Basegroup.ru)

�� . �� . �� , � �� . �� . �� . [1]

�� 0 �� 1, �� .

� �� :

�� , � ��, ��
�� -�� (�� )
�� . ��, �� -��, �� .

�� , �� . �� , � �� . �� -��, �� . �� , �� [14].

�� . �� . � 1.17 �� . �� . �� , �� [15]. �� : �� , �� , �� . (��. � 1.18).

��. � 1.17 ��

(��: �� - http://www.basegroup.ru/library/analysis/clusterization/som_mine/)

��. � 1.18 �� -66

��. � 1.18 ��

�� 3 �� .

1.2 �� Data Mining.
1.2.1. �� Data Mining

� �� Data Mining, �� . �� .

� �� Data Mining �� :

�� ;
�� ;
�� ;
�� ;
�� ;
�� ;
�� ;
�� .

� �� 1980-� �� -�� , �� KDD (Knowledge discovery in databases) �� . �� [4].

KDD �� , �� (��. � 1.19). � �� :

�� (OLTP-��, ��, �� , �� .�.) � �� .

�� (� �� ), �� .

�� , �� , �� , ��, ��, ��, �� .�.

�� . �� , �� , ��, �� , �� .

�� Data Mining: �� (�� , �� , �� .), �� , ��, ��, �� .�.

�� , �� -��.

19 �� KDD (��: �� -68

��. 1.19 �� KDD

(��: �� Basegroup. ru, http://www.basegroup.ru/glossary/definitions/data_mining/)

�� KDD, �� Data Mining �� CRISP-DM (The Cross Industrie Standard Process for Data Mining - �� Data Mining) ), �� , �� . � �� CRISP, Data Mining �� . Data Mining �� CRISP-DM �� [16], [17]:

1. �� (Business Understanding)

�� . �� .

�� -��
��
��
��

2. �� (Data Understanding)

�� . �� , �� .

��
��
��
��

3. �� (Data Preparation)

�� , �� . �� -�� . �� , �� , � �� .

��
��
��
��
��

4. �� (Modeling)

�� , �� . �� . �� , �� .

��
��
��

5. �� (Evaluation)

�� .

��
��
��

6. �� (Deployment)

� �� , �� , �� , �� -�� . �� .

��
��
��
��

��. � 1.20 �� Data mining �� CRISP-DM(��:-69

��. � 1.20 �� Data mining �� CRISP-DM
(��: CRISP-DM 1.0 Step-by-step data mining guide)

�� CRISP-DM Data Mining �� -��, � �� Data Mining �� . �� CRISP-DM, �� Data Mining, �� , �� Data Mining. �� CRISP-DM �� , �� , �� (�� ): ��, �� , �� .
�� Data Mining �� , �� . �� , �� (��) �� , �� Data Mining-��. �� , �.�. �� , �� . �� , �� Data Mining [2].

CRISP-DM �� , �� Data Mining. �� SAS � �� Business Intelligence �� SEMMA (�� Sample, Explore, Modify, Model and Assess). �� :

Sample � �� (�� )
Explore � ��
Modify � ��
Model � ��
Assess � ��

�� SEMMA ��, �� , �� . �� SEMMA �� , �� . �� , �� SEMMA �� , �� , �� , �� , �� [2].

��. � 1.21. �� Data Mining �� SEMMA (��: Data-70

��. � 1.21. �� Data Mining �� SEMMA

(��: Data Mining. �� .�.)

�� KDnuggets (��. � 1.21.), 42% �� CRISP-DM, 19% - �� , 13% - �� SEMMA, 7% - �� KDD, 5% - �� , 5% - �� , �� 4% ��. �� 5% �� [18].

�� 1.21. �� Data Mining(��: KDnuggets ) -71

�� 1.21. �� Data Mining
(��: KDnuggets )

�� , �� . �1.22 �� . �� , �� CRISP-DM �� Data Mining [19].

��. � 1.22. �� Data Mining(��: KDD, SEMMA and-72

��. � 1.22. �� Data Mining
(��: KDD, SEMMA and CRISP-DM: A Parallel Overview)

1.2.2. �� Data Mining

� �� Data Mining �� . �� , �� Business Intelligence �� , �� Oracle Data Mining, �� open-source �� Weka. � �� Data Mining � SAS Enterprise Miner, PolyAnalist, Cognos 4Thought, STATISTICA Data Miner, KXEN � Deductor.

�� SAS Enterprise Miner - �� SAS, �� , �� . �� , Enterprise Miner �� , �� Data Mining (SEMMA) � �� . �� SAS Enterprise Miner �� SAS Warehouse Administrator, �� , � �� SAS. �� Data Mining �� , �� -�� [2].

��. � 1.23 �� SAS Enterprise Miner �� SAS Enterprise Miner-73

��. � 1.23 �� SAS Enterprise Miner

�� SAS Enterprise Miner �� , �� , �� , �� , �� , �� , �� (memory based reasoning), �� , ��, ��, �� . �� Enterprise Miner �� , �� , �� . �� , �� , �� , �� . �� , �� [20].

�� PolyAnalyst �� . �� PolyAnalyst - �� Megaputer Intelligence. �� PolyAnalyst �� -�� . �� PolyAnalyst Workplace. �� - PolyAnalyst Knowledge Server. �� : �� .

��. �1.24 �� PolyAnalist �� PolyAnalyst 4.6 ��-74

��. �1.24 �� PolyAnalist

�� PolyAnalyst 4.6 �� 18 �� , �� Data � Text Mining [2]:

�� Find Laws (FL) - �� .

�� FL - �� . �� , �� . �� .

PolyNet Predictor (PN) - �� .

�� , �� . �� .

Stepwise Linear Regression (LR) - �� .

�� , �� , �� . ��, �� PolyAnalyst �� , � ��: �� .

Memory based Reasoning (MR) - �� "�� ".

� �� PolyAnalyst �� "�� ". �� MR �� , �� , � �� .

Find Dependencies (FD) - N-�� .

�� , �� , �� (��) �� , �� , �� . �� FD �� , � �� , � ��, � ��.

Find Clusters (FC) - N-�� .

�� . �� FC �� , �� . �� (�� ), �� , � �� , �� .

Classify (CL) - �� .

�� CL �� . � �� . �� 0 �� 1. �� , �� "1", �� , �� "0" ��. �� .

Discriminate (DS) � ��.

�� CL. �� , �� , �� , �� , �� , �� , �� . � �� CL, �� , �� , �� .

Decision Tree (DT) - �� .

� �� PolyAnalyst �� , �� (information gain). �� DT �� PolyAnalyst.

Decision Forest (DF) - �� .

� ��, �� , �� . � �� PolyAnalyst �� , �� (decision forest). �� - �� . �� , �� , �� , �� .

Market Basket Analysis (BA) - �� .

�� , �� . �� . ��, �� , �� , �� .�. �� BA �� , � �� - �� (�� , ��), � �� 0 � 1, �� (��). �� . �� , �� : �� "�", �� -�� "�" � �� "�". �� PolyAnalyst �� .

Transactional Basket Analysis (TB) - �� .

Transactional Basket Analysis - �� BA, �� , �� . �� , �� , � �� (�� ).

Text Analysis (��) - �� .

Text Analysis �� . �� , �� .

Text Categorizer (TC) - �� .

�� . �� .

Link Terms (LT) - �� .

�� , �� , � �� . �� , �� .

�� Cognos 4Thought �� , �� , �� Cognos. � �� Cognos 4Thought �� . �� . Cognos 4Thought �� .

��. � 1.25 �� Cognos 4Thought 4Thought ��-75

��. � 1.25 �� Cognos 4Thought

4Thought �� :

�� .

�� , ��, MS Excel. �� Cognos (�Impromptu, ReportNet,�PowerPlay��Scenario�) �� . �� 4Thought � �� , �� ;

�� .

�� 4Thought, �� Impromptu, �� (�� ), �� (��, �� , � �� - �� , �� , �� - �� , � �.�., �� ). �� 4Thought. � �� 4Thought �� (�� , � �� ), � �� . �� : ��, ��, �� , �� .

�� .

�� , �� . ��, �� 4Thought (�� , �� ).

�� . 4Thought �� , �� ; �� , �� (�� ), �� .�.

��.

�� 4Thought �� . �� , �� , �� .

��. �� , �� .

�� STATISTICA Data Miner (�� - �� StatSoft) �� - �� , �� -�� [2].

�� STATISTICA Data Miner �� :

Data Acquisition - �� . � �� , �� .

Data Preparation, Cleaning, Transformation - ��, �� . �� , ��, �� .�.

Data Analysis, Modeling,> - �� , ��, ��, ��. �� , �� , ��, �� .�.

Reports - ��. � �� , �� (��, �� , �� ).

�� STATISTICA Data Miner�� :

General Slicer/Dicer and Drill-Down Explorer - ��/�� . �� , �� , �� , �� , �� .�.

General>- ��.�STATISTICA Data Miner�� : �� , �� , �� , �� .�.

General Modeler/Multivariate Explorer - �� , �� . �� , ��, �� .

General Forecaster - ��. �� , �� , �� , �� , �� , �� .�.

General Neural Networks Explorer - �� . � �� .

��. � 1.26 �� Statistica Data Miner

�� KXEN, �� . �� KXEN �� "Knowledge eXtraction Engines" - "��" �� . KXEN �� . � KXEN �� , �� . KXEN - �� , �� Data Mining � �� .

KXEN�� :

�� /�� (� �.�. �� );

�� /��;

�� ;

�� (�� ).

�� , �.�. �� -�� . �� - �� "��" �� , �� (�� , �� ) [2].

�� KXEN �� , �� (�� ) �� . �� Data Mining � �� KXEN �� . � 1.27.

��. �1. 27 �� Data Mining �� KXEN

KXEN Analytic Framework �� , � �� , �� . KXEN Analytic Framework �� . �� , �� KXEN. �� , KXEN �� . �� , � �� , �� -��.

��. � 1.28 �� KXEN Analytic Framework

�� Deductor, �� .

Deductor � �� BasaGroup Labs. Deductor c�� : �� Deductor Studio,

�� Deductor Warehouse, �� Deductor Viewer, �� Deductor Studio � �� Deductor Client.

Deductor Warehouse � �� -�� , �� . �� , �� . Deductor Warehouse �� , �� .

Deductor Studio � �� , �� . �� , ��, �� . Deductor Studio �� , �� , �� .

Deductor Viewer � �� Deductor Studio, �� Deductor Studio ��. �� , �� . Deductor Viewer �� , �� .

Deductor Server � �� . �� . Deductor Server �� .

Deductor Client � �� Deductor Server. �� [21].

�� Deductor �� KDD � �� . �� Deductor Studio �� :

�� ;

�� ;

��;

�� .

�� 1.28 �� Deductor Studio.

��. � 1.28 �� Deductor Studio

Deductor �� :

��

��

��

��

��

��

��

��

��

��

��

�� . �� , �� Deductor, �� , �� . �� , �� .

��. �1. 29 �� Deductor
1.3. �� .

��, �� , �� , � �� , �� , �� . � �� , �� , �� , � �� . �� 1.

Pages: |
1
| 2 | 3 |

��  >> ��, �� 

��

<< �� | ��

���������� ������� ����������� ����������

��