Структуры информационного ресурса
На правах рукописи
Жукова Светлана Александровна
УДК 004.083 +519.71
МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ
СТРУКТУРЫ ИНФОРМАЦИОННОГО РЕСУРСА
Специальность
05.13.01– Системный анализ, управление и обработка
информации (в науке и технике)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Ижевск – 2008
Работа выполнена в ГОУ ВПО «Ижевский государственный технический университет».
Научный руководитель: Ефимов И.Н. доктор технических наук, профессор
Официальные оппоненты: Бельтюков А.П. доктор физико-математических наук, профессор
Удмуртский государственный университет, г. Ижевск
Шмидт И.А. кандидат технических наук, доцент
Пермский государственный технический университет, г. Пермь
Ведущая организация: ОАО Научно-исследовательский институт управляющих машин и систем, г. Пермь
Защита состоится « 26 » июня 2008 г. в 14-00 часов
на заседании диссертационного совета Д212.065.06 в ИжГТУ по адресу: 426069, г. Ижевск, ул. Студенческая, 7.
Отзыв на автореферат, заверенный гербовой печатью, просим выслать
по указанному адресу.
С диссертацией можно ознакомиться в библиотеке ИжГТУ.
Автореферат разослан «___» ________ 2008 г.
Ученый секретарь диссертационного совета,
к.т.н., доцент В.Н.Сяктерев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
По оценке аналитиков, архивы корпоративной информации удваивается каждые два года, причем 80% объема данных, хранимых в электронном виде, приходится на неструктурированную информацию. При существующей тенденции прогнозируется дальнейшее ускорение темпов роста, что ставит перед специалистами в области информационных технологий (ИТ) задачи обеспечения функционирования информационных систем (ИС) с заданными параметрами. В настоящее время активно ведутся работы по созданию единых информационных пространств, обеспечивающих тесное взаимодействие территориально распределенных подразделений посредством глобальных вычислительных сетей, что предполагает использование открытых информационных систем. В связи с этим к информационным системам предъявляются требования интероперабельности, масштабируемости, переносимости, производительности, надежности, интеграции с другими ИС. Проектирование и эксплуатация систем связанно с выбором состава технических устройств, средств связи, структуры и организации вычислительной сети, структуры и организации хранения информационного ресурса (ИР). Именно поэтому особый интерес в настоящее время приобретают методы, которые позволяют оценить параметры программно-аппаратного комплекса (ПАК), используемого для хранения ИР.
Фундаментальные положения теории информации и управления информационными процессами принадлежат Л. Бриллюену, Н.Винеру, А.Колмогорову, Дж.Пирсу, Р.Фишеру, К.Шеннону. В российской литературе различные аспекты информационных ресурсов, их производства и распространения нашли отражение в работах В.Тихомирова, А.Хорошилова, Д.Чернавского. В последние годы появились работы, в которых решаются вопросы эффективного использования ИР при совершенствовании деятельности организаций. Это работы А.М.Вендрова, Т.А.Гавриловой, А.М.Карминского, К.Г.Скрипкина, Г.А.Титоренко, С.В.Черемных и др.
Однако в известных работах решались, как правило, задачи, связанные с повышением эффективности поиска, передачи и анализа информации. Вместе с тем, в настоящее время актуальны вопросы, связанные с хранением ИР. Анализ практических разработок показывает, что предлагается широкий спектр программно-аппаратных комплексов хранения, поиска ИР. Но отсутствует методика формирования структуры ИР, что создает проблемы эффективности их применения.
Требуется комплексный анализ ИС по качественным и количественным характеристикам, ограничениям и целевым критериям с точки зрения оптимизации структуры ИР, что способствует увеличению эффективности функционирования информационных систем, снижению рисков в деятельности организации, снижению затрат на хранение ИР.
Цель работы
Обеспечение требуемого уровня функционирования информационных систем за счет оптимизации структуры хранения информационного ресурса и применения эффективных алгоритмов его обработки.
Основные задачи исследования
Для достижения поставленной цели в диссертационной работе решаются следующие задачи.
- Выбор и разработка методов исследования ИР, ИС и методов оценки входных параметров многоуровневой структуры ИР, используемой для определения оптимального состава ПАК его хранения.
- Моделирование многоуровневой структуры ИР, используемой для определения оптимальных параметров ПАК хранения.
- Разработка интеллектуального классификатора для классификации ИР по экономическим критериям с применением методов и алгоритмов нейронных сетей (НС).
- Анализ и совершенствование алгоритмов обучения нейронной сети, используемой для классификации ИР.
- Практическая реализация и внедрение предложенных решений в виде методических и программно-аппаратных средств для хранения ИР организации.
Объектом исследования являются информационные системы.
Предметом исследования являются математические модели описания ИР, методы классификации ИР, алгоритмы математического программирования.
На защиту выносятся:
- методика формирования структуры ИР;
- математическая модель структуры ИР;
- математическая модель классификатора ИР;
- результаты внедрения в формировании ИР организации.
Научная новизна диссертационной работы заключаются в следующем:
- разработана методика формирования структуры ИР, включающая методы и алгоритмы исследования ИР и оценки параметров его структуры;
- разработана математическая модель структуры ИР и определены оптимальные параметры программно-аппаратного комплекса хранения ИР для принятых технико-экономических критериев эффективности;
- разработан интеллектуальный классификатор для автоматической классификации ИР по экономическим критериям на основе алгоритмов нейронных сетей, включающий выбор совокупности признаков классов ИР, методов их обработки, выбора оптимальной архитектуры НС и алгоритмов обучения.
Апробация работы
Основные научные результаты, полученные в диссертационной работе, докладывались и обсуждались: на всероссийской научно-практической конференции «Современные инновационные технологии и оборудование» (г.Тула, 2006г.), на региональных научно-практических конференциях «Социально-экономические проблемы развития региона» (г.Чайковский, 2001г., 2005г.,2006г.), на Всероссийской научно-технической конференции «Информационные системы и модели в научных исследованиях, промышленности и экологии» (г.Тула, 2007г.), на Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (г.Новосибирск, 2007), на Всероссийских конференциях молодых ученых «Применение теории динамических систем в приоритетных направлениях науки и техники» ( г.Ижевск, 2006г., 2007г.).
Публикации
Результаты работы отражены в 11 научных публикациях, из них 3 статьи в научных журналах, рекомендованных ВАК для публикации.
Структура и объем работы
Диссертация состоит из введения, четырех глав, основных выводов и результатов работы, списка литературы, приложений. Объем диссертации составляет 142 страницы машинописного текста, включая 27 рисунков и 26 таблиц. Список литературы составляет 118 наименований.
Достоверность и обоснованность
Математические модели, алгоритмы и прикладные программы, используемые в работе, основаны на положениях теории графов, методах математического моделирования, методах оптимизации, алгоритмах нейронных сетей, теории кодирования и математической статистики, эволюционного и математического программирования.
Практическая ценность работы
Работа выполнялась в рамках федеральной целевой программы «Исследование и разработка по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012годы» (государственный контракт № 02.514.11.4043) по теме «Технология построения открытых виртуальных исследовательских пространств» шифр «2007-4-1.4-15-03-123».
Результаты работы использованы в Чайковском технологическом институте путем внедрения методических рекомендаций и технических мероприятий по организации и обеспечению требуемого уровня функционирования информационных систем.
Полученная методика формирования структуры ИР может быть использована предприятиями и организациями, использующие в своей деятельности ИС: СППР, ИПС, ГИС, САПР, СЭДО, GRID-системы и т.п., для которых характерны накопление и хранение ИР большого объема, с целью обеспечения их эффективного функционирования.
Основные результаты, полученные в ходе работы над диссертацией, используются в учебном процессе Чайковского технологического института при изучении студентами специальности 23.01.02 “Автоматизированные системы обработки информации и управления” дисциплины “Проектирование АСОИУ”.
СОДЕРЖАНИЕ РАБОТЫ
Введение содержит обоснование актуальности темы, формулировку цели и задачи исследования, основные положения, выносимые на защиту, определяет практическую значимость, содержание и методы выполнения работы.
В первой главе приведены основные характеристики ИC. Рассмотрены параметры требуемого уровня функционирования ИС различного назначения. Дан обзор существующих методов и алгоритмов, а также программно-аппаратных комплексов обработки, поиска и хранения ИР.
Вторая глава. Рассматривается методика системного анализа ИР. Приведен алгоритм разработки структуры ИР, определение параметров ИР. Формулируется задача оптимизации структуры ИР по техническим параметрам. Представлены алгоритмы и методы решения.
Требуемый уровень функционирования ИС связан с обеспечением параметров, значения которых задаются в соответствии со спецификой деятельности организации и особенностями используемых ИС в данной деятельности (таблица 1).
Таблица 1. Параметры, характеризующие требуемый уровень функционирования ИС
Обозначение | Комментарий |
kv | увеличение объемов обрабатываемой информации, (% прироста в ед. времени) |
kz | увеличение числа пользователей (% прироста) |
t | среднее время ожидания пользователя (время реакции, мс) |
vкр | критическая масса информации, которая может быть потеряна при сбоях системы без нарушения деятельности (% от общего объема за ед.времени) |
Обеспечение требуемых параметров функционирования ИС зависит от технических характеристик программно-аппаратного комплекса (ПАК), используемого для хранения ИР.
Размещение информации должно осуществляться с одной стороны на тех носителях, характеристики которых удовлетворяют заданным параметрам ИР. С другой стороны, необходимо снижение затрат на его хранение. Добиться оптимального распределения ресурсов хранения при снижении затрат на хранение и сопровождение информации можно, формируя ИР в виде многоуровневой блочной структуры.
С этой целью необходимо классифицировать информацию, формируемую в ходе деятельности организации, по степени ее значимости и применять инструменты управления размещением данных на устройствах хранения в соответствии с этой классификацией.
Допустимые финансовые издержки позволяют классифицировать информацию на следующие классы: критическая, важная, неважная.
Информация в период своего существования проходит следующие стадии: создание, обработка, хранение, архивирование, удаление. За это время меняется ее актуальность и востребованность, соответственно изменяется принадлежность к одному из перечисленных классов.
Деятельность организации рассматривается как множество информационных процессов Ai, i = 1..m, в ходе которых используется ИР.
Для расчета входных параметров структуры ИР предлагается функционально-ориентированный подход (рисунок 1), который выполняется в следующие этапы:
- сбор статистики использования ИР i-м процессом (этап 1):
vi – суммарный объем, Мб;
ki – число пользователей;
zi – число операций ввода-вывода за ед.времени;
vzi – объем информации, передаваемой за одну операцию ввода-вывода, Мбит;
- определение состава ИР для i-го процесса по критерию допустимые финансовые издержки (этап 2) и соответствующих каждому классу параметров:
n ij - период изменения ценности ИР для i-го процесса и j-го класса ИР;
m i – период существования ИР, используемого i-м –процессом;
Рисунок 1. Этапы определения входных параметров структуры ИР
-обработка сведений (этап 3) с использованием методов математической статистики, позволяющие определить прогнозные значения параметров ИР на будущий период: объем, число операций ввода-вывода, число пользователей;
-формирование ИР в виде многоуровневой структуры (этап 4). Число и содержание уровней определяется на основании сведений, полученных на этапе 1 и 2, а также на основании требований к ИС. Для каждого уровня задается множество процессов E и соответствующих им ИР, размещаемых на p-м уровне.
Ep={Ak, vkj (k=1,q)}, (1)
где q – число процессов.
Расчет значений параметров (этап 5) для каждого уровня вычисляется по формулам (2) – (4), которые являются исходными данными для проектирования оптимальной структуры хранения ИР.
Введем следующие обозначения, характеризующие технические параметры:
P – общее количество уровней ИР;
Vp - суммарный объем ресурса для p-го уровня, Мб;
Psp - пропускная способность для p-го уровня, Мбит/сек;
Zp - число операций ввода-вывода для p-го уровня;
t - время доступа, сек;
kraid – коэффициент использования дополнительного пространства RAID массивом.
Суммарный объем ресурса для p-го уровня вычисляется по формуле:
. (2)
Пропускная способность для p-го уровня вычисляется по формуле:
. (3)
Число операций ввода-вывода для p-го уровня вычисляется по формуле:
. (4)
Данные параметры используются для проектирования оптимальной структуры ИР, выбора аппаратных ресурсов, их настройка, конфигурирование, оценки затрат.
Разработку плана структуры ИР рассмотрим как задачу, заключающуюся в оптимизации параметров многоуровневой среды хранения ИР с заданными локальными характеристиками каждого уровня и в то же время объединенными совокупностью ограничений на всю среду хранения. Оптимальным планом является номенклатура дисковых массивов и количество внешних запоминающих устройств (ВЗУ), составляющих дисковый массив, при минимальной суммарной стоимости хранения. В такой постановке мы приходим к задаче математического программирования с блочной (многоуровневой) структурой.
С учетом вышесказанного дадим формализованное описание задачи. Пусть имеем P-уровней и mp, p=1..P параметров, характеризующих ресурс, наличие каждого i-го параметра составляет наименьшее bpi и наибольшее Bpi, i=1… mp, значения в соответствующих единицах измерений. Эти параметры предназначены для формирования np типов дисковых массивов. Каждая единица j-го типа дискового массива содержит aij единиц i-го параметра ресурса. Требуется определить, какие типы дисковых массивов и какое количество дисков необходимо для формирования многоуровневой среды хранения с наилучшими показателями для принятого критерия оптимальности – стоимости F.
Обозначим через xpj – количество единиц j-го типа дисковых массивов на p-м уровне, тогда математическую постановку задачи можно записать в виде:
(5)
при ограничениях
, i=1..m0; (6)
i=1..m0; (7)
; (8)
, i=1..mp, p=1..P; (9)
, i=1..mp, p=1..P ; (10)
, j=1..np, p=1..P, (11)
где P – общее количество локальных блоков,
m0 - число ограничений в блоке-связке,
np - число переменных в p – м локальном блоке,
mp - число ограничений в p-м локальном блоке,
vpj – объем диска j–типа в p-м локальном блоке,
cpj – стоимость хранения информации на диске j–типа в p-м локальном блоке,
b0 – общее количество дисков хранения ИР,
bpi – наименьшее значение параметра ИР,
Bpi – наибольшее значение параметра ИР,
- множество целых, положительных чисел.
Условия (6), (7), (8) описывают блок-связку, (9), (10) – отдельные блоки (уровни), (11) – условие целочисленного значения переменной xpj.
Критическая информация актуальна для организаций и должна располагаться на высокопроизводительном дисковом массиве (High HDD). Важная информация располагается на дисках средней производительности (Middle HDD). Архивные данные, длительно невостребованные, располагаются на менее производительных носителях (Low HDD). Соответственно, для хранения данных классов информации необходима 3-хуровневая структура хранения.
Рассмотрим параметры математической модели для 3-хуровневой структуры ИР (таблица 2). Значения параметров bi и Bi определяются по формулам (2)-(4) и задаются для каждого уровня (блока) индивидуально. Значения aij определяются техническими характеристиками дисковых устройств ведущих производителей.
Таблица 2. Исходные данные оптимизации трехуровневой структуры
Наименование параметра ресурса | Обозна- чение | Тип ВЗУ первого уровня | Тип ВЗУ второго уровня | Тип ВЗУ третьего уровня | Ограничения минимальные | Ограничения максимальные | |||||
x11 | x12 | x13 | x21 | x22 | x31 | x32 | x33 | ||||
Объем ВЗУ, Гб/ед. | V | 160 | 146 | 73 | 900 | 2 000 | |||||
Пропускная способность на единицу, Мб\с ед. | Ps | 150 | 120 | 150 | 813 | 2 000 | |||||
Количество ВЗУ, ед. минимал. | X min | 2 | |||||||||
Объем ВЗУ Гб/ед. | V | 147 | 120 | 1 400 | 2 380 | ||||||
Пропускная способность на единицу, Мб\с. ед. | Ps | 113 | 113 | 390 | 1 200 | ||||||
Количество ВЗУ, ед. минимал. | X min | 2 | |||||||||
Объем ВЗУ Гб/ед. | V | 250 | 400 | 160 | 1 000 | 2 000 | |||||
Пропускная способность на единицу, Мб\с. ед. | Ps | 105 | 105 | 113 | 313 | 500 | |||||
Количество ВЗУ, ед. минимал. | X min | 1 | |||||||||
Затраты на хранение, руб\ Гб | C | 130р. | 123р. | 79р. | 54р. | 38р. | 9р. | 11р. | 11р. |
Результаты расчетов задачи (5)-(11) при следующих значениях параметров модели: P=3, m0=2, m1=2, m2=2, m3=2, n1=3, n2=2, n3=3, b0=24 приведены в таблице 3. Решение задачи выполнялось с использованием метода сопряженных градиентов.
Таблица 3. Оптимизация стоимости хранения
Тип ВЗУ | |||||||
первого уровня | второго уровня | третьего уровня | |||||
x11 | x12 | x13 | x21 | x22 | x31 | x32 | x33 |
4 | 0 | 4 | |||||
0 | 12 | ||||||
4 | 0 | 0 | |||||
Оптимальная стоимость хранения F =169,00 тыс.руб. |
Наряду с задачей (5)-(11), рассмотрена задача, заключающаяся в оптимизации количества неиспользованного ресурса i-го параметра на каждом p-м уровне ypj при заданной стоимости F*=150 тыс. руб. Обозначив через Ypj каждый соответствующий локальный критерий, приходим к задаче многокритериальной оптимизации. Процесс решения в этом случае неизбежно связан с экспертными оценками как самих критериев, так и взаимоотношения между ними. В таблице 4 приведены результаты расчетов.
Таблица 4. Оптимизация запаса ресурса
Тип ВЗУ | Запасы ресурсов | ||||||||||||
первого уровня | второго уровня | третьего уровня | первого уровня | второго уровня | третьего уровня | ||||||||
x11 | x12 | x13 | x21 | x22 | x31 | x32 | x33 | Y11 | Y12 | Y21 | Y22 | Y31 | Y32 |
0 | 0 | 13 | 49 | 1150 | |||||||||
0 | 12 | 40 | 966 | ||||||||||
9 | 0 | 0 | 1250 | 632 |
Как показывают расчеты, введение многоуровневой структуры хранения ИР эффективно при достижении объемов несколько сотен гигабайт. В этом случае, администраторы данных должны иметь возможность прогнозировать рост объемов с учетом изменяющихся требований, своевременно планировать затраты на оснащении аппаратными средствами.
Приведенная модель позволяет осуществлять прогноз и планирование затрат. Вместе с тем, решается задача оптимального использования аппаратных ресурсов.
В третье главе рассмотрен процесс разработки интеллектуального классификатора, построенного на базе нейронной сети (НС). Описывается и обосновывается структура нейронной сети для классификации ИР, алгоритм ее обучения. Под классификацией ИР понимается отнесение объекта к одному из заранее известных классов: критическая, важная, неважная.
Классификация ИР осуществляется с использованием программного комплекса и включает следующие этапы обработки информации (рисунок 2).
Первый и второй этапы формируют метаданные ИР, т.е. данные об ИР, которые формируются частично пользователем, частично программой.
Для осуществления классификации выделены признаки, характеризующие группу, к которой принадлежит ИР:
x1 – объем;
x2 - интенсивность использования;
x3 - кем создается;
x4 - интенсивность изменения;
x5 - дата создания;
x6 - наименование подразделения;
x7 - тип ресурса;
x8 - дата изменения;
x9 - наименование программы.
Третий этап, предварительная обработка входных данных, является наиболее трудоемким этапом классификации и включает:
- кодирование, т.к. используемый алгоритм классификации работает только с числовой информацией, тогда как признаки x3, x6, x7, x9 принимают значения из дискретного набора. В этом случае предлагается использовать двоичный тип кодирования n n, n – число категорий;
- нормирование, т.е. приведение к единому масштабу числовой переменной на диапазон разброса ее значений. Для нормирования предлагается использовать статистические характеристики среднее и дисперсия, т.к. признаки x1, x2 x4, x5 имеют большой разброс значений;
- понижение размерности, т.е. отбор наиболее информативных признаков. В ходе экспериментов выявлены признаки, наиболее влияющие на точность работы классификатора: x3, x6, x7, x2, x5.
Четвертый этап выполняет классификацию ИР на основании входного вектора X={x3, x6, x7, x2, x5} к одному из заданного множества классов Y: критическая, важная, неважная.
Этапы 3 - 4 выполняются автоматически с использованием интеллектуального классификатора. Разработка интеллектуального классификатора включает формирование обучающего множества, выбор оптимальной архитектуры НС и алгоритма ее обучения.
Для построения классификатора используется многослойный персептрон, а точнее его двухслойная реализация (рисунок 3).
Рисунок 3. Архитектура нейронной сети – классификатор ИР
На вход нейронной сети подается p-мерный вектор метаданных X={xi, i=1,2,…p}. Оптимальное количество нейронов на скрытом слое H подбирается экспериментально.
В выходном слое число нейронов совпадает с числом классов M, т.к. предлагается для каждого класса определить свой нейрон. Между входным и скрытым слоями, а также между скрытым и выходным слоями используется полносвязная структура.
С учетом этих дополнений опишем принятые на рисунке 3 обозначения:
p – размерность исходных данных (количество метаданных, используемых для классификации);
H – число нейронов на скрытом слое;
xi – компонента входного вектора признаков, i = 1,…,p;
x0 = 1 – постоянное воздействие, используемое для работы нейронной сети;
wji – весовые коэффициенты между входным и скрытым слоями, i=0,1,…,p; j = 1,…,H;
vjk - весовые коэффициенты между скрытым и выходным слоями, j = 0,1,…,H k=1…m;
zj– значение выхода j-го нейрона скрытого слоя; z0 = 1, j = 1,…,H;
yk – значение выхода k-го нейрона сети, k=1… m.
Значения выходов zj и yk определяются по формулам (10), (11).
(10)
. (11)
В качестве функции активации f1(x) для нейронов скрытого слоя и f2(x) для нейронов на выходе сети используем сигмоидную функцию, обозначив ее как f(x):
. (12)
Функционирование нейронной сети зависит от величин, характеризующих связи, поэтому, задавшись архитектурой нейронной сети, необходимо найти оптимальные значения всех переменных коэффициентов w.
Оценка качества работы нейронной сети определяется величиной функции вычисления ошибки Е, как среднеквадратичное отклонение текущих выходов от требуемых для каждой обучающей пары из заданной выборки обучающего множества S: {X,Y}.
Процесс обучения рассматривается как задача многомерной оптимизации, которая состоит в поиске оптимальных значений весовых коэффициентов w:
, (13)
где y-текущее значение k-нейрона для s–обучающей пары;
d- требуемое значение k-нейрона для s – обучающей пары.
В случае определения ошибки для всего множества обучающих пар величина Е вычисляется по формуле:
, (14)
где N- мощность обучающей выборки.
Тогда обучение нейронной сети сводится к нахождению весовых коэффициентов w, которые давали минимальное значение целевой функции E для всей обучающей выборки:
.(15)
Поиск минимума функции осуществляется с использованием следующих алгоритмов: метода обратного распространения ошибки, метода сопряженных градиентов, генетического алгоритма. В таблице 5 приведены результаты обучения при следующих параметрах модели НС p=5, H=8, m= 3, N=63.
Наилучшим образом задачу обучения решают генетический алгоритм и метод сопряженных градиентов. Для улучшения работы генетического алгоритма в процессе экспериментов подобраны параметры, при которых достигаются приемлемые параметры скорости сходимости и качества решения.
Проведенные исследования подтвердили эффективность применения нейронных сетей для классификации ИР. При определенных настройках НС можно добиться результатов, когда вероятность правильного распознавания составляет 97%. Ошибки возникают только на 2 векторах из 63.
Таблица 5. Показатели алгоритмов обучения нейронной сети
Показатели | Генетический алгоритм | Алгоритм обратного распространения ошибки | Метод сопряженных градиентов |
t, время сходимости, с | 18 | 12 | 20 |
En, средняя суммарная квадратичная ошибка | 0,005121 | 0,010913 | 0,134201 |
Emin,максимальная суммарная квадратичная ошибка | 0,036629 | 0,236629 | 0,199979 |
K, количество итераций | 39000 | 4425 | 18833 |
Качество работы, % правильных ответов | 97% | 94% | 98% |
Использование интеллектуального классификатора позволит значительно снизить временные затраты, связанные с обслуживанием ИР, снизить потери, связанные с человеческим фактором.
В четвертой главе с использованием полученных моделей, методик и алгоритмов:
1.Проведена оптимизация структуры информационного ресурса на примере образовательного учреждения.
2. Получена прогнозная оценка роста объема ИР и определены параметры оптимальной структуры ИР с учетом изменений объемов ИР.
3.Получена оценка эффективности предлагаемых решений оптимизации структуры ИР.
Оптимизация ИР включает комплекс организационных и аппаратно-программных решений, направленных на обеспечение требуемого уровня функционирования ИС. В этой связи разработан ряд организационных мер, направленных на управление ИР, что повысит эффективность его использования.
Разработаны методические рекомендации, регламентирующие процесс формирования и хранения ИР.
Разработана модель защиты, включающая перечень групп пользователей и соответствующе им права доступа.
Оценка эффективности предлагаемых решений по оптимизации структуры ИР выполнена с учетом затрат, которые несет организация на протяжении существования ИР.
Определение затрат по использованию ИР проведено на основании совокупной стоимости владения (ССВ) информационными ресурсами. Для оценки ССВ используется модель, которая отражает полный перечень статей затрат, связанных с внедрением и обслуживанием ИС в течение срока функционирования.
, (16)
где сk- издержки на k-ую статью затрат ИС.
В условиях роста объемов ИР и увеличения числа информационных процессов, увеличиваются затраты, связанные с администрированием и человеческим фактором, удельный вес которых составляет 42%.
Проведенный анализ информационных систем и соответствующих информационных ресурсов позволил выявить динамику роста и динамику изменения ценности ИР (рисунок 4). За последние 3 года ИР увеличился в 3,5 раза, из них на неструктурированную информацию приходится 58%. Вместе с тем, анализ ИР показал, что 30% информации не используется более 12 месяцев.
Рисунок 4. Динамика роста объемов ИР
Проведенные расчеты ССВ хранения ИР до оптимизации и после оптимизации его структуры на период с 2008 по 2011гг. показали следующие результаты (таблица 6).
Таблица 6. Показатели эффективности использования оптимальной структуры ИР
№ статьи | Наименование статьи | % затрат | Стоимость, тыс.руб. | |
до оптимизации | после оптимизации | |||
1 | Программно-аппаратное обеспечение | 0,25 | 1 560,00 | 1 252,00 |
2 | Администрирование | 0,21 | 1 310,40 | 420,67 |
3 | Поддержка | 0,16 | 998,40 | 801,28 |
4 | Разработка | 0,06 | 374,40 | 300,48 |
5 | Коммуникации | 0,04 | 249,60 | 200,32 |
6 | Человеческий фактор | 0,21 | 1 310,40 | 736,18 |
7 | Простои | 0,07 | 436,80 | 350,56 |
ССВ | 1 | 6 240,00 | 5 008,00 | |
ССВ период 2008-2011гг | 24 960,00 | 15 299,44 | ||
Эффективность | 1,00 | 0,61 |
Анализ затрат и оценка эффективности оптимизации структуры ИР, относящихся к разработке, внедрению и функционированию ИС, произведен на основе данных отдела информационных технологий образовательного учреждения и сведений о стоимости оборудования ведущего производителя систем хранения данных.
Таким образом, использование оптимизации структуры ИР позволит снизить текущие затраты, связанные с его обслуживанием, а также единовременные затраты на аппаратные ресурсы.
Основные выводы и результаты работы
- Определены параметры, необходимые для достижения требуемого уровня функционирования информационных систем, структуры информационного ресурса, и состава программно-аппаратного комплекса его хранения.
- Разработана методика формирования оптимальной структуры информационного ресурса с учетом требуемого уровня функционирования ИС.
- Разработана математическая модель нахождения оптимального состава программно-аппаратного комплекса для хранения с применением методов блочного линейного программирования.
- Разработана математическая модель интеллектуального классификатора ИР с использованием методов и алгоритмов нейронных сетей.
- Проведен анализ и выбор алгоритмов обучения, которые определяют настроечные параметры интеллектуального классификатора.
- Результаты работы применены в создании оптимальной структуры информационного ресурса организации.
- Разработаны методические указания и нормативные документы, регламентирующие процессы управления информационным ресурсом, проведены организационные мероприятия.
- Получена оценка эффективности оптимизации структуры ИР:
- использование оптимальной структуры ИР позволяет сократить расходы по статьям, связанные с его обслуживанием: администрирование, разработку и поддержку в среднем на 40%;
- введение многоуровневого хранилища информации позволит сократить расходы по статье «программно-аппаратное обеспечение» в среднем на 20%;
- применение интеллектуального классификатора снижает вероятность ошибок, связанных с человеческим фактором, что позволит сократить в среднем на 30%;
- совокупная стоимость владения единицей информации (1 Гб) сократится в среднем на 35%.
- НАУЧНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
- Жукова С.А. Современный бухучет и проблемы его автоматизации //Сб. трудов регион. научно-практ. конференции Социально-экономические проблемы развития региона. - Чайковский, 2001г.
- Жукова С.А. Оптимизация структуры системы с учетом затрат на обмен информацией методом генетического алгоритма //Материалы сборника докладов региональной научно-практической конференции. - г.Чайковский, 2005г.
- Козлова С.Ж., Жукова С.А. Создание единого информационного пространства //Сб. докладов регион. научно-практ. конференции Социально-экономические проблемы развития региона. - г.Чайковский, 2006г.
- Жукова С.А. Новые информационные технологии в управлении образовательными ресурсами //Доклады Всероссийской научно-технической конференции Современные инновационные технологии и оборудование. - г.Тула, 2006г.
- Ефимов И.Н., Жукова С.А. Интеллектуальный классификатор неструктурированных данных на основе нейронных сетей //Естественные и технические науки. - Москва.: Изд-во Компания Спутник, 2007.-№2.-С.195.
- Жукова С.А. Управление жизненным циклом информационного ресурса //Материалы Всероссийской конференции Применение теории динамических систем в приоритетных направлениях науки и техники. - г.Чайковский 2007г.
- Ефимов И.Н., Жукова С.А. Оптимизация среды хранения информационного ресурса //Вестник ИжГТУ.- Ижевск: Изд-во ИжГТУ, 2007.-№3. - С.34.
- Жукова С.А. Классификация неструктурированных данных// Доклады Всероссийской научно-технической конференции Информационные системы и модели в научных исследованиях, промышленности и экологии.- г.Тула, 2007г.
- Жукова С.А. Математические модели оптимизации среды хранения информационного ресурса //Доклады VIII Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям, г.Новосибирск, 2007г.
- Ефимов И.Н., Жукова С.А. Оптимизация хранения корпоративных ресурсов //Программные продукты.- Тверь: Изд-во, 2007.-№4. - С.36.
- Ефимов И.Н., Жевнерчук Д.В., Николаев А.В., Жукова С.А. Технология построения открытых виртуальных исследовательских пространств (ОВИП). Этап 1: «Выбор направления исследований»// Отчет №1 о научно-исследовательской работе (промежуточный), № государственной регистрации 01.2.007 07525.