WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Pages:     || 2 |
-- [ Страница 1 ] --

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

имени М.В.ЛОМОНОСОВА

НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ЯДЕРНОЙ ФИЗИКИ

имени Д.В.СКОБЕЛЬЦЫНА

УДК  004.75+004.722

№ госрегистрации

Инв. № 105834/07

УТВЕРЖДАЮ

Директор НИИЯФ МГУ

профессор

______________ М.И. Панасюк

«____» __________ 2007 г.

ОТЧЕТ № 2

О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ

«Развитие, исследование и внедрение средств высокопроизводительных вычислений на основе технологий Грид с поддержкой гетерогенных, территориально-распределенных вычислительных комплексов»

(промежуточный)

Руководитель работы

д.ф.-м.н. ________________________________ В.А. Ильин

подпись, дата

Москва 2007

СПИСОК ИСПОЛНИТЕЛЕЙ

Руководитель работ, д-р физико-математических наук _________________
подпись, дата
В.А.Ильин (заключение)
Исполнители _________________
подпись, дата
А.П.Крюков (введение, реферат)
_________________
подпись, дата
А.П.Демичев (основная часть)


Реферат

Отчет 41 стр.

Ключевые слова: распределенные вычисления, грид, грид-сервис, суперкомпьютеры, СКИФ.

Объектом исследования являются грид-инфраструктура EGEE/РДИГ и суперкомпьютеры СКИФ в качестве ресурсного узла.

Цель данного этапа НИР – выбор направлений исследований по организации взаимодействия грид-инфраструктуры EGEE/РДИГ с суперкомпьютерами СКИФ.

В ходе выполнения работ данного этапа проведены теоретические исследования поставленных задач.

В результате проведенных работ определены направления исследований по организации грид-инфраструктуры СКИФ-ГРИД.

.

СОДЕРЖАНИЕ:

1 ВВЕДЕНИЕ 5

2 Исследования, выполненные на 2 этапе НИР 6

2.1 Разработка архитектуры и программных средств для обеспечения взаимодействия грид-инфраструктуры РДИГ/EGEE и создаваемой системы суперкомпьютерных центров СКИФ 6

2.2 Разработка грид-сервисов по сбору и передаче информации и создание на их основе системы мониторинга распределенных программно-аппаратных комплексов для вычислений и хранения данных в глобальной системе Грид. 11

2.3 Дистрибутив Линукс для кластеров 14

2.4 Оптимизация суперкомпьютерных конфигураций СКИФ для повышения производительности грид-приложений 15

2.5 Разработка и внедрение в промышленность параллельных программных систем для инженерного и естественнонаучного анализа на базе суперкомпьютеров семейства «СКИФ» и грид-технологий 17

2.6 Web-ориентированный вычислительный комплекс для решения трехмерных векторных задач дифракции электромагнитных волн на основе субиерархических параллельных алгоритмов и GRID технологий 19

2.7 Создание средств хранения информации в территориально-распределенных средах 21

2.8 Создание системы автоматизации разработки программ (DVM-СКИФ) для суперкомпьютеров «СКИФ» нового поколения 23

2.9 Разработка комплекса грид-сервисов для высокопроизводительной массовой обработки медико-биологических данных 28

2.10 Суперкомпьютерная разработка лекарств 31

2.11 Развитие прикладных программных интерфейсов для запуска в распределённой вычислительной среде однопроцессорных и параллельных приложений в области вычислительной химии 35

2.12 Создание грид-сервиса для решения прикладных вычислительно сложных задач фармацевтики и биотехнологии 37

2.13 Разработка и реализация грид-сервиса для высокопроизводительных расчётов гибридными методами квантовой-молекулярной механики в интересах моделирования нано и био систем 38

2.14 Создание параллельной версии программного комплекса для дизайна супрамолекулярных комплексов органических соединений 40

3 ЗАКЛЮЧЕНИЕ 41

  1. 1 ВВЕДЕНИЕ

Основными задачами второго этапа научно-исследовательских работ по государственному контракту от 16 июля 2007 г. № СГ-2/07 являлись:

- Разработка рабочих вариантов архитектуры сопряжения РДИГ и СКИФ.

- Взаимная адаптация информационных систем СКИФ.

- Проведение необходимых расчетов и математического моделирования.

- Разработка спецификаций дополнительных компонент системы распределения и загрузки заданий, обеспечивающих учет СКИФ-ресурсов при запуске заданий из РДИГ.

- Составление промежуточного отчета.

Ниже приведен перечень аннотационных отчетов соисполнителей, принимавших участие в выполнении первого этапа. Тексты полных отчетов за 2 этап по каждой части Технического задания к госконтракту СГ-2/07 от 16.07 2007 г. представлены в соответствующих приложениях.

2 Исследования, выполненные на 2 этапе НИР

2.1 Разработка архитектуры и программных средств для обеспечения взаимодействия грид-инфраструктуры РДИГ/EGEE и создаваемой системы суперкомпьютерных центров СКИФ

Исполнитель - НИИЯФ МГУ, Москва.

См. приложение – отчет за 2 этап по части 2 Технического задания к контракту СГ-2/07 от 16.07.2007 г.З.

Содержание этапа 1.

Согласно Календарному плану на Этапе 1 в период с 16 июля по 30 сентября 2007 г. запланировано выполнение следующих работ:

- Анализ научно-технической литературы, нормативно-технической документации и других материалов, относящихся к разрабатываемой теме.

- Формулирование возможных направлений решения задачи, поставленной в ТЗ, и их сравнительная оценка.

- Выбор и обоснование принятого направления исследований и способов решения поставленной задачи.

- Разработка общей методики проведения исследований.

- Разработка карты сопряжения параметров информационных систем РДИГ-EGEE и СКИФ-грид.

На первом этапе контракта был проведен анализ научно-технической литературы, нормативно-технической документации и других материалов, относящихся к теме контракта.

Для достижения целей проекта – обеспечение взаимодействия грид инфраструктуры EGEE/РДИГ и суперкомпьютерных центров СКИФ - необходимо детально выяснить принципы построения и организации вычислительного процесса с помощью кластерных решений СКИФ.

Концепция грид-технологий появилась как ответ на возросшие потребности в крупных информационно-вычислительных ресурсах, динамически выделяемых для решения громоздких задач, в научной, индустриальной, административной и коммерческой областях деятельности. Создание грид-среды подразумевает объединение вычислительных ресурсов географически разделенных ресурсных центров при помощи специализированного программного обеспечения (промежуточное программное обеспечение, ППО). Это программное обеспечение позволяет распределять задания по таким центрам, возвращать результаты пользователю, контролировать права пользователей на доступ к тем или иным ресурсам, осуществлять мониторинг ресурсов.

Существует весьма обширный класс актуальных прикладных задач, которые невозможно полностью разделить на независимые подзадачи. Эффективное решение таких подзадач требует межпроцессорного обмена информацией в ходе решения (существенно параллельные вычисления). Поэтому исключительно важной составной частью создания эффективной грид-среды является включение в нее суперкомпьютеров в качестве вычислительных ресурсов. При этом грид-среда обеспечивает, в частности, возможность удаленного запуска параллельных вычислений на суперкомпьютере, входящем в грид-инфраструктуру, и выравнивание (распределение) нагрузки между суперкомпьютерами в грид-среде.

Особенно привлекательным является использование в качестве вычислительных грид-ресурсов суперкомпьютеров семейства СКИФ, поскольку они обладают рядом существенных достоинств по сравнению с другими решениями для высокопроизводительных вычислительных систем с параллельной архитектурой. В частности, к достоинствам семейства СКИФ относятся:

  1. открытая и масштабируемая архитектура;
  2. модульная схема исполнения;
  3. программное обеспечение СКИФ использует стандартные языки (параллельного) программирования, а также оригинальную российскую разработку (Т-система);
  4. по соотношению производительности и стоимости семейство СКИФ превосходит все существующие аналоги.

Создание распределенных вычислительных комплексов на базе суперкомпьютеров семейства СКИФ может быть применим и к другим системам с параллельной архитектурой.

С функциональной точки зрения работа по созданию и эксплуатации территориально-распределенных вычислительных комплексов подразделяется на разработку компонент ППО и разработку специализированного инструментария для решения прикладных задач.

На суперкомпьютерах СКИФ используется свободно распространяемая ОС Линукс. Ядро ОС Linuх специально адаптировано для работы на суперкомпьютерах семейства "СКИФ". Это позволило обеспечить надежную и безопасную работу аппаратных и программных средств суперкомпьютеров семейства "СКИФ". Функциональные характеристики соответствуют актуальным версиям официальных стабильных дистрибутивов ОС Linuх.

Система очередей задач (СОЗ) для кластерного уровня суперкомпьютеров семейства "СКИФ" предназначена для обеспечения распределения задач пользователей между базовыми вычислительными модулями (узлами) кластерного уровня для достижения большей производительности, получаемой в силу более равномерной загрузки вычислительных узлов и более равномерного распределения вычислительных ресурсов между пользователями.

В качестве СОЗ в суперкомпьютерах СКИФ применена система PBS – хорошо известное решение, основанное на открытых кодах.

Использование PBS позволит заметно сократить объем кода, требуемый для стыковки ППО ВЭ и СОЗ, используемого в СК СКИФ.

ППО gLite и СК СКИФ

Промежуточное программное обеспечение gLite – базовое ППО для построения, на котором строится грид-инфраструктура EGEE/РДИГ.

Существующее промежуточное программное обеспечение (ППО), обеспечивающее работу грида в целом (распределение заданий по грид-ресурсам, сбор результатов, мониторинг выполнения и так далее) в настоящее время не позволяет эффективно обрабатывать задачи, требующие параллельных вычислений с межпроцессорным обменом, поскольку разрабатывалось в рамках парадигмы одно задание – один процессор. Это может являться одним из важнейших препятствий для широкого внедрения грид-технологий для решения суперкомпьютерных задач. Работа в рамках данной части проекта должна обеспечить научно-технический задел для преодоления этого недостатка современного ППО, в частности ППО gLite, под управлением которого работает грид-инфраструктура EGEE/РДИГ (http://www.eu-egee.org, http://egee-rdig.ru). Стыковка ППО gLite и СК СКИФ позволит существенно расширить класс задач, решаемых с помощью грид-технологий.

В результате анализа было выяснено, что существующее промежуточное программное обеспечение (ППО), обеспечивающее работу грида в целом (распределение заданий по грид-ресурсам, сбор результатов, мониторинг выполнения и так далее) в настоящее время не позволяет эффективно обрабатывать задачи, требующие параллельных вычислений с межпроцессорным обменом, поскольку разрабатывалось в рамках парадигмы одно задание – один процессор. Это может являться одним из важнейших препятствий для широкого внедрения грид-технологий для решения суперкомпьютерных задач. Для преодоления этого недостатка современного ППО, в частности ППО gLite, под управлением которого работает грид-инфраструктура EGEE/РДИГ (http://www.eu-egee.org, http://egee-rdig.ru) необходимо провести адаптацию ППО с учетом особенностей архитектуры кластерных решений СКИФ-ГРИД. Это позволит существенно расширить класс задач, решаемых с помощью грид-технологий.

В настоящее время потребность адаптации ППО для решения класса параллельных задач общепризнанна мировым сообществом разработчиков и пользователей грид-систем. Различные подходы к решению этой проблемы обсуждаются на различных международных и российских конференциях, посвященных технологиям распределенных вычислений и обработки данных. Однако, готовых разработок пока нет. Существуют некоторые частные решения для более узкого класса задач. Например, для ППО gLite (в рамках международного проекта EGEE, http://www.eu-egee.org) разработаны модули, которые позволяют обрабатывать подзадачи, обмен информацией между которыми в процессе решения описывается направленным графом без петель. В настоящее время эти модули проходят предварительное тестирование. Некоторые предварительные разработки проводятся также в рамках проекта Interactive Grid (http://www.interactive-grid.eu).

Включение СКИФ-кластера в EGEE ГРИД может быть осуществлено разными способами, рассмотренными ниже. При этом, вообще говоря, может понадобиться адаптация Glue – схемы (системы публикуемых параметров, используемых в EGEE ГРИД для выбора кластера для выполнения задания) и языка описания заданий JDL.

На основе вышесказанного можно сформулировать возможные варианты архитектурных решений подключения СКИФ-кластера.

1. Интегрирование ППО gLite в кластер архитектуру СКИФ.

Интегрированное решение, которое состоит в реализации компьютерного элемента EGEE-ГРИД на компьютере, входящем в кластер. В этом случае вычислительный элемент будет жестко привязан к ПО, установленному на кластере СКИФ. Это потребует выполнения большого объема программирования связанного с адаптацией ППО gLite к программной среде СКИФ. Учитывая, что часть кластеров СКИФ работают под управлением ОС MS Windows, работа по адаптации будет практически эквивалентна написанию соответствующего ППО заново, что является нецелесообразным.

2. Грид-шлюз к СК СКИФ.

В этом варианте предлагается установить ППО gLite на отдельном сервере (front-end компьютер), который будет выполнять роль грид-шлюза (gateway), через который будет осуществляться взаимодействие с остальной грид- инфраструктурой EGEE/РДИГ.

В предложенном варианте можно рассмотреть два подварианта:

- использования серверов кластера СКИФ в качестве рабочих узлов грида;

- установка отдельного сервера в качестве рабочего узла, через который задания будут передаваться на выполнение в СК СКИФ.

Использование серверов кластера СКИФ в качестве рабочих узлов потребует большого объема программирования по адаптации ППО рабочего узла к среде СК КСИФ. Более приемлемым вариантом, по нашему мнению, является вариант с установкой отдельного рабочего узла как front-end компьютер к СК СКИФ. Учитывая небольшую нагрузку на этот узел (так как фактическое вычисление будет производиться на самом кластере), то можно запустить РУ на грид-шлюзе под управлением виртуальной машины Xen, что, в свою очередь, позволит значительно сократить объем программирования при адаптации ППО gLite.

На основании проведенного анализа в качестве способа решения поставленной задачи – обеспечения взаимодействия грид-инфраструктуры EGEE/РДИГ с СК СКИФ – предлагается использовать

- грид-шлюз для обеспечения доступа из грид-инфраструктуры к ресурсам СК СКИФ;

- адаптированный для работы с кластером СКИФ, специально сконфигурированный рабочий узел в качестве front-end машины, обеспечивающей передачу заданий в кластер СКИФ на выполнение.

Данный подход позволить максимальным образом использовать имеющиеся как ППО gLite, так и ПО СК СКИФ. Однако для обеспечения оптимальной загрузки СК СКИФ, потребуется расширение Glue-схемы и, возможно, языка описания заданий JDL.

Главным преимуществом предложенного подхода является возможность обеспечить доступ к СК ресурсам СКИФ не только под управлением ОС Линукс, но и работающих под другими ОС, например M$ Windows.

Дополнительным преимуществом является возможность использования на СК СКИФ системы управления очередями задач OpenPBS, которая является стандартным компонентом и для ППО gLite для этих же целей.

Для реализации широких возможностей разработанной для СКИФ Т-системы с открытой архитектурой (OpenTS), таких как PVM-системы и MPI-кластеры, может понадобиться разработка соответствующего расширения языка управления заданиями ГРИД (JDL) с учетом возможного расширения Glue схемы.

В частности, для возможности автоматического распознавания вычислительных свойств ресурсного центра со СКИФ-кластером, необходимо разработать соответствующую систему публикуемых параметров. Эти параметры должны быть совместимыми с существующими протоколами грид ресурс-брокеров и информационной системы грида.

В результате выполнения работ по проекту должна быть обеспечена возможность:

  1. включения суперкомпьютерных ресурсных центров в информационную систему грид-инфраструктуры;
  2. запуска параллельных заданий с интерфейса пользователя на свободный суперкомпьютер и мониторинг его выполнения;
  3. получение результата выполненной совокупности параллельных заданий.

Одной из главных задач по взаимодействию грид-инфраструктуры EGEE/РДИГ и суперкомпьютеров СКИФ является сопряжение информационной системы грид и системой параметров, используемых пользователями суперкомпьютеров СКИФ для запуска заданий.

В настоящее время поддержка MPI задач в грид инфраструктуре EGEE/РДИГ находится на начальном уровне.

Для информирования о возможности работы сайта с MPI приложениями сайт публикует "MPICH" в качестве значения атрибута Glue-схемы GlueHostApplicationSoftwareRunTimeEnvironment. Пользователь в JDL файле указывает JobType="MPICH"; и задает обязательный в этом случае атрибут NodeNumber, задающий в этом случае необходимое для выполнения задания количество CPU. Таким образом, единственным специфичным для MPI сайтов параметром GLUE схемы является значение "MPICH" в атрибуте GlueHostApplicationSoftwareRunTimeEnvironment.

Вся дальнейшая работа ложится на пользователя. Он должен кроме собственно приложения написать специальный обертывающий скрипт-wrapper, который и адаптируется к конкретным условиям сайта, на который запущено задание (анализирует конфигурацию и параметры системы, вызывает нужные компиляторы и т.д.). При таком подходе, важно только чтобы скрипт-wrapper мог получить достаточно полную информацию о MPI системе, установленной на сайте.

Таким образом, существующий механизм автоматического выбора целевого сайта для MPI приложений довольно примитивен, но оставляет пользователю (точнее разработчику приложений) много возможностей запускать задания самостоятельно. Например, задав список подходящих MPI сайтов и разработав специализированные системы для анализа их состояний, то есть, сделать по-существу собственный специализированный ресурс-брокер. Как это сейчас и практикуется.

Для использования более тонких механизмов распределения MPI ресурсов в грид могут понадобиться более тонкие параметры, чем количество CPU, но для их разработки необходима более детальная, чем имеющаяся сейчас, информация о структуре СК СКИФ и способов использования ни них MPI. Это будет особенно актуально, когда в грид будет реализовано унифицированное и централизованное распределение MPI ресурсов. На первом этапе, возможно, следует отдать распределение этих ресурсов на усмотрение разработчиков приложений для виртуальных организаций.



    1. 2.2 Разработка грид-сервисов по сбору и передаче информации и создание на их основе системы мониторинга распределенных программно-аппаратных комплексов для вычислений и хранения данных в глобальной системе Грид.

Исполнитель - ОИЯИ, г. Дубна, Московская обл.

См. приложение – отчет за 2 этап по части 3 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Объект исследования – набор грид-сервисов по сбору и передаче информации и система мониторинга, статистика использования как всей грид-инфраструктуры, так и отдельных ее подсистем, система мониторинга.

Цель работы на первом этапе - составление перечня проблем, которые надо решить, для адаптации работы системы учета и мониторинга совместно с внешними вычислительными кластерами СКИФ-ГРИД.

Результат работы - выбор направления исследования в области разработки грид-сервисов по сбору и передаче информации и системы сбора статистики по использованию грид-инфраструктуры.

Перечень принятых сокращений и наименований

РДИГ - Российский грид для интенсивных операций с данными.

EDG - European DataGrid, европейский проект по созданию инфраструктуры для вычислений и обмена данными.

EGEE - Enabling Grids for E-sciencE, европейский проект по созданию глобальной грид-инфраструктуры.

gLite - Lightweight Middleware for Grid Computing, пакет промежуточного программного обеспечения для грид-вычислений.

OGSA - Open Grid Service Architectire, Открытая архитектура грид-сервисов.

Работа направлена на развитие технологии мониторинга распределенных вычислительных комплексов национального и интернационального масштаба.

В настоящее время существует ряд прикладных и научно-исследовательских задач, связанных с накоплением и обработкой объёмов информации которые в десятки и сотни тысяч раз превышают средний уровень потребностей. Примерами прикладных задач могут служить геоинформационные системы, задачи в области биотехнологий, мультимедийные задачи построения и обработки изображений. В сфере науки в особом положении оказывается физика высоких энергий в связи с тем, что на конец 2007 года планируется запуск и начало обработки данных с Большого Адронного Коллайдера (ЦЕРН, Женева). Ожидаемый поток накопления информации составляет более 4 ТБ в минуту. В ближайшее десятилетие начнётся реализация проектов, которые будут сопоставимы по масштабам обработки информации, например Международный линейный коллайдер (ILC) и Международный термоядерный реактор (FUSION).

Для решения этих задач обработки информации в рамках международных проектов EGEE-2 (Enabling GRID for E-sciencE) и LCG (LHC Computing GRID) создана и проходит комплексные испытания глобальная географически распределённая система (грид), включающая сотни центров обработки информации. Российская часть этой системы RDIG (Russian Data Intensive Grid, Российский грид для интенсивных операций с данными) функционирует с начала 2001 г. Полноправным участником всех этих проектов является ОИЯИ. Помимо физического научного сообщества инфраструктуру проекта EGEE уже используют десятки коллабораций, занимающихся исследованиями в области таких научных дисциплин, как химия, астрономия, наука о Земле, биомедицина. Разработки, ведущиеся во всем мире, в последние несколько лет сформировали грид – сеть связанных компьютеров, как одно из наиболее перспективных и быстро развивающихся направлений информационной индустрии. Предполагается, что системы подобной архитектуры в области обработки информации и предоставления вычислительных ресурсов в ближайшем будущем получат такое же распространение, которое сейчас получил WWW как средство доступа к информации.

Испытания, проведённые консорциумом EGEE и RDIG в 2006 г., показали, что существующая система мониторинга не отвечает полностью планируемому масштабу грид. Большие масштабы, сложность связей и географическая распределенность системы приводят к тому, что эффективное функционирование Грид невозможно без полной информации обо всех ее подсистемах, количественного и качественного мониторинга текущего состояния. Для эффективного управления такими системами, планирования, выявления неполадок важно знать не только текущее состояние грид-инфраструктуры, но и отслеживать историю ее использования.

В настоящее время в мире существует несколько проектов по грид-мониторингу, но все они не обеспечивают должного уровня сервиса мониторинга. Кроме того, нет еще устоявшихся требований на количество и качество предоставляемых услуг системой мониторинга. Для преодоления этой проблемы требуется создание достаточно гибкой системы, которая могла легко меняться и адаптироваться к выдвигаемым требованиям.

Возникает необходимость создания системы мониторинга, которая бы удовлетворяла всем условиям. Предполагается создать платформо-независимую систему для мониторинга грид-инфраструктуры на основе программного обеспечения gLite, которая также может быть использована в грид-средах с другим программным обеспечением промежуточного уровня.

В рамках создания сервиса грид-мониторинга планируется следующее развитие средств мониторинга и системы сбора статистики об использовании распределенных ресурсов:

  • создание унифицированной системы по сбору и передаче разнородной информации как набор специальных грид-сервисов мониторинга;
  • мониторинг функционирования грид-сервисов; использование данных о работе грид-сервисов для управления надежностью их функционирования (автоматическое управление и восстановление при сбоях);
  • отслеживание состояния сетей и каналов связи;
  • сбор статистики по обмену данными между ресурсными центрами с использованием грид-сервисов;
  • сбор и отображение медленно меняющейся информации о грид-сайтах (например, структура, производительность, поддерживаемые виртуальные организации, установленное программное обеспечение);
  • автоматическое отслеживание состояния оборудования, сбор данных об аппаратных ошибках;
  • расширение мониторинга на системы хранения данных, таких как dCache, DPM;
  • возможность подключения дополнительных модулей мониторинга.

Проект «СКИФ-ГРИД» подразумевает создание распределенной инфраструктуры вычислительных ресурсов и ресурсов хранения данных на основе ГРИД-технологий. К настоящему моменту существует уже несколько проектов в этой области и уже складываются некоторые стандарты организации подобного рода инфраструктур. Одной из важнейших составляющих любого программного обеспечения ГРИД является система мониторинга. Разработка системы мониторинга для проекта «СКИФ-ГРИД» потребует решения следующих задач:

  • определение важных параметров, которые полностью отражают состояние всей инфраструктуры;
  • определение способов получения этих параметров;
  • разработка общей схемы мониторинга;
  • разработать реализацию выбранной схемы и внедрить ее;
  • исследование возможностей использования мониторинга для решения задач автоматизированного управления инфраструктурой.

Другой важной составляющей практически любой системы распределения ресурсов является система учета использования ресурсов. Данная система похожа на мониторинг с той лишь разницей, что она накапливает данные об использовании ресурсов. Для внедрения такой системы необходимо решить следующие задачи:

  • разработать схему получения параметров (использования процессорного времени и дискового пространства);
  • разработать реализацию данной системы;
  • исследовать возможность автоматизированного квотирования ресурсов на основе данной системы.
    1. 2.3 Дистрибутив Линукс для кластеров

Исполнитель – ООО «Альт Линукс Технолоджи», г.Москва.

См. приложение – отчет за 2 этап по части 4 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Выбор направления исследований.

Одной из задач, решаемой в процессе разработки дистрибутива операционной системы Линукс для суперкомпьютера СКИФ, является снижение временных затрат на развёртывание системы, а также повышение её масштабируемости в процессе эксплуатации. На данном этапе нашей работы были разработаны и реализованы методики, позволяющие значительно снизить время на установку и настройку операционной системы.

Для функционирования в составе СКИФ был разработан механизм создания мини-дистрибутивов для узлов кластера, в которых этапы установки системы сведены к минимуму, и представляют из себя три этапа: загрузка ядра и первой стадии, получение второй стадии и развёртывание операционной системы на жёстком диске. Данный дистрибутив создаётся на главном узле кластера с помощью инструмента mkai, входящего в состав дистрибутива ALT Linux для кластеров и может распространяться на вычислительные узлы как на носителях типа CDROM, так и через вспомогательную сеть, или посредством живой системы через сетевую файловую систему NFS.

В рамках проекта по разработке дистрибутива Линукс для высокопроизводительных вычислений, была реализована технология развёртывания операционной системы на главном и вычислительном узле кластера.

В результате работ реализован работоспособный макет дистрибутива ALT Linux, включающий в себя специализированное программное обеспечение для кластера, а также инструменты управления пользователями, обновлением операционной системы и её компонент и синхронизации времени на узлах.

    1. 2.4 Оптимизация суперкомпьютерных конфигураций СКИФ для повышения производительности грид-приложений

Исполнитель – ООО «Т-Платформы», г. Москва.

См. приложение – отчет за 2 этап по части 5 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Выбор направления исследований, включая анализ научно-технической литературы, нормативно-технической документации и других материалов в области интернет-сервисов и грид технологий, анализ ряда свободно распространяемого ПО и авторских программ в области измерения производительности, отладки и профилирования программного обеспечения, формулирование возможных направлений решения задачи, поставленной в ТЗ, и их сравнительная оценка, выбор и обоснование принятого направления исследований и способов решения поставленной задачи, разработка общей методики проведения исследований, подготовка отчетной документации, предусмотренной Техническим заданием и Календарным планом.

Проведенные исследования

В рамках работ по договору было проведено изучение имеющейся научно-технической литературы и документации по доступному (авторскому и свободно распространяемому) программному обеспечению.

В процессе изучения материалов были выделены наиболее интересные методики тестирования, проведен сравнительный анализ и разработана окончательная методика измерения оптимизируемых параметров.

В настоящее время существует достаточно обширный набор удобных и эффективных средств, которые успешно решают задачу тестирования веб-сервисов. Среди них были выделены несколько наиболее подходящих для решения поставленной задачи, таких как

  • httperf – средство для измерения производительности веб-сервера.
  • WebInject – средство тестирования веб-сервисов
  • WebATU – автоматическое средство тестирования веб-сервисов

В качестве параметров и характеристик, оптимизация которых является приоритетной для производительности сервисов, были выбраны следующие:

  • Время отклика приложений
  • Время выполнения пользовательских запросов
  • Количество отказов аппаратной части
  • Время доступности системы
  • Производительность базовых сервисов грид-среды (мониторинг, аутентификация и другие сервисы)

Для анализа производительности сервисов были выбраны две основных методики:

    1. Методика «черного ящика». При данном способе тестирования сначала измеряются сквозные задержки (из конца в конец), возникающие на клиенте для некоторого количества удаленных операций. Наиболее важно сфокусировать внимание на выборе подходящих начальных условий, чтобы оценить точность полученной задержки и время «ленивой» инициализации, как на сервере, так и на клиенте
    2. Профилировка на основе примеров. Этот способ тестирования подразумевает периодическую остановку выполнения программы с тем, чтобы перехватить текущее управляющее состояние.

В качестве окончательной методики была выбрана стратегия совмещение методик, которая открывает новые возможности оптимизации, а также обеспечивает полезную информацию для разработчиков грид-сервисов.

Таким образом, окончательная методика тестирования имеет следующий вид:

Тестирование методом «черного ящика».

Уточнение профиля производительности при помощи методики профилировки на основе примеров

    1. 2.5 Разработка и внедрение в промышленность параллельных программных систем для инженерного и естественнонаучного анализа на базе суперкомпьютеров семейства «СКИФ» и грид-технологий

Исполнитель – ГОУ СПбГПУ, г. Санкт-Петербург.

См. приложение – отчет за 2 этап по части 6 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

На данном этапе работ главными направлениями исследований выбраны:

- анализ научно-технического состояния в мире по направлению применения программных систем, использующих параллельные вычислительные процедуры для инженерных расчетов в промышленности и научных исследования;

- анализ имеющихся на мировом рынке программных систем (комплексов) для инженерного и естественнонаучного анализа; включая демонстрацию апробации наиболее востребованных систем, на имеющихся у исполнителя программно-аппаратных высокопроизводительных ресурсах;

- проведение первичного анализа ОС Microsoft Windows CCS совместно с корпорацией Microsoft на кластерах исполнителя;

- на основе итогов работ по предыдущим направлениям формулируются возможные направления решения задач, поставленных в ТЗ, в части тестирования и определения характеристик используемых в проекте параллельных программных систем на базе имеющихся у исполнителя суперкомпьютеров и их сравнительная оценка.

В рамках первого, чрезвычайно широкого направления, акцент сделан на анализе наиболее востребованных практикой междисциплинарных программных системах мирового уровня, реализующих параллельные процедуры.

Для апробации и тестирования, выбраны программные системы CFX и FLUENT, разрабатываемые компанией ANSYS (США), получившие широкое распространение в мировой практике, а также на отечественных производствах. Показаны возможности программных комплексов. Приведены примеры решения конкретных задач, выполненные по заказам отечественной и зарубежной промышленности.

Результаты исследований находят самое широкое использование в учебном процессе кафедр Физико-механического факультета СПбГПУ, которые взаимодействуют в рамках межкафедеральной лаборатории Прикладная математика и механика. Они используются, как в рамках лабораторных и практических работ, НИРС, так и при подготовке бакалаврских и магистерских работ. также они служат важнейшим инструментом при выполнении кандидатских и докторских диссертаций аспирантами и сотрудниками Политехнического университета.

По итогам выполнения этапа формулируются направления решения задач, поставленных в ТЗ, в части тестирования используемых в проекте параллельных программных систем на базе имеющихся у исполнителя суперкомпьютеров и их сравнительная оценка. К таким важнейшим направлениям отнесем:

- верификацию программных систем для различных классов задач;

- изучение проблем распараллеливания и их эффективности для ряда классов ресурсоемких мультифизичных задач, где их «ядром» служат преимущественно аэрогидродинамика (области: аэротермодинамики и тепломассообмена, горение; многофазные проблемы и т.д.);

- оценка адекватности математических моделей, заложенных в программных системах и эффективности вычислительных алгоритмов, реализующих решение соответствующих задач математической физики (сеточные аппроксимации, сходимость и т.д.);

- изучение, освоение и анализ эффективности ОС Microsoft Windows CCS совместно с корпорацией Microsoft на кластерах исполнителя и её сравнение с ОС Linux;

  • решение конкретных мультифизичных задач, реализующих параллельные вычислительные технологии и иллюстрирующие возможности решения.
    1. 2.6 Web-ориентированный вычислительный комплекс для решения трехмерных векторных задач дифракции электромагнитных волн на основе субиерархических параллельных алгоритмов и GRID технологий

Исполнитель – ПГУ, г. Пенза.

См. приложение – отчет за 2 этап по части 7 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Разрабатываются на 2 этапе численные методы решения сложных векторных задач электродинамики, требующих большого объема вычислений, на суперкомпьютерах и вычислительных кластерах с использованием параллельных субиерархических алгоритмов.

Целью проекта является создание web-ориентированного вычислительного комплекса для решения трехмерных векторных задач дифракции электромагнитных волн на магнитодиэлектрических телах и проводящих экранах произвольной формы на основе подхода, объединяющего кластерные и GRID технологии. Реализация кластерной составляющей комплекса на суперкомпьютерах семейства СКИФ, а метакомпьютерной на вычислительных ресурсах СКИФ-ГРИД полигона.

Метод исследования – решение сложных задач математической физики с использованием параллельных алгоритмов на суперкомпьютерах семейства СКИФ, а также с использованием вычислительных ресурсов СКИФ-ГРИД полигона.

Результаты работы:

- исследованы и разработаны параллельные субиерархические алгоритмы для решения задач дифракции электромагнитных волн на магнитодиэлектрических телах и проводящих экранах произвольной формы;

- исследованы и разработаны параллельные вычислительные алгоритмы для решения систем линейных алгебраических уравнений специального типа (блочно-теплицево-ганкелевых систем уравнений);

- созданы базы данных матричных элементов для задач дифракции;

- разработаны программы-оболочки для пользователей с целью выбора геометрии задачи, электродинамических параметров;

- разработаны программы для формирования системы линейных алгебраических уравнений (для конкретной задачи) из базы данных матричных элементов (канонической задачи);

- разработаны программы для решения систем линейных алгебраических уравнений специального типа (блочно-теплицево-ганкелевых систем уравнений);

- созданы справочные базы данных.

На 2 этапе «Выбор направления исследований» в ходе выполнения проекта были разработаны методы решения задач дифракции на экранах и телах. Одним из наиболее эффективных методов решения задач дифракции является метод, основанный на сведении задачи к системе интегродифференциальных (объемных или поверхностных сингулярных интегральных) уравнений. Метод использован совместно с методами параллельных вычислений для решения трехмерных векторных задач электродинамики на вычислительном кластере.

Для решения систем линейных алгебраических уравнений, возникающих в задачах дифракции, используются методы решения теплицевых систем и быстрого преобразования Фурье для умножения матрицы на вектор. Наиболее эффективным для данного класса задач является параллельный алгоритм метода сопряженных градиентов. В рассматриваемых задачах возникают специальные блочно-теплицевы системы с дополнительной симметрией элементов матрицы. Применение параллельной версии быстрого преобразования Фурье также дает определенный эффект.

Достигнуты технико-экономические показатели Технического Задания: к выполнению работ по проекту привлечено 10 ученых, из них 9 молодых ученых, в том числе 3 аспирантов. В рамках проекта были подготовлены 2 статьи, сделаны 2 доклада на международном научном симпозиуме.

Степень внедрения. Разработаны и реализованы в виде программ параллельные субиерархические вычислительные алгоритмы для решения численными методами задач дифракции электромагнитных волн на идеально проводящих экранах и диэлектрических (магнитных) телах.

Область применения. Разработанные алгоритмы и программы могут быть использованы при решении векторных задач электродинамики и при математическом моделировании сложных электродинамических процессов и объектов.

Экономическая эффективность или значимость работы. Решение сложных векторных задач электродинамики на вычислительном кластере с помощью параллельных алгоритмов является наиболее эффективным и дешевым способом решения таких задач. Значение работы состоит в том, что векторные задачи электродинамики могут быть решены без привлечения дорогостоящей вычислительной техники (например, суперкомпьютеров типа CRAY).

Прогнозные предположения о развитии объекта исследования. Разработанный Web-ориентированный вычислительный комплекс для решения трехмерных векторных задач дифракции электромагнитных волн на основе субиерархических параллельных алгоритмов и GRID технологий может служить прототипом для создания других аналогичных вычислительных систем в различных областях науки и техники.

    1. 2.7 Создание средств хранения информации в территориально-распределенных средах

Исполнитель – ГЦ РАН, г. Москва.

См. приложение – отчет за 2 этап по части 8 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Анализ научно-технической литературы и других материалов, относящихся к разрабатываемой теме. Подбор моделей для решения задач.

Информатика окружающей среды - это быстро развивающаяся область на стыке таких вычислительной техники и естественных наук, как искусственный интеллект, геоинформационные системы (ГИС), численное моделирование, программные и пользовательские интерфейсы. Растущие объемы данных в сегодняшних системах хранения и потребности научного сообщества, которое нуждается в интегрированном и надежном представлении информации об окружающей среде для нужд моделирования, мониторинга и оценки глобальных изменений, требуют нового подхода к организации доступа и управления данными. Понятие "окружающая среда" включает в себя элементы из многих областей, таких как околоземное космическое пространство, атмосфера, океан, топография.

На сегодняшний день существует возможность высоко реалистичного моделирования окружающей среды на самых разных уровнях. Такие системы, как Global Change Master Directory (GCMD), разработанная в НАСА (http://gcmd.nasa.gov) или Master Environmental Library (MEL), созданная Отделом моделирования Министерства обороны США (https://mel.dmso.mil/) и др., позволяют искать климатические (мета)данные, распределенные по сети, но возможности интерактивно запрашивать и объединять грид-сервисами распределенные данные в общий набор в различных пространственно-временных моделях (сетка, станция, траектория) для параллельного анализа в виде поиска "сценариев" (наборов условий внутри архивов данных) вне предлагаемой нами технологии до сих пор не было.

Предложенная Коддом в 1970 г. реляционная модель данных и ее реализации в виде реляционных баз данных с языком запросов SQL с расширениями для нечетких запросов, столь успешно используемые в бизнес-приложениях, тем не менее не являются универсальным стандартом для архивов данных по окружающей среде. Петабайтные наборы данных до сих пор поставляются в виде наборов файлов, поскольку внутренняя организация бинарных файлов прямого доступа вроде NetCDF (http://www.unidata.ucar.edu/software/netcdf/)или HDF (http://hdf.ncsa.uiuc.edu/) лучше соответствует научной модели данных в виде многомерного массива, чем набор связанных между собой записей из нескольких двумерных таблиц. Разработанный UNIDATA (http://www.unidata.ucar.edu) сервер THREDDS с сетевым протоколом доступа к данным OpenDAP является попыткой агрегировать различные научные форматы в общую модель данных в виде многомерного массива (Common Data Model). Эта продолжающаяся работа по унификации доступа к научным данным на сегодня не поддерживает экспорт данных в формате XML и не совместима с зарождающимися в среде e-Science Data Grid стандартами сервисов данных.

В настоящем отчете мы предлагаем абстрактный уровень грид-сервисов данных для виртуализации баз данных, с помощью которых мы выбираем временные ряды с параметрами окружающей среды для последующего распределенного поиска сценариев событий. Интерфейс источника данных реализован в виде плагинов в контейнере OGSA-DAI (http://www.ogsadai.org) с простыми XML-схемами ввода и вывода по стандарту NCML-G (http://www.unidata.ucar.edu/projects/THREDDS/Nativi/NcML-G/NcML-G.htm). По нашим оценкам, экспорт данных в формате XML с последующей GZIP-компрессией требует сравнимых вычислительных затрат и сетевого трафика, что и при записи в бинарные NetCDF файлы. Следование спецификации OGSA-DAI и использование языка программирования Java/J\# позволяет нам погрузить виртуальные веб-сервисы данных в большинство из существующих сегодня контейнеров веб- и грид-сервисов, включая Microsoft ASP.NET (http://msdn.microsoft.com/netframework/), Apache Tomcat/Axis (http://ws.apache.org/axis/), WSRF Globus Toolkit 4 (http://www.globus.org/toolkit/), OMII (http://www.omii.ac.uk/), и EGEE gLite (http://glite.web.cern.ch/glite/).

Результаты работы оформлены в виде статьи, направленной для публикации.

Архитектура и интерфейсы грид-сервисов пространственно-временных данных может быть рекомендована для практического использования на следующем этапе научно-исследовательской работы и для решения других задач геоинформатики и дистанционного зондирования Земли из космоса. Технология создания OLAP-кубов данных может быть рекомендована для баз данных и для публикации в научной и учебной литературе.

Технико-экономическая эффективность внедрения определяется тем, что на базе инфраструктуры СКИФ-Грид создается единая кросс-платформенная распределенная высоко-производительная платформа для доступа, анализа и визуализации многодисциплинарных сверхбольших архивов геофизических данных.

Результаты НИР превосходят по гибкости языка запросов и скорости выборки данных предшествующие достижения, известные из литературных источников.

    1. 2.8 Создание системы автоматизации разработки программ (DVM-СКИФ) для суперкомпьютеров «СКИФ» нового поколения

Исполнитель – ИПМ РАН, г, Москва.

См. приложение – отчет за 2 этап по части 9 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Анализ технических решений, принятых при проектировании DVM-системы, с точки зрения необходимости их пересмотра для адаптации к суперкомпьютерам семейства СКИФ

Можно выделить следующие особенности суперкомпьютеров «СКИФ» нового поколения, которые могут потребовать адаптацию DVM-системы:

  • большое количество SMP-узлов (свыше тысячи);
  • значительное число ядер в SMP-узлах (четыре и выше);
  • использование суперкомпьютеров в составе метакластеров и ГРИД.

Большое количество узлов может войти в противоречие с ограничениями на размеры таблиц и полей, принятыми при разработке компонентов системы. Кроме того, эффективное использование большого количества узлов может потребовать пересмотра некоторых алгоритмов работы системы.

Значительное число ядер в SMP-узлах требует для их эффективного использования применения гибридной модели программирования - модели общей памяти (OpenMP) в узлах и модели передачи сообщений (MPI) между узлами. Для того, чтобы позволить программисту применять в узлах модель общей памяти, требуется сформулировать методику такого совместного использования моделей DVM и OpenMP. Применение гибридной модели значительно усложняет работу программиста – ему надо знать обе модели и уметь использовать соответствующие инструментальные средства. Поэтому необходимо существенно повысить уровень автоматизации создания параллельных программ для SMP-кластеров.

Использование суперкомпьютеров в составе метакластеров и ГРИД ставит задачу обеспечения выполнения параллельной программы на неоднородной системе процессоров, различающихся архитектурой и производительностью. Для функционирования на процессорах с различным представлением данных необходимо, чтобы в программе все межпроцессорные обмены осуществлялись с точной спецификацией типов посылаемых и принимаемых данных. Эффективное использование процессоров разной производительности требует учета их производительности при распределении вычислительной работы между процессорами. Кроме того, необходимо учитывать и различающиеся характеристики коммуникационных каналов, связывающих процессоры.

Технические решения, принятые при проектировании DVM-системы, были проанализированы с перечисленных выше точек зрения. Результаты этого анализа приводятся ниже.

При построении системы DVM был использован новый подход, который характеризуется следующими принципами.

  • Система должна базироваться на высокоуровневой модели выполнения параллельной программы, удобной и понятной для программиста, привыкшего программировать на последовательных языках. Такая модель (DVM-модель) была разработана в 1994 году.
  • Языки параллельного программирования должны представлять собой стандартные языки последовательного программирования, расширенные спецификациями параллелизма. Эти языки должны предлагать программисту модель программирования, достаточно близкую к модели выполнения. Знание программистом модели выполнения его программы и ее близость к модели программирования существенно упрощает для него анализ производительности программы и проведение ее модификаций, направленных на достижение приемлемой эффективности.
  • Спецификации параллелизма должны быть прозрачными для обычных компиляторов (например, оформляться в виде специальных комментариев). Во-первых, это упрощает внедрение новых параллельных языков, поскольку программист знает, что его программа без каких-либо изменений может выполняться в последовательном режиме на любых ЭВМ. Во-вторых, это позволяет использовать следующий метод поэтапной отладки DVM-программ. На первом этапе программа отлаживается на рабочей станции как последовательная программа, используя обычные методы и средства отладки. На втором этапе программа выполняется на той же рабочей станции в специальном режиме проверки DVM-указаний. На третьем этапе программа может быть выполнена в специальном режиме, когда промежуточные результаты параллельного выполнения сравниваются с эталонными результатами (например, результатами последовательного выполнения).
  • Основная работа по реализации модели выполнения параллельной программы (например, распределение данных и вычислений) должна осуществляться динамически специальной системой - системой поддержки выполнения DVM-программ. Это позволяет обеспечить динамическую настройку DVM-программ при запуске (без перекомпиляции) на конфигурацию параллельного компьютера (количество процессоров, их производительность, латентность и пропускную способность коммуникационных каналов). Тем самым программист получает возможность иметь один вариант программы для выполнения на последовательных ЭВМ и параллельных ЭВМ различной конфигурации. Кроме того, на основании информации о выполнении DVM-программы на однопроцессорной ЭВМ можно посредством моделирования работы системы поддержки предсказать характеристики выполнения этой программы на параллельной ЭВМ с заданными параметрами (производительностью процессоров и коммуникационных каналов).

Система состоит из следующих компонентов:

  • Компилятор Fortran-DVM;
  • Библиотека поддержки Lib-DVM;
  • DVM-отладчик;
  • Анализатор производительности параллельных программ;

Эти компоненты удовлетворяют следующим требованиям:

  • Fortran-DVM компилятор поддерживает параллелизм данных и параллелизм задач. Программы, написанные на языке Fortran-DVM, могут компилироваться и выполняться в стандартной среде Fortran 77 как обычные последовательные программы. Выходом компилятора Fortran-DVM является программа на языке Fortran 77, расширенная вызовами функций Lib-DVM.
  • Библиотека Lib-DVM - это система поддержки выполнения Fortran-DVM программ. Функции Lib-DVM используют для обмена сообщениями коммуникационную систему MPI.
  • DVM отладчик используется для отладки DVM-программ (написанных на языке Fortran-DVM). При этом используется следующий подход. На первой стадии программа отлаживается на рабочей станции как последовательная программа, используя обычные методы и средства отладки. На второй стадии программа выполняется на той же рабочей станции в специальном режиме проверки DVM указаний. На третьей стадии программа может быть выполнена на параллельном компьютере в специальном режиме, когда промежуточные результаты выполнения сравниваются с результатами эталонной трассировки (например, результатами последовательного выполнения).
  • Анализатор производительности параллельных программ определяет производительность выполнения параллельной программы. После завершения выполнения параллельной программы анализатор производительности предоставляет пользователю информацию о производительности в соответствии с его запросами с заданной степенью детализации. Информация о производительности включает времена выполнения, времена ожидания сообщений или синхронизации, число выполненных DVM-указаний.

Язык Fortran DVM (FDVM) представляет собой язык Фортран 77, расширенный спецификациями параллелизма. Эти спецификации оформлены в виде специальных комментариев, которые называются директивами. Директивы FDVM можно условно разделить на три подмножества:

  • Распределение данных (разделы 2, 3, 4, 8, 9)
  • Распределение вычислений (разделы 5, 7)
  • Спецификация удаленных данных (раздел 6)

Модель параллелизма FDVM базируется на специальной форме параллелизма по данным: одна программа – множество потоков данных (ОПМД). В этой модели одна и та же программа выполняется на каждом процессоре, но каждый процессор выполняет свое подмножество операторов в соответствии с распределением данных.

Полное описание языка FDVM содержится по адресу http://www.keldysh.ru/dvm/dvmhtm1107/rus/usr/fdvm/fdvmLDr.html.

Система поддержки Lib-DVM написана на языке C и использует средства MPI для обеспечения межпроцессорного взаимодействия. Большинство операций библиотеки Lib-DVM является коллективными (например, создание распределенного массива и его перераспределение), и должны быть вызваны на всех узлах.

Полное описание функций библиотеки Lib-DVM содержится по адресу http://www.keldysh.ru/dvm/dvmhtm1107/rus/sys/libdvm/rtsIDr0.html.

DVM отладчик предназначен для отладки DVM-программ и использует следующий подход. Сначала программа отлаживается на рабочей станции как последовательная программа с использованием обычных средств отладки. Затем программа выполняется на той же рабочей станции в специальном режиме проверки DVM-директив. На третьем этапе программа выполняется на параллельном компьютере в специальном режиме сравнения промежуточных результатов выполнения с эталонными результатами (например, с результатами последовательного выполнения).

Подробное описание отладчика содержится по адресу http://www.keldysh.ru/dvm/dvmhtm1107/rus/sys/debug/debugDDr.html.

Анализатор производительности предназначен для анализа и отладки эффективности выполнения DVM-программ. С помощью анализатора производительности пользователь имеет возможность получить временные характеристики выполнения его программы с различной степенью подробности.

Эффективность выполнения параллельных программ на многопроцессорных ЭВМ с распределенной памятью определяется следующими основными факторами:

  • Эффективностью выполнения программы на каждом процессоре.
  • Степенью распараллеливания программы - долей объема параллельных вычислений в общем объеме вычислений;
  • Равномерностью загрузки процессоров во время выполнения параллельных вычислений;
  • Временем межпроцессорных обменов;
  • Степенью совмещения межпроцессорных обменов с вычислениями.

Возможность различать последовательные и параллельные участки программы при ее выполнении на многопроцессорной ЭВМ, позволяет анализатору производительности выдать пользователю следующие основные показатели выполнения параллельной программы:

  • время выполнения;
  • коэффициент эффективности распараллеливания;
  • потерянное время.

Для более детального анализа эффективности программы пользователь должен иметь возможность получить характеристики участия каждого процессора в выполнении параллельной программы. Кроме того, ему будут предоставлены средства разбиения выполнения программы на интервалы и возможности получения характеристик производительности для каждого из них.

Анализатор производительности состоит из двух подсистем – подсистемы сбора и подсистемы обработки.

Первая подсистема обеспечивает на каждом процессоре сбор характеристик выполнения параллельной программы. Обращения к этой подсистеме происходит из Lib-DVM во время выполнения параллельной программы. Кроме того, в языке Fortran DVM есть средства описания интервалов выполнения программы, для которых пользователь желает получить характеристики эффективности. Компиляторы обеспечивают обращения к подсистеме сбора при начале и завершении каждого такого интервала. Собранная на каждом процессоре информация записывается в файл при завершении выполнения программы.

Вторая подсистема обеспечивает на рабочей станции обработку информации, собранной на параллельной машине, и выдачу заданных пользователем характеристик эффективности.

Подробное описание возможностей анализатора эффективности можно найти по адресам http://www.keldysh.ru/dvm/dvmhtm1107/rus/sys/perform/pppaPDr.html и http://www.keldysh.ru/dvm/dvmhtm1107/rus/sys/perform/pppaDDr.html.

Анализ потребовал изучения документации, описывающей интерфейсы между компонентами системы и алгоритмы их функционирования. Иногда приходилось изучать исходные тексты программ.

Основными результатами проведенного анализа являются:

  1. Ограничений на размеры таблиц и полей, которые могли бы войти в противоречие с большим количеством узлов, не обнаружено. Поэтому DVM-программа должна работать даже в том случае, когда на каждом ядре располагается MPI-процесс, а OpenMP вообще не используется. Конечно, в этом случае библиотека MPI должна справляться с обслуживанием нескольких тысяч MPI-процессов.
  2. Для эффективного использования большого количества узлов необходимо изменить алгоритмы реализации некоторых коллективных операций. Например, при реализации редукционной операции суммирования вместо сбора информации в одном процессоре можно собирать ее и суммировать, представив группу процессоров в виде двоичного дерева. Именно так работают библиотеки MPI при выполнении подобных операций, но воспользоваться операциями MPI во многих случаях не удается по двум причинам. Во-первых, в DVM коллективные операции могут быть неблокирующими, а в MPI они всегда блокируют выполнение процессов. Во-вторых, в DVM есть коллективные операции, отсутствующие в MPI (например, MAXLOC и MINLOC).
  3. Значительное число ядер в SMP-узлах требует для их эффективного использования применения гибридной модели программирования - модели общей памяти (OpenMP) в узлах и модели передачи сообщений (MPI) между узлами. Применение гибридной модели значительно усложняет работу программиста – ему надо знать обе модели и уметь использовать соответствующие инструментальные средства. Поэтому необходимо существенно повысить уровень автоматизации создания параллельных программ для SMP-кластеров. Были исследованы проблемы, возникающие при автоматическом преобразовании последовательных Фортран программ в параллельные программы на языке Fortran DVM, и сделан вывод о необходимости некоторой коррекции языка в части организации ввода-вывода.
  4. Для функционирования на процессорах с различным представлением данных необходимо, чтобы в DVM-программе все межпроцессорные обмены осуществлялись с точной спецификацией типов посылаемых и принимаемых данных. В настоящее время это не обеспечено. Основной причиной такого недостатка является то, что система была изначально рассчитана на использование не только MPI, но и других коммуникационных библиотек (PVM, GNS, Router), в которых типизации данных не было.
  5. Эффективное использование процессоров разной производительности требует учета их производительности при распределении вычислительной работы между процессорами. В DVM-системе это выполняется автоматически только при распределении витков циклов между процессорами, а при распределении между процессорами параллельных подзадач требует участия программиста.
  6. DVM-система не учитывает характеристики коммуникационных каналов, связывающих процессоры. Поэтому для эффективного использования систем с неоднородными коммуникационных каналами (например, метакластеров) требуется вмешательство программиста.
    1. 2.9 Разработка комплекса грид-сервисов для высокопроизводительной массовой обработки медико-биологических данных

Исполнитель – ИХФ РАН, г. Москва.

См. приложение – отчет за 2 этап по части 10 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Выбор направления исследований.

  1. Сравнительный анализ современных методов и технологий массовой обработки медико-биологических данных.

Выполнен обзор и анализ современных методов организации хранения и обработки больших объемов медико-биологических данных, методов и средств доступа к ним и представления данных пользователям. В настоящее время информационные ресурсы для хранения больших объемов медико-биологических данных построены в большинстве случаев по технологии клиент-сервер с использованием корпоративных СУБД Oracle, Microsoft SQL Server, DB2 или аналогичных по классу. При этом существующие клинические базы данных отличаются чрезвычайным разнообразием используемых схем данных. Кроме того, в медико-биологических приложениях огромную роль играют не только первичные данные, но и многочисленные производные от них данные (метаданные), фиксирующие результат обработки первичных данных экспертами. Огромное количество таких данных хранится в виде содержимого web-страниц, в том числе в виде журнальных публикаций, индексацию и аннотирование которых ведет MedLine (PubMed). В связи с этим в рамках проекта СКИФ-ГРИД для организации хранения данных и доступа к ним предлагается использовать концепцию Пространства Данных (ПД), предполагающую интеграцию слабо-связанных данных, хранящихся в разнородных распределенных информационных ресурсах, за счет использования развитых многоуровневых метаданных, формализующих и фиксирующих семантические связи межлу данными и метаданными.

Методы высокопроизводительной обработки медико-биологических данных используются в основном в задачах фармакологии (молекулярная динамика, докинг, геномный анализ) и в областях медицины, активно использующих изображения (радиология, УЗИ, МРТ и т.п). Грид-технологии активно используются при разработке средств геномного анализа и протеомики (алгоритм BLAST и его вариации, филогенетический анализ, обработка результатов спектрометрии), средств обработки рентгеновских, ультразвуковых (и других изображений) и распознавания в интересах методов неинвазивной диагностики, а также при создании средств моделирования биологических объектов большой размерности, например, для расчета моделей сосудистой системы и гемодинамики для прогнозирования результатов реваскуляризации.

С точки зрения массовой обработки медико-биологических данных наибольший интерес представляет возможность распределенного хранения и обработки результатов рентгеновских и ультразвуковых исследований, накапливаемых при скрининге населения, например, для ранней диагностики туберкулеза или рака молочной железы. Последней задаче посвящен, например, европейский проект Mammogrid, в результате которого создана инфраструктура и сервисные средства для распределенного хранения маммограмм, доступа к ним для членов соответствующей Виртуальной организации, а также возможность использования при необходимости вычислительных ресурсов сети Mammogrid для обработки снимков.

Задачи распределенного хранения, поиска и обработки рентгеновских и ультразвуковых изображений, полученные при скрининге населения для целей ранней диагностики рака молочной железы целесообразно выбрать в качестве основных при реализации комплекса грид-сервисов для высокопроизводительной массовой обработки медико-биологических данных в рамках проекта СКИФ-ГРИД, как в силу социальной значимости проблемы, так и потому, что эта задача позволяет комплексно использовать преимущества технологии грид. Эти преимущества состоят в сочетании возможности распределенного хранения данных, наличии встроенных базовых средств обеспечения информационной безопасности и возможности использования мощных вычислительных ресурсов грид-сети как при углубленном анализе отдельных результатов, так и при проведении эпидемиологических исследований.

2. Исследование и формирование набора функциональностей прикладных и системных грид-сервисов, необходимых для массовой обработки медико-биологических данных. Технические предложения по номенклатуре функциональностей грид-сервисов.

Для организации хранения больших объемов медико-биологических данных предложено использовать технологию Open Grid Service Architecture, позволяющую реализовать распределенное хранение данных в разнородных информационных ресурсах в соответствии с концепцией Пространства Данных (Data Space). Для связывания элементов Пространства Данных предложено использовать семантические характеристики данных, формализуемые с помощью XML-описаний (метамоделей). Метаданные, формируемые сервисами поиска и первичного анализа данных на основе метамоделей в виде Информационных Объектов, хранятся в распределенном Репозитории Метаописаний. Метаданные могут выступать как данные для метаданных более высого уровня, в том числе создаваемых пользователем в виде онтологий. Онтологии также используются пользователями для формализации семантических связей между данными и метаданными, их визульаного и формального представления, а также в качестве формализованного корпоративного знания в рамках Виртуальной Организации. Отметим, что первичные данные в большинстве случаев хранятся в месте их создания и права доступа к ним в рамках Виртуальной организации определяет владелец локального ресурса, что обеспечивает его права и его ответственность как с точки зрения авторских прав на данные, так и с точки зрения доступа к «чувствительным» медицинским данным.

Обработка медико-биологических даннх большой размерности выполняется по различным алгоритмам в различных областях медицины и биологии. Для фармакологии основное значение имеют методы молекулярной динамики и геномного анализа. В областях медицины, связанных с анализом изображений (радиология, УЗИ), в том числе в маммологии, наибольшее распространение имеют методы фильтрации и распознавания,. К сожалению, какого-либо метода или алгоритма, установивегося как «золотой стандарт», для этих методов в настоящее время не существует. Поэтому на данном этапе целесообразно предложить для реализации в рамках проекта СКИФ-ГРИД набор сервисов, позволяющий пользователям удобным способом запускать собственные программные средства для обработки на вычислительных ресурсах СКИФ-ГРИД любых данных, полученных из информационных ресурсов. Такие сервисы должны также обеспечивать поддержку информационной безопасности не только при доступе к данным, но и при доступе к вычислительным ресурсам. Кроме того, указанные сервисы должны дать пользователю возможность контролировать ход обработки путем информирования его в заданных точках вычислительного процесса.

Для реализации вышеперечисленных функциональностей в рамках дальнейшей работы целесообразно разработать и реализовать в рамках проекта СКИФ-ГРИД следующий набор функциональностей сервисов:

  • сервисы поддержки Репозитория метаописаний, реализованного в виде распределенной XML базы данных;
  • сервисы семантической аггрегации данных и формирования метаданных для последующего хранения в Репозитории метаописаний;
  • сервисы семантического поиска данных по метаданным, хранимым в Репозитории;
  • сервисы формирования и представления тематических онтологий, позволяющие оперировать сложными метаданными;
  • сервисы передачи данных по запросу пользователя, в том числе для обработки на высокопроизводительных ресурса СКИФ-ГРИД;
  • сервисы управления запуском пользовательских программ обработки данных, в том числе с использованием механизма информирования пользователя в контрольных точках процесса;
  • сервисы визуализации метаданных и онтологий;
  • сервисы визуализации изображений (в формате DICOM), используемых при диагностике рака молочной железы.

Перечисленные сервисы должны быть разработаны как кросс-платформенные, либо в виде Java-сервисов, либо в виде достаточного набора платформо-зависимых программных средств.

    1. 2.10 Суперкомпьютерная разработка лекарств

Исполнитель – НИВЦ МГУ, г. Москва.

См. приложение – отчет за 2 этап по части 11 Технического задания к контракту СГ-2/07 от 16.07.2007 г.

Содержание этапа 1.

Согласно Календарному плану на Этапе 1 в период с 30 июля по 30 сентября 2007 г. запланировано выполнение следующих работ:

  • Составление перечня проблем, которые надо решить, для адаптации работы ПК Keenbase совместно с внешними вычислительными кластерами.
  • Исследование принципов построения и архитектуры программного комплекса, определение эффективных технологий взаимодействия систем семейства СКИФ, определение интерфейсов взаимодействия с программным обеспечением базового уровня суперкомпьютеров СКИФ.

ПК Keenbase, его архитектура и принципы построения

Назначение ПК Keenbase

Основой нового лекарства во многих случаях является органическая молекула-ингибитор, избирательно связывающаяся с определенным активным центром белка-мишени, который ответствен за данную болезнь. Ингибитор блокирует вредное функционирование белка-мишени и излечивает болезнь. Например, белок-мишень может принадлежать вирусу, и его блокирование позволяет сделать невозможной репликацию вируса в организме. Поиск таких молекул-ингибиторов для заданного белка-мишени и составляет начальный этап разработки нового лекарства. Быстрое и эффективное решение этой задачи в значительной степени определяет минимизацию материальных затрат и продолжительность последующих этапов разработки нового лекарства.

Существенно сократить затраты времени и средств на этапе поиска ингибиторов можно с помощью методов компьютерного молекулярного моделирования in silico.

Программный комплекс Keenbase представляет собой Веб-ориентированную платформу для решения задач молекулярного моделирования новых лекарств с использованием технологий распределенных вычислений. ПК Keenbase предназначен для выявления из коллекции химических структур набора соединений, избирательно взаимодействующих с определенным участком белковой макромолекулы, и удовлетворяющих определенным критериям, позволяющим исключить токсичные соединения. Центральное место в системе Keenbase играет программа докинга SOL, позиционирующая молекулы-лиганды в активном центре заданного белка-мишени путем поиска положения, соответствующего наибольшему значению свободной энергии связывания лиганда с белком. При этом дается оценка (скоринг) энергии связывания лиганда с белком. Для работы этой программы используется трехмерная структура белка-мишени (т.е. координаты всех атомов белка-мишени) и информация об его активном центре. Для позиционируемых молекул-лигандов должна быть задана 3D-структура, т.е. координаты всех атомов реального конформера молекулы. Программа SOL осуществляет докинг гибких лигандов в жесткий активный центр заданного белка и состоит из двух независимых исполняемых модулей. Первый модуль по 3D-структуре белка и информации о положении и размере его активного центра создает сетку потенциалов, учитывающих энергию электростатического и Ван–дер–Ваальсового взаимодействия между белком и лигандом, отдельные компоненты внутренней энергии лиганда, а также влияние растворителя (т.е. воды) в рамках упрощенного Обобщенного Борновского приближения. Размер такой моделирующей активный центр белка сетки потенциалов составляет около 200 MB, и для ее создания требуется около 10 часов процессорного времени. Второй модуль программы SOL осуществляет докинг, т.е. позиционирование, гибких лигандов в сетку потенциалов путем поиска глобального минимума энергии с учетом внутренней энергии лиганда. Для поиска глобального минимума используется генетический алгоритм. Результаты валидации программы SOL представленые на сайте www.keenbase.ru, показывают высокое качество докинга 0.5-1.5 для лигандов, имеющих до 12 торсионных степеней свободы. Продолжительность докинга высокого качества данного лиганда зависит от количества входящих в него атомов и количества торсионных степеней свободы и может требовать от нескольких минут до нескольких десятков часов времени одного процессора.

Система Keenbase предназначена для компьютерного перебора (скрининга) баз данных молекул-лигандов, с целью выявления тех молекул, которые наиболее сильно связываются с ативным центром белка-мишени. Лиганды, для которых оценка энергии связывания дает наибольшую отрицательную величину, считаются наилучшими кандидатами в ингибиторы данного белка-мишени.

С математической точки зрения задача докинга сводится к поиску глобального минимума на сложной энергетической поверхности. С физико-химической точки зрения должно проводиться моделирование межмолекулярного взаимодействия в водных растворах, принимая во внимание как энтальпийную, так и энтропийную составляющую свободной энергии связывания. Сущность вычислительного аспекта проблемы заключается в высокой точности (1-2 kcal/mol или 0.05-0.1 эВ), с которой необходимо проводить расчеты, и потребности в высокопроизводительной вычислительной системе, которая позволит оперативно проводить расчеты тысяч соединений при возможных затратах процессорного времени до нескольких суток на одно соединение на одном процессоре.

Принципы построения и архитектура ПК Keenbase

В процессе работы с Keenbase пользователь должен либо выбрать белок-мишень из уже существующей в Keenbase базы данных, либо закачать свой белок-мишень в определенном формате, а также закачать в систему набор лигандов, для которых требуется определить энергию связывания с выбранным белком-мишенью.

Общая схема работы системы Keenbase приведена на Рис. 1. Основным процессом работы системы является расчет энергии взаимодействия лигандов с активным центром белка.

Рис. 1. Общая схема работы системы Keenbase

До начала вычисления энергии взаимодействия белка с лигандом проводится определенная подготовка лигандов и белка-мишени. Эта подготовка включает в себя процедуру типизации атомов лигандов и белка-мишени в соответствии с правилами используемого силового поля MMFF94. На основе этой типизации вводятся потенциалы межатомных взаимодействий, соответствующих силовому полю MMFF94. В подготовку белка-мишени входит также определение его активного центра: размер области, в которую будут позиционироваться лиганды, и ее положение в белке-мишени. Кроме того, необходимо сделать выбор параметров докинга, определяющих особенности работы генетического алгоритма.

Схема использования системы Keenbase приведена на Рис. 2. Система Keenbase состоит из двух модулей - управляющего и расчетного. Доступ к системе Keenbase осуществляется посредством Веб-интерфейса. Для этого пользователям системы необходим доступ по протоколу TPC/IP к управляющему модулю. Таким образом пользовательские компьютеры могут находиться как в глобальной сети Интернет, так и в локальной сети организации. Система распределенных вычислений позволяет использовать расчетный модуль в параллельном режиме, ускоряя процесс вычислений.

Рис. 2. Схема использования системы Keenbase

Управляющий модуль осуществляет полный контроль системы. В его состав входит система программ, обеспечивающая функционирование создаваемой системы на веб-сервере НИВЦ МГУ. С помощью веб-сайта в систему Keenbase осуществляется ввод данных, ввод параметров расчетных программ, просмотр результатов вычислений, загрузка найденных соединений, использование различных фильтров и управление ходом вычислений. Пользователи, используя в качестве Веб-интерфейса Интернет браузер, например Internet Explorer, управляют вычислениями через интерактивный сайт системы Keenbase. У каждого пользователя, работающего с системой, существует виртуальный кабинет, в котором хранится в защищенном режиме вся его информация, такая как структуры данных, состояние и настройка системы. Для получения доступа к личному виртуальному кабинету, необходимо зарегистрироваться на веб-сайте системы Keenbase, получив логин и пароль. При работе пользователя в личном кабинете происходит автоматическое электронное документирование действий пользователя.

Определение интерфейсов взаимодействия с программным обеспечением базового уровня суперкомпьютеров СКИФ

Определение эффективных технологий взаимодействия систем семейства СКИФ



Pages:     || 2 |
 



<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.