Министерство образования и науки Российской Федерации
Национальный фонд подготовки кадров
Барнаульский государственный педагогический университет
Создание электронной библиотеки образовательного учреждения
учебно-методическое пособие
Барнаул-2004
УДК | Печатается по решению Ученого совета Барнаульского государственного педагогического университета |
ББК |
Создание электронной библиотеки образовательного учреждения Сост.: Д.П. Тевс, В.А.Петров, М.В. Кузнецова, Н.И. Голубицких, Е.Р.Ярославцева, А.А.Данькин, В.В.Печатнов, К.В.Головишников, Н.И.Юртаев, Т.Н. Иванова – Барнаул: Изд-во БГПУ, 2004. – 129 с.
Редактор: С.Д. Каракозов, канд. физ.-мат. наук, профессор
Рецензенты: Н.И.Рыжова, докт. пед. наук, профессор, С.А.Жданов, канд. физ.-мат. наук, профессор
Учебно-методическое пособие ориентировано на работников библиотек образовательных учреждений Алтайского университетского округа в условиях создаваемой распределенной библиотечной среды.
Учебно-методическое пособие рекомендуется использовать при подготовке к лекционным, практическим и лабораторным занятиям, а также для самостоятельного изучения работы по созданию электронной библиотеки образовательного учреждения.
©Издательство БГПУ, 2004
Содержание
Часть 1. Полнотекстовые базы данных 4
Тематическая навигация в полнотекстовых базах данных 9
Российские и зарубежные полнотекстовые базы данных 11
Мультимедиа и полнотекстовые базы данных 22
Получение полнотекстовых баз данных 24
Часть 2. Способы описания электронных ресурсов 25
Описание мета-информация информации 25
Основные системы метаданных 27
Формат описания ресурсов Dublin Core Metadata Element Set 29
Описательные метаданные 32
Структурные метаданные 33
Часть 3. Средства подготовки электронных изданий 35
Введение 35
Основные форматы хранения электронных документов 36
Описание структуры хранения полнотекстовых электронных документов 40
Технология подготовки и размещения полнотекстовых электронных документов в сети Internet (на основе опыта НБ БГПУ) 41
Программно–технические средства, необходимые для подготовки полнотекстовых электронных документов 41
Часть 4. Сканирование и распознавание образов 42
Обработка сканированных изображений 52
Работа с редактором DjVU Solo. 55
Просмотр электронных документов в формате DjVU 61
Часть 5. Информационная структура современной библиотеки 61
Общая информационная структура библиотеки 61
Анализ требований и разработка структуры базы данных 68
Методы организации хранения и поиска электронных изданий 69
Технологические аспекты создания электронного каталога 72
Часть 6. Виртуальный мир книги и его особенности. 81
Некоммерческие электронные библиотеки 82
Представительство крупных библиотек в Интернете 83
Часть 7. Электронные учебные публикации 93
Часть 8. Региональная база данных учебных материалов 105
Часть 9. Авторские права электронных публикаций 117
Список рекомендуемой литературы 124
Приложение 1 126
Часть 1. Полнотекстовые базы данных
В конце 20-го века информация становится одним из главных ресурсов человечества. Одно из определений 21-го века - век информации. Поэтому создание, сохранение, эффективное использование, развитие информационных ресурсов является одной из основных задач общества и государства.
Благодаря бурному развитию средств передачи данных, компьютерной техники, программного обеспечения, Интернет уже сегодня существуют множество баз данных (БД), в том числе полнотекстовых, на CD-ROM' ах и в Интернет, в сети находятся также огромное число страниц книг, газет, журналов, и их количество растет. Но уже сейчас имеются проблемы рационального использования информации - нет унифицированного доступа к ней, разнообразны способы ее хранения и распространения.
Виртуальная среда, обеспечивающая быстрый и надежный доступ к ресурсам, позволила первыми оценить преимущества Интернет компании, специализирующейся на производстве и продаже различного рода баз данных. Созданием подобных баз с начала 80-х годов занималось множество зарубежных корпораций, главным продуктом которых была информация. Существовали фактографические базы данных, содержащие фактические сведения (прежде всего статистику), библиографическую информацию (сведения о документах) и полнотекстовые (полные тексты книг и статей из газет, журналов и сборников). Среди наиболее известных производителей и поставщиков баз данных в "доинтернетовский" период выделялись LEXIS/NEXIS, Dialog, Silver Platter, EBSCO Information Services, STN Internetional, H.W.Wilson, UMI (ныне ProQuest). Информационные продукты доставлялись пользователям на магнитных лентах, посредством модемной связи, а со второй половины 80-х годов - на CD-ROM.
Из всего перечня представленных в сети информационных продуктов наибольший интерес представляют полнотекстовые базы данных - текстовые базы первичных данных, содержащие полные тексты документов (ГОСТ 7.73—96). В них содержатся тексты книг, статей из журналов, газет и сборников, сообщения информационных агентств, аналитические отчеты различных учреждений и другие документы. Документом, в свою очередь, является единица хранения информации в полнотекстовой базе данных, представляющая собой логически завершенную часть данных о событиях и фактах имеющих информационный характер, литературно-публицистические произведения или логически завершенные части таких произведений, статьи, обзоры и проч. Документ имеет однородную структуру и является текстовым файлом.
Число и отраслевой спектр полнотекстовых электронных собраний постоянно расширяется. Если в 60-е годы их создание начиналось с правовой и экономической областей, в 80-90-е года были освоены естественные, точные и наиболее динамично развивающиеся гуманитарные дисциплины, то в настоящее время очередь дошла до коллекций редких и старопечатных книг, полных собраний сочинений античных и средневековых авторов, поэтических антологий и подобных этому материалов.
Какие печатные издания переводятся в электронную форму? С одной стороны, это редкие и старые издания, региональные издания. С другой стороны, это книги наибольшего читательского спроса - энциклопедии, словари, учебная литература, художественная литература. В Интернет и в базы данных оперативно вводятся документы государственных органов - законы, постановления, инструкции и т.д. Научных и технических изданий в Интернет немного, но в Интернет и на CD-ROM'ах есть доступ к коллекциям научно-технических и медицинских журналов.
Полнотекстовые тематические ресурсы на своих страницах размещают многие институты, организации, а также частные лица, по различным отраслям - экономике, политике, сельскому хозяйству, медицине, педагогике, психологии, философии, религии, лингвистике, литературоведению, культурологии, истории, мифологии и т.д.
Разнообразны ресурсы по культуре - сказки, мифы, художественные альбомы, выставки.
Возможности электронных ресурсов позволяют по-новому представить религиозную литературу - есть возможность поиска по любому слову из Библии или Корана.
Среди учебных ресурсов - один из самых популярных сегодня - база данных рефератов, курсовых, дипломов. Эта база данных существует и на CD-ROM'ах, и ежедневно пополняется через Интернет более чем на 100 адресах.
Для традиционных библиотек получение доступа к полнотекстовым базам в значительной степени меняет подходы к информационной работе в целом, так как позволяет пользователям обходиться без обращения к печатным оригиналам изданий, и, следовательно, избавляет потенциальных клиентов от необходимости физического посещения библиотек.
Каждую секунду в сети появляются новые материалы, какая-то их часть по разным причинам удаляется с серверов, другая - меняет адресацию. Это постоянное обновление с одновременным ростом объема информационного массива делает крайне сложным учет всех или, по крайней мере, большинства документов, существующих в Интернет. По оценкам, средний срок нахождения информации по конкретному адресу - полгода. На сегодняшний день насчитывается около 1 900 000 серверов в Интернет.
Таким образом, сведения, представляющие огромную ценность часто остаются невостребованными пользователями по единственной причине трудностей их разыскания. Ситуация в данном случае очень напоминает известную задачу поиска иголки в стоге сена. Важность проблемы информационного поиска в Интернет породила целую отрасль, задача которой заключается именно в том, чтобы помочь пользователю в его навигации в киберпространстве.
Средства поиска информации
Инструментов для поиска информации в Интернете, построенных на разных принципах и преследующих разные цели, существует немало.
Реализация поисковых систем всегда подразумевает следующие компоненты:
- перемещение по сети (паук или кроулер), и сбор информации;
- база данных (индекс), содержащая информацию, собираемую пауками;
- поисковый механизм (интерфейс) для взаимодействия с базой данных;
- упорядочивание (ранжирование) результатов поиска.
По принципу организации и использования поисковые системы Интернет подразделяются на:
- поисковые машины (автоматические индексы);
- каталоги (справочники, директории);
- метапоисковые Web-узлы (которые посылают запросы сразу на несколько поисковых серверов).
Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии или неучастии человека.
И поисковые машины, и каталоги могут быть общими или специализированными. Специализация в свою очередь может быть региональная или тематическая.
Каталоги ресурсов – глобальные, локальные, специализированные.
Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т. д.), где каждая тема разветвляется на несколько подуровней, то есть имеют иерархическую структуру, перемещаясь по которой, можно найти нужный объект. Для пользователя получение информации о ресурсе из известного каталога всегда является некоторой гарантией достоверности.
Но, так как каталоги создаются вручную, они охватывают намного меньше ресурсов, чем поисковые машины.
Поисковые машины, или автоматические индексы – глобальные, локальные, специализированные.
Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Компактные копии документов, известных серверам поисковых систем, хранятся на локальном диске. Задача поисковых машин - вести поиск по ключевым словам из полных текстов web-документов, то есть проводить детальное максимальное разыскание информации в электронной вселенной.
В отличие от справочников, все они функционируют полностью в автоматизированном режиме, имеют одинаковый принцип деятельности и состоят из двух основных блоков. Первый блок представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и передавать их на свой базовый компьютер.
Чаще всего роботы просматривают серверы самостоятельно, находя новые внешние ссылки, в уже обследованных документах, действуя, таким образом, по известной методике "снежного кома". Выявленные документы обрабатываются вторым блоком поисковых машин. При этом учитывается все содержание страниц, зачастую даже не только полный текст, но и наличие иллюстраций, аудио- и видео- файлов, Java-приложений.
Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Выдача результатов осуществляется с помощью специальной подсистемы, которая производит интеллектуальное ранжирование результатов, опираясь в своих расчетах на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице. По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности.
Из популярных средств русскоязычного поиска можно назвать серверы Яndex, Апорт и Rambler, индексирующие десятки тысяч серверов и десятки миллионов документов. Из зарубежных серверов популярны Altavista, Excite, Hotbot, Lycos, WebCrawler, OpenText.
Яndex - Поисковая машина последнего поколения, являющаяся к настоящему времени самой объемной: количество обследованных серверов превышает 239 434, а число учтенных оригинальных документов 30 879 447. Помимо серверов доменов "ru" и "su", Яndex индексирует содержание зарубежных русскоязычных web-узлов, а также серверов СНГ. Яndex безусловно располагает самой мощной и сложной системой составления запросов: пользователю предлагается несколько вариантов поиска, в которых легко запутаться. Более чем какие-либо другие системы, Яndex приспособлен для задания запросов на естественном русском языке. В этом случае запрос формируется путем простого ввода терминов или целой фразы в поисковую строку. Поисковый механизм сам производит расширения (падежи, числа, склонения), исключает "стоп-слова", анализирует расстояние терминов друг от друга и пр. В списке результатов ссылки снабжаются сведениями о том, есть ли в документе совпадение фразы или же все введенные термины.
Рамблер - единственный в российском Интернет портал, объединивший поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Ресурсы портала регистрируют ежесуточно более 3,5 млн. посещений, а ежемесячная аудитория Рамблера составляет 60-70% всех пользователей Рунета. Только поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ. Рамблер обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем - 5 запросов в секунду), сканируя 48 тысяч web-серверов и используя несколько одновременно работающих программ-роботов. Все проекты Интернет-холдинга реализованы на базе собственных технологических разработок.
На сегодняшний день Апорт (http://www.aport.ru/) является одним из ведущих отечественных поисковых систем. Обновленная версия представляет собой медиа-портал нового поколения, сочетающий в себе девять информационно-развлекательных тематических разделов, каталог отобранных интересных ресурсов Интернет и ряд полезных сервисов, в числе которых поисковая машина Апорт, форумы, подписки и многое другое.
Создатели выработали четкую политику отражения материалов: учитываются российские или содержательно относящиеся к России ресурсы, а также сайты стран ближнего зарубежья, включая Прибалтику. К сервисным функциям системы относится возможность сортировки ссылок в рубриках по дате поступления в алфавите названий, по популярности, местоположению, доступности, а также по лиге, к которой относятся сайты.
Существуют "любительская", "профессиональная", "высшая" и "элитная" лиги, хотя во многом они представляют субъективный взгляд создателей каталога. Специальная функция "Тропы" позволяет получить нечто вроде обзора серверов конкретной тематики.
Другие поисковые системы и каталоги можно найти с помощью уже известных каталогов в разделах "Интернет - поисковые системы (каталоги)". Помимо универсальных поисковых серверов в Интернет уже существует множество тематических указателей ресурсов. Их также можно найти в соответствующих разделах. Например: "Деловой Интернет" (http://www.delovoy.spb.ru). Проект создавался как бизнес-центр, аккумулирующий в себе информацию о ресурсах Интернет по экономике, финансам, менеджменту, маркетингу. Проект рассчитан на всех, кто в той или иной мере интересуется вопросами экономики, менеджмента, маркетинга, ведет поиск партнеров по бизнесу. В рамках проекта действует каталог ссылок. Развивается и пополняется раздел, содержащий аналитическую информацию, статьи по экономике, менеджменту, маркетингу. Действует ежемесячная новостная рассылка (~600 подписчиков).
Полнотекстовые базы данных обеспечивают для клиентов высокий уровень сервиса. Поисковый механизм позволяет осуществлять многоаспектный поиск с возможностью сочетания данных из разных полей. Разыскание может осуществляться по отдельным словам, словосочетаниям и точным фразам. Результаты поиска выдаются в виде списка библиографических записей с указанием всех необходимых элементов. Существует возможность формирования из общего перечня списка релевантных документов.
Тематическая навигация в полнотекстовых базах данных
Вследствие постоянного роста количества полнотекстовых документов, представляемых в электронном виде, появляется все больше новых методов навигации в информационных массивах. Сейчас текстовую информацию обычно представляют в форме гипертекста, отличающегося возможностью интерактивной работы с материалом и многомерностью его представления. При этом конкретные реализации гипертекста различаются как способом установления связей, так и формой визуального отображения, начиная с простейших видов систем вроде Web-страниц, справочных или программируемых, в которых используется переход по тексту посредством жестко задаваемых разработчиками приемов, и, заканчивая «интеллектуальными» электронными книгами, где каждое слово сопровождается веером раскрывающихся гиперссылок, представляемых понятиями, связанными по смыслу.
Создание поисковых машин в Интернет и увеличение объемов публикуемой информации стимулировали развитие гипертекстовых средств нового поколения, иначе называемых тематическими навигаторами. Системы с подобными средствами позволяют передвигаться по связанным тематическим категориям (рубрикам), а к каждой из них может быть отнесено множество текстов, близких по содержанию. С помощью лучших из таких навигаторов можно определить темы, объединяющие нужные тексты (например, содержащие определенные слова), а затем передвигаться по этим темам.
Все известные тематические навигаторы подразделяются на две категории. Навигаторы, относящиеся к первой категории, имеют жестко заданную структуру с априори установленными темами и связями между ними. В таких навигаторах используется заранее определенный рубрикатор с иерархической структурой категорий, отражающий общепринятый набор областей знаний. Нижние ветви рубрикатора обычно включают в себя классы слов языка, относящиеся к определенным темам. Подобные навигаторы могут автоматически распределять все входящие тексты по соответствующим тематическим рубрикам и подсчитывать, на какие из ветвей приходится больше слов из текста. Однако рубрикатор стандартной структуры отражает лишь наиболее очевидные связи между темами, а они малоинтересны, поскольку не открывают новой информации.
Для создания навигаторов второй категории требуется участие экспертов для формирования структуры тем на основе анализа содержания собрания текстов. Здесь гипертекстовая структура обычно представляет собой семантическую сеть, связи которой показывают актуальное строение текстов с семантической точки зрения. Такие навигаторы из-за высоких затрат на разработку, требующую привлечения «ручного» труда, обычно предназначаются для небольших собраний текстов в узкой предметной области.
Технология тематического поиска предназначена для эксплицирования скрытой в документах информации, относящейся к запросу пользователя, и ее структурирования по темам. Основной отличительной особенностью технологии является ориентация на поиск фактов различной природы, имеющих в документах некую смысловую связь со словами запроса и представляющих объекты возможного интереса пользователя. Функция извлечения документов по факту является вторичной по отношению к функции отбора фактов.
Тематический поиск позволяет найти темы, связанные по смыслу со словами запроса или с заданной темой в коллекции документов, и получить документы, раскрывающие выбранную тему или взаимосвязь нескольких тем. Понятие “тема” в данном контексте обозначает ключевые объекты произвольной природы, описываемые в документах, например: различные наименования, события, понятия и т.п. Выявление тем основано на наших технологиях автоматического анализа содержания текста.
Например, в ответ на запрос "нефть" можно получить следующий список тем: "добыча нефти", "экспорт нефти", "государственная нефтяная компания Азербайджана", "Азербайджан", "Ангарский НХК", "топливные компании", "ЮКОС" и т.д.
Возможности тематического поиска могут оказать большую помощь в случае, если пользователь затрудняется точно подобрать ключевые слова, или же, если он хочет сузить область поиска, уточнив тематику новыми объектами, по которым следует искать документы. Поиск по теме обладает более высокой точностью и полнотой по сравнению с простым контекстным поиском. Так, если контекстный поиск находит все документы, содержащие заданные слова, то тематический поиск возвращает лишь те документы, в которых словам запроса соответствует одна из ключевых тем. Кроме того, он позволяет найти документы, вовсе не содержащие слов из названия заданной темы, однако имеющие к ней отношение. Дополнительно тематический поиск позволяет найти документы, близкие по содержанию к заданному, на основании сравнения ключевых тем документов.
Российские и зарубежные полнотекстовые базы данных
По всем миру создано много независимых ЭБ. Они придерживаются различной политики и базируются на различных компьютерных системах. Рассмотрим конкретные примеры полнотекстовых электронных библиотек.
Рассмотрим конкретные примеры полнотекстовых электронных библиотек.
Начнем с энциклопедий и словарей. Связь между Интернетом и энциклопедией гораздо более глубока, чем это может показаться при поверхностном взгляде. Интернет вырос из Энциклопедии, воспользовавшись выработанными ею принципами структурирования больших объёмов информации.
В Интернет и на CD-ROM' -ах размещены сегодня уже сотни ресурсов, называющих себя энциклопедиями. Но на это название часто претендуют полнотекстовые электронные издания, полно освещающие какой-то предмет.
Мы будем рассматривать энциклопедии в классическом понимании.
В Интернет энциклопедии также подразделяются по видам по тематике: универсальные (общемировые), отраслевые, региональные, биографические, в т.ч. персональные (например, «Лермонтовская»), проблемные или узко отраслевые, прочие (ориентированные на определенные группы читателей).
В Интернет существуют порталы энциклопедий. Один из них - Рубрикон.
http://www.rubricon.ru
РУБРИКОН — информационно-энциклопедический проект компании «Русс портал», в рамках которого пользователь впервые получает одновременно удобный инструмент поиска лучших ресурсов сети Интернет и свободный доступ к полным электронным версиям важнейших энциклопедий и словарей, изданных за последние сто лет в России. Рубрикон — это информационно-справочная система, объединяющая энциклопедии, каталог ссылок на страницы Интернета и статьи из журнальной периодики, а также ряд дополнительных информационных сервисов. Главными отличиями Рубрикона от аналогов являются крупнейший в мире массив энциклопедических данных и одновременный поиск по всем имеющимся информационным ресурсам.
http://www.rubricon.ru/bie_1.asp
Энциклопедический словарь Брокгауза и Ефрона.
Подборка из 5 334 статей «Энциклопедического словаря Брокгауза и Ефрона», подготовленная в современной орфографии и впервые опубликованная на CD-ROM компанией «Аутопан» в 1998 году (около 15% от общего количества статей 86-томного издания, выходившего в 1890-1907 годах). В некоторых случаях статьи брались из второго, незаконченного издания (1911-1916, из запланированных 48 томов вышли 29, последнее слово - «Отто»).
Проект "Мир энциклопедий" находится на сайте
http://www.encyclopedia.ru/
Включает универсальные, отраслевые, региональные, специальные и персональные он-лайн энциклопедии.
Среди универсальных - энциклопедия Кирилла и Мефодия и ALL-IN-ONE.
ALL-IN-ONE - это справочник, носит энциклопедический характер и позволяет быстро и легко получить числовую и фактическую информацию практически по всем сферам человеческой деятельности. Помимо чисто научной информации здесь можно найти немало просто интересных фактов и сопоставлений. Разделы: Число и измерение. Вещество и поле. Вселенная Земля. Живая природа. Человек. Культура.
При написании использованы материалы справочников "Альфа и Омега", "Природопользование", Химическая энциклопедия, Философский энциклопедический словарь, Международная система единиц СИ, Математический словарь, Малый атлас мира, Справочник необходимых знаний.
http://students.informika.ru/enen/
Энциклопедия Энциклопедий - проект Сервера Российского Студенчества,
направленный на составление первой в мире наиболее полной Энциклопедии всех энциклопедических ресурсов российского и мирового Интернет для российских студентов и всех других категорий пользователей.
Из англоязычных энциклопедий - Энциклопедия Britannica.
Сетевой вариант самой авторитетной мировой энциклопедии. Содержит более 72 тысяч статей по всем отраслям знания. Актуализируется ежегодно. Результаты поиска включают не только тексты из энциклопедий, но и ссылки на ресурсы Интернет, а также избранные журнальные публикации. Статьи снабжены гиперссылками к другим разделам энциклопедии. Во многих случаях представлены иллюстрации, таблицы, видеофайлы.
http://www.britannica.com
Научная электронная библиотека
Доступ к базам:
Academic Press (база по различным отраслям науки)
World Scientific (база по различным отраслям науки)
EBSCO(только около 1200 журналов)
MEDLINE (медицинская база)
CANCERLIT (медицинская база)
AIDSLINE (медицинская база)
EMBASE ALERT (медицинская база)
EMIS (база по математике)
Zentralblatt MATH (база по математике)
журналы издательства KLUWER, SPRINGER, BLACKWELL (по всем направлениям фундаментальных наук)
журналы Royal Society of Chemistry (химия)
Institute of Physics (физика)
Журналы издательства ИНИОН РАН(на русском языке)
Журналы Российских издательств.
URL: http://www.elibrary.ru
Электронные библиотеки художественной литературы.
Электронных библиотек на русском язык уже существует немало. Они
создаются и в России, и в странах СНГ, и в дальнем зарубежье.
По меркам обычных библиотек, электронные библиотеки содержат не так уж и много документов - до 50 тысяч. Однако создание и поддержание таких библиотек требует значительных ресурсов.
Рассмотрим некоторые из них.
- Библиотека Максима Мошкова.
Самая известная в Рунете электронная www-библиотека, открыта в 1994. Читатели ежедневно пополняют ее. Художественная литература, фантастика и политика, техдокументация и юмор, история и поэзия, КСП и русский рок, туризм и парашютизм, философия и эзотерика, и т.д. и т.п.
Библиотека Мошкова имеет 55 зеркал. В библиотеке есть проза, переводы, поэзия, фантастика, детективы, история, старинная литература, детская и приключения, научная, компьютерная литература, учебники, и литература, специально для библиотекаря.
Тексты введены в большинстве случаев в простейшем ASCII формате.
Ряд литературных проектов создан автономной некоммерческой организацией "Поддержка культурного наследия". На текущий момент к этим проектам относятся:
Стихи.ru - национальный сервер современной поэзии.
Проза.ru - национальный сервер современной прозы.
Литер.ru - национальная литературная сеть.
Классика.ru - библиотека русскоязычной литературы.
ПИИТЕР - Лито города Санкт-Петербурга.
Русская культура XX века - антология литературных музеев. Полдень, XXI век - журнал современной русской фантастики под редакцией Б. Стругацкого. Выбор произведений возможен по автору, по хронологии, есть рейтинги произведений по количеству читателей, есть случайные произведения. Во всех проектах также есть рецензии, дискуссии, чат. http://lib.ru
- Классика.Ru - электронная библиотека классической литературы.
Большая коллекция русской поэзии и прозы, а также биографии авторов.
На сайте представлено 2878 произведений 144 авторов.
Проза: Авторы и произведения. Авторы по хронологии. Рейтинг произведений по количеству читателей. Случайное произведение.
Поэзия: Авторы и произведения. Авторы по хронологии. Рейтинги.
Случайное произведение. Энциклопедия поэзии.
Учебник стихосложения.
Об авторах: Биографии.
http://www.klassika.ru:8014/
- Проза.ru - национальный сервер современной прозы.
http://www.proza.ru/
- Стихи.ru - национальный сервер современной поэзии.
http://www.stihi.ru/
- Литер.ru: национальная литературная сеть.
http://www.liter.ru:8002/
- Русская виртуальная библиотека.
Целью Русской виртуальной библиотеки (РВБ) является электронная публикация классических и современных произведений русской литературы по авторитетным источникам с приложением необходимого справочно-комментаторского аппарата.
Культурное и научно-образовательное значение проекта состоит, прежде всего, в том, что пользователи получают доступ к научно выверенным текстам произведений русской литературы, снабженным профессионально подготовленным справочным аппаратом, который в полной мере учитывает новейшие достижения филологической науки и соответствует требованиям современного гуманитарного образования. Деятельность РВБ нацелена на расширение и усиление академического сектора русского Интернет.
Публикации, осуществленные в рамках РВБ, представляют вклад в развитие современной филологии и должны учитываться при подготовке будущих академических собраний сочинений русских авторов.
http://www.rvb.ru/
Образовательные проекты в Интернет.
На русском языке в сети в свободном доступе присутствует незначительное количество полнотекстовых учебников. Но более чем на 100 серверах размещены коллекции рефератов, курсовых, дипломов, там есть и учебники.
Специализированный информационно-образовательный портал "Гуманитарные науки" создается в рамках Федеральной целевой программы "Развитие единой образовательной информационной среды (2001-2005 годы)" (ФЦП РЕОИС) как часть единой сети порталов российского образования. Основой для создания данного портала является информационно-образовательный портал Auditorium.ru, работы над которым ведутся с конца 2001 года по инициативе и при финансовой поддержке Института "Открытое общество" (Фонд Сороса) - Россия.
Цель проекта - способствовать развитию образования и научных разработок в сфере общественных и гуманитарных наук в России путем совершенствования информационного обеспечения учебного, учебно-методического и научного процессов на основе новых информационных технологий.
Разделы библиотеки: История. Философия. Социология. Право. Экономика. Психология. Филология (Языкознание). Филология (Литературоведение). Международные отношения. Политология. Культурология. Педагогика и теория образования. Востоковедение и африканистика. Гендерные исследования. Другие направления социально-экономического и гуманитарного знания.
Журналы.
Типы публикаций
Авторефераты. Аннотации. Аудиоресурсы. Дипломы. Диссертации докторские. Диссертации кандидатские. Доклады. Журналы. Исторические документы. Коллективные монографии. Курсы лекций. Материалы конференций. Методические пособия. Методические рекомендации. Научные монографии. Обзоры научно-аналитические. Планы семинарских занятий. Пособия для учащегося. Пособия для учителя. Проверочные задания. Программы для высшей школы. Программы для средней школы. Реферативные сборники. Рефераты. Сборники докладов. Сборники документов. Сборники избранных работ. Сборники статей. Словари. Собрания сочинений. Справочники. Статьи. Учебники для вузов. Учебники для средней школы. Учебные пособия для вузов. Хрестоматии. Энциклопедии. Эссе, очерки. Юридические документы.
Полные тексты доступны для зарегистрированных пользователей.
http://www.auditorium.ru/aud/about/index.php
- Федеральный общеобразовательный и специализированные порталы
Образовательный портал по экономике, менеджменту и социологии. Образовательный портал по юридическим наукам
Портал «Социально-гуманитарное и политологическое образование»
Естественно-научный образовательный портал (физика, химия, биология)
Портал «Педагогика общеобразовательной школы»
Типы документов:
Учебные планы и программы. Учебные и учебно-методические материалы. Научные и официальные материалы. Курсы лекций. Практические задания, тестирование. Иллюстративный материал. Учебная и научная литература. Специальная литература. Библиография. Ссылки на библиотеки. Периодические электронные издания. Студенческие рефераты. Курсовые и дипломные работы. Диссертации. Биографии ученых. Ведущие преподаватели. Образовательные и научные центры. Государственные и муниципальные органы власти. Статистические данные. Аналитические обзоры. Научные, научно-практические конференции, семинары и симпозиумы. Ссылки на форумы, - конференции, чаты.
http://www.edu.ru/db/portal/sites/portal_page.htm
- Базы данных ИНИОН
Комплекс баз по гуманитарной тематике. Всего отражено более 1,2 млн. записей, и массив регулярно пополняется. Дополнительной платной услугой является электронная доставка полных текстов документов.
URL: http://www.inion.ru/product/db.htm
- Университетская информационная система РОССИЯ
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и поддерживается как база электронных ресурсов для исследований и образования в области экономики, социологии, политологии, международных отношений и других гуманитарных наук и с 2000 года открыта для коллективного доступа университетов, вузов, научных институтов РФ и специалистов.
Условия доступа: доступ по свободной регистрации через Интернет дает возможность пользователю искать и просматривать аннотации по всем коллекциям, но получать полные тексты документов только из коллекций, разрешенных правообладателями для свободного доступа. Доступ с ограниченными полномочиями открыт без регистрации. При этом пользователь может производить поиск и просматривать аннотации по коллекциям, разрешенным правообладателями для свободного доступа. Просмотр документов возможен только для ограниченного круга коллекций.
URL: http://www.cir.ru
Зарубежные базы данных
- Global Books in Print
Global Books in Print - ведущая международная база данных, содержащая более 9.2 млн. названий книг из всех стран мира, включая книги на аудио- и видеокассетах (имеющихся в продаже, распроданных, доступных по предварительному заказу). В состав базы данных Global Books in Print интегрированы так же: Bowker's Publishers (более чем 300 000 издательств) Bowker's Autor Biography Bowker's Awards (литературные премии) Bowker's Bestsellers. И что очень важно, база данных содержит 1.4 млн. полных текстов обзоров (ABSTRACTS), дающих представление о том, что именно и по какой тематике вышло в свет за последнее время. Данная база имеет четко отлаженную систему поиска по более чем 40 критериям, которые можно свободно комбинировать.
URL: http://www.globalbooksinprint.com
- EJS(Electronic Journal Service)
Базы: MasterFILE Premier из EBSCO Publishing(полные тексты) В EJS загружены 10 тысяч наименований журналов. В этой системе пользователь получает возможность вести библиографический и реферативный поиск по разным журналам, статьям, тематикам, а также имеет возможность, прописав свой профиль, регулярно получать информацию о вновь вышедших статьях по своей тематике.
URL: http://ejournals.ebsco.com
- EBSCO Publishing
Доступ к базам:
Business Source Premier (по экономике, финансам, менеджменту)
MasterFILE Premier (база по основным наукам)
Newspaper Source (газетная база)
Regional Business News (полнотекстовые сводки новостей информационных агентств)
Academic Search Premier (академическая база по социальным, гуманитарным, компьютерным, естественным наукам, литературе и искусству, лингвистике)
Health Source: Nursing/Academic Edition (медицинская база)
MEDLINE (медицинская база)
ERIC (база по образованию)
Health Source - Consumer Edition (медицинская база)
Clinical Pharmacology (медицинская база)
Russia Online (газеты, информация издательств, новостных агентств и перепечатки ТВ редакций на русском языке)
Communication & Mass Media Complete(базы данных по массмедиа и коммуникациям)
The American Humanities Index(базы по гуманитарным наукам)
URL: http://search.epnet.com
- JSTOR
Доступ к базе «ARTS&SCIENCES I COLLECTION». Полнотекстовая журнальная база (131 наименование) по антропологии, экономике, образованию, финансам, истории, литературе, математике, философии, политическим наукам, демографии, социологии, статистике на английском языке.
URL: http://www.jstor.org
- Cambridge University Press
Журнальная база издательства Cambridge University Press по физическим наукам, психологии, компьютерным наукам, биологии, математике, истории, философии на английском языке.
URL: http://www.journals.Cambridge.org
- New Journal of Physics (NJP)
Новый электронный полнотекстовый физический журнал, созданный Inctitute of Physics и Deutsche Physikalische Gesellschaft, на английском языке.
URL: http://www.njp.org
- Gale и KG Zauer
Полнотекстовые периодические издания на английском языке.
Доступ к базам:
Biography Resource Center (биографии),
Literature Resource Center (биографии литературных авторов, библиография),
Business and Company Resource Center (инвестиционные сообщения, истории компании, хронологии и периодика),
IBZ - International Bibliography of Periodical
Literature (международная библиография периодической литературы в социальных и общественных науках),
English Language Bibliography 1945 to the Present (английская библиография с 1945 по настоящий год),
Yearbook of International Organizations Online (информация о международных организациях с 1910 года),
Gale Virtual Reference Library (реферативные источники, включая энциклопедии, альманахи).
URL: http://www.galeuk.com/saurtrials/eifl
- База данных FINDARTICLES
База данных полных текстов статей на английском языке из 300 журналов, свободно доступная через Интернет. Возможности поиска во всей базе данных, в определенной категории и в определенном названии. Области знания - бизнес и финансы, образование, искусство и шоу-бизнес, автомобильное дело, компьютерные технологии, здоровье и фитнес, общество, спорт, а также издания энциклопедического и справочного характера.
URL: http://www.findarticles.com/cf_0/PI/subject.jhtml
- Online Books Page
Содержит более 15 тыс. полнотекстовых книг и других изданий на английском языке, хранящихся на сервере University of Pennsylvania. Поиск по - автору, названию и ключевым словам. Коллекция снабжена ссылками на другие книги, размещенные в Интернет.
URL: http://onlinebooks.library.upenn.edu/
- Poets' Corner
Коллекция, содержащая более 6500 поэтических произведений на английском языке. Поиск - по автору, названию, или предметной рубрике. Большинство произведений написаны ранее, чем 75 лет назад, но рубрика "Suggestions for Further Reading" включает списки произведений современных авторов. Коллекция снабжена библиографическими списками литературы, портретами авторов.
URL: http://www.geocities.com/%7Espanoudi/poems/index.html
- Project Gutenberg
Представлены тексты из книг, публиковавшиеся до 1923 года. Это классическая литература. Поиск по автору, заглавию, ключевому слову. Тексты представлены в виде файлов.txt и.zip.
URL: http://www.gutenberg.net/
- Bartleby Library: Great Books Online
Содержит тысячи поэтических произведений, романов, пьес, эссе и свыше 100 тыс. цитат всемирно известных классиков. Прекрасные поисковые возможности - поиск по отдельному произведению или по всей коллекции, по текстам, по названию. Bartleby Verse включает American & English Poetry (1250-1920), объединяющий в себе полные тексты таких классических антологий как The Oxford Book of English Verse, 1919; Yale Book of American Verse, 1919; Modern British Poetry, 1920; Modern American Poetry, 1919.
URL: http://www.bartleby.com
- Bibliomania
Более 2000 классических произведений художественной (проза и поэзия) и нехудожественной литературы, некоторые справочные издания и статьи из периодических изданий. Включает полное собрание сочинений Шекспира. Возможность поиска по полным текстам произведений, определенным частям произведений, и по их названиям.
URL: http://www.bibliomania.com/
- Athena
Более 10 000 книг по философии, классической литературе, экономике, истории, минералогии, а также книги швейцарских и французских авторов на языке оригинала. Поиск по автору, заглавию, ключевому слову, языку.
URL: http://un2sg4.unige.ch/athena/html/athome.htm
- Classics in the History of Psychology
Полнотекстовая коллекция исторически значимых произведений по психологии и смежным дисциплинам. Поиск - по ключевым словам, по авторам и по темам.
URL: http://psychclassics.yorku.ca/
- Internet Public Library
Содержит более 18 тыс. названий классических произведений художественной и нехудожественной литературы, журналы, газеты, организованные в рубрики по классификации Дьюи. Поиск - по автору, названию, и рубрике классификации. База поддерживается University of Michigan School of Information.
URL: http://www.ipl.org/
Мультимедиа и полнотекстовые базы данных
Мультимедиа сейчас - это полноценное объединение компьютерных и других информационных технологий: видео, аудио, фото, кино, телекоммуникаций (телефон, телевидение, радиосвязь), не говоря уже о тексте и графике, как статической, так и динамической (анимационной). С помощью приложений мультимедиа текст, графика, аудио- и видеоинформация объединяются в единое информационное поле, подобно тому, как в кинофильме объединяются звук и движущееся изображение. Однако в отличие от кинофильма мультимедиа представляет собой интерактивную среду, т. е. пользователь может управлять процессом представления мультимедиа с помощью различных средств ввода, таких как клавиатура и манипулятор мышь.
Успешное сращивание телекоммуникационных сетей с компьютерами, стремительный рост их качества и количества преобразует вещательные сети в интерактивные, создает единое мировое информационное мультимедиа-пространство. Важнейшей частью этого пространства является сеть Интернет и особенно, ее гипермедиа-система World Wide Web. Распространение мультимедиа-технологий (в сочетании с развитием электронной коммерции) в дальнейшем наложит жесткие ограничения на конкурентоспособность издательско-полиграфических фирм, ориентированных на широкий спрос. Преимущества в продаже даже самой высококачественной продукции получат те, кто быстрее и эффективней освоил электронные способы коммерции и обслуживания.
Использование мультимедиа в учебных пособиях дополняет аналитические (вычислительные и логические) и навигационные возможности компьютеров способностью к образному, синтетическому описанию изучаемого предмета или объекта. Многочисленные исследования показали, что обучаемый с первого раза запоминает лишь четверть услышанного и треть увиденного. При комбинированном воздействии на слух и зрение запоминается приблизительно половина информации, а при вовлечении обучаемого еще и в активные действия (например, при использовании интерактивных мультимедиа-технологий) доля усвоенного достигает 75%. Мультимедиа, особенно интерактивное, активизирует индивидуальные, личностные мотивы усвоения материала обучаемым, в том числе:
- целевой (для меня важно и необходимо знать этот материал и уметь выполнять такую работу);
- исследовательский (работая с учебным материалом, я не только узнаю что-то новое, но и чувствую себя активным участником процесса познания, сам участвую в творческом процессе);
- эмоционально-эстетический (в процессе изучения материала я испытываю удовольствие, как от получаемых результатов, так и от самого процесса изучения этого материала);
- игровой (эта форма обучения интересна, начав изучать материал, я не могу остановиться, мне интересно и хочется довести до конца изучение материала);
- инициационный (предполагает органичное сочетание в мультимедийном учебнике информационной и эстетически-эмоциональной глубины).
По уровню творческих мотивов и степени воздействия на человека мультимедиа следует отнести к новому виду синтетического искусства, отличительной особенностью которого является высокая информативность и интерактивность. Поэтому в будущем следует ожидать создания теории педагогики мультимедиа, учитывающей психофизиологические и эстетические законы восприятия и усвоения большого объема информации. Не исключая традиционной формы обучения, предполагающей творческое и воспитательное общение с преподавателем, мультимедиа создает новые позитивные факторы, в частности, значительный рост эффективности обучения за счет повышения качества самостоятельной работы студента с электронными учебными материалами.
Специалисты считают, что самую сложную систему автоматизированного управления было бы гораздо легче освоить в том случае, если она реализована на основе стандартного мультимедиа-интерфейса. В будущем, видимо, будут созданы эвристические алгоритмы мультимедиа, которые позволят не только человеку адаптироваться в компьютерной системе, но и компьютеру адаптироваться к уровню восприятия человека, т. е. сделать процесс адаптации двусторонним.
Получение полнотекстовых баз данных
Текстовые документы в электронную библиотеку могут поступать из разных источников - некоторые могли быть созданы для онлайнового использования, некоторые получены конверсией печатных материалов, некоторые могут быть оцифрованными звуковыми дорожками к фильмам и телепрограммам.
Наполнение полнотекстовых баз данных производится двумя способами. Первый заключается в сканировании печатных оригиналов и получении электронных копий документов, выполненных в большинстве случаев в формате PDF. Эти документы воспроизводятся (читаются) с использованием бесплатно распространяемой программы Adobe Acrobat. Сканирование печатных оригиналов применяется при оцифровывании существующих тематически и логически законченных собраний, хранящихся, как правило, в фондах библиотек или архивов. При этом масштабы и темпы оцифровки документальных массивов в рамках коммерческих проектов в разных странах дают все основания полагать, что уже в ближайшие годы будет оцифровано большинство значимых для человечества материалов. Для пользователей станет принципиально возможным получить доступ к любым источникам - от германских старопечатных книг XVI века до заметки в завтрашнем номере японской газеты.
Второй метод - покупка электронных копий книг, газет или журналов непосредственно в издательствах. По предварительному договору издательства передают электронную версию документа (чаще всего готовый оригинал-макет) поставщику и получают определенный процент от средств, полученных за обращение к поставленным файлам. Загрузка документов в систему осуществляется, как правило, в момент опубликования печатного оригинала или даже ранее. После физической загрузки в базу информационный массив индексируется, после чего электронные документы становятся доступными для поиска и выгрузки. Подобный способ "комплектования" применяется при работе с современными периодическими изданиями и сообщениями агентств новостей.
В профессиональных базах данных полные тексты предстают перед пользователем в виде HTML-документов или PDF-файлов. Особенностью последних является способность представлять документ именно в том виде, как он существует в печатной копии, с сохранением колонок, таблиц, иллюстраций и т.д. В тоже время все содержание такого документа может быть доступно для поиска (проиндексировано). Источники в PDF можно не только просматривать (читать) в онлайновом режиме, но и сохранять на собственном компьютере для дальнейшей работы.
Модель доступа к информации становится основной характеристикой электронной библиотеки. Только доступ к электронным ресурсам через специально организованные электронные библиотеки может обеспечить необходимую полноту информирования. Только проблемно-ориентированные электронные библиотеки, в которых ресурсы систематизированы на основе детальных иерархических классификаций, могут обеспечить оперативный и качественный поиск необходимого ресурса.
Несмотря на то, что бумажные издания были и остаются для большинства людей основным источником информации, полнотекстовые базы данных являются перспективным видом хранения библиографических материалов.
Часть 2. Способы описания электронных ресурсов
Описание мета-информация информации
Логическим компонентом любой электронной библиотеки является система метаданных. Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) электронной библиотеки.
Соответственно вокруг системы метаданных и на ее основе строятся основные технологические процессы электронной библиотеки, а именно:
- навигация в информационном пространстве;
- поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей;
- ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие);
- управление правами доступа к цифровым объектам, включая защиту авторских прав, организация платы за доступ и пр.
Метаданные находятся рядом с нами с тех пор, как первый библиотекарь сделал список хранящихся на полке рукописных свитков. Термин "мета (meta)" появился из греческого слова, которое означает "рядом, с, после, следующий". Более позднее латинское и английское употребление использует термин "мета" для определения чего-то абстрактного или сверхъестественного. Метаданные, кроме того, могут быть интерпретированы как данные о других данных. Это термин века Интернет, определяющий информацию, которую библиотекари традиционно организовывали в виде каталогов и которая чаще всего используется для описания Web-ресурсов. Запись метаданных состоит из набора атрибутов или элементов, необходимых для описания данного ресурса. Например, наиболее часто встречающаяся в библиотеках система метаданных - библиотечный каталог - содержит набор записей метаданных с элементами, которые описывают книгу либо другую библиотечную единицу: автор, заглавие, дата создания или публикации, предметный охват и шифр, определяющий местонахождение единицы на полке.
В сущности, понятие метаданные, придуманное информационными специалистами компьютерных технологий, не является новым по значению для библиотечного, музейного или архивного специалиста. Библиографическая карточка есть не что иное, как набор метаданных на книгу или статью из журнала, построенная по правилам библиографического описания.
Изначально метаданные возникли как вспомогательная структура для автоматической индексации цифровых ресурсов. Иными словами, в код html-страницы, в области заголовков (между тегами html <HEAD> и </HEAD>) вносятся в определенном порядке данные, описывающие определенные параметры. Любая информация, внесенная в эту область html-документа не отображается браузером (компьютерной программой, предназначенной для показа html-файлов) на экране компьютера и пользователь может даже не подозревать, что просматриваемый им документ несет в себе еще какую-то дополнительную информацию, однако программные роботы, да и сам браузер извлекают эти данные, полезные для решения определенных задач.
Дальнейшее развитие сети привело к созданию других наборов метаданных, предназначенных не только для оперирования ими роботами, но и для решения более широкого круга задач.
Сейчас таких наборов метаданных существуют десятки. Это могут быть узкоспецифические наборы, предназначенные для описания ресурсов какой-то определенной отрасли или тематики, имеются также и метаданные более общего, универсального характера: набор метаданных VRA4, Ассоциации Визуальных ресурсов, предназначенный для описания цифровых ресурсов, содержащих графические изображения; набор метаданных GILS - Глобальный Информационный Указатель-Сервис, предназначенный для упрощения поиска и доступа к ресурсам, издаваемым в США государственными и индустриальными компаниями в сети Интернет; инициатива университета Беркли EAD, Кодирование архивных описаний, призванная обеспечить методы описания, сохранения и доступа к цифровым ресурсам библиотек, музеев и архивов на основе языка SGML и многие другие. Исчерпывающую информацию по которым можно получить (на английском языке) на сайте ИФЛА по адресу: http://www.ifla.org/II/metadata.htm
Распространенные категории метаданных включают "описательные (descriptive) метаданные" (например, библиографическая информация), "структурные (structural) метаданные" (информация о форматах и структурах), и "административные (administrative) метаданные" (которые включают права, разрешения и другую информацию, используемую для управления доступом). Еще одна разновидность метаданных - идентификатор (identifier), который однозначно представляет объект для внешнего мира.
Вопрос о соотношении типов метаданных в рамках конкретной системы метаданных является принципиальным для выбора системы.
Основные системы метаданных
Приведем перечень некоторых наиболее известных систем метаданных:
- SDGM — стандарт для цифровых геопространственных данных Документ направлен на выработку общей терминологии геопространственных метаданных. Одобрен в 1994 г. на заседании Федерального комитета по географическим данным США и затем утвержден Правительственным распоряжением 12096, которое обязывает американские федеральные организации использовать этот стандарт, начиная с 1995 г. Федеральный комитет развивал этот стандарт, чтобы помогать идентифицировать источники пространственных данных и обеспечивать доступ к данным через Национальную информационную инфраструктуру. Стандарт метаданных GSDGM содержит 334 элемента данных, более 100 из которых служат для описания связей между элементами.
- DIF — формат обмена для справочников геопространственных данных. Структура данных для каталога метаданных, создаваемая NASA и поддерживаемая в США межведомственной рабочей группой по управлению данными для глобального обмена. Формат был разработан в конце 1980-х гг. для обмена спутниковой и другой телеметрической информацией. Позже стал использоваться для любых геопространственных данных и стал стандартом де-факто в международных глобальных информационных системах. Стандарт вводит элементы метаданных, определяет их содержание и структуру для передачи метаданных в информационных системах. Стандарт позволяет пользователю определить, содержит ли набор данных релевантную информацию.
- GILS — Глобальная (правительственная) служба поиска информации. Являясь частью Национальной информационной инфраструктуры, GILS обеспечивает доступ частным лицам и организациям к федеральным информационным ресурсам, через общедоступный каталог этих ресурсов. GILS базируется на международных стандартах информационного поиска с использованием протокола доступа Z39.50 и использует систему метаданных в рамках этого протокола. Развитие системы GILS предполагает создание системы взаимосвязанных каталогов для поиска метаданных, возможно, различных типов.
- MARC — машиночитаемый каталог. Один из старейших и самых известных и распространенных в России и в мире стандартов метаданных. Отличается детальным составом элементов данных, универсальностью, развитой структурой. Ориентирован на библиотечную практику, имеет конкурирующие версии и высокую стоимость эксплуатации.
- ЕАД. — кодировка архивных описаний. Набор изначально текстовых метаданных на базе языка разметки SGML, разработанных для нужд архивов и используемых для стандартизации и классификации уникальных архивных материалов, прежде всего рукописей. Версия 1.0. 1998 г. совместима с форматом XML. Поддерживается Американским архивным обществом и Библиотекой Конгресса США.
- TEI - инициатива по кодированию текстов http://www-tei.uic.edu/orgs/tei/): разработана в Центре электронных текстов Вирджинии в 1989 г. как инструмент при процессе оцифровке, который идентифицирует электронный ресурс и его печатный источник посредством метаданных, размещаемых внутри самого электронного ресурса.
- IAFA/WHOIS++ (http://www.ifla.org/documents/libraries/cataloging/metadata/iafa.txt): шаблонно ориентированные метаданные для описания сетевых ресурсов, первоначально использовавшиеся для описания списков электронной почтовой рассылки, других ftp-архивов, а позднее распространенные на другие ресурсы. Наиболее широкое применение наблюдалось в рамках ранних проектов британской программы по электронным библиотекам eLib (ROADS и т. д.), но даже сейчас эта схема метаданных считается одной из самых употребительных.
- Интероперабельность данных в системах электронной коммерции -INDECS (.http://www.indecs.org). Набор метаданных, который развился из потребностей электронной коммерции в сфере шоу-бизнеса (музыка, зрелища и др.). Представляет собой наиболее сложный набор метаданных, ориентированных на управление правами на цифровой объект (вид интеллектуальной собственности, лицензионные сборы, перечисление средств правообладателям и проч.). Создается в связке с одной из наиболее известных систем идентификации цифровых объектов DOI (Digital Object Identification).
- EDIFACT- одна из старейших международных систем метаданных, содержащих правила и структуру описания торгово-транспортных и других коммерческих документов. С 1998 г. поддерживается языком XML.
- MATER — система метаданных, описывающая словари, классификаторы и другие лексикографические данные. Поддерживается стандартами ИСО. Имеется российская версия под названием ФОЛИЯ (Формат обмена лексикой информационных языков).
- Формат Государственного регистра баз и банков данных. Российский стандарт, действующий с конца 1980-х гг. и содержащий систему метаданных для баз данных и других электронных наборов данных. Утвержден Правительством РФ, поддерживается НТЦ “Информрегистр”, применяется в ряде отраслей и регионов, а также в странах СНГ для ведения баз метаданных.
- Dublin Core Metadata Set (DC) - Дублинское ядро метаданных - консорциум W3
Формат описания ресурсов Dublin Core Metadata Element Set
В качестве базового средства формирования метаданных для описания широкого класса цифровых объектов обычно упоминается Дублинское ядро метаданных.
Стандарт метаданных Dublin Core, (произносится "даблин кор") или DC ("диси") является форматом описания практически любых ресурсов Интернет. Преимуществом использования Dublin Core является возможность создания такого механизма, который при минимальных затратах на описание позволяет искать и находить данные вне зависимости от языковой принадлежности, тематики и места их нахождения.
В сентябре 2001г. набор метаданных Dublin Core был утвержден в США, Американским Институтом Национальных Стандартов как стандарт Z39.85. В Австралии, Канаде, Дании, Финляндии, Ирландии и Великобритании в этом же году формат Dublin Core рекомендован и принят как государственный стандарт для онлайн ресурсов и е-коммерции.
Формат Dublin Core версии 1.1 включает в себя 15 элементов для описания цифрового ресурса:
Заголовок (Title) Название, присвоенное ресурсу создателем или издателем.
Автор (создатель, Creator) Человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; исполнители, фотографы или иллюстраторы в случае визуальных ресурсов).
Подполя:
DC.Creator - автор (подполе по умолчанию)
DC.Creator.PersonalName - имя индивидуального автора
DC.Creator.CorporateName - имя коллективного автора (включая наименования конференции)
DC.Creator.PersonalName.Address - адрес индивидуального автора (включая любой тип адреса, электронной почты и т.п.)
DC.Creator.CorporateName.Address - адрес коллективного автора (включая любой тип адреса, электронной почты и т.п.)
Необходимо заметить, что иногда встречаются дополнительные уточняющие подполя (номер факса, телефона и т.п.) В настоящем документе включен только адрес потому что он наиболее часто встречается в текущих проектах связанных с метаданными. При необходимости применения дополнительных подполей они могут использоваться как локальное расширение.
Предмет (Subject) Тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. Приветствуется использование контролируемых словарей и формальных схем классификации.
Описание (Description) Текстовое описание содержания ресурса, включая реферат в случае документов или описание содержания в случае визуального ресурса.
Издатель (Publisher) Организация, ответственная за создание ресурса в его нынешней форме - например, издательский дом, университетский департамент или корпорация.
Подполя:
DC.Publisher - издатель (подполе по умолчанию)
DC. Publisher.PersonalName - имя издателя (лица)
DC. Publisher.CorporateName - наименование издающей организации
DC. Publisher.PersonalName.Address - адрес издателя (лица) (включая любой тип адреса, электронной почты и т.п.)
DC. Publisher.CorporateName.Address - адрес издающей организации (включая любой тип адреса, электронной почты и т.п.)
Участник создания материала (Contributor) - человек или организация, которые не являются авторами (не обозначены в элементе "автор"), но внесли значительный интеллектуальный вклад в ресурс, но чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов - например, редактор, переводчик, иллюстратор.
Дата (Date) Дата, указывающая на создание или появление (в доступном виде) ресурса.
Тип (Type) Категория ресурса - например, домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь.
Существует список возможных типов ресурса.
Формат (Format) Формат представления данных ресурса (обычно указывается тип программного обеспечения и - возможно - тип компьютера, которые могут быть необходимы для отображения и работы с ресурсом).
Он может использоваться для определения программного и технического обеспечения, необходимого для использования содержимого ресурса.
Идентификатор (Identifier) Набор букв или цифр, который обычно используется для уникальной идентификации ресурса. В случае сетевых ресурсов примерами являются URL и URN.
Источник (Source) Информация о вторичном источнике, из которого был получен настоящий ресурс.
Язык (Language) Язык, на котором изложено интеллектуальное содержание ресурса.
Связь (Relation) Идентификатор вторичного ресурса и его связь с настоящим ресурсом. Этот элемента позволяет связывать между собой близкие ресурсы, а также описания ресурса, которые необходимо показать. Примеры - издание книги и глава книги.
Охват (Coverage) Характеристики местонахождения и временной продолжительности ресурса.
Права (Rights) Утверждение об авторских правах и управление ими; идентификатор, связанный с таким утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс.
Каждый из 15 элементов Dublin Core не является обязательным и может повторяться.
Для более детального описания некоторых элементов применяются подэлементы, называемые квалификаторами. К квалификаторам относятся дополнительные подтипы основного элемента и схемы.
Например, можно уточнить тип автора (коллективный или индивидуальный) с помощью квалификатора:
<meta name="DC.Creator.PersonalName" content="Маркс, Карл">
С помощью квалификатора СХЕМА (Scheme) можно пояснить из какого контролируемого словаря взято значение элемента:
<meta name="DC.Subject" scheme="ББК" content="Другие разделы спектроскопии"><meta name="DC.Subject" scheme="ББК" content="В344.9">
Применение квалификаторов желательно, но не обязательно. Все зависит от того, насколько детально составляется описание цифрового ресурса. Порядок следования элементов не имеет значения.
Особенность предлагаемого подхода к каталогизации ресурса состоит в том, что описание его, размеченное по правилам HTML, будет находиться в самом ресурсе.
Описательные метаданные
Большинство методов поиска информации не ищут реальные объекты в коллекциях, обычно они работают с описательными метаданными об этих объектах. Метаданные об объекте могут представлять собой каталожную запись, запись в индексе или реферат. Описательные метаданные обычно хранятся отдельно от описываемых объектов, но иногда они являются их частью.
Описательные метаданные обычно текстовые; однако можно использовать метаданные в иных форматах, например, изображения, звукозаписи, карты и компьютерные программы. Единый каталог может объединять записи обо всех видах материалов, носителей и форматов. Это позволяет пользователям электронной библиотеки находить материалы на любых носителях в ходе поиска по текстовым записям.
Описательные метаданные обычно создаются профессионалами. Библиотечные каталоги и научные индексы аккумулируют усилия подготовленных сотрудников, но можно найти более быстрый способ генерации метаданных, либо с использованием автоматического индексирования, либо с использованием компьютерных возможностей.
То, что пользователь видит как одно слово, может быть представлено в компьютере как комбинация файлов и структурных данных в разных форматах. Связи между этими компонентами и пользовательским восприятием объекта иногда называют "моделью объекта".
С точки зрения пользователя, журнальная статья, хранящаяся на веб-сервере, может быть представлена как связный текст с графикой; однако храниться она может как несколько текстовых файлов, несколько графических файлов и, возможно, некоторых программ. Одно изображение может сохраняться в разных видах: как высококачественный архивный образ, как изображение для повседневного использования среднего разрешения и еще раз как маленькая "иконка", которая дает общее представление об изображении, но утрачивает детали. Этот образ может обозначаться единым библиотечным идентификатором - но для компьютера это группа определенных файлов. Могут существовать множество версий одного и того же объекта. А электронные библиотеки часто имеют "приватные" версии тех материалов, которые готовятся для публичного доступа. После того, как они будут выставлены, могут потребоваться новые версии для исправления ошибок, или материалы могут быть реорганизованы или перенесены на другие компьютеры, или в результате технического прогресса появятся дополнительные форматы.
Структурные метаданные
Для представления различных компонентов и связей между ними используются структурные метаданные. Типы данных - это структурные метаданные, используемые для описания различных возможных объектов в электронной библиотеке.
Выбор структурных метаданных для конкретной категории материалов создает модель объекта.
Различные категории объектов требуют различных моделей объектов - например, текст в разметке SGML, объекты веб, компьютерные программы, оцифрованный звук. Для каждой категории правила и соглашения описывают способы организации такой информации в набор цифровых объектов.
Для каждой категории правила описывают представление материала в библиотеке, группировку компонентов как группы цифровых объектов, внутреннюю структуру каждого компонента, ассоциированные метаданные, соглашения по наименованиям цифровых объектов. Такие категории различаются по структурному типу.
Структурные типы могут различаться по жанрам (genres). В поисковых задачах метаописание по жанрам является вполне обычным. (Например, некоторые жанры популярной музыки - джаз, блюз, реп, рок.) Жанры - это естественный и полезный способ описания материалов для поиска и других библиотечных целей, но для управления распределенными электронными библиотеками требуется другая категоризация.
Хотя художественный фильм, документальная лента и учебное видео явно представляют различные жанры, их цифровые эквиваленты могут кодироваться и обрабатываться абсолютно одинаково; они имеют один и тот же структурный тип. И наоборот, два текста могут быть одного жанра, но если один представлен в разметке SGML, а другой - в формате PDF, то они имеют различные структурные типы и модели объектов. Например, карта, афиша, техническая диаграмма представляют различное содержание, но с точки зрения хранения и обработки в компьютере они представляют собой одну структуру. В настоящее время можно полагать, что даже сложные коллекции электронной библиотеки могут быть представлены небольшим числом структурных типов. Менее десяти структурных типов оказалось достаточно для адекватного описания всех категорий материалов, которые конвертировались в Библиотеке Конгресса. Среди них оцифрованные изображения, наборы изображений страниц, наборы изображений страниц со связанным SGML текстом, оцифрованные звукозаписи, оцифрованные видеозаписи.
Набор элементов метаданных нужен для тех, кто публикует электронные материалы с описанием своих результатов и для тех, кому структурные дополнительные элементы позволяют добиться большей точности в метаданных. Например, если поле "предмет" (subject) заполнялось с использованием Девеевского десятичного классификатора, было бы полезно отразить этот факт в метаданных. Для дальнейшего повышения эффективности метаданных при обработке информации, предлагается присваивать некоторым элементам некоторые "значения" (values). Это может быть определенный набор, список типов, которым могут руководствоваться составители индексов.
Языки разметки являются одним из таких методов структурирования текстов. К примеру, на HTML-странице тэг <img> является структурным метаданным, который указывает на расположение изображения.
Одно из потенциальных применений языков разметки, вроде SGML или XML, в том, что структурные тэги могут использоваться программами автоматического индексирования для построения записей, для поиска информации. В тексте документа фраза "Marie Celeste" может быть именем человека, названием книги, песни, корабля, издательства, пьесы или вообще не являться именем. При наличии структурной разметки фраза может быть идентифицирована и помечена. Таким образом, информация, содержащаяся в разметке, может быть использована для различения различных категорий информации, таких как автор, название или дата.
Присоединение метаданных к содержанию
Описательные метаданные должны быть присоединены к материалу, который они описывают. В прошлом метаданные обычно хранились отдельно, как внешний каталог или индекс. В этом способе много достоинств, но требуются связи между метаданными и описываемыми объектами. Некоторые электронные библиотеки двигаются в ином направлении, сохраняя метаданные и данные вместе (либо встраивая метаданные с объект или в виде двух отдельных связанных объектов). Этот подход удобен для распределенных систем и для долговременного архивирования, поскольку гарантируется, что компьютерные программы будут иметь доступ к данным и метаданным в одно и тоже время.
Механизм ассоциирования метаданных с веб-страницами был предметом серьезного обсуждения. Для HTML-страниц простейший подход состоит в использовании специального HTML-тэга <meta>, который появился из описания элементов Dublin Core для HTML. Выбор тэгов <meta> - это системообразующее решение. В рамках проекта Dublin Core специально не определяется, каким именно образом метаданные связываются с материалом.
Предложенная технология предлагает в качестве базового стандарта для взаимодействия с сетью Интернет использовать формат метаданных Dublin Core, для изучения которого потребуется определенные усилия со стороны библиотек, но в остальном же, эта технология и разработанное программное обеспечение вписывается в рамки традиционной библиотечной работы.
Часть 3. Средства подготовки электронных изданий
Введение
В наше время новых информационных технологий все большую популярность приобретают полнотекстовые электронные документы. В отличие от обычных документов на бумажных носителях они обладают рядом неоспоримых преимуществ, например:
- общедоступность – электронный документ представленный в сети Internet не нуждается в каком-либо специальном тиражировании, он доступен всем пользователям, где бы они ни находились (единственное требование – наличие доступа у пользователя к сети Internet);
- мобильность – подготовленный электронный документ становится общедоступным сразу после его публикации в сети Internet, и в случае необходимости внесения изменений в документ эти изменения, после их внесения, становятся доступными всем читателям этого документа;
- дешевизна – распространение электронных документов обходится дешевле распространения документов на бумажных носителях.
Основные форматы хранения электронных документов
На данный момент наиболее популярны следующие форматы представления полнотекстовых электронных документов:
Plain-Text
«Просто текст» – документ этого формата представляет собой просто файл с текстом, с минимальными возможностями для управления отображения содержимого документа (практически, все управление по отображению сводится к расстановке в документе пробельных символов и переводов строк). Для его просмотра и редактирования не требуется особых программ – в составе любой операционной системы найдутся программы, позволяющие редактировать и просматривать документы данного формата. К достоинствам таких документов относится их очень малый объем – это самый экономичный формат хранения электронных документов.
HTML
Hyper Text Mark-up Language («Язык гипертекстовой разметки документов») – на сегодняшний день основной формат представления электронных документов в сети Internet. Документ этого формата представляет собой файл с текстом, в котором есть особые метки («тэги»), управляющие его отображением в специальных программах – браузерах. Хотя на сегодняшний день существует масса программных продуктов, нацеленных на автоматизацию создания электронных документов в этом формате, все же основная масса документов на сегодняшний момент подготавливается вручную. Причиной этого является то, что для электронных документов, публикуемых в Internet, основным свойством (критерием?) является размер, а программы, генерирующие HTML-документы практически всегда «перегружают» документ излишними тэгами. Еще одним недостатком является то, что один и тот же документ в браузерах разных производителей выглядит по-разному.
RTF
Reach Text Format («богатый текстовый формат») – на сегодняшний день основной формат первичной подготовки и обработки текстов, предназначенных для транспортировки между различными текстовыми процессорами (редакторами). Является, как и HTML, гипертекстовым языком разметки текста. Отличается от HTML тем, что позволяет встраивать непосредственно в документ различные объекты (например, картинки – в HTML они хранятся как внешние файлы). Достоинства формата – поддержка его ведущими текстовыми процессорами (MS Word, Adobe PageMaker и т.д.), общеизвестность, а так же реализация принципа «один документ – один файл». Недостаток – подчас гигантские размеры файлов.
DOC
DOC – «родной» формат текстового процессора (редактора) Microsoft Word. В силу сверхпопулярности последнего является практически основным форматом подготовки электронных документов. По своим возможностям соответствует RTF, однако документы этого формата имеют гораздо меньший объем в силу того, что информация хранится в запакованном виде.