WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Теоретико-информационные методы стегоанализа графических данных

На правах рукописи

Жилкин Михаил Юрьевич

ТЕОРЕТИКО-ИНФОРМАЦИОННЫЕ МЕТОДЫ

СТЕГОАНАЛИЗА ГРАФИЧЕСКИХ ДАННЫХ

Специальность: 05.12.13

«Системы, сети и устройства телекоммуникаций»

АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук

Новосибирск – 2009

Работа выполнена на кафедре прикладной математики и кибернетики Государственного образовательного учреждения высшего профессионального образования “Сибирский государственный университет телекоммуникаций и информатики” (ГОУ ВПО «СибГУТИ»).

Научный руководитель:  доктор технических наук, профессор Рябко Б.Я.
Официальные оппоненты: доктор технических наук, профессор Трофимов В.К. кандидат физико-математических наук, доцент Монарев В.А.
Ведущая организация: ГОУ ВПО «Санкт-Петербургский государственный университет аэрокосмического приборостроения»

Защита состоится “__” _______ 2009 г. в “__” часов на заседании диссертационного совета Д 219.005.01 при ГОУ ВПО “Сибирский государственный университет телекоммуникаций и информатики”, по адресу:
630102, г. Новосибирск, ул. Кирова, д. 86, ком. 625.

С диссертацией можно ознакомиться в библиотеке
ГОУ ВПО “СибГУТИ”.

Автореферат разослан “__” _______ 2009 г.

Ученый секретарь диссертационного совета Д 219.005.01 доктор технических наук, профессор Мамчев Г.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Диссертация посвящена разработке новых методов обеспечения информационной безопасности в компьютерных и телекоммуникационных сетях. Одной из актуальных проблем безопасности современных компьютерных сетей является борьба с незаконной, скрытой передачей информации.

Для передачи скрытой информации используются различные средства и методы, основные из которых базируются на алгоритмах стеганографии. При этом различного рода «злоумышленники» встраивают информацию, маскируя ее в других сообщениях, которые выглядят безобидно и не вызывают подозрение у потенциального перехватчика (рис. 1). Стеганография имеют богатую историю и широкий спектр различных методов, каждый из которых характерен для своей эпохи. Так, например, в древности применяли тайнопись на табличках, покрытых воском, известен случай передачи сообщения в виде татуировки на голове гонца. В начале XX века использовались симпатические чернила, во времена Второй мировой войны широкое распространение получил метод микрофотографий.

 Лена.jpg. Слева – исходное изображение 300x300 точек, справа – это-0

Рис. 1. Лена.jpg. Слева – исходное изображение 300x300 точек,

справа – это же изображение, содержащее 31Кб скрытых данных.

В настоящее время бурное развитие вычислительной техники привело к возникновению особой науки, так называемой цифровой компьютерной стеганографии. Появились новые стеганографические методы, в основе которых лежат особенности представления информации в компьютерных файлах, вычислительных сетях и т.п.

Методы современной компьютерной стеганографии находят применение в области в военной и правительственной связи, защиты авторских прав, для

решения задач обеспечения информационной безопасности. Актуальность проблемы информационной безопасности постоянно растет и стимулирует разработку как новых методов стеганографии, так и методов стегоанализа – обнаружения скрытой информации.

Повсеместное распространение компьютерной техники и глобальных компьютерных сетей, простота в эксплуатации оборудования и доступность для пользователя стеганографического программного обеспечения позволяют сегодня каждому желающему использовать методы стеганографии при передаче информации. Стоит отметить, что этими методами с легкостью могут воспользоваться и злоумышленники, например, для скрытой передачи конфиденциальной информации, коммерческих и государственных секретов и т.п. Поэтому на сегодняшний день стоит проблема построения методов обнаружения скрытых данных в передаваемых сообщениях – задача так называемого стегоанализа.

За последние годы арсенал доступных стеганографических программ заметно расширился. В настоящее время существует более сотни коммерческих, бесплатных и условно-бесплатных пакетов разного назначения: программы, написанные под операционные системы UNIX, MS-DOS, Windows и др., а также кроссплатформенные приложения; имеющие графический интерфейс или интерфейс командной строки; поддерживающие только один или сразу несколько форматов контейнеров; имеющие или не имеющие встроенные средства криптографии и аутентификации; интегрирующиеся в среду или выполняемые отдельно и т.д.

Наиболее популярные программы стеганографии и стегоанализа для файлов графических форматов, такие как Hide and Seek, Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5, Stegdetect и др. часто основаны на алгоритмах, полученных в рамках научных исследований.

Проблемой разработки и усовершенствования методов стеганографии и стегоанализа занимаются многие отечественные и зарубежные ученые: В.Г. Грибунин, И.Н. Оков, Б.Я. Рябко, И.В. Туринцев, А.Н. Фионов, К. Качин (C. Cachin), Р. Андерсон (R. Anderson), Х. Фарид (H. Farid), К. Салливан (K. Sullivan), Д. Фридрич (J. Fridrich), Н. Провос (N. Provos) и др. С каждым годом растет число публикаций, посвященных стеганографии, стегоанализу, а также в смежных областях науки. Широко применяются результаты и достижения классических наук и различных их направлений: теории информации, кодирования, алгебры, физики и т.д.

Целью работы является построение эффективных методов стегоанализа данных в наиболее распространенных на сегодняшний день графических форматах BMP и JPEG. Данные методы должны быть автоматическими, т.е. работать без участия человека и применимыми в телекоммуникационных и компьютерных сетях. Для этого требуются такие характеристики, как высокая скорость обработки данных и высокая вероятность обнаружения скрытой информации.

Задачи исследования - построение экспериментального исследования и разработка методов стегоанализа, базирующихся на алгоритмах сжатия данных. Их применение для методов стеганографии двух типов: 1) основанных на изменении младших разрядов (LSB) и 2) для методов стеганографии в графических форматах с преобразованием Фурье.

Методы исследования

  1. Методы теории информации
  2. Методы теории кодирования
  3. Проведение экспериментальных расчетов на ЭВМ

Научная новизна. Впервые разработан и практически реализован метод стегоанализа, основанный на сжатии данных, эффективность которого выше, чем у ранее известных методов. Данный метод применим в системах обеспечения безопасности компьютерных и телекоммуникационных сетей.

Экспериментально доказаны высокая скорость, эффективность алгоритмов и возможность их применения для наиболее популярных графических форматов: BMP и JPEG. Это позволяет производить стегоанализ «на лету» передаваемой по компьютерным сетям информации, например, при реализации разработанных методов в виде модулей для интеграции с межсетевыми экранами, прокси-серверами и иными системами контроля, учета и ограничения трафика, которые широко применяются в различных организациях.

Практическая ценность полученных результатов

  1. Для наиболее практически распространенных графических форматов построены методы стегоанализа, эффективность которых превосходит ранее известные.
  2. Показана высокая эффективность методов стегоанализа, базирующихся на использовании алгоритмов сжатия данных, и возможность их применения к данным в других форматах.
  3. Параметры предложенных методов позволяют анализировать с их помощью сетевой трафик.

Внедрение результатов исследования в практику. Основные результаты получены в рамках следующих государственных программ:

  • Грант РФФИ № 06-07-89025. Руководитель: д.т.н., проф. Рябко Б.Я.
  • По заданию Федерального агентства науки и инноваций (государственный контракт № 02.514.11.4027.2) выполнение научно-исследовательских работ в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», лот 3: «Технологии разработки распределенных программных систем получения и использования знаний» по теме: «Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения»
  • Гранты для выполнения научных исследований аспирантами, магистрантами и молодыми преподавателями СибГУТИ, 2007 и 2008 гг.

Апробация работы

Материалы работы докладывались на следующих российских и международных конференциях:

  • «Информатика и проблемы телекоммуникаций» (Новосибирск, 2007)
  • XI Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2007)
  • VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2007)
  • «Информатика и проблемы телекоммуникаций» (Новосибирск, 2008)
  • Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008» (МГУ, Москва, 2008)
  • X Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (Томск-Красноярск, 2008)
  • XII Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2009)

Публикации. По материалам диссертации опубликовано 8 печатных работ, результаты работы отражены в отчетах по грантам и НИР. Список работ приведен на странице 22 автореферата.

Структура диссертации. Диссертация занимает 151 страницу текста и состоит из введения, обзора литературы, рассмотрения основных графических форматов данных, известных методов стеганографии и стегоанализа, описания собственного исследования, заключения с анализом полученных результатов. Работа содержит 23 таблицы и 53 рисунка. Список литературы включает 88 источников.

Основные положения, выносимые на защиту

  1. Методы стегоанализа, основанные на применении сжатия данных, обладают высокой эффективностью и могут использоваться для выявления скрытой передачи информации в телекоммуникационных сетях.
  2. Разработан метод стегоанализа в графических данных для выявления данных, скрытых при помощи LSB-стеганографии. Метод был испытан на файлах формата BMP и доказал свою высокую эффективность.
  3. Разработан метод стегоанализа, предназначенный для работы с графическими форматами на основе преобразований Фурье. Метод успешно опробован на файлах формата JPEG.
  4. Разработаны методы, технические характеристики которых позволяют использовать их для анализа трафика в компьютерных сетях с целью выявления скрытой передачи информации.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, представлены основные положения диссертационной работы, выносимые на защиту.

В первой главе рассматривается общая модель стегосистемы, основные принципы ее функционирования. Даются понятия контейнера, стегоконтейнера, секретного сообщения, алгоритма встраивания, ключа шифрования и дешифрования и т.д. Приводятся примеры часто используемых на практике программ стеганографии, примеры наиболее распространенных алгоритмов, реализующих отдельные этапы задачи включения скрытой информации в контейнер.

Основным понятием стеганографии является стегосистема, которая выполняет задачу скрытия и извлечения информации (рис. 2).

Стегосистема включает в себя контейнер, стегоконтейнер, секретное сообщение, ключ, алгоритмы встраивания и извлечения информации, а также канал передачи информации.

Контейнером называется последовательность данных, в которую необходимо занести секретное сообщение. В современной цифровой стеганографии в качестве контейнеров могут выступать файлы распространенных цифровых форматов, таких как BMP, JPEG, WAV, MP3, AVI, PDF, EXE. Наиболее удобными контейнерами считаются музыкальные файлы, изображения, видео и т.д. Контейнер, содержащий в себе скрытую информацию, называется стегоконтейнером.

Стегосистема задается алгоритмом включения и извлечения информации, которые реализованы в любом стеганографическом программном продукте. Среди наиболее распространенных реализованных стегосистем мы отметим Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5 и т.д.

 Общая модель стегосистемы. Для встраивания секретного сообщения в-1

Рис. 2. Общая модель стегосистемы.

Для встраивания секретного сообщения в контейнер применяется алгоритм встраивания информации, который является основой стегосистемы.

Одна из главных задач алгоритма встраивания – внесение незаметных для восприятия человеком изменений в контейнер. Это требование обычно ограничивает емкость контейнера, т.е. максимальное количество скрытой информации, которое способен вместить в себя контейнер. Емкость контейнера зависит от характеристик самого контейнера, алгоритма включения информации, а иногда и от секретного сообщения. Специальный алгоритм извлечения информации предназначен для проверки наличия секретного сообщения внутри контейнера и его извлечения. Для каждого алгоритма встраивания существует свой алгоритм извлечения информации.

Перед встраиванием в контейнер, в целях повышения безопасности и компактности, секретное сообщение обычно сжимается и шифруется. Для сжатия используются различные алгоритмы, например алгоритмы семейства LZ или на основе BWT. Шифрование информации производится по какому-либо заранее заданному алгоритму, например, AES, Blowfish и т.д. Для получения ключа шифрования и дешифрования используется пароль пользователя или результат вычисления хэш-функции от него. Для корректного извлечения информации пароль должен быть передан принимающей стороне по отдельному безопасному каналу передачи информации. Алгоритмы шифрования, сжатия, хэширования чаще всего встроены в стеганографический пакет.

В качестве контейнеров обычно выбираются данные, не вызывающие подозрения, например, фотографии, популярные музыкальные композиции и видеоролики. Файл с включенной (или встроенной) скрытой информацией, передается по открытому каналу передачи информации получателю сообщения.

Предполагается, что вся проходящая по открытому каналу информация может быть перехвачена и исследована.

Поэтому одно из основных направлений при разработке и улучшении методов стеганографии – достижение наибольшей «незаметности» информации внутри стегоконтейнера, и, наоборот, основная задача стегоанализа – обнаружение факта присутствия скрытой информации.

Во второй главе рассматривается задача стегоанализа, выделяются два основных вида алгоритмов стегоанализа, рассматриваются общие этапы произвольного алгоритма стегоанализа и наиболее распространенный на сегодняшний момент общий принцип стегоанализа контейнеров. Приводится формальное описание разработанного алгоритма стегоанализа, определяются понятия ошибок I и II рода разработанного теста. Описывается разработанная общая схема тестирования графических данных предлагаемым методом с решением задачи оптимизации – выбора наиболее подходящих архиваторов и порогового значения, дающих лучшие характеристики алгоритма в зависимости от требований пользователя.

Различные методы стегоанализа подразделяются на две основные категории:

  1. Методы направленного стегоанализа – предназначенные для работы только с заранее известными стеганографическими алгоритмами.
  2. «Слепые» или универсальные методы – предназначенные для всех алгоритмов стеганографии.

Методы обеих категорий построены с учетом предположения о недоступности исходного пустого контейнера, который был использован для включения информации в исследуемый стегоконтейнер.

Кроме того, стегоанализ «слепыми» методами часто не требует знания использованного алгоритма включения информации, алгоритма шифрования, сжатия, ключа и длины сообщения.

Методы направленного стегоанализа разработаны под конкретные известные алгоритмы стеганографии. Они, как правило, дают немного лучшие результаты в сравнении с универсальными методами.

Положительной стороной универсальных методов является возможность работы с любыми, в том числе и неизвестными стеганографическими алгоритмами.

Известные методы «слепого» стегоанализа обычно построены на алгоритмах, требующих предварительного «обучения» на сериях из заполненных и пустых контейнеров.

Большинство исследований в области стегоанализа направлено на решение основной задачи: определение факта наличия скрытой информации в контейнере. Для решения этой задачи применяются различные методы. Наиболее распространены статистические алгоритмы. Основную роль в таких методах играет статистическая модель неизвестного пустого контейнера. В построенной модели находят параметры и характеристики, наиболее чувствительные к включению скрытой информации. По различию между теоретической моделью и исследуемым контейнером определяется вероятность наличия секретного сообщения.

В основу разработанных методов положен тот факт, что исходный контейнер и добавляемая в него информация статистически независимы, поэтому при добавлении скрытых данных в контейнер, размер при его сжатии вырастает по сравнению с размером исходного сжатого «пустого» контейнера.

Разработанный метод стегоанализа графических данных применяет алгоритмы сжатия данных для проверки статистической независимости информации. Для сжатия используются широко распространенные программы-архиваторы.

Для формального описания алгоритма вводятся следующие обозначения: пусть - последовательность байтов в данных изображений, а - длина последовательности. Последовательность X разбивается на d равных отрезков, обозначаемых , где . Функция возвращает результат обработки контейнера алгоритмом сжатия.

Для удобства вводится функция

которая обозначает коэффициент сжатия отрезка n последовательности X алгоритмом .

Через обозначим псевдослучайное изменение младших битов всех байтов последовательности X.

Пусть X - последовательность, которая подается на вход программе, а - полученная из нее новая последовательность. Введем новую величину

Те отрезки последовательности, которые не содержали “скрытую” информацию сжимаются лучше, чем соответствующие им отрезки последовательности Y, и напротив, коэффициенты сжатия отрезка последовательности X со «спрятанной» информацией и отвечающего ему отрезка последовательности Y отличаются незначительно.

Для определения факта включения информации выбирается пороговое значение для величины и производится оценка количества отрезков, на которых значение величины не превышает порог.

Для экспериментального исследования метода была подготовлена серия изображений («контейнеров») разного разрешения и качественного содержания.

Обработка одного изображения выполнялась следующему алгоритму:

  1. Вход: пустой контейнер, имя архиватора для выполнения сжатия, пороговое значение
  2. Тестирование контейнера разработанным алгоритмом анализа со сжатием заданным архиватором
  3. Определение факта заполнения по заданному значению
  4. Вывод результата: «Заполнен» или «Не заполнен»

Ситуация, когда тест отвечает «Заполнен» на пустом контейнере, называется ошибкой I рода. Ошибка II рода возникает в случае ответа «Не заполнен» при проверке непустого контейнера.

Тестирование большой серии изображений проводилось в несколько этапов:

  1. Настройка. На этом этапе анализировалась небольшая выборка (около 50 изображений) и подбирался наиболее подходящий архиватор и два пороговых значения следующим образом:
    1. и, обеспечивающие отсутствие ошибок I рода (на данной выборке).
    2. и, при которых достигается «золотая середина» – небольшой процент ошибок II рода при небольшом количестве ошибок I рода.
  2. Тестирование по независимым данным. После экспериментального подбора архиватора и двух вариантов порогового значения проводилась проверка результатов на большой серии (не менее 1000) изображений, не использовавшихся на этапе подбора параметров.

Предложенный в работе алгоритм стегоанализа и метод подстройки параметров используются с различными модификациями для стегоанализа графических данных форматов BMP и JPEG.

Третья глава посвящена краткому техническому описанию формата файла BMP и алгоритма JPEG. Рассматриваются два вида форматов BMP, уделяется внимание вопросу применимости методов стеганографии и стегоанализа для в обоих случаях. Для формата JPEG подчеркивается разница между алгоритмом сжатия и форматом файла, обосновывается целесообразность применения библиотеки поддержки форматов для работы с файлами JPEG, которая активно используется в настоящее время в различных программах стеганографии и стегоанализа, в том числе и при реализации разработанного алгоритма стегоанализа. В главе также отмечены причины большой распространенности форматов, благодаря чему их можно считать одними из основных форматов представления графической информации.

Аббревиатура BMP означает BitMap («битовая карта», «битовая матрица»). Формат BMP относится к числу тех графических форматов, где данные представлены «как есть», без каких-либо преобразований, сжатия и т.д. По этой причине файлы BMP имеют довольно большой размер, например, изображение разрешением 1280x800 24бит будет занимать 2.92Мб. Положительной стороной BMP является высокое качество изображения, а также простота формата, что делает его очень популярным для применения в качестве стегоконтейнера. Большинство стеганографических средств предназначено для работы с форматом BMP.

Существуют два основных варианта хранения данных в формате BMP:

  1. Индексированный. Содержит палитру с описанием всех используемых в изображении цветов. Массив самих данных изображения данных содержит только номера элементов массива палитры. Этот вариант формата является неудобным для стеганографии и поэтому редко применяется в этих целях.
  2. Неиндексированный. Наиболее распространенный вариант формата BMP. Палитра отсутсвует, поле данных само хранит описание цветов каждой точки. Этот способ представления данных в основном предназначен для полноцветной графики и в настоящее время очень широко распространен. Основным представителем неиндексированных форматов является 24-битный BMP. Он наиболее популярен в среде различных стеганографичеких программ.

Разработанный метод стегоанализа данных для формата BMP работает только с вариантом «24-битный BMP».

Формат JPEG берет свое название от созданной в середине 1980-x Объединенной группы экспертов по фотографии (Joint Photographic Expert Group), которая входит в состав организации ISO. Целью группы являлось создание эффективного алгоритма сжатия цветных и полутоновых изображений и разработка промышленного стандарта передачи данных с помощью цифровых коммуникационных сетей. Алгоритм JPEG обеспечивает очень высокую степень сжатия данных при сравнительно небольших визуальных искажениях, что сделало его очень популярным для хранения и передачи изображений по компьютерным сетям. В настоящее время формат JPEG является наиболее распространенным среди всех форматов графических файлов.

JPEG является достаточно сложным в сравнении с BMP, поэтому принято различать:

  1. «формат JPEG-файла» - способ представления данных JPEG в файле.
  2. «алгоритм сжатия JPEG» - набор преобразований, переводящих несжатую графическую информацию в сжатые данные JPEG.

Формат JPEG файла в отличие от алгоритма сжатия не был стандартизован, кроме того, он является достаточно громоздким, в нем предусмотрены различные «фирменные расширения». Поэтому, вместо самостоятельной релизации работы с форматом файла, принятой практикой в настоящее время является использование библиотек поддержки форматов, например IJG JPEG Library для формата JPEG. Все операции по обработке файла и выполнению алгоритма JPEG возлагаются на саму библиотеку.

Показано, что файлы форматов 24-бит BMP и JPEG являются наиболее распространенными для передачи графической информации по компьютерным и телекоммуникационным сетям. Данные форматы наиболее часто используются для решения задач стеганографии. Это делает актуальной проблему разработки методов стегоанализа данных в форматах BMP и JPEG.

В четвертой главе рассматриваются известные методы встраивания в BMP-файлы, вопросы автоматического тестирования программ стеганографии формата BMP. Решается задача подбора изображений для тестирования методов стеганографии и стегоанализа. Описываются разработанные алгоритмы выбора порогового значения, наиболее подходящего архиватора, количества отрезков разбиения. Приводятся схемы разработанных для выполнения этих задач скриптов, в том числе и полученное соискателем простое решение, позволяющее проводить параллельную распределенную обработку на вычислительном кластере. Решается задача стегоанализа разработанным методом серии незаполненных контейнеров. Приводится описание наиболее распространенных программ стеганографии формата BMP и экспериментально изученные особенности заполнения программами контейнеров. Проводится экспериментальный анализ контейнеров, созданных рассмотренными программи и выбор параметров разработанного метода стегоанализа, дающих наибольшую эффективность в каждом случае. В конце главы рассматриваются наиболее распространенные существующие методы стегоанализа для формата BMP, сравнивается их эффективность с эффективностью разработанного метода.

В настоящий момент существует более 100 различных стеганографических программных пакетов, большая часть которых имеет поддержку формата BMP. Список наиболее распространенных на сегодняшний день продуктов включает в себя программы: S-Tools 4.0, Steganos Privacy Suite 2008, Image Spyer 2008, SecurEngine 4.0, Steganography 1.6, StegoMagic, wbStego, StegoTools, Hide4PGP 2.0 и др.

Наиболее удобные для тестирования программы, имеющие интерфейс командной строки и открытые исходные коды. Они легко компилировались в UNIX-подобной ОС (например, Linux или FreeBSD). Тестирование программ автоматизировалось с помощью языка скриптов Unix Shell. Программы с закрытыми исходными кодами с интерфейсом командной строки тестировались по предыдущей схеме с применением эмуляторов DosBox и Wine. Для автоматизации приложений с графическим интерфейсом применялтся язык AutoIT.

Выбор незаполненных контейнеров для выполнения задач стегоанализа производился в домашних сетях и в сети Интернет с добавлением некоторого количества собственных фотографий с цифрового фотоаппарата. Обращалось внимание на представительность полученной выборки, т.е. наличие множества файлов с различными параметрами (количество цветов, шумы, разрешение, и т.д.)

Полученные файлы тестировались на наличие аномалий, которые могут нарушить процесс автоматического тестирования и негативно повлиять на результаты.

Разработанный алгоритм стегоанализа файлов формата BMP был реализован в виде программного комплекса, состоящего из различных компонентов. Большинство компонентов написано на языке Unix-shell (интерпретатор GNU Bash). Несколько критичных по быстродействию, точности вычислений и потребляемым ресурсам участков алгоритма реализованы в виде отдельных программ на языке Си. Разработан интерфейс взаимодействия различных модулей, позволяющий модулям легко обмениваться данными. Разработанный и описанный ранее алгоритм стегоанализа файлов формата 24-бит BMP, реализован в виде комплекса. Отдельные компоненты позволяют решать такие задачи, как:

  1. Генерация с помощью выбранной стеганографической программы из пустого контейнера серии заполненных контейнеров с разной степенью заполнения (например, 0%, 10%, 20%, …, 100%)
  2. Стегоанализ разработанным методом одного контейнера
  3. Стегоанализ разработанным методом серии контейнеров
  4. Распределенный параллельный стегоанализ разработанным методом серий контейнеров на вычислительном кластере

Разработанный алгоритм стегоанализа BMP-изображений тестировался на выборке из 1000 незаполненных контейнеров. В табл. 1. представлена зависимость числа верных решений (в % от общего числа файлов) от выбора архиватора при фиксированном значении порога = 1.0 и фиксированном количестве отрезков разбиения N = 10.

Таблица 3

Архиватор Количество верно определенных файлов, шт. Процент верных решений по выборке
RAR 970 97%
ZIP 940 94%
GZIP 940 94%
BZIP2 930 93%
7ZIP 920 92%
U 974 97%
I 913 91%

Таблица 1. Выбор архиватора для стегоанализа незаполненных

контейнеров

Специальные типы U и I представляют собой соответственно объединение и пересечение множеств верных решений всех исследуемых архиваторов. Объединение решений (U) дает положительный результат на исследуемом контейнере в том случае, если хотя бы с одним архиватором алгоритм выдал положительный результат. Метод пересечения решений (I) дает положительный результат в том случае, если при проверке контейнера положительный результат выдается со всеми рассмотренными архиваторами. Несмотря на низкий процент верных решений метод I можно считать самым надежным. Самые высокий процент верных решений выдает метод U, однако он менее надежен. При использовании только одного архиватора наиболее подходящим для стегоанализа незаполненных контейнеров является RAR.

В ходе исследования были изучены и протестированы стеганографические пакеты StegoTools, Hide4PGP, SecurEngine, S-Tools и Stegomagic. Пакеты StegoTools, SecurEngine и StegoMagic заносят данные в контейнер последовательно. Программы Hide4PGP и S-Tools размещают скрываемую информацию, размещая ее по контейнеру в различных позициях («распределенный» метод).

В результате проведенного экспериментального исследования лучшими архиваторами для алгоритма стегоанализа BMP, применяемого к контейнерам, созданным рассматриваемыми программами, оказались архиваторы ZIP, GZIP, I и U. Данные значения получены при выборе порогового значения= 1.0.

Путем длительного тестирования и подбора различных параметров (архиватор, порог , и т.д.) получено множество таблиц, отражающих эмпирические зависимости качества метода от выбора соответствующих комбинаций параметров (например, табл. 2, 3). Табличные данные могут быть использованы для настройки разработанного алгоритма: выбора необходимых параметров и с целью обеспечения требуемой на практике эффективности, соотношений ошибок I и II рода и т.д.

Таблица 2.

Пороговое значение , % Процент заполнения контейнера от его емкости, %
0 10 20 30 40 50 60 70 80 90 100
0.5 97 3 3 3 3 23 47 68 82 90 93
0.6 96 3 3 4 4 36 65 82 92 96 98
0.7 95 4 4 5 6 51 79 92 97 99 99
0.8 95 4 5 6 7 68 91 97 99 99 99
0.9 94 5 6 6 8 85 98 99 99 99 100
1.0 94 6 7 7 9 98 99 99 99 100 100
1.1 94 6 7 7 9 98 99 99 99 100 100
1.2 93 6 7 8 10 98 99 99 100 100 100
1.3 92 7 8 9 11 98 99 99 100 100 100
1.4 92 7 9 10 12 98 99 100 100 100 100
1.5 91 8 9 11 13 99 100 100 100 100 100
1.6 91 9 10 11 15 99 100 100 100 100 100
1.7 90 10 11 12 15 99 100 100 100 100 100
1.8 89 11 12 13 16 99 100 100 100 100 100
1.9 89 12 12 14 17 99 100 100 100 100 100
2.0 88 12 13 15 18 99 100 100 100 100 100

Таблица. 2. Исследование чувствительности метода стегоанализа в зависимости от величины порогового значения и процента заполнения контейнера для архиватора ZIP. В ячейках показан процент верных решений алгоритма стегоанализа. Контейнеры наполнены при помощи программы Stegwrite.

Таблица 3.

Пороговое значение , % Процент заполнения контейнера от его емкости, %
0 10 20 30 40 50 60 70 80 90 100
0.5 98 2 4 9 36 88 87 87 87 88 89
0.6 98 3 6 12 49 94 93 93 92 94 94
0.7 97 3 7 15 63 96 96 96 95 97 97
0.8 97 4 8 17 74 98 97 97 97 98 98
0.9 97 4 10 20 81 99 98 98 98 98 99
1.0 97 5 11 22 89 99 98 98 98 99 99
1.1 97 5 11 23 90 99 98 98 98 99 99
1.2 96 6 13 27 95 99 99 99 98 99 99
1.3 96 7 14 31 96 99 99 99 98 99 99
1.4 96 8 17 36 97 99 99 99 98 99 99
1.5 95 10 19 41 98 99 99 99 99 99 99
1.6 94 11 20 46 98 99 99 99 99 99 99
1.7 93 12 22 50 99 99 99 99 99 99 99
1.8 93 13 24 54 99 99 99 99 99 99 99
1.9 92 14 25 58 99 99 99 99 99 99 99
2.0 91 15 28 61 99 99 99 99 99 100 99

Таблица. 3. Исследование чувствительности метода стегоанализа в зависимости от величины порогового значения и процента заполнения контейнера для архиватора RAR. В ячейках показан процент верных решений алгоритма стегоанализа. Контейнеры наполнены при помощи программы Hide4PGP.

Произведено сравнение эффективности разработанного метода стегоанализа с существующими распространенными методами: Атака Хи-квадрат, RS-метод, SamplePairs-метод.

Найденная программная реализация метода Хи-квадрат не позволяла легко произвести автоматизированное экспериментальное сравнение, поэтому использовался результат, описанный в литературе, согласно которому качественное определение вложений данным методом начинается при заполнении 50% и выше от емкости контейнера. Эффективность разработанного метода стегоанализа превосходит данный результат.

Тестирование методов RS и SamplePairs проводилось в автоматическом режиме с помощью специально разработанных скриптов на UNIX Shell. Использовались программные реализации обоих методов стегоанализа на языке Java из состава программного комплекса Digital Invisible Ink Toolkit.

 Сравнение метода RS с разработанным методом на распределенном-24

Рис. 3. Сравнение метода RS с разработанным методом на

распределенном заполнении контейнеров.

 Сравнение метода RS с разработанным методом на последовательном-25

Рис. 4. Сравнение метода RS с разработанным методом на

последовательном заполнении контейнеров.

Методы RS и SamplePairs не позволяют регулировать соотношение ошибок I и II рода путем подстройки каких-либо параметров, поэтому для выполнения сравнения были выровнены ошибки I рода у разработанного метода (используя полученные ранее табличные данные) и исследуемых известных методов.

При этом начиная с некоторой степени заполнения контейнеров разработанный метод показал меньшие ошибки II рода по сравнению с RS и SamplePairs (рис. 3-6), что говорит о превосходящей эффективности разработанного метода.

 Сравнение метода SamplePairs с разработанным методом на-26

Рис. 5. Сравнение метода SamplePairs с разработанным методом

на последовательном заполнении контейнеров.

 Сравнение метода SamplePairs с разработанным методом на-27

Рис. 6. Сравнение метода SamplePairs с разработанным методом

на распределенном заполнении контейнеров.

В пятой главе рассмотрены распространенные методы встраивания в файлы формата JPEG и особенности заполнения стеганографическими программами контейнеров, изученные путем проведения экспериментов или на основе анализа исходных кодов программ. Получена формула емкости контейнера JPEG. Описан разработанный с учетом специифики формата JPEG и способов заполнения контейнеров метод стегоанализа изображений JPEG. Производится подбор изображений для тестирования методов стеганографии и стегоанализа. Проводится экспериментальный анализ контейнеров, созданных рассмотренными программами и выбор параметров разработанного метода стегоанализа, дающих наибольшую эффективность в каждом случае. В конце главы рассматривается распространенная программа стегоанализа Stegdetect, сравнивается эффективность работы программы с разработанным методом.

JPEG является на сегодняшний день доминирующим форматом хранения и передачи графической информации, в основном благодаря эффективному алгоритму сжатия данных с потерями, позволяющему уменьшать изображения во много раз без существенной потери качества. Этот факт стал причиной повсеместного применения JPEG в сетях передачи данных (например, Интернет) и для хранения больших архивов и коллекций изображений.

Несмотря на высокую распространенность и повсеместное применение формата JPEG для хранения и передачи графической информации, количество стеганографических программ, имеющих поддержку JPEG существенно меньше числа программ, работающих с такими форматами, как BMP, PNG и т.д., где данные хранятся в пространственном представлении. Это связано с большей сложностью формата по сравнению с форматом BMP. Среди наиболее распространенных программ стеганографии формата JPEG – JPHide, Jpeg-jsteg, F5, SecurEngine 4.0, OutGuess и др.

Скрытые данные помещаются в формате JPEG в младшие биты коэффициентов дискретного косинусного преобразования (ДКП), доступ к которым можно получить перед последним этапом алгоритма JPEG. Поэтому возможны два сценария работы стеганографической программы:

  1. Выполнение алгоритма сжатия JPEG «с нуля» + включение данных перед последним этапом
  2. Частичное декодирование JPEG, включение данных, выполнение последнего этапа алгоритма JPEG заново.

Контейнер JPEG имеет достаточно большую емкость, сравнимую с емкостью контейнера формата BMP. В результате исследований получена формула емкости контейнера формата JPEG, упрощенная форма которой выглядит следующим образом:

что в 2 раза меньше емкости контейнера BMP с таким же разрешением.

Принятыми единицами измерения считаются: 1) количество битов на пиксель, 2) количество % от максимальной емкости, определяемой алгоритмом стеганографии.

Распространенные программы стеганографии заполняют не все доступное пространство младших битов (PJPG). Кроме того, повторное заполнение уже полного контейнера на 100% (определяется программой стеганографии) не перезаписывает строго те младшие биты, которые содержат предыдущую скрытую информацию. Разработан алгоритм стеганографии JPEG с учетом этих особенностей.

Разработанный алгоритм стегоанализа изображений формата JPEG оценивает динамику изменения коэффициента сжатия исследуемого контейнера в зависимости от степени повторного наполнения при помощи выбранной стеганографической программы. Вычисляются аналогичные характеристики для контейнеров, заполненных на 0%, 10%, 20% и т.д. от емкости, определяемой стеганографической программой, после чего производится выбор той степени заполнения, при которой характеристики ближе всего к характеристикам исследуемого контейнера. Ввиду необходимости многократного выполнения алгоритма сжатия JPEG наиболее удобен для применения встроенный в алгоритм JPEG метод неискажающего сжатия вместо внешних программ-архиваторов.

Проведено исследование распространенных стеганографических программ JPHide, Jpeg-Jsteg и метода стегоанализа Stegdetect.

Для разработанного метода и программы Stegdetect получены зависимости частоты верных решений от степени заполнения контейнеров при тестировании методов на выборках файлов с различной степенью заполнения.

Таблица 4.

Заполнение контейнера, % Количество неверных решений методов
Разработанный метод Stegdetect
Количество/Всего % Количество/Всего %
0% 165 / 1247 13.23% 151 / 1247 12.1%
10% 95 / 1247 7.61% 115 / 1247 9.22%
20% 23 / 1247 1.84% 26 / 1247 2.08%
30% 22 / 1247 1.76% 17 / 1247 1.36%
40% 9 / 1247 0.72% 15 / 1247 1.2%
50% 4 / 1247 0.32% 13 / 1247 1.04%
60% 4 / 1247 0.32% 21 / 1247 1.68%
70% 1 / 1247 0.08% 15 / 1247 1.2%
80% 1 / 1247 0.08% 18 / 1247 1.44%
90% 0 / 1247 0% 15 / 1247 1.2%
100% 0 / 1247 0% 19 / 1247 1.52%

Таблица 4. Резульаты тестирования разработанного метода

стегоанализа JPEG и программы Stegdetect.

Экспериментально показано, что эффективность разработанного метода стегоанализа графических файлов формата JPEG превосходит эффективность метода Stegdetect.

В заключении сформулированы основные результаты, полученные в диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В настоящей работе предложены новые методы стегоанализа графических данных в форматах 24-бит BMP и JPEG, основанные на применении алгоритмов сжатия информации. Методы обладают такими достоинствами, как простота реализации, высокая эффективность обнаружения скрытой информации, возможность проведения тестирования в автоматическом режиме и др. Экспериментально показано, что чувствительность разработанных методов превосходит известные, распространенные и широко применяемые методы, такие как Хи-квадрат, RS-метод, алгоритм Stegdetect.

Разработанные методы имеют параметры, позволяющие регулировать чувствительность, соотношение ошибок I и II рода (т.е. ошибок правильной идентификации пустых и заполненных контейнеров).

Предложенные методы могут применяться как в виде отдельного инструмента, используемого аналитиком или в виде модуля в составе сложных систем контроля и ограничения трафика (например, прокси-сервер Squid) для обеспечения проверки графической информации в автоматическом режиме при прохождении по каналу передачи информации.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

  1. Жилкин, М.Ю. Метод выявления скрытой информации, базирующийся на сжатии данных / М.Ю. Жилкин, Н.А. Меленцова, Б.Я. Рябко // Вычислительные технологии. – Новосибирск: Изд-во ИВТ СО РАН, 2007. – Т.12. – С. 26-31.
  2. Жилкин, М.Ю. Метод выявления скрытой информации в стеганографических системах, основанный на сжатии данных / М.Ю. Жилкин // Материалы «VIII Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям». – Новосибирск: Изд-во ИВТ СО РАН, 2007.
  3. Жилкин, М.Ю. Метод определения «скрытой» информации, базирующийся на сжатии данных / М.Ю. Жилкин // Материалы конференции «Информатика и проблемы телекоммуникаций». – Новосибирск: Изд-во СибГУТИ, 2007. – С. 128-128.
  4. Жилкин, М.Ю. Метод стегоанализа изображений формата JPEG, базирующийся на сжатии данных / М.Ю. Жилкин // Материалы докладов XV Международной конференции студентов, аспирантов и молодых ученых «Ломоносов - 2008». – М.: МГУ, 2008. – Режим доступа: http://www.lomonosov-msu.ru/archive/Lomonosov_2008/04.pdf
  5. Жилкин, М.Ю. Стегоанализ графических данных в различных форматах / М.Ю. Жилкин // Доклады Томского государственного университета систем радиоуправления и электроники. – Томск: Изд-во ТУСУР, 2008. – Т. 2(18). – Ч. 1. – С. 63-64.
  6. Жилкин, М.Ю. Стегоанализ графических данных на основе методов сжатия / М.Ю. Жилкин // Вестник Сибирского государственного университета телекоммуникаций и информатики. – Новосибирск: Изд-во СибГУТИ, 2008. – Т.2. – С. 62-66.
  7. Ryabko, B. Information-Theoretic Approaches to Steganography: Latest Achievements / B. Ryabko [et al.] // Proceedings of XII International Symposium on Problems of Redundancy in Information and Control Systems, Saint-Petersburg. – 2009. – P. 196-197.
  8. Zhilkin, M. Data Compression Based Method Of Revealing Hidden Information In Steganographic Systems / M. Zhilkin, N. Melentsova, B. Ryabko // Proceedings of XI International Symposium on Problems of Redundancy in Information and Control Systems, Saint-Petersburg. – 2007. – P. 42-44.

Жилкин Михаил Юрьевич

Теоретико-информационные методы

стегоанализа графических данных

Автореферат диссертации

на соискание ученой степени кандидата технических наук

________________________________________________________________

Подписано в печать “__” _______ 2009 г.

Формат бумаги 60x84/16, отпечатано на ризографе, шрифт № 10,

изд. л.1,6, заказ № __, тираж 100 экз., ГОУ ВПО “СибГУТИ”.

630102, г. Новосибирск, ул. Кирова, д. 86.



 




<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.