Теоретико-информационные методы стегоанализа графических данных
На правах рукописи
Жилкин Михаил Юрьевич
ТЕОРЕТИКО-ИНФОРМАЦИОННЫЕ МЕТОДЫ
СТЕГОАНАЛИЗА ГРАФИЧЕСКИХ ДАННЫХ
Специальность: 05.12.13
«Системы, сети и устройства телекоммуникаций»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Новосибирск – 2009
Работа выполнена на кафедре прикладной математики и кибернетики Государственного образовательного учреждения высшего профессионального образования “Сибирский государственный университет телекоммуникаций и информатики” (ГОУ ВПО «СибГУТИ»).
Научный руководитель: | доктор технических наук, профессор Рябко Б.Я. |
Официальные оппоненты: | доктор технических наук, профессор Трофимов В.К. кандидат физико-математических наук, доцент Монарев В.А. |
Ведущая организация: | ГОУ ВПО «Санкт-Петербургский государственный университет аэрокосмического приборостроения» |
Защита состоится “__” _______ 2009 г. в “__” часов на заседании диссертационного совета Д 219.005.01 при ГОУ ВПО “Сибирский государственный университет телекоммуникаций и информатики”, по адресу:
630102, г. Новосибирск, ул. Кирова, д. 86, ком. 625.
С диссертацией можно ознакомиться в библиотеке
ГОУ ВПО “СибГУТИ”.
Автореферат разослан “__” _______ 2009 г.
Ученый секретарь диссертационного совета Д 219.005.01 доктор технических наук, профессор | Мамчев Г.В. |
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. Диссертация посвящена разработке новых методов обеспечения информационной безопасности в компьютерных и телекоммуникационных сетях. Одной из актуальных проблем безопасности современных компьютерных сетей является борьба с незаконной, скрытой передачей информации.
Для передачи скрытой информации используются различные средства и методы, основные из которых базируются на алгоритмах стеганографии. При этом различного рода «злоумышленники» встраивают информацию, маскируя ее в других сообщениях, которые выглядят безобидно и не вызывают подозрение у потенциального перехватчика (рис. 1). Стеганография имеют богатую историю и широкий спектр различных методов, каждый из которых характерен для своей эпохи. Так, например, в древности применяли тайнопись на табличках, покрытых воском, известен случай передачи сообщения в виде татуировки на голове гонца. В начале XX века использовались симпатические чернила, во времена Второй мировой войны широкое распространение получил метод микрофотографий.
Рис. 1. Лена.jpg. Слева – исходное изображение 300x300 точек,
справа – это же изображение, содержащее 31Кб скрытых данных.
В настоящее время бурное развитие вычислительной техники привело к возникновению особой науки, так называемой цифровой компьютерной стеганографии. Появились новые стеганографические методы, в основе которых лежат особенности представления информации в компьютерных файлах, вычислительных сетях и т.п.
Методы современной компьютерной стеганографии находят применение в области в военной и правительственной связи, защиты авторских прав, для
решения задач обеспечения информационной безопасности. Актуальность проблемы информационной безопасности постоянно растет и стимулирует разработку как новых методов стеганографии, так и методов стегоанализа – обнаружения скрытой информации.
Повсеместное распространение компьютерной техники и глобальных компьютерных сетей, простота в эксплуатации оборудования и доступность для пользователя стеганографического программного обеспечения позволяют сегодня каждому желающему использовать методы стеганографии при передаче информации. Стоит отметить, что этими методами с легкостью могут воспользоваться и злоумышленники, например, для скрытой передачи конфиденциальной информации, коммерческих и государственных секретов и т.п. Поэтому на сегодняшний день стоит проблема построения методов обнаружения скрытых данных в передаваемых сообщениях – задача так называемого стегоанализа.
За последние годы арсенал доступных стеганографических программ заметно расширился. В настоящее время существует более сотни коммерческих, бесплатных и условно-бесплатных пакетов разного назначения: программы, написанные под операционные системы UNIX, MS-DOS, Windows и др., а также кроссплатформенные приложения; имеющие графический интерфейс или интерфейс командной строки; поддерживающие только один или сразу несколько форматов контейнеров; имеющие или не имеющие встроенные средства криптографии и аутентификации; интегрирующиеся в среду или выполняемые отдельно и т.д.
Наиболее популярные программы стеганографии и стегоанализа для файлов графических форматов, такие как Hide and Seek, Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5, Stegdetect и др. часто основаны на алгоритмах, полученных в рамках научных исследований.
Проблемой разработки и усовершенствования методов стеганографии и стегоанализа занимаются многие отечественные и зарубежные ученые: В.Г. Грибунин, И.Н. Оков, Б.Я. Рябко, И.В. Туринцев, А.Н. Фионов, К. Качин (C. Cachin), Р. Андерсон (R. Anderson), Х. Фарид (H. Farid), К. Салливан (K. Sullivan), Д. Фридрич (J. Fridrich), Н. Провос (N. Provos) и др. С каждым годом растет число публикаций, посвященных стеганографии, стегоанализу, а также в смежных областях науки. Широко применяются результаты и достижения классических наук и различных их направлений: теории информации, кодирования, алгебры, физики и т.д.
Целью работы является построение эффективных методов стегоанализа данных в наиболее распространенных на сегодняшний день графических форматах BMP и JPEG. Данные методы должны быть автоматическими, т.е. работать без участия человека и применимыми в телекоммуникационных и компьютерных сетях. Для этого требуются такие характеристики, как высокая скорость обработки данных и высокая вероятность обнаружения скрытой информации.
Задачи исследования - построение экспериментального исследования и разработка методов стегоанализа, базирующихся на алгоритмах сжатия данных. Их применение для методов стеганографии двух типов: 1) основанных на изменении младших разрядов (LSB) и 2) для методов стеганографии в графических форматах с преобразованием Фурье.
Методы исследования
- Методы теории информации
- Методы теории кодирования
- Проведение экспериментальных расчетов на ЭВМ
Научная новизна. Впервые разработан и практически реализован метод стегоанализа, основанный на сжатии данных, эффективность которого выше, чем у ранее известных методов. Данный метод применим в системах обеспечения безопасности компьютерных и телекоммуникационных сетей.
Экспериментально доказаны высокая скорость, эффективность алгоритмов и возможность их применения для наиболее популярных графических форматов: BMP и JPEG. Это позволяет производить стегоанализ «на лету» передаваемой по компьютерным сетям информации, например, при реализации разработанных методов в виде модулей для интеграции с межсетевыми экранами, прокси-серверами и иными системами контроля, учета и ограничения трафика, которые широко применяются в различных организациях.
Практическая ценность полученных результатов
- Для наиболее практически распространенных графических форматов построены методы стегоанализа, эффективность которых превосходит ранее известные.
- Показана высокая эффективность методов стегоанализа, базирующихся на использовании алгоритмов сжатия данных, и возможность их применения к данным в других форматах.
- Параметры предложенных методов позволяют анализировать с их помощью сетевой трафик.
Внедрение результатов исследования в практику. Основные результаты получены в рамках следующих государственных программ:
- Грант РФФИ № 06-07-89025. Руководитель: д.т.н., проф. Рябко Б.Я.
- По заданию Федерального агентства науки и инноваций (государственный контракт № 02.514.11.4027.2) выполнение научно-исследовательских работ в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», лот 3: «Технологии разработки распределенных программных систем получения и использования знаний» по теме: «Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения»
- Гранты для выполнения научных исследований аспирантами, магистрантами и молодыми преподавателями СибГУТИ, 2007 и 2008 гг.
Апробация работы
Материалы работы докладывались на следующих российских и международных конференциях:
- «Информатика и проблемы телекоммуникаций» (Новосибирск, 2007)
- XI Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2007)
- VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2007)
- «Информатика и проблемы телекоммуникаций» (Новосибирск, 2008)
- Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008» (МГУ, Москва, 2008)
- X Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (Томск-Красноярск, 2008)
- XII Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2009)
Публикации. По материалам диссертации опубликовано 8 печатных работ, результаты работы отражены в отчетах по грантам и НИР. Список работ приведен на странице 22 автореферата.
Структура диссертации. Диссертация занимает 151 страницу текста и состоит из введения, обзора литературы, рассмотрения основных графических форматов данных, известных методов стеганографии и стегоанализа, описания собственного исследования, заключения с анализом полученных результатов. Работа содержит 23 таблицы и 53 рисунка. Список литературы включает 88 источников.
Основные положения, выносимые на защиту
- Методы стегоанализа, основанные на применении сжатия данных, обладают высокой эффективностью и могут использоваться для выявления скрытой передачи информации в телекоммуникационных сетях.
- Разработан метод стегоанализа в графических данных для выявления данных, скрытых при помощи LSB-стеганографии. Метод был испытан на файлах формата BMP и доказал свою высокую эффективность.
- Разработан метод стегоанализа, предназначенный для работы с графическими форматами на основе преобразований Фурье. Метод успешно опробован на файлах формата JPEG.
- Разработаны методы, технические характеристики которых позволяют использовать их для анализа трафика в компьютерных сетях с целью выявления скрытой передачи информации.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, представлены основные положения диссертационной работы, выносимые на защиту.
В первой главе рассматривается общая модель стегосистемы, основные принципы ее функционирования. Даются понятия контейнера, стегоконтейнера, секретного сообщения, алгоритма встраивания, ключа шифрования и дешифрования и т.д. Приводятся примеры часто используемых на практике программ стеганографии, примеры наиболее распространенных алгоритмов, реализующих отдельные этапы задачи включения скрытой информации в контейнер.
Основным понятием стеганографии является стегосистема, которая выполняет задачу скрытия и извлечения информации (рис. 2).
Стегосистема включает в себя контейнер, стегоконтейнер, секретное сообщение, ключ, алгоритмы встраивания и извлечения информации, а также канал передачи информации.
Контейнером называется последовательность данных, в которую необходимо занести секретное сообщение. В современной цифровой стеганографии в качестве контейнеров могут выступать файлы распространенных цифровых форматов, таких как BMP, JPEG, WAV, MP3, AVI, PDF, EXE. Наиболее удобными контейнерами считаются музыкальные файлы, изображения, видео и т.д. Контейнер, содержащий в себе скрытую информацию, называется стегоконтейнером.
Стегосистема задается алгоритмом включения и извлечения информации, которые реализованы в любом стеганографическом программном продукте. Среди наиболее распространенных реализованных стегосистем мы отметим Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5 и т.д.
Рис. 2. Общая модель стегосистемы.
Для встраивания секретного сообщения в контейнер применяется алгоритм встраивания информации, который является основой стегосистемы.
Одна из главных задач алгоритма встраивания – внесение незаметных для восприятия человеком изменений в контейнер. Это требование обычно ограничивает емкость контейнера, т.е. максимальное количество скрытой информации, которое способен вместить в себя контейнер. Емкость контейнера зависит от характеристик самого контейнера, алгоритма включения информации, а иногда и от секретного сообщения. Специальный алгоритм извлечения информации предназначен для проверки наличия секретного сообщения внутри контейнера и его извлечения. Для каждого алгоритма встраивания существует свой алгоритм извлечения информации.
Перед встраиванием в контейнер, в целях повышения безопасности и компактности, секретное сообщение обычно сжимается и шифруется. Для сжатия используются различные алгоритмы, например алгоритмы семейства LZ или на основе BWT. Шифрование информации производится по какому-либо заранее заданному алгоритму, например, AES, Blowfish и т.д. Для получения ключа шифрования и дешифрования используется пароль пользователя или результат вычисления хэш-функции от него. Для корректного извлечения информации пароль должен быть передан принимающей стороне по отдельному безопасному каналу передачи информации. Алгоритмы шифрования, сжатия, хэширования чаще всего встроены в стеганографический пакет.
В качестве контейнеров обычно выбираются данные, не вызывающие подозрения, например, фотографии, популярные музыкальные композиции и видеоролики. Файл с включенной (или встроенной) скрытой информацией, передается по открытому каналу передачи информации получателю сообщения.
Предполагается, что вся проходящая по открытому каналу информация может быть перехвачена и исследована.
Поэтому одно из основных направлений при разработке и улучшении методов стеганографии – достижение наибольшей «незаметности» информации внутри стегоконтейнера, и, наоборот, основная задача стегоанализа – обнаружение факта присутствия скрытой информации.
Во второй главе рассматривается задача стегоанализа, выделяются два основных вида алгоритмов стегоанализа, рассматриваются общие этапы произвольного алгоритма стегоанализа и наиболее распространенный на сегодняшний момент общий принцип стегоанализа контейнеров. Приводится формальное описание разработанного алгоритма стегоанализа, определяются понятия ошибок I и II рода разработанного теста. Описывается разработанная общая схема тестирования графических данных предлагаемым методом с решением задачи оптимизации – выбора наиболее подходящих архиваторов и порогового значения, дающих лучшие характеристики алгоритма в зависимости от требований пользователя.
Различные методы стегоанализа подразделяются на две основные категории:
- Методы направленного стегоанализа – предназначенные для работы только с заранее известными стеганографическими алгоритмами.
- «Слепые» или универсальные методы – предназначенные для всех алгоритмов стеганографии.
Методы обеих категорий построены с учетом предположения о недоступности исходного пустого контейнера, который был использован для включения информации в исследуемый стегоконтейнер.
Кроме того, стегоанализ «слепыми» методами часто не требует знания использованного алгоритма включения информации, алгоритма шифрования, сжатия, ключа и длины сообщения.
Методы направленного стегоанализа разработаны под конкретные известные алгоритмы стеганографии. Они, как правило, дают немного лучшие результаты в сравнении с универсальными методами.
Положительной стороной универсальных методов является возможность работы с любыми, в том числе и неизвестными стеганографическими алгоритмами.
Известные методы «слепого» стегоанализа обычно построены на алгоритмах, требующих предварительного «обучения» на сериях из заполненных и пустых контейнеров.
Большинство исследований в области стегоанализа направлено на решение основной задачи: определение факта наличия скрытой информации в контейнере. Для решения этой задачи применяются различные методы. Наиболее распространены статистические алгоритмы. Основную роль в таких методах играет статистическая модель неизвестного пустого контейнера. В построенной модели находят параметры и характеристики, наиболее чувствительные к включению скрытой информации. По различию между теоретической моделью и исследуемым контейнером определяется вероятность наличия секретного сообщения.
В основу разработанных методов положен тот факт, что исходный контейнер и добавляемая в него информация статистически независимы, поэтому при добавлении скрытых данных в контейнер, размер при его сжатии вырастает по сравнению с размером исходного сжатого «пустого» контейнера.
Разработанный метод стегоанализа графических данных применяет алгоритмы сжатия данных для проверки статистической независимости информации. Для сжатия используются широко распространенные программы-архиваторы.
Для формального описания алгоритма вводятся следующие обозначения: пусть - последовательность байтов в данных изображений, а - длина последовательности. Последовательность X разбивается на d равных отрезков, обозначаемых , где . Функция возвращает результат обработки контейнера алгоритмом сжатия.
Для удобства вводится функция
которая обозначает коэффициент сжатия отрезка n последовательности X алгоритмом .
Через обозначим псевдослучайное изменение младших битов всех байтов последовательности X.
Пусть X - последовательность, которая подается на вход программе, а - полученная из нее новая последовательность. Введем новую величину
Те отрезки последовательности, которые не содержали “скрытую” информацию сжимаются лучше, чем соответствующие им отрезки последовательности Y, и напротив, коэффициенты сжатия отрезка последовательности X со «спрятанной» информацией и отвечающего ему отрезка последовательности Y отличаются незначительно.
Для определения факта включения информации выбирается пороговое значение для величины и производится оценка количества отрезков, на которых значение величины не превышает порог.
Для экспериментального исследования метода была подготовлена серия изображений («контейнеров») разного разрешения и качественного содержания.
Обработка одного изображения выполнялась следующему алгоритму:
- Вход: пустой контейнер, имя архиватора для выполнения сжатия, пороговое значение
- Тестирование контейнера разработанным алгоритмом анализа со сжатием заданным архиватором
- Определение факта заполнения по заданному значению
- Вывод результата: «Заполнен» или «Не заполнен»
Ситуация, когда тест отвечает «Заполнен» на пустом контейнере, называется ошибкой I рода. Ошибка II рода возникает в случае ответа «Не заполнен» при проверке непустого контейнера.
Тестирование большой серии изображений проводилось в несколько этапов:
- Настройка. На этом этапе анализировалась небольшая выборка (около 50 изображений) и подбирался наиболее подходящий архиватор и два пороговых значения следующим образом:
- и, обеспечивающие отсутствие ошибок I рода (на данной выборке).
- и, при которых достигается «золотая середина» – небольшой процент ошибок II рода при небольшом количестве ошибок I рода.
- Тестирование по независимым данным. После экспериментального подбора архиватора и двух вариантов порогового значения проводилась проверка результатов на большой серии (не менее 1000) изображений, не использовавшихся на этапе подбора параметров.
Предложенный в работе алгоритм стегоанализа и метод подстройки параметров используются с различными модификациями для стегоанализа графических данных форматов BMP и JPEG.
Третья глава посвящена краткому техническому описанию формата файла BMP и алгоритма JPEG. Рассматриваются два вида форматов BMP, уделяется внимание вопросу применимости методов стеганографии и стегоанализа для в обоих случаях. Для формата JPEG подчеркивается разница между алгоритмом сжатия и форматом файла, обосновывается целесообразность применения библиотеки поддержки форматов для работы с файлами JPEG, которая активно используется в настоящее время в различных программах стеганографии и стегоанализа, в том числе и при реализации разработанного алгоритма стегоанализа. В главе также отмечены причины большой распространенности форматов, благодаря чему их можно считать одними из основных форматов представления графической информации.
Аббревиатура BMP означает BitMap («битовая карта», «битовая матрица»). Формат BMP относится к числу тех графических форматов, где данные представлены «как есть», без каких-либо преобразований, сжатия и т.д. По этой причине файлы BMP имеют довольно большой размер, например, изображение разрешением 1280x800 24бит будет занимать 2.92Мб. Положительной стороной BMP является высокое качество изображения, а также простота формата, что делает его очень популярным для применения в качестве стегоконтейнера. Большинство стеганографических средств предназначено для работы с форматом BMP.
Существуют два основных варианта хранения данных в формате BMP:
- Индексированный. Содержит палитру с описанием всех используемых в изображении цветов. Массив самих данных изображения данных содержит только номера элементов массива палитры. Этот вариант формата является неудобным для стеганографии и поэтому редко применяется в этих целях.
- Неиндексированный. Наиболее распространенный вариант формата BMP. Палитра отсутсвует, поле данных само хранит описание цветов каждой точки. Этот способ представления данных в основном предназначен для полноцветной графики и в настоящее время очень широко распространен. Основным представителем неиндексированных форматов является 24-битный BMP. Он наиболее популярен в среде различных стеганографичеких программ.
Разработанный метод стегоанализа данных для формата BMP работает только с вариантом «24-битный BMP».
Формат JPEG берет свое название от созданной в середине 1980-x Объединенной группы экспертов по фотографии (Joint Photographic Expert Group), которая входит в состав организации ISO. Целью группы являлось создание эффективного алгоритма сжатия цветных и полутоновых изображений и разработка промышленного стандарта передачи данных с помощью цифровых коммуникационных сетей. Алгоритм JPEG обеспечивает очень высокую степень сжатия данных при сравнительно небольших визуальных искажениях, что сделало его очень популярным для хранения и передачи изображений по компьютерным сетям. В настоящее время формат JPEG является наиболее распространенным среди всех форматов графических файлов.
JPEG является достаточно сложным в сравнении с BMP, поэтому принято различать:
- «формат JPEG-файла» - способ представления данных JPEG в файле.
- «алгоритм сжатия JPEG» - набор преобразований, переводящих несжатую графическую информацию в сжатые данные JPEG.
Формат JPEG файла в отличие от алгоритма сжатия не был стандартизован, кроме того, он является достаточно громоздким, в нем предусмотрены различные «фирменные расширения». Поэтому, вместо самостоятельной релизации работы с форматом файла, принятой практикой в настоящее время является использование библиотек поддержки форматов, например IJG JPEG Library для формата JPEG. Все операции по обработке файла и выполнению алгоритма JPEG возлагаются на саму библиотеку.
Показано, что файлы форматов 24-бит BMP и JPEG являются наиболее распространенными для передачи графической информации по компьютерным и телекоммуникационным сетям. Данные форматы наиболее часто используются для решения задач стеганографии. Это делает актуальной проблему разработки методов стегоанализа данных в форматах BMP и JPEG.
В четвертой главе рассматриваются известные методы встраивания в BMP-файлы, вопросы автоматического тестирования программ стеганографии формата BMP. Решается задача подбора изображений для тестирования методов стеганографии и стегоанализа. Описываются разработанные алгоритмы выбора порогового значения, наиболее подходящего архиватора, количества отрезков разбиения. Приводятся схемы разработанных для выполнения этих задач скриптов, в том числе и полученное соискателем простое решение, позволяющее проводить параллельную распределенную обработку на вычислительном кластере. Решается задача стегоанализа разработанным методом серии незаполненных контейнеров. Приводится описание наиболее распространенных программ стеганографии формата BMP и экспериментально изученные особенности заполнения программами контейнеров. Проводится экспериментальный анализ контейнеров, созданных рассмотренными программи и выбор параметров разработанного метода стегоанализа, дающих наибольшую эффективность в каждом случае. В конце главы рассматриваются наиболее распространенные существующие методы стегоанализа для формата BMP, сравнивается их эффективность с эффективностью разработанного метода.
В настоящий момент существует более 100 различных стеганографических программных пакетов, большая часть которых имеет поддержку формата BMP. Список наиболее распространенных на сегодняшний день продуктов включает в себя программы: S-Tools 4.0, Steganos Privacy Suite 2008, Image Spyer 2008, SecurEngine 4.0, Steganography 1.6, StegoMagic, wbStego, StegoTools, Hide4PGP 2.0 и др.
Наиболее удобные для тестирования программы, имеющие интерфейс командной строки и открытые исходные коды. Они легко компилировались в UNIX-подобной ОС (например, Linux или FreeBSD). Тестирование программ автоматизировалось с помощью языка скриптов Unix Shell. Программы с закрытыми исходными кодами с интерфейсом командной строки тестировались по предыдущей схеме с применением эмуляторов DosBox и Wine. Для автоматизации приложений с графическим интерфейсом применялтся язык AutoIT.
Выбор незаполненных контейнеров для выполнения задач стегоанализа производился в домашних сетях и в сети Интернет с добавлением некоторого количества собственных фотографий с цифрового фотоаппарата. Обращалось внимание на представительность полученной выборки, т.е. наличие множества файлов с различными параметрами (количество цветов, шумы, разрешение, и т.д.)
Полученные файлы тестировались на наличие аномалий, которые могут нарушить процесс автоматического тестирования и негативно повлиять на результаты.
Разработанный алгоритм стегоанализа файлов формата BMP был реализован в виде программного комплекса, состоящего из различных компонентов. Большинство компонентов написано на языке Unix-shell (интерпретатор GNU Bash). Несколько критичных по быстродействию, точности вычислений и потребляемым ресурсам участков алгоритма реализованы в виде отдельных программ на языке Си. Разработан интерфейс взаимодействия различных модулей, позволяющий модулям легко обмениваться данными. Разработанный и описанный ранее алгоритм стегоанализа файлов формата 24-бит BMP, реализован в виде комплекса. Отдельные компоненты позволяют решать такие задачи, как:
- Генерация с помощью выбранной стеганографической программы из пустого контейнера серии заполненных контейнеров с разной степенью заполнения (например, 0%, 10%, 20%, …, 100%)
- Стегоанализ разработанным методом одного контейнера
- Стегоанализ разработанным методом серии контейнеров
- Распределенный параллельный стегоанализ разработанным методом серий контейнеров на вычислительном кластере
Разработанный алгоритм стегоанализа BMP-изображений тестировался на выборке из 1000 незаполненных контейнеров. В табл. 1. представлена зависимость числа верных решений (в % от общего числа файлов) от выбора архиватора при фиксированном значении порога = 1.0 и фиксированном количестве отрезков разбиения N = 10.
Таблица 3
Архиватор | Количество верно определенных файлов, шт. | Процент верных решений по выборке |
RAR | 970 | 97% |
ZIP | 940 | 94% |
GZIP | 940 | 94% |
BZIP2 | 930 | 93% |
7ZIP | 920 | 92% |
U | 974 | 97% |
I | 913 | 91% |
Таблица 1. Выбор архиватора для стегоанализа незаполненных
контейнеров
Специальные типы U и I представляют собой соответственно объединение и пересечение множеств верных решений всех исследуемых архиваторов. Объединение решений (U) дает положительный результат на исследуемом контейнере в том случае, если хотя бы с одним архиватором алгоритм выдал положительный результат. Метод пересечения решений (I) дает положительный результат в том случае, если при проверке контейнера положительный результат выдается со всеми рассмотренными архиваторами. Несмотря на низкий процент верных решений метод I можно считать самым надежным. Самые высокий процент верных решений выдает метод U, однако он менее надежен. При использовании только одного архиватора наиболее подходящим для стегоанализа незаполненных контейнеров является RAR.
В ходе исследования были изучены и протестированы стеганографические пакеты StegoTools, Hide4PGP, SecurEngine, S-Tools и Stegomagic. Пакеты StegoTools, SecurEngine и StegoMagic заносят данные в контейнер последовательно. Программы Hide4PGP и S-Tools размещают скрываемую информацию, размещая ее по контейнеру в различных позициях («распределенный» метод).
В результате проведенного экспериментального исследования лучшими архиваторами для алгоритма стегоанализа BMP, применяемого к контейнерам, созданным рассматриваемыми программами, оказались архиваторы ZIP, GZIP, I и U. Данные значения получены при выборе порогового значения= 1.0.
Путем длительного тестирования и подбора различных параметров (архиватор, порог , и т.д.) получено множество таблиц, отражающих эмпирические зависимости качества метода от выбора соответствующих комбинаций параметров (например, табл. 2, 3). Табличные данные могут быть использованы для настройки разработанного алгоритма: выбора необходимых параметров и с целью обеспечения требуемой на практике эффективности, соотношений ошибок I и II рода и т.д.
Таблица 2.
Пороговое значение , % | Процент заполнения контейнера от его емкости, % | ||||||||||
0 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | |
0.5 | 97 | 3 | 3 | 3 | 3 | 23 | 47 | 68 | 82 | 90 | 93 |
0.6 | 96 | 3 | 3 | 4 | 4 | 36 | 65 | 82 | 92 | 96 | 98 |
0.7 | 95 | 4 | 4 | 5 | 6 | 51 | 79 | 92 | 97 | 99 | 99 |
0.8 | 95 | 4 | 5 | 6 | 7 | 68 | 91 | 97 | 99 | 99 | 99 |
0.9 | 94 | 5 | 6 | 6 | 8 | 85 | 98 | 99 | 99 | 99 | 100 |
1.0 | 94 | 6 | 7 | 7 | 9 | 98 | 99 | 99 | 99 | 100 | 100 |
1.1 | 94 | 6 | 7 | 7 | 9 | 98 | 99 | 99 | 99 | 100 | 100 |
1.2 | 93 | 6 | 7 | 8 | 10 | 98 | 99 | 99 | 100 | 100 | 100 |
1.3 | 92 | 7 | 8 | 9 | 11 | 98 | 99 | 99 | 100 | 100 | 100 |
1.4 | 92 | 7 | 9 | 10 | 12 | 98 | 99 | 100 | 100 | 100 | 100 |
1.5 | 91 | 8 | 9 | 11 | 13 | 99 | 100 | 100 | 100 | 100 | 100 |
1.6 | 91 | 9 | 10 | 11 | 15 | 99 | 100 | 100 | 100 | 100 | 100 |
1.7 | 90 | 10 | 11 | 12 | 15 | 99 | 100 | 100 | 100 | 100 | 100 |
1.8 | 89 | 11 | 12 | 13 | 16 | 99 | 100 | 100 | 100 | 100 | 100 |
1.9 | 89 | 12 | 12 | 14 | 17 | 99 | 100 | 100 | 100 | 100 | 100 |
2.0 | 88 | 12 | 13 | 15 | 18 | 99 | 100 | 100 | 100 | 100 | 100 |
Таблица. 2. Исследование чувствительности метода стегоанализа в зависимости от величины порогового значения и процента заполнения контейнера для архиватора ZIP. В ячейках показан процент верных решений алгоритма стегоанализа. Контейнеры наполнены при помощи программы Stegwrite.
Таблица 3.
Пороговое значение , % | Процент заполнения контейнера от его емкости, % | ||||||||||
0 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | |
0.5 | 98 | 2 | 4 | 9 | 36 | 88 | 87 | 87 | 87 | 88 | 89 |
0.6 | 98 | 3 | 6 | 12 | 49 | 94 | 93 | 93 | 92 | 94 | 94 |
0.7 | 97 | 3 | 7 | 15 | 63 | 96 | 96 | 96 | 95 | 97 | 97 |
0.8 | 97 | 4 | 8 | 17 | 74 | 98 | 97 | 97 | 97 | 98 | 98 |
0.9 | 97 | 4 | 10 | 20 | 81 | 99 | 98 | 98 | 98 | 98 | 99 |
1.0 | 97 | 5 | 11 | 22 | 89 | 99 | 98 | 98 | 98 | 99 | 99 |
1.1 | 97 | 5 | 11 | 23 | 90 | 99 | 98 | 98 | 98 | 99 | 99 |
1.2 | 96 | 6 | 13 | 27 | 95 | 99 | 99 | 99 | 98 | 99 | 99 |
1.3 | 96 | 7 | 14 | 31 | 96 | 99 | 99 | 99 | 98 | 99 | 99 |
1.4 | 96 | 8 | 17 | 36 | 97 | 99 | 99 | 99 | 98 | 99 | 99 |
1.5 | 95 | 10 | 19 | 41 | 98 | 99 | 99 | 99 | 99 | 99 | 99 |
1.6 | 94 | 11 | 20 | 46 | 98 | 99 | 99 | 99 | 99 | 99 | 99 |
1.7 | 93 | 12 | 22 | 50 | 99 | 99 | 99 | 99 | 99 | 99 | 99 |
1.8 | 93 | 13 | 24 | 54 | 99 | 99 | 99 | 99 | 99 | 99 | 99 |
1.9 | 92 | 14 | 25 | 58 | 99 | 99 | 99 | 99 | 99 | 99 | 99 |
2.0 | 91 | 15 | 28 | 61 | 99 | 99 | 99 | 99 | 99 | 100 | 99 |
Таблица. 3. Исследование чувствительности метода стегоанализа в зависимости от величины порогового значения и процента заполнения контейнера для архиватора RAR. В ячейках показан процент верных решений алгоритма стегоанализа. Контейнеры наполнены при помощи программы Hide4PGP.
Произведено сравнение эффективности разработанного метода стегоанализа с существующими распространенными методами: Атака Хи-квадрат, RS-метод, SamplePairs-метод.
Найденная программная реализация метода Хи-квадрат не позволяла легко произвести автоматизированное экспериментальное сравнение, поэтому использовался результат, описанный в литературе, согласно которому качественное определение вложений данным методом начинается при заполнении 50% и выше от емкости контейнера. Эффективность разработанного метода стегоанализа превосходит данный результат.
Тестирование методов RS и SamplePairs проводилось в автоматическом режиме с помощью специально разработанных скриптов на UNIX Shell. Использовались программные реализации обоих методов стегоанализа на языке Java из состава программного комплекса Digital Invisible Ink Toolkit.
Рис. 3. Сравнение метода RS с разработанным методом на
распределенном заполнении контейнеров.
Рис. 4. Сравнение метода RS с разработанным методом на
последовательном заполнении контейнеров.
Методы RS и SamplePairs не позволяют регулировать соотношение ошибок I и II рода путем подстройки каких-либо параметров, поэтому для выполнения сравнения были выровнены ошибки I рода у разработанного метода (используя полученные ранее табличные данные) и исследуемых известных методов.
При этом начиная с некоторой степени заполнения контейнеров разработанный метод показал меньшие ошибки II рода по сравнению с RS и SamplePairs (рис. 3-6), что говорит о превосходящей эффективности разработанного метода.
Рис. 5. Сравнение метода SamplePairs с разработанным методом
на последовательном заполнении контейнеров.
Рис. 6. Сравнение метода SamplePairs с разработанным методом
на распределенном заполнении контейнеров.
В пятой главе рассмотрены распространенные методы встраивания в файлы формата JPEG и особенности заполнения стеганографическими программами контейнеров, изученные путем проведения экспериментов или на основе анализа исходных кодов программ. Получена формула емкости контейнера JPEG. Описан разработанный с учетом специифики формата JPEG и способов заполнения контейнеров метод стегоанализа изображений JPEG. Производится подбор изображений для тестирования методов стеганографии и стегоанализа. Проводится экспериментальный анализ контейнеров, созданных рассмотренными программами и выбор параметров разработанного метода стегоанализа, дающих наибольшую эффективность в каждом случае. В конце главы рассматривается распространенная программа стегоанализа Stegdetect, сравнивается эффективность работы программы с разработанным методом.
JPEG является на сегодняшний день доминирующим форматом хранения и передачи графической информации, в основном благодаря эффективному алгоритму сжатия данных с потерями, позволяющему уменьшать изображения во много раз без существенной потери качества. Этот факт стал причиной повсеместного применения JPEG в сетях передачи данных (например, Интернет) и для хранения больших архивов и коллекций изображений.
Несмотря на высокую распространенность и повсеместное применение формата JPEG для хранения и передачи графической информации, количество стеганографических программ, имеющих поддержку JPEG существенно меньше числа программ, работающих с такими форматами, как BMP, PNG и т.д., где данные хранятся в пространственном представлении. Это связано с большей сложностью формата по сравнению с форматом BMP. Среди наиболее распространенных программ стеганографии формата JPEG – JPHide, Jpeg-jsteg, F5, SecurEngine 4.0, OutGuess и др.
Скрытые данные помещаются в формате JPEG в младшие биты коэффициентов дискретного косинусного преобразования (ДКП), доступ к которым можно получить перед последним этапом алгоритма JPEG. Поэтому возможны два сценария работы стеганографической программы:
- Выполнение алгоритма сжатия JPEG «с нуля» + включение данных перед последним этапом
- Частичное декодирование JPEG, включение данных, выполнение последнего этапа алгоритма JPEG заново.
Контейнер JPEG имеет достаточно большую емкость, сравнимую с емкостью контейнера формата BMP. В результате исследований получена формула емкости контейнера формата JPEG, упрощенная форма которой выглядит следующим образом:
что в 2 раза меньше емкости контейнера BMP с таким же разрешением.
Принятыми единицами измерения считаются: 1) количество битов на пиксель, 2) количество % от максимальной емкости, определяемой алгоритмом стеганографии.
Распространенные программы стеганографии заполняют не все доступное пространство младших битов (PJPG). Кроме того, повторное заполнение уже полного контейнера на 100% (определяется программой стеганографии) не перезаписывает строго те младшие биты, которые содержат предыдущую скрытую информацию. Разработан алгоритм стеганографии JPEG с учетом этих особенностей.
Разработанный алгоритм стегоанализа изображений формата JPEG оценивает динамику изменения коэффициента сжатия исследуемого контейнера в зависимости от степени повторного наполнения при помощи выбранной стеганографической программы. Вычисляются аналогичные характеристики для контейнеров, заполненных на 0%, 10%, 20% и т.д. от емкости, определяемой стеганографической программой, после чего производится выбор той степени заполнения, при которой характеристики ближе всего к характеристикам исследуемого контейнера. Ввиду необходимости многократного выполнения алгоритма сжатия JPEG наиболее удобен для применения встроенный в алгоритм JPEG метод неискажающего сжатия вместо внешних программ-архиваторов.
Проведено исследование распространенных стеганографических программ JPHide, Jpeg-Jsteg и метода стегоанализа Stegdetect.
Для разработанного метода и программы Stegdetect получены зависимости частоты верных решений от степени заполнения контейнеров при тестировании методов на выборках файлов с различной степенью заполнения.
Таблица 4.
Заполнение контейнера, % | Количество неверных решений методов | |||
Разработанный метод | Stegdetect | |||
Количество/Всего | % | Количество/Всего | % | |
0% | 165 / 1247 | 13.23% | 151 / 1247 | 12.1% |
10% | 95 / 1247 | 7.61% | 115 / 1247 | 9.22% |
20% | 23 / 1247 | 1.84% | 26 / 1247 | 2.08% |
30% | 22 / 1247 | 1.76% | 17 / 1247 | 1.36% |
40% | 9 / 1247 | 0.72% | 15 / 1247 | 1.2% |
50% | 4 / 1247 | 0.32% | 13 / 1247 | 1.04% |
60% | 4 / 1247 | 0.32% | 21 / 1247 | 1.68% |
70% | 1 / 1247 | 0.08% | 15 / 1247 | 1.2% |
80% | 1 / 1247 | 0.08% | 18 / 1247 | 1.44% |
90% | 0 / 1247 | 0% | 15 / 1247 | 1.2% |
100% | 0 / 1247 | 0% | 19 / 1247 | 1.52% |
Таблица 4. Резульаты тестирования разработанного метода
стегоанализа JPEG и программы Stegdetect.
Экспериментально показано, что эффективность разработанного метода стегоанализа графических файлов формата JPEG превосходит эффективность метода Stegdetect.
В заключении сформулированы основные результаты, полученные в диссертационной работе.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В настоящей работе предложены новые методы стегоанализа графических данных в форматах 24-бит BMP и JPEG, основанные на применении алгоритмов сжатия информации. Методы обладают такими достоинствами, как простота реализации, высокая эффективность обнаружения скрытой информации, возможность проведения тестирования в автоматическом режиме и др. Экспериментально показано, что чувствительность разработанных методов превосходит известные, распространенные и широко применяемые методы, такие как Хи-квадрат, RS-метод, алгоритм Stegdetect.
Разработанные методы имеют параметры, позволяющие регулировать чувствительность, соотношение ошибок I и II рода (т.е. ошибок правильной идентификации пустых и заполненных контейнеров).
Предложенные методы могут применяться как в виде отдельного инструмента, используемого аналитиком или в виде модуля в составе сложных систем контроля и ограничения трафика (например, прокси-сервер Squid) для обеспечения проверки графической информации в автоматическом режиме при прохождении по каналу передачи информации.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
- Жилкин, М.Ю. Метод выявления скрытой информации, базирующийся на сжатии данных / М.Ю. Жилкин, Н.А. Меленцова, Б.Я. Рябко // Вычислительные технологии. – Новосибирск: Изд-во ИВТ СО РАН, 2007. – Т.12. – С. 26-31.
- Жилкин, М.Ю. Метод выявления скрытой информации в стеганографических системах, основанный на сжатии данных / М.Ю. Жилкин // Материалы «VIII Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям». – Новосибирск: Изд-во ИВТ СО РАН, 2007.
- Жилкин, М.Ю. Метод определения «скрытой» информации, базирующийся на сжатии данных / М.Ю. Жилкин // Материалы конференции «Информатика и проблемы телекоммуникаций». – Новосибирск: Изд-во СибГУТИ, 2007. – С. 128-128.
- Жилкин, М.Ю. Метод стегоанализа изображений формата JPEG, базирующийся на сжатии данных / М.Ю. Жилкин // Материалы докладов XV Международной конференции студентов, аспирантов и молодых ученых «Ломоносов - 2008». – М.: МГУ, 2008. – Режим доступа: http://www.lomonosov-msu.ru/archive/Lomonosov_2008/04.pdf
- Жилкин, М.Ю. Стегоанализ графических данных в различных форматах / М.Ю. Жилкин // Доклады Томского государственного университета систем радиоуправления и электроники. – Томск: Изд-во ТУСУР, 2008. – Т. 2(18). – Ч. 1. – С. 63-64.
- Жилкин, М.Ю. Стегоанализ графических данных на основе методов сжатия / М.Ю. Жилкин // Вестник Сибирского государственного университета телекоммуникаций и информатики. – Новосибирск: Изд-во СибГУТИ, 2008. – Т.2. – С. 62-66.
- Ryabko, B. Information-Theoretic Approaches to Steganography: Latest Achievements / B. Ryabko [et al.] // Proceedings of XII International Symposium on Problems of Redundancy in Information and Control Systems, Saint-Petersburg. – 2009. – P. 196-197.
- Zhilkin, M. Data Compression Based Method Of Revealing Hidden Information In Steganographic Systems / M. Zhilkin, N. Melentsova, B. Ryabko // Proceedings of XI International Symposium on Problems of Redundancy in Information and Control Systems, Saint-Petersburg. – 2007. – P. 42-44.
Жилкин Михаил Юрьевич
Теоретико-информационные методы
стегоанализа графических данных
Автореферат диссертации
на соискание ученой степени кандидата технических наук
________________________________________________________________
Подписано в печать “__” _______ 2009 г.
Формат бумаги 60x84/16, отпечатано на ризографе, шрифт № 10,
изд. л.1,6, заказ № __, тираж 100 экз., ГОУ ВПО “СибГУТИ”.
630102, г. Новосибирск, ул. Кирова, д. 86.