WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Алгоритм повышения качества речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи

На правах рукописи

Костенко Антон Игоревич

Алгоритм повышения качества речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи

05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Москва 2010 г.

Работа выполнена на кафедре № 723 Института криптографии, связи и информатики Академии Федеральной службы безопасности Российской Федерации.

Научный руководитель – доктор технических наук, доцент

Шалимов Игорь Анатольевич

Официальные оппоненты: доктор технических наук, профессор

Ромашкова Оксана Николаевна

кандидат физико-математических наук

Мельников Сергей Юрьевич

Ведущая организация – 16 Центральный научно-исследовательский

испытательный институт Министерства

обороны Российской Федерации

Защита диссертации состоится «17» ноября 2010 г. в 13.30 на заседании диссертационного совета Д 218.005.04 при Государственном образовательном учреждении высшего профессионального образования «Московский государственный университет путей сообщения» (МИИТ) по адресу: 127994, г. Москва, ул. Образцова, д. 9, стр. 9, аудитория 4518.

С диссертацией можно ознакомиться в библиотеке МИИТа.

Отзывы об автореферате, заверенные печатью организации (в двух экземплярах), просим направлять в адрес МИИТа.

Автореферат разослан «14» октября 2010 г.

Ученый секретарь диссертационного

совета Д 218.005.04

доктор технических наук В.Г. Сидоренко

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие современных информационных технологий в телекоммуникациях тесно связано с проблемой обеспечения качества передачи речи. В настоящее время наблюдается тенденция все большего увеличения доли речевого трафика в общем объеме информации, передаваемой по сетям с пакетной коммутацией. При этом, вследствие потери речевых пакетов в процессе их обработки и передачи, на приемной стороне возможны возникновение пауз в речевом сигнале и проявление эффекта эхо-сигнала.

Для передачи речи по сетям с пакетной коммутацией используются три основные технологии: Voice over Frame Relay, Voice over IP и Voice over ATM. Эти технологии базируются на принципах коммутации ячеек и быстрого пакетного мультиплекси­рования, которые обеспечивают гибкое использование полосы пропускания канала связи и допустимую величи­ну задержки передачи речевых пакетов по сети. Каждая из технологий имеет свои особенности, и важной является задача определения той технологии, которая наиболее полно удовлетворяет требованиям качественной передачи речи.

Для передачи речевого сообщения по сети с пакетной коммутацией речевой сигнал оцифровывается, разбивается на сегменты, которые затем могут быть подвержены компрессии. Эти сегменты упаковываются в пакеты и снабжаются соответствующими заголовками. На приемной стороне сегменты речевого сигнала извлекаются из пакетов, из них собирается цифровой речевой сигнал, который затем преобразуется в аналоговую форму.

В процессе передачи речевого трафика по сети некоторые пакеты могут быть не доведены до получателя (потеряны или стерты). Основными причинами этого являются битовые ошибки в канале связи вследствие влияния помех на физическом уровне и переполнение буферов сетевого оборудования, которое может возникнуть даже при нормальных условиях функционирования сети.

Залогом успешного развития и все более широкого применения технологий речевого обмена, а также расширения речевого сервиса современных сетей связи является обеспечение качественной передачи речевой информации в сетях с пакетной коммутацией с потерями. Одним из критериев качества речи является разборчивость, характеризующая способность тракта телефонной связи передать содержащуюся в речи смысловую информацию. Для повышения разборчивости речи на приемной стороне используются алгоритмы замещения (маскирования) потерянных пакетов PLC (Packet Lost Concealment). Каждый из алгоритмов характеризуется степенью повышения разборчивости речевого сигнала, сложностью, областью применения. При этом сложность алгоритма влияет на требуемую вычислительную мощность оборудования и на величину задержки, вносимую в процесс передачи речи. Для обеспечения приемлемого качества обслуживания задержка речевого сигнала, согласно рекомендации МСЭ-Т G.114, не должна превышать 150 мс. Результаты исследования современных алгоритмов замещения потерянных речевых пакетов свидетельствуют о наличии противоречия между качеством восстановленного сигнала, сложностью алгоритма и задержкой, вносимой им в процесс обработки сигнала.

Таким образом, актуальной является задача повышения разборчивости речи, передаваемой по сети с коммутацией пакетов. При ее решении должны быть сохранены преимущества обработки речи в реальном масштабе времени, а также допустимые величины задержки.

Цель диссертационной работы состоит в том, чтобы на основе результатов теоретического и экспериментального исследования существующих алгоритмов замещения потерянных пакетов разработать новый алгоритм замещения потерянных пакетов при передаче речевого сигнала по сетям с коммутацией пакетов. Алгоритм должен обеспечивать повышение разборчивости переданной речи по сравнению с другими алгоритмами замещения, соблюдая при этом требования к допустимой величине задержки передаваемого речевого сигнала.

Исходная основа диссертации. Диссертация основывается на результатах:

- фундаментальных работ по теории информации Н. Винера, В.А. Котельникова, К. Шеннона и др.;

- теоретических и прикладных исследований по цифровой обработке и передаче непрерывных речевых сообщений Э. Айфичера, Л.А. Баранова, Дж. Беллами, А.И. Величкина, М.Д. Венедиктова, Г.В. Вемяна, В.С. Гольдштейна, В.Н. Гордиенко, Г.В. Горелова, Б. Джервиса, Л.В. Златоустовой, Р. Лайонса, Н.Ф. Лукьянцева, В.Г. Михайлова, Б.Н. Покровского, Л.Р. Рабинера, А.Ф. Фомина, И.А. Шалимова, Р.В. Шафера, О.И. Шелухина и др.;

- теоретических и прикладных исследований цифровых средств и систем передачи информации Д. Бертсекаса, Р. Галлагера, В.Г. Олифера, Н.А. Олифера, А.П. Мановцева, А.Ф. Фомина, В.П. Яковлева, и др.

Результаты теоретических и экспериментальных исследований алгоритмов маскирования потерянных пакетов в известных работах К. Бучарда, М. Ли, М. Эльсабрути, Э. Махфуза, В. Маршалла и Ф. Андресена показывают, что наиболее совершенные алгоритмы, использующие интерполяцию и экстраполяцию пропущенных участков, могут справиться с потерей до 7–10% пакетов без существенного ухудшения качества звучания голоса, однако, за это приходится расплачиваться повышением требований к вычислительным ресурсам и, соответственно, увеличением вносимой задержки.

При этом простые, в вычислительном плане, алгоритмы, описанные в трудах таких ученых, как Ш. Вегешна, В.С. Гольдштейн, Д.-С. Болот, О.И. Шелухин, Н.Ф. Лукьянцев, А.В. Пинчук, А.Л. Суховицкий, А.В. Росляков, требуют меньших затрат производительности оборудования, а значит, и алгоритмическая задержка обработки речевого сигнала может быть сокращена. Такие алгоритмы чаще всего применяются в трактах с кодированием волны речевого сигнала, обеспечивая сохранение допустимых показателей качества речи, когда потеряна значительная (3–15%) часть пакетов.

Актуальными являются разработка и реализация нового алгоритма замещения потерянного пакета на основе предыдущего принятого пакета с обеспечением повышения качества речи по сравнению с простыми алгоритмами маскирования при потерях более 15% и с меньшими, чем у более сложных алгоритмов, вычислительными затратами.

Задачи работы.

Для достижения поставленной цели в диссертации решаются следующие основные задачи:

  1. Теоретическое исследование современного состояния и перспектив развития технологий пакетной передачи речи в части обеспечения требуемых параметров качества и обоснованный выбор той технологии, которая наиболее приспособлена для качественной передачи речи.
  2. Исследование характера потерь речевых пакетов в выбранной технологии пакетной передачи речи.
  3. Сравнительная оценка существующих алгоритмов восстановления потерянных при передаче по пакетным сетям речевых пакетов.
  4. Разработка пакета программ, моделирующего потери пакетов, характерные для сетей пакетной передачи речи, и реализующего замещение потерянных пакетов, экспериментальное исследование полученной модели.
  5. Анализ зависимости разборчивости речевого сигнала, обработанного различными методами замещения потерь, от процента потерянных пакетов и определение факторов, влияющих на разборчивость речи при использовании простых алгоритмов замещения.
  6. Разработка алгоритма замещения потерянных речевых пакетов, обеспечивающего повышение разборчивости речи по сравнению с простыми методами замещения.
  7. Реализация разработанного алгоритма в виде пакета программ и проведение экспериментального исследования изменения разборчивости речи при замещении потерянных пакетов с его использованием.
  8. Оценка результатов, полученных в ходе экспериментального исследования, и их сравнение с результатами исследования существующих алгоритмов замещения потерянных речевых пакетов.

Объектом исследования является речевой сигнал, передаваемый по сети с пакетной коммутацией с потерями, и системы обработки последовательности речевых пакетов с целью повышения разборчивости речи на приемной стороне.

Предмет исследования – модели, методы и алгоритмы, используемые для повышения разборчивости речи, передаваемой по сети с пакетной коммутацией с потерями.

Методы исследования. Для решения поставленных задач в работе использовались методы цифровой обработки сигналов, математического моделирования, структурного программирования, экспериментальный метод, метод артикуляционных испытаний качества речи, статистические методы обработки экспериментальных данных.

Научная новизна диссертации состоит в следующем:

1. На основе результатов исследования сетей пакетной коммутации, построенных с применением современных механизмов кондиционирования и инжиниринга трафика, разработана модель, имитирующая потери речевых пакетов в IP-сетях и их замещение простыми методами, т.е. с помощью шумового сегмента, предыдущего речевого сегмента и нулевого уровня.

2. Получена экспериментальная оценка зависимости разборчивости речи, переданной через сеть с пакетной коммутацией с замещением потерянных пакетов простыми методами, от величины потерь (до 50%), и выявлены факторы, влияющие на разборчивость речи при их использовании.

3. Разработан новый алгоритм, повышающий качество речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи, обеспечивающий формирование сегмента замещения периодическим продолжением части последнего правильно принятого сегмента.

4. Получена экспериментальная оценка повышения разборчивости речи, передаваемой по сети с пакетной коммутацией с применением разработанного алгоритма замещения по сравнению с простыми алгоритмами замещения.

Работа развивает теорию передачи речевых сообщений при использовании экспериментального моделирования и артикуляционных испытаний качества речи.

Научные положения исследования, выносимые на защиту:

1. Результаты исследования алгоритмов замещения потерянных речевых пакетов в сети с пакетной коммутацией простыми методами, позволившие выявить факторы, влияющие на разборчивость речи при их использовании.

2. Алгоритм, повышающий качество речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи, обеспечивающий формирование сегмента замещения периодическим продолжением части последнего правильно принятого сегмента.

3. Результаты экспериментального исследования разработанного алгоритма, свидетельствующие о повышении слоговой разборчивости речи на 1–2% при потерях пакетов до 10% и на 5–10% при потерях 15–50% по сравнению с результатами исследования простых алгоритмов замещения при вычислительных затратах, в 5 раз меньших по сравнению с более сложными алгоритмами замещения.

Практическая значимость диссертационной работы заключается в следующем:

1. Основной практический результат, достигнутый в ходе анализа и экспериментальных исследований существующих алгоритмов замещения потерянных пакетов в сетях пакетной коммутации, состоит в разработке нового алгоритма, осуществляющего замещение потерянного речевого пакета. В итоге достигнуто повышение слоговой разборчивости речи на 1–2% при потерях пакетов до 10% и на 5–10% при потерях 15–50% по сравнению с простыми алгоритмами замещения, при меньших (приблизительно в 5 раз) вычислительных затратах по сравнению с более сложными алгоритмами замещения.

2. Результаты исследования характера потерь пакетов и алгоритмов замещения потерянных пакетов в сетях с пакетной коммутацией использованы для уточнения условий применения алгоритмов цифровой обработки речевого сигнала, технологических требований к буферизации информации, требований к сетям агрегации и доступа на базе стека протоколов TCP/IP, что позволило повысить качество разработки системных проектов в сетях Triple-play.

3. Разработанный пакет программ для моделирования процесса передачи речи по IP-сети с замещением потерянных пакетов простыми методами на приемной стороне использован в качестве основы для лабораторного практикума по исследованию алгоритмов замещения потерянных речевых пакетов и анализу разборчивости речи по дисциплине «Цифровая телефония».

4. Разработан пакет программ для экспериментального исследования алгоритма, повышающего качество речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи.

5. Получены результаты экспериментальных исследований реализованного алгоритма, подтверждающие его работоспособность.

Внедрение результатов работы.

Результаты работы применены:

1. В компании ОАО «Центртелеком» при усовершенствовании алгоритмов цифровой обработки речевого сигнала, обеспечивающих маскирование потерянных пакетов и применяемых в системах пакетной передачи речевой информации, технологических требований к буферизации информации в этих системах, требований к сетям агрегации и доступа на базе стека протоколов TCP/IP, что позволило повысить качество разработки комплексных системных проектов сетей Triple-play. Также результаты работы используются при планировании сетей межстанционной связи в случае доставки VoIP потоков реального времени в системах софтсвичи SOFTX3000 HUAWEI Китай, AND ISKRATEL Словения.

2. В научно-исследовательских работах, выполненных и выполняемых ООО «Стэл – КС» в интересах федерального государственного унитарного предприятия «Научно-исследовательский институт «Квант»» и государственного учреждения «Войсковая часть 68240»: в научно-техническом отчете по СЧ НИР «Проба2К» (Госконтракт с ФГУП «НИИ Квант» № 028/23-К2 от 01.07.2008 г.); в научно-техническом отчете по НИР «Ярмарка-РС» (Госконтракт с государственным учреждением «Войсковая часть 68240» № 2009/381 от 26.06.2009 г.).

3. При проведении двух опытно-конструкторских работ по специальной тематике в виде экспериментальных данных по исследованию характеристик сетей передачи данных, используемых в устройствах абонентской речевой связи, и рекомендаций по способам повышения разборчивости речи при ее передаче пакетным способом.

4. В образовательном процессе на кафедре № 723 Института криптографии, связи и информатики в лекционных занятиях по дисциплинам «Системы и сети связи», «Современные сетевые технологии» и лабораторных работах по дисциплине «Цифровая телефония».

Указанные реализации результатов работы подтверждены соответствующими актами о внедрении в научно-исследовательскую, опытно-конструкторскую, практическую и образовательную деятельность.

Апробация работы выполнена на расширенных научных семинарах кафедры № 723 Академии ФСБ России, в/ч 35533, научно-технического департамента ООО «Стэл КС», а также на 6-й Всероссийской научной конференции «Проблемы развития технологических систем государственной охраны, специальной связи и информации» (Академия ФСО России, г. Орел, 2009), юбилейной научно-технической конференции специалистов, молодых ученых в/ч 35533 (27–28 мая 2009 года), межведомственной научно-технической конференции в/ч 33965 (3–5 февраля 2010), IX Международной научно-технической конференции «Физика и радиоэлектроника в медицине и экологии» (ФРЭМЭ–2010, г. Владимир).

Публикации. Основные научные результаты диссертации опубликованы в 8–и работах, включая 5 публикаций в трудах научно-технических конференций и 3 публикации в ведущих рецензируемых изданиях, рекомендованных ВАК.

Структура и объем работы. Диссертация включает введение, три главы, заключение и приложения. Содержит 34 рисунка, 23 таблицы, список литературы из 113–и наименований. Диссертация изложена на 164–х страницах машинописного текста, приложение состоит из 27–и страниц.

Содержание работы

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, указаны методы исследования, представлены теоретическая значимость и прикладная ценность полученных результатов, приведены положения, выносимые на защиту.

В первой главе в рамках исследования современного состояния и перспектив развития технологий передачи речи по сетям с пакетной коммутацией были исследованы основные технологии: Voice over Frame Relay, Voice over IP и Voice over ATM. Данные технологии базируются на принципах коммутации ячеек и быстрого пакетного мультиплексирования, обеспечивающих гибкое использование полосы канала связи и допустимую величи­ну задержки передачи речевых пакетов по сети. Обзор технологий передачи речевых сигналов по сетям передачи данных в части обеспечения требуемых параметров качества обслуживания трафика показал, что современные сети, построенные на основе протокола IP с применением механизмов кондиционирования и инжиниринга трафика, наиболее предпочтительны для решения задачи качественной передачи речи по сети с пакетной коммутацией.

Исследование современного состояния и условий применения кодеков в VoIP показало, что в ситуациях, когда ограничения на полосу пропускания отсутствуют и коммутационное оборудование удовлетворяет существующему де-факто стандарту передачи неэластичного трафика по сети с пакетной коммутацией, задачу обеспечения качества речи, переданной по современной IP-сети с потерями пакетов, целесообразно решать с использованием алгоритма кодирования PCM G.711. Отсутствие взаимосвязи между содержимым речевых пакетов, ориентация на высокие скорости передачи приоритетного трафика по магистрали сети и обеспечение высокого качества речи при перекодировании во время перехода из одной сети в другую свидетельствуют о перспективе более широкого использования именно этого метода кодирования речи.

Выявлен характер потерь пакетов при передаче речевого трафика по IP-сетям, построенным с учетом современных механизмов обеспечения качества обслуживания (QoS). Анализ процесса передачи речевого трафика по IP-сетям, построенным на основе современного высоконадежного коммутационного оборудования с соблюдением принципов кондиционирования и инжиниринга трафика, показал, что потери пакетов более вероятны в магистральной сети и являются в основном одиночными для каждого из независимых потоков VoIP, объединенных в магистральном тракте[7,3].

В первой главе проведен сравнительный анализ алгоритмов восстановления потерянных пакетов при передаче речевого трафика по IP – сети с учетом показателей сложности (требуемой вычислительной мощности), качества и устойчивости к потерям (табл. 1) [4,5].

Таблица 1. Сложность и качество работы алгоритмов восстановления потерянных пакетов при норме потерь 5%

Метод Сложность, MIPS Качество, MOS
Простые методы вставки 0,008 2,2-3,25
G.711 Appendix I 0,5 3,2
G.711 Appendix I с линейной интерполяцией 1,8 3,5
Интерполяция параметров передающего устройства для G 723.1 (регенерация) 2,0 2,2
Метод линейной интерполяции 0,16 3,1
T1.521 - 2000 2,3 3,4
Метод на основе HММ 105 3,3
G.722 Appendix III 2,78 3

MIPS (миллион команд в секунду) - единица измерения производительности процессора;

MOS - Mean Opinion Score - усредненная субъективная оценка качества речи.

Анализ показывает, что наиболее сложные алгоритмы, осуществляющие интерполяцию и регенерацию отсутствующих сегментов речевого сигнала, используют дополнительные параметры речевого сигнала и чаще всего применяются в трактах с параметрическим компандированием. Такие алгоритмы могут справляться с потерями до 7–10% пакетов, обеспечивая допустимые показатели качества передачи речи, однако, это ведет к повышению требований к вычислительным ресурсам и увеличению задержки обработки речи, которая ограничена 150 мс (ITU-T G.114).

Простые, с точки зрения сложности вычислений, алгоритмы требуют меньших затрат производительности оборудования, а значит, и алгоритмическая задержка обработки речевого сигнала может быть сокращена. Таким образом, больше времени может быть потрачено на процесс передачи речевого сигнала по сети. Такие алгоритмы чаще всего работают в трактах с кодированием волны речевого сигнала, обеспечивая сохранение допустимых показателей качества речи при величине потерь от 3% до 15% пакетов.

Проведенное в первой главе исследование, подтверждает актуальность задачи повышения качества речи при величине потерь свыше 15% пакетов с помощью простых методов замещения потерянных пакетов, с меньшими требованиями к вычислительным ресурсам по сравнению со сложными алгоритмами восстановления, использующими интерполяцию и регенерацию [7,8].

Во второй главе сделан обзор и дан сравнительный анализ простых алгоритмов замещения потерянных речевых пакетов, использующих метод вставки. Проведено экспериментальное исследование модели, имитирующей потерю пакетов при передаче речевого сигнала по сети с пакетной коммутацией с последующим замещением потерянного пакета, и выполнена оценка разборчивости переданной речи [1,6]. В ходе исследования для замещения потерянного пакета использовались следующие методы:

-замещение нулевым уровнем, который является наиболее простым методом с минимальными требованиями к вычислительным ресурсам оборудования. В нем отсутствующие пакеты замещаются тишиной. Этот метод обеспечивает наихудшие по сравнению с иными методами маскирования показатели качества звука;

-замещение формой сигнала заключается в замещении потерянных пакетов новыми, сформированными искусственно. В простейшем случае потерянный пакет замещается последним принятым;

-замещение сегментом шумового сигнала с энергией, согласованной с энергией сигнала в предыдущем пакете. Данный способ использует эффект фонематического восстановления, который является человеческой способностью восприятия звука, позволяющей подсознательно восстановить недостающую секцию речи [2].

Разработан и реализован алгоритм имитационного моделирования потери (рис. 1):

 … … … Отрезок речевого сигнала В начале работы-0

… … …

Рис. 1. Отрезок речевого сигнала

В начале работы алгоритма задается вероятность потери – го пакета . Согласно выводам главы №1 о характере потерь пакетов при передаче речевого трафика по IP-сетям, построенным с учетом современных механизмов QoS, вероятность потери – го пакета

. (1)

Если сегментисходного речевого сигнала - потерян, то замещение осуществляется с помощью нулевого уровня, либо предыдущего сегмента, либо сегмента шумового сигнала, согласованного по уровню энергии с энергией предыдущего сегмента речевого сигнала,

, (2)

где – сегмент шумового сигнала, согласованный по уровню энергии с энергией предыдущего сегмента речевого сигнала,– номер отсчета речевого сигнала в сегменте,– количество отсчетов речевого сигнала в сегменте.

Для генерации сегмента шумового сигнала, согласованного по уровню энергии с энергией предыдущего сегмента речевого сигнала, вычисляется пересчетный коэффициент, равный отношению энергии предыдущего сегмента речевого сигнала к энергии сегмента сгенерированного шумового сигнала (рис. 2). Для формирования отсчета сегмента шумового сигнала с энергией, согласованной с энергией предыдущего сегмента речевого сигнала, используется следующая последовательность действий.

 Отрезок речевого сигнала с одним потерянным пакетом Шаг 1. -13

Рис. 2. Отрезок речевого сигнала с одним потерянным пакетом

Шаг 1. Вычисляем энергию сегмента сигнала – го пакета

, (3)

где – й отсчет – го сегмента речевого сигнала, принятого без потерь.

Шаг 2. Генерируем для потерянного сегмента речеподобный шум с распределением энергии по частотному диапазону, подобным распределению энергии по частотному диапазону речевого сигнала (с максимумом, приходящимся на 300 Гц) –. Его энергия равна

, (4)

где - й отсчет шумового сигнала.

Шаг 3. Для согласования энергии шумового сегмента и энергии – го сегмента речевого сигнала необходимо выполнение равенства

, (5)

где - энергия шумового сегмента, согласованная с энергией предыдущего сегмента речевого сигнала; – пересчетный коэффициент

. (6)

Шаг 4. Таким образом, учитывая, что

, (7)

тогда для получения отсчета шумового сигнала с энергией, согласованной с энергией предыдущего сегмента речевого сигнала, необходимо применить следующую формулу:

. (8)

Для получения оценки разборчивости при различных значениях процента потерянных при передаче пакетов проведены артикуляционные испытания разработанной модели. Оценка разборчивости, и обработка результатов проводилась в соответствии с ГОСТ Р–50840-95 (Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости – М. : Госстандарт России, 1995) и Р–51061-97 (Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений– М. : Госстандарт России, 1997). В результате получены экспериментальные зависимости разборчивости речи при разных способах замещения потерь пакетов от процента потерянных при передаче пакетов (рис. 3). Измерения проводились в нормальных климатических условиях в соответствии с ГОСТ 15150 (Машины, приборы и другие технические изделия. Исполнения для различных климатических районов. Категории, условия эксплуатации, хранения и транспортирования в части воздействия климатических факторов внешней среды). Уровень речевого сигнала относительно фонового акустического шума составлял 40 дБ. В испытаниях участвовала бригада из 10 операторов (дикторов и аудиторов), не имевших явных дефектов речи и слуха. Разборчивость измерялась бригадой дикторов и аудиторов в возрасте от 19 до 21 года, прошедших специальное обучение (тренировку), путем прослушивания через головные телефоны слоговых артикуляционных таблиц, взятых из ГОСТ Р–50840-95. Тренировка проходила в два этапа. На первом этапе операторы знакомились со структурой речевого материала, осваивали технику его произношения, а также адаптировались к восприятию речи, искаженной отсутствием отдельных сегментов в соответствующих акустических условиях. Чтение слогов осуществлялось диктором ровным голосом, четко, без подчеркивания отдельных звуков с постоянным уровнем речи. Слоги зачитывались в ритме 1 слог в 3 секунды. Выдерживался постоянный ритм речи на протяжении чтения всей таблицы. Аудитор записывал принятые слоги в специальный бланк согласно ГОСТ Р–50840-95. Если аудитор не понял принятого слова, он подчеркивал соответствующую пронумерованную строку в бланке принятых слогов. На втором этапе тренировки проводился цикл измерений при использовании испытуемых алгоритмов замещения. Цикл измерений включал в себя прием по 5 таблиц.

Оценка разборчивости производилась при случайной вероятности потерь единичных пакетов от 0,5 до 50% и при стандартной длине 20 мс (160 отсчетов) сегмента речевого сигнала в пакете.

С целью исключения сомнительных результатов измерений разборчивости произведена обработка полученных данных в соответствии с ГОСТ Р-50840-95 (табл. 2):

- вычислены среднее значение разборчивости и СКО ;

- единичные измерения, для которых , исключены (–результат единичного измерения);

- произведено вычисление нового среднего значения разборчивости ;

 Разборчивость речи при замещении потерянных пакетов простыми методами-37

Рис. 3. Разборчивость речи при замещении потерянных пакетов простыми методами вставки (по вертикальной оси – слоговая разборчивость, по горизонтальной – процент потерь пакетов)

Таблица 2. Дисперсия значений разборчивости речи при замещении потерянных пакетов шумом, предыдущим сегментом и нулевым уровнем

Метод Значение дисперсии при Х % потерянных пакетов
0,5% 1% 3% 5% 7% 10% 15% 20% 30% 40% 50%
Замещение предыдущим 2,1 3,5 2,6 3,5 4 3,3 2,1 1,3 4,5 3,2 2,2
Замещение нулевым уровнем 2,2 1,7 3,7 1,3 3,1 3,6 3,7 0,5 3,2 4,3 4,6
Замещение шумом 3,9 4,1 2,8 3,8 4,2 3,4 4,1 2,7 1,6 4,3 3,2

Анализ полученных зависимостей показал, что даже при 10% потерь пакетов в случае применения процедур маскирования с помощью шумового сегмента и предыдущего сегмента речевого сигнала слоговая разборчивость остается на уровне, превышающем 80%, что соответствует высшему классу качества. При увеличении потерь до 50% разборчивость существенно ухудшается для всех типов вставки.

Результаты исследования разборчивости при замещении шумовым сегментом и предыдущим сегментом речевого сигнала с потерями до 20% практически не различаются. Это можно объяснить тем, что в обоих методах при переходе к восстановленному сегменту происходят скачкообразное изменение уровня сигнала и искажение периода основного тона речи, которые воспринимаются слуховым аппаратом человека. Слуховой аппарат человека чувствителен к таким перепадам уровня акустического сигнала.

Полученные результаты позволяют выявить основные факторы, влияющие на разборчивость речи при использовании простых алгоритмов замещения потерянных пакетов:

- изменение уровня сигнала на границе перехода от принятого сегмента к синтезированному для замещения потерянного пакета;

- период основного тона речевого сигнала после замещения потерянного пакета.

Таким образом, для повышения разборчивости речи при использовании простых алгоритмов замещения необходимо обеспечить сохранение не только уровней последнего принятого сегмента речевого сигнала и замещающего сегмента речевого сигнала, но и периода основного тона по отношению к предыдущему, правильно принятому сегменту.

На основе этого вывода предложен новый алгоритм, повышающий разборчивость речи замещением потерянного речевого пакета, с использованием предыдущего сегмента речи, при котором сохраняются уровень речевого сигнала на границе разрыва между принятым сегментом речевого сигнала и сегментом, синтезируемым для замещения потерянного, и период основного тона речи [2,6,8].

В третьей главе на основе проведенных аналитических и экспериментальных исследований для повышения качества речи применительно к задачам сервиса речевого трафика в телекоммуникационных сетях пакетной коммутации разработан новый алгоритм замещения потерянных при передаче речевых пакетов с использованием предыдущего принятого сегмента речевого сигнала.

Для решения задачи согласования уровня восстанавливаемого сегмента сигнала с предыдущим (принятым) сегментом и сохранения периода основного тона речи в разработанном алгоритме на последнем принятом сегменте происходит вычисление периода основного тона. Затем в конце этого сегмента вырезается отрезок сигнала длиной, равной периоду основного тона, и методом копирования переносится на место потерянного сегмента с «размножением» на весь потерянный сегмент. Если сегмент речи является невокализованным, то осуществляется заполнение шумовым сигналом, согласованным по уровню с предыдущим сигналом. Это обеспечивает повышение разборчивости речи вследствие уменьшения негативного влияния скачкообразного изменения уровня сигнала на границе между принятым сегментом и сегментом речевого сигнала, синтезируемым для замещения потерянного, что повышает качество восприятия речи.

Схема алгоритма представлена на рис. 4.

 Схема алгоритма повышения качества речи в сетях с пакетной-38

Рис. 4. Схема алгоритма повышения качества речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи

Алгоритм содержит следующую последовательность действий (рис. 5):

Шаг 1. Определение периода основного тона Тот речевого сигнала на последнем принятом сегменте длиной 20 мс (160 отсчетов) (рис. 5а). Для вычисления периода основного тона используется модифицированная автокорреляционная функция. Считая, что значение частоты основного тона находится в пределах 80­-400 Гц, для заданной частоты дискретизации можно определить соответствующий указанному интервалу диапазон изменения задержки D_MIN…..D_HIGH, в котором нужно находить значения модифицированной АКФ. Ее модификация заключается в том, что для любого значения задержки число слагаемых в сумме остается постоянным:

, (9)

где - последовательность отсчетов речевого сегмента; – потерянный сегмент; N– длина интервала анализа; – сигнал после фильтрования.

Для частоты дискретизации 8000 Гц число слагаемых взято равным 100.

Описанный метод позволяет получить точность оценки периода основного тона порядка 96%.

Шаг 2. Копирование речевого сегмента принятого сигнала длиной Тот. При этом берется сегмент сигнала длительностью, равной периоду основного тона, который отложен от границы разрыва между принятым и потерянным сегментами речи (рис. 5а, б)

, (10)

где k - количество отсчетов в сегменте принятого сигнала длиной Тот.

Шаг 3. Осуществляется замещение потерянного сегмента речи сегментом сигнала, предшествующим потерянному, длиной Тот

, (11)

где - сегмент сигнала, для замещения потерянного.

В том случае, если потерянный сегмент имеет большую длину, тогда периодически повторяется вплоть до полного заполнения недостающего сегмента.

В случаях, когда длина найденного периода основного тона не кратна длине отсчетов сигнала (периоду дискретизации), для усовершенствования алгоритма предлагалось провести повторную дискретизацию замещающего сегмента речевого сигнала (рис. 5б, в). При этом недостающие отсчеты сигнала вычислялись путем аппроксимации (линейной или квадратичной) отсчетов имеющегося сегмента сигнала, однако данное дополнение значительно усложнило алгоритм, не показав при этом существенного увеличения разборчивости восстановленного речевого сигнала.

 Работа предложенного алгоритма Сложность алгоритма определяется-49

Рис. 5. Работа предложенного алгоритма

Сложность алгоритма определяется подсчетом корреляционного значения в подпрограмме оценки периода отсчета и составляет 0,18 MIPS. Таким образом, разработанный алгоритм выигрывает по необходимым вычислительным затратам у алгоритма G.711 Appendix I на 0,32 MIPS. Однако он сложнее методов вставки шумового сегмента, предыдущего сегмента и нулевого сегмента на 0,1 MIPS.

Для оценки эффективности работы алгоритма проведены артикуляционные испытания в соответствии с ГОСТами (ГОСТ Р–50840-95, ГОСТ Р–51061-97) [5,1]. Измерения проводились в нормальных климатических условиях в соответствии с ГОСТ 15150. Уровень речи относительно фонового акустического шума составлял 40 дБ. В испытаниях участвовала бригада из 10 операторов (дикторов и аудиторов), не имевших явных дефектов речи и слуха. Разборчивость измерялась бригадой дикторов и аудиторов в возрасте от 19 до 21 года, прошедших специальное обучение (тренировку), путем прослушивания через головные телефоны слоговых артикуляционных таблиц, взятых из ГОСТ Р–50840-95. Чтение слогов осуществлялось диктором ровным голосом, четко, без подчеркивания отдельных звуков с постоянным уровнем речи. Слоги зачитывались в ритме 1 слог в 3 секунды. Цикл измерений включал в себя прием по 5 таблиц.

Результаты измерений в сравнении с данными, полученными для замещения потерянного сегмента шумом и предыдущим сегментом, представлены на рис. 6 и в табл. 3.

 Разборчивость речи при замещении потерянных пакетов шумом, предыдущим-50

Рис. 6. Разборчивость речи при замещении потерянных пакетов шумом, предыдущим сегментом и с использованием разработанного алгоритма (по вертикальной оси – слоговая разборчивость, по горизонтальной – процент потерь пакетов)

Таблица 3. Дисперсия значений разборчивости речи при замещении потерянных пакетов шумом, предыдущим сегментом и используя разработанный алгоритм

Метод Значение дисперсии при Х % потерянных пакетов
0,5% 1% 3% 5% 7% 10% 15% 20% 30% 40% 50%
Замещение предыдущим 2,1 3,5 2,6 3,5 4 3,3 2,1 1,3 4,5 3,2 2,2
Замещение нулевым уровнем 2,2 1,7 3,7 1,3 3,1 3,6 3,7 0,5 3,2 4,3 4,6
Разработанный алгоритм 3,2 3,7 4 3,6 4,1 4 3,3 3,4 4,4 4,1 3,8

В разработанном алгоритме перепад уровней сигнала на стыке восстанавливаемого и последнего принятого сегментов уменьшен, что обеспечило повышение слоговой разборчивости речи на 1–2% при потерях пакетов до 10% и на 5–10% при потерях 15–50% по сравнению с результатами исследования простых алгоритмов замещения предыдущим пакетом без согласования уровней и шумовым сегментом [8].

Таким образом, применение разработанного алгоритма замещения потерянного речевого пакета, в котором синтезируемый сегмент речи является естественным продолжением предыдущего принятого сегмента, позволяет существенно повысить разборчивость речи на приемном конце при потерях более 15% одиночных пакетов по сравнению с простыми (в вычислительном плане) алгоритмами маскирования. По сравнению с более сложными алгоритмами маскирования применение разработанного алгоритма требует меньших (приблизительно в 5 раз) вычислительных затрат.

Заключение

В ходе проведенного исследования получены следующие основные результаты:

1. Анализ технологий передачи речевых сигналов по сетям передачи данных в части обеспечения требуемых параметров качества обслуживания трафика показал, что современные сети, построенные на основе протокола IP с применением механизмов кондиционирования и инжиниринга трафика, наиболее предпочтительны для решения задачи качественной передачи речи по сети с пакетной коммутацией.

2. Определен характер потерь пакетов при передаче речевого трафика по IP-сетям, построенным с учетом современных механизмов QoS. Выполнен анализ процесса передачи речевого трафика по IP–сетям, построенным на основе современного высоконадежного коммутационного оборудования с соблюдением принципов кондиционирования и инжиниринга трафика, показавший, что потери пакетов чаще всего происходят в магистральной сети, и являются одиночными для каждого из независимых потоков VoIP, объединенных в магистральном тракте.

3. Проведен сравнительный анализ алгоритмов восстановления потерянных пакетов при передаче речевого трафика по IP–сети с учетом показателей сложности (требуемой вычислительной мощности), качества и устойчивости к потерям. Результаты исследования алгоритмов восстановления потерянных пакетов свидетельствуют об актуальности задачи повышения качества речи, простыми методами замещения потерянных пакетов при наличии потерь свыше 15% пакетов по сравнению с существующими методами, с обеспечением меньших требований к вычислительным ресурсам по сравнению со сложными алгоритмами восстановления.

4. Разработан пакет программ, позволяющий моделировать потери одиночных речевых пакетов при передаче речевого сигнала по сети с пакетной коммутацией и замещать их простыми методами на приемной стороне.

5. Осуществлена экспериментальная оценка разборчивости речи в зависимости от процента потерянных пакетов с использованием разработанной модели. Проведен анализ изменения зависимости разборчивости речевого сигнала, обработанного различными методами замещения потерь, от процента потерянных при передаче пакетов, позволивший выявить основные факторы, влияющие на разборчивость речи при использовании простых алгоритмов замещения.

6. Создан новый алгоритм замещения потерянных пакетов на основе квазипериодической структуры речи, повышающий качество речи в сетях с пакетной коммутацией. Алгоритм обеспечивает сохранение уровня речевого сигнала на границе между принятым сегментом речевого сигнала и сегментом, синтезируемым для замещения потерянного, и период основного тона речи.

7. Разработан пакет программ для реализации алгоритма замещения потерянного речевого пакета с сохранением уровня сигнала на границе разрыва между принятым сегментом речевого сигнала и сегментом, синтезируемым для замещения потерянного, а также периода основного тона речи. Проведены артикуляционные испытания разработанного алгоритма в соответствии с ГОСТ Р – 50840-95 и ГОСТ Р – 51061-97.

8. Проведен сравнительный анализ результатов экспериментального исследования разработанного алгоритма и результатов исследования существующих алгоритмов замещения потерянных речевых пакетов. В разработанном алгоритме обеспечено повышение слоговой разборчивости речи на 1–2% при потерях пакетов до 10% и на 5–10% при потерях 15–50% по сравнению с результатами исследования алгоритмов замещения с помощью шумового сигнала и предыдущего речевого сегмента. По сравнению с более сложными алгоритмами замещения применение разработанного алгоритма требует меньших (приблизительно в 5 раз) вычислительных затрат.

Основные положения диссертации опубликованы в работах:

1. Шалимов И.А., Костенко А.И. Методы повышения качества речи в сетях пакетной коммутации // Специальная техника : № 5, М., 2009. С. 47–53.

2. Шалимов И.А., Костенко А.И., Костенко В.О. О подходе к повышению разборчивости речи в сетях пакетной коммутации при маскировании потерь сегментов методом замены // Вестник ИКСИ : Сборник. М., 2010. С. 251–256.

3. Шалимов И.А., Костенко А.И. Потери в IP-сетях и методы уменьшения их влияния на качество передаваемого речевого сигнала // Труды НИИР : №2, М., 2010. С.13-17.

4. Шалимов И.А., Костенко А.И. Об исследовании разборчивости речи в IP сетях // Проблемы развития технологических систем государственной охраны, специальной связи и информации : Сборник трудов 6-й Всероссийской научной конференции, Орел : Академия ФСО России, 2009.

5. Костенко А.И. Анализ методов маскирования потерянных речевых кадров в IP-сетях, результаты экспериментальных исследований разборчивости применительно к задачам специального доступа к информации // Тезисы докладов научно-технической конференции специалистов и молодых ученых в/ч 35533 27-28 мая 2009 года : Научно-технический сборник в/ч 35533. – М., 2009.

6. Шалимов И.А., Костенко А.И., Костенко В.О. Исследование зависимости разборчивости речи в сети с коммутацией пакетов от величины их потерь // Тезисы докладов научно-технической конференции в/ч 33965, М., 3-5 февраля 2010.

7. Шалимов И.А., Костенко А.И. Исследование причин потерь пакетов в IP-сетях применительно к вопросам пакетной передачи речи // Физика и радиоэлектроника в медицине и экологии ФРЭМЭ’2010 : Тезисы докладов IX Международной научно-технической конференции, Владимир – Суздаль, Владимир, 2010. С. 332–335.

8. Шалимов И.А., Костенко А.И. Обеспечение качества речи в сетях пакетной коммутации с потерями пакетов // Физика и радиоэлектроника в медицине и экологии ФРЭМЭ’2010 : Тезисы докладов IX Международной научно-технической конференции, Владимир – Суздаль, Владимир, 2010. С. 330-332.

Костенко Антон Игоревич

Алгоритм повышения качества речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи

05.13.17 – Теоретические основы информатики

Подписано к печати __________ Объем 1.5 п.л.

Печать офсетная. Формат 60х84/16

Тираж 80 экз. Заказ №_________

Типография МИИТа, 127994, ГСП-4, Москва, ул. Образцова, д. 9, стр.9



 




<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.