Тарифы Услуги Сим-карты

Презентация на тему "сжатие данных". Сжатие данных

ТЕМА УРОКА. Сжатие и архивирование данных.

ЦЕЛЬ УРОКА:

Учебная : сформировать привычки использования программ- архиваторов; учить сжимать и архивировать данные.

Развивающая: развивать умение использовать полученные знания в разных ситуациях во время работы за компьютером;

Воспитательная : воспитывать интерес к изучению информатики.

Оборудование : компьютеры кабинета с выходом в сеть Интернет, мультимедийный проектор, программное обеспечение, раздаточный материал.

Тип урока : комбинированный.

ХОД УРОКА.

І. Организационный момент.

Проверка наличия и готовности учеников к уроку. Создание положительного настроения для проведения урока.

ІІ. Мотивация учебной деятельности.

Вы, наверно, уже хотите попробовать применить полученные знания на практике. Но для этого нужно вспомнить основные термины и понятия.

ІІІ. Изучение нового материала

Объяснение учителя с элементами демонстрации или самостоятельная работа учеников с источником информации (презентация)

Часто возникает необходимость в уменьшении размеров данных, которые хранятся в памяти компьютера. Для этого используют специальные способы сжатия данных, которые называют алгоритмами (методами) сжатия данных. Сжатие данных используют во время создания файлов определенных типов, например, графических типа TІFF, JPEC, PNG или звуковых типа MPEG 3, WMA, для передачи файлов по сети и т.д.

Различают алгоритмы сжатия, которые обеспечивают сжатие без потери данных, и алгоритмы, которые предусматривают частичную потерю данных.

Самые важные данные дублируют, записывая на другие жесткие диски, оптические диски и т.п. По обыкновению, для удобства использования и уменьшение объемов данных, файлы и папки во время создания резервных копий упаковывают в один файл. Такие копии данных называют архивами, а файлы, в которые они упаковываются, - архивными файлами, или упрощенно - архивами.

Для создания резервных копий файлов нужно:

1. Открыть окно настройки архивирования и восстановления файлов (Пуск  Панель управления  Система и безопасность  Резервное копирование и восстановление).

3. Указать устройство, на которое будет записан архивный файл.

4. Указать перечень папок с файлами, которые будут включены в резервной копии.

5. Изменить, при необходимости, расписание осуществления автоматического резервного копирования.

Начать процесс создания архива данных пользователя выбором кнопки Сохранить настройки и запустить резервное копирование.

Кроме средств операционной системы, существуют другие служебные программы, которые обеспечивают архивирование данных.

К основным операциям над архивами принадлежат:

    Создание архивов файлов и папок с возможным сжатием данных;

    Добавление файлов и папок к уже существующим архивам и замена у них уже включенных объектов;

    Просмотр содержимого архивов;

    Замещение и обновление файлов и папок в архивах;

    Добыча из архива всех или только избранных файлов и папок;

    Создание многотомных архивов (архив разбивается на несколько отдельных файлов - томов); размер томов устанавливает пользователь;

ІV. Физкультминутка

Проведение комплекса упражнений для снятия мышечного напряжения

V. Рефлексия.

VІ. Практическая работа

Техника безопасности и правила поведения в компьютерном кабинете.

VІІ. Обобщение знаний и умений

Фронтальный опрос

1. Для чего используется сжатие данных?

2. В каких случаях возможно использование сжатие с частичной потерей данных?

3. Для чего используется архивирование данных?

4. Что такое архивирование и что такое сжатие файлов?

5. Как называют программы, которые выполняют архивирование данных?

VІІІ. Подведение итогов урока

ІX. Домашнее задание

Обработать соответствующий параграф учебника, конспект урока.

Предлагаемые материалы легли в основу зачетной работы по курсу "Математические основа информатики"(автор А. Гейн), который я успешно прошла в 2011 году в дистанционном университете "1Сентября". Материалы адаптированы для расширенного курса информатики в 11 классе.

Скачать:


Предварительный просмотр:

Cжатие данных лицей № 329

Андреева О.А.

План урока

11 класс

Тема урока : Cжатие данных.

Тип урока : изучение нового учебного материала с элементами фронтальной беседы.

Цели урока : расширение компетенций в создании собственного информационного пространства.

Задачи урока :

учебная - рассмотреть понятие сжатие данных и ознакомиться с алгоритмами сжатия символьных данных;

познавательная - ввести понятие избыточность данных;

воспитательная - создать условия для активной деятельности каждого ученика.

Программное

обеспечение урока: - презентация по теме “Сжатие данных”;

Техническое

обеспечение урока : - рабочее место ученика с ПК PentiumIII;

  1. фломастерная доска;
  2. проектор для демонстрации презентации.

ХОД УРОКА

I этап : выход на тему урока и мотивация изучения материала;

II этап : сообщение учебного материала;

III этап : актуализация полученных знаний - ответы на вопросы для закрепления;

IV этап : сообщение домашнего задания; подведение итогов урока.

Конспект урока

I этап :


Количество нужной человеку информации неуклонно растет. Возможности устройств для хранения данных и пропускная способность линий связи также растут. Однако количество информации растет быстрее.
У этой проблемы есть три пути решения:

первое - ограничение количества информации. К сожалению, оно не всегда приемлемо. Например, для изображений это означает уменьшение разрешения, что приведет к потере мелких деталей и может сделать изображения вообще бесполезными (например, для медицинских или космических изображений). Для программ и текстов этот путь не применим
второе - увеличение объема носителей информации и пропускной способности каналов связи. Это решение связано с материальными затратами, причем иногда весьма значительными.
третье - использование сжатия информации. Это решение позволяет в несколько раз сократить требования к объему устройств хранения данных и пропускной способности каналов связи без дополнительных издержек (за исключением издержек на реализацию алгоритмов сжатия). Условиями его применимости является избыточность информации и возможность установки специального программного обеспечения либо аппаратуры для выполнения этих процедур.

Характерной особенностью большинства типов цифровых данных является их избыточность. Степень избыточности данных зависит от типа данных. Например, для видеоданных степень избыточности в несколько раз больше, чем для графических данных, а степень избыточности графических данных, в свою очередь, больше чем степень избыточности текстовых данных. Другим фактором, влияющим на степень избыточности, является принятая система кодирования. Эффективность кодирования можно увеличить при работе с определенным набором данных.

Теоретически доказано, что избыточность литературного русского текста составляет 0,6. Другими словами, при передаче текста по каналу связи каждые шесть букв из десяти передаваемых не несут никакой информации и могут безо всяких потерь просто не передаваться.

Такой же, если не более высокой (ρи= 0,9...0,95) избыточностью обладают и другие источники информации - речь, и особенно музыка, телевизионные изображения и т.д.

Сжатие данных применяется во многих информационных системах. Современные радиотехнические системы передачи информации и связи просто не смогли бы работать, если бы в них не производилось такого рода сжатие. Не было бы цифровой сотовой связи стандартов GSM и CDMA. Не работали бы системы цифрового спутникового телевидения, очень неэффективной была бы работа Internet, а уж о том, чтобы посмотреть видеофильм или послушать хорошую музыку с лазерного диска, не могло быть и речи. Все это обеспечивается эффективным или экономным кодированием информации в данных системах.

II этап :

Демонстрация презентации в нужном темпе с пояснениями материала на каждом слайде.

Слайд 5(дополнительные пояснения):

Выбор системы неразрушающего(без потерь) или разрушающего(с потерями) сжатия зависит от типа данных, подлежащих сжатию. При сжатии текстовых данных, компьютерных программ, документов, чертежей и т.п. совершенно очевидно, что нужно применять неразрушающие методы, поскольку необходимо абсолютно точное восстановление исходной информации после ее сжатия. При сжатии речи, музыкальных данных и изображений, наоборот, чаще используется разрушающее сжатие, поскольку при практически незаметных искажениях оно обеспечивает на порядок, а иногда и на два меньшую скорость R . В общем случае разрушающее сжатие обеспечивает, как правило, существенно более высокие коэффициенты сжатия, нежели неразрушающее.

Слайд 18(дополнительные пояснения):

Рассмотрим принцип сжатия на основе словаря. LZ - это способ сжатия данных, который извлекает преимущества при повторяющихся цепочках данных. Исходный словарь для сжатия содержит словарь используемых символов. Затем в словарь будут добавлены цепочки символов, отличающиеся одним символом. Цепочки будут удлиняться, в тексте все чаще будут находиться словарные цепочки, которые будут заменяться ссылками на словарь. В словарь будут добавлены слова, фразы, строки текста. Эффект сжатия достигается за счет кодирования повторяющихся цепочек символов.

Представим себе этот процесс на примере сжатия фразы. Словарь уже построен, и интересующие нас цепочки добавляются в словарь(они будут повторяться в фразе). Они имеют цифровые ссылки. При повторном вхождении в фразу они заменяются ссылками. Очевидно, что данные сжимаются.

Существует целое семейство алгоритмов LZ, эффективных для разных типов данных.

Заключение II этапа:

Таким образом, будущее за новыми алгоритмами с высокими требованиями к ресурсам и все более и более высокой степенью сжатия.

Устаревают не только алгоритмы, но и типы информации, на которые они ориентированы. Так, на смену графике с малым числом цветов и неформатированному тексту пришли высококачественные изображения и электронные документы в различных форматах. Известные алгоритмы не всегда эффективны на новых типах данных. Это делает крайне актуальной проблему синтеза новых алгоритмов.

Предварительный просмотр:

Чтобы пользоваться предварительным просмотром презентаций создайте себе аккаунт (учетную запись) Google и войдите в него: https://accounts.google.com


Подписи к слайдам:

Сжатие данных

Цели сжатия данных – экономия ресурсов при хранении или передаче данных Сжатие данных это процесс, обеспечивающий уменьшение объема данных. Способы сжатия Изменение содержания данных (уменьшение избыточности данных) Изменение структуры данных (эффективное кодирование) Изменение содержания и структуры данных Исходные данные Восстановленные данные Новый формат Исходный формат Сжатые данные Архивация данных – сжатие с возможностью полного восстановления данных

Коэффициент сжатия – это величина для обозначения эффективности метода сжатия, равная отношению количества информации до и после сжатия Исходные данные Сжатые данные Размер файла 2МБ Размер файла 512 КБ К сж = 2 МБ / 0,5 МБ = 4

Сжатие данных может происходить с потерями и без потерь Сжатие без потерь (полностью обратимое) – это методы сжатия данных, при которых данные восстанавливаются после их распаковки полностью без внесения изменений (используется для текстов, программ) Ксж до 50% Сжатие с регулируемыми потерями – это методы сжатия данных, при которых часть данных отбрасывается и не подлежит восстановлению (используется для видео, звука, изображений) Ксж до 99%

Сжатие с потерями Тип данных Тип файла после сжатия Степень сжатия Графика.JPG до 99% Видео.MPG Звук.MP3 Тип данных Тип файла после сжатия Степень сжатия Графика.GIF .TIF .PCX До 50% Видео.AVI Любой тип.ZIP .ARJ .RAR .LZH Сжатие без потерь

Алгоритмы сжатия символьных данных Статистические методы – это методы сжатия, основанные на статистической обработке текста. Словарное сжатие – это методы сжатия, основанные на построении внутреннего словаря.

Упаковка однородных данных 0 0000 1 0001 2 0010 3 0011 4 0100 5 0101 6 0110 7 0111 8 1000 9 1001 _ 1010 + 1011 - 1100 , 1101 Закодируем сообщение длиной 16 символов 0,258-23,5+18,01 В кодировке ASCII сообщение составляет 16 байт. Новая кодовая таблица для упаковки: Код сообщения после упаковки составляет 8 байт: 000011010 01010101 00011000 0100011 110101011 01100011 00011010 0000001 K сж = 16 / 8 = 2

Коэффициент сжатия увеличивается с увеличением размера символьного сообщения; необходимо указывать для распаковки новую кодовую таблицу; эффективен только для однородных сообщений, использующих ограниченный набор символов исходного алфавита; + - - Достоинства и недостатки метода

Статистический метод сжатия Алгоритм Хаффмана Разные символы встречаются в сообщении с разной частотой, например для русского алфавита в среднем на 1000 символов: символ пробел о а р к я г ю ф частота 175 90 62 40 28 18 13 6 2 Зададим коды символам согласно частоте их повторения: чем чаще встречается символ, тем короче его код (неравномерное кодирование)

Хаффмановское кодирование (сжатие) – это метод сжатия, присваивающий символам алфавита коды переменной длины, основы-ваясь на частоте появления этих символов в сообщении. символ код символа пробел 00 о 01 р 101 к 110 ю 0110 ф 1001

Проблема декодирования Пример: пусть коды символов a -10, b -101, c -1010 Декодировать сообщение 10101011010 10 101 1010 10 10 101 10 10 1010 101 1010 a a b c a a b a a c b c Однозначное декодирование возможно при условии Фано: никакое кодовое слово не является началом (префиксом) другого кодового слова.

Префиксный код – это код, в котором никакое кодовое слово не является префиксом любого другого кодового слова. Пример префиксного кода: 00 10 010 110 0110 0111 1110 1111 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Префиксный код задается орграфом с размеченными листьями

Пример: построить код Хаффмана для фразы ОТ_ТОПОТА_КОПЫТ_ПЫЛЬ_ПО_ПОЛЮ_ЛЕТИТ Определим частоту вхождения символов в фразу: Строим орграф Хаффмана: -символ задает вершину- лист орграфа; -вес вершины равен частоте вхождения символа; -соединяются пары вершин с наименьшим весом: -левые ветви обозначаем 0 ; -правые ветви обозначаем 1 ; -определяем код символа от корня к листу; символ А Е И К Л О П Т Ы Ь Ю _ частота 1 1 1 1 3 6 5 6 2 1 1 6

КОРЕНЬ ДЕРЕВА Т- О- Ы- _ П- Л- Ю- Ь- Е- К- И- А- 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 00011 00010 11000 11001 11011 11010 001 010 011 111 10 0000 Каждая вершина обозначена стрелкой

Построены префиксные коды символов: Сообщение в новых кодах содержит 110 бит, в кодировке ASCII – 34 * 8 = 272 бита тогда К сж = 272 / 110 = 2 ,47 Символ А Е И К Л О П Т Ы Ь Ю _ Код 11011 11000 11010 11001 001 10 011 010 0000 00011 00010 111 Длина кода 5 5 5 5 3 2 3 3 4 5 5 3

Алгоритм Хаффмана универсальный, его можно применять для сжатия данных любых типов; Классический алгоритм Хаффмана требует хранения кодового дерева, что увеличивает размер файла. + - Достоинства и недостатки метода

Метод словарей Алгоритм сжатия LZ Этот алгоритм был впервые описан в работах А. Лемпеля и Дж. Зива (Abraham Lempel , Jacob Ziv) в 1977-78 гг., поэтому этот метод часто называется Lempel-Ziv , или сокращенно LZ. В его основе лежит идея замены наиболее часто встречающихся цепочек символов (строк) в файле ссылками на «образцы» цепочек, хранящиеся в специально создаваемой таблице (словаре).

Алгоритм ра з ра ботан из ра ильскими мат е мат ика ми Яко бо м Зив ом и Аб ра х ам ом Л ем пе лем. Словарь содержит, кроме многих других, такие цепочки: 1-ра 2-аб 3-ат 4-мат 5-ми_ 6-ам 7-бо 8-ом_ 9-бом 10-ем 11-лем Алгоритм раз1ботан из1ильскими мате4ика5Яко7ом Зив821х68 Л10пе11 Чем длиннее цепочка, заменяемая ссылкой в словарь, тем больше эффект сжатия.

Применим для любых данных; - очень высокая скорость сжатия; - высок коэффициент сжатия; + - Достоинства и недостатки метода - словарь настроен на тип текста; - словарь может быть очень большим;

Слайд 2

  • Для длительного хранения данных на различных носителях информации
  • Для передачи данных по каналам связи
  • Слайд 3

    Избыточность данных

    • Большинство данных являются избыточными
    • Избыточность улучшает восприятие и обработку информации
    • При хранении избыточность уменьшают
    • Наибольшая избыточность у видеоинформации, затем идет графическая, звуковая, и самая низкая избыточность у текстовой информации
  • Слайд 4

    Методы сжатия

    • С частичной потерей информации:Производится при сжатии кода изображения, видео и звукаТакая возможность связана с субъективными возможностями человеческого зрения и слуха.
    • Без потери информации:- использование неравномерного символьного кода;- выявления повторяющихся фрагментов кода.
  • Слайд 5

    С частичной потерей

    • На зрение более существенное воздействие оказывает яркость пикселя, нежели его цвет. Поэтому объем видеокода можно сократить за счет того, что коды цвета хранить не для каждого пикселя, а через один, два и т.д. пикселей растра. Чем больше такие пропуски, тем больше сжимаются видеоданные, но при этом ухудшается качество изображения.
    • При кодировании видеофильмов - динамичного изображения, учитывается свойство инерционности зрения. Быстро меняющиеся фрагменты фильма можно кодировать менее подробно, чем статические кадры.
    • Труднее всего сжатию поддается звуковой код. Здесь также используются психофизиологические особенности человеческого слуха. Учитывается, к каким гармоникам естественного звука наш слух более восприимчив, а к каким - менее. Слабо воспринимаемые гармоники отфильтровываются путем математической обработки. Сжатию способствует также учет нелинейной зависимости между амплитудой звуковых колебаний и восприятием нашим ухом громкости звучания.
  • Слайд 6

    • Применяется для таких типов данных, для которых формальная утрата части содержания не приводит к потере потребительских свойств и обеспечивает высокую степень сжатия.
    • Примеры:видео MPG, звук MP3, рисунки JPG.
  • Слайд 7

    Без потери – «обратимый»

    • Применяется к текстам, базам данных, и ко всем остальным вышеназванным типам.
    • Пример: рисунки – GIF, TIF,PCX, видео - AVI, любой тип данных – ZIP, ARJ, RAR и др.
  • Слайд 8

    Архивы

    • Архив – файл, содержащий в себе один или несколько файлов в сжатом виде.
    • Расширение архивного файла зависит от программы-архиватора.
    • Архиватор – программы для создания и чтения архивов.Пример:WinRar, WinZip, WinArj.
  • Слайд 9

    Архивы применяют с целью

    • повысить эффективность носителя – на один носитель поместить больший объем информации
    • создания резервных копий ценных данных, которые в сжатом виде будут храниться на отдельных носителях.
    • защиты данных от несанкционированного доступа паролем - документы даже не откроются
    • увеличения скорости копирования данных с диска на диск, например, электронных страниц, содержащие много мелких графических файлов
    • быстрого восстановления данных, измененных пользователем
    • передачи информации по каналам связи
    • раздробления данных на пакеты
  • Слайд 10

    Возможности архиваторов

  • Просмотр содержимого архива
  • Контроль целостности данных
  • Распаковка архива
  • Восстановление поврежденного архива
  • Установка защиты
  • Добавление файла в архив
  • Создание многотомных архивов
  • Создание самораспаковывающихся архивов
  • Блокировка от случайной модификации
  • Слайд 11

    Самораспаковывающийся

    (SFX, от англ. SelF-eXtracting) - это архив, к которому присоединен исполнимый модуль. Этот модуль позволяет извлекать файлы простым запуском архива как обычной программы. Таким образом, для извлечения содержимого SFX-архива не требуется дополнительных внешних программ. SFX-архивы удобны в тех случаях, когда вам нужно передать кому-то архив, но при этом вы не уверены, что у адресата есть соответствующий архиватор для его распаковки.

    Всем, кто использует компьютерные программы сжатия информации, хорошо знакомы такие слова, как «zip», «implode», «stuffit», «diet» и «squeeze». Всё это имена программ или названия методов для компрессии компьютерной информации. Перевод этих слов в той или иной степени означает застегивание, уплотнение, набивку или сжатие. Однако обычный, языковый смысл этих слов или их перевод не в полной мере отражают истинную природу того, что происходит с информацией в результате компрессии. На самом деле, при компрессии компьютерной информации ничего не набивается и не ужимается, но лишь удаляется некоторый избыток информации, присутствующий в исходных данных. Избыточность - вот центральное понятие в теории сжатия информации. Любые данные с избыточной информацией можно сжать. Данные, в которых нет избыточности, сжать нельзя, точка.

    Мы все хорошо знаем, что такое информация. Интуитивно нам это вполне понятно, однако это скорее качественное восприятие предмета. Информация представляется нам одной из сущностей, которые невозможно точно определить и тем более измерить количественно. Однако, существует область математики, которая называется теорией информации, где информацию изучают именно количественно. Другим важным достижением теории информации является вполне строгое определение избыточности. Сейчас мы попытаемся истолковать это понятие интуитивно, указав, что есть избыточность для двух простых типов компьютерных данных, и что представляют собой данные, из которых удалена избыточность.

    Первый тип информации - это текст. Текст представляет собой важнейший вид компьютерных данных. Огромное количество компьютерных программ и приложений являются по своей природе нечисловыми; они работают с данными, у которых основными элементарными компонентами служат символы текста. Компьютер способен сохранять и обрабатывать лишь двоичную информацию, состоящую из нулей и единиц. Поэтому каждому символу текста необходимо сопоставить двоичный код. Современные компьютеры используют так называемые коды ASCII (произносится «аски», а само слово ASCII является сокращением от «American Standard Code for Information Interchange»), хотя все больше компьютеров и приложений используют новые коды Unicode. ASCII представляет код фиксированной длины, где каждому символу присваивается 8-битовая последовательность (сам код занимает семь битов, а восьмой - проверочный, который изначально был задуман для повышения надежности кода). Код фиксированной длины представляется наилучшим выбором, поскольку позволяет компьютерным программам легко оперировать с символами различных текстов. С другой стороны, код фиксированной длины является по существу избыточным.

    В случайном текстовом файле мы ожидаем, что каждый символ встречается приблизительно равное число раз. Однако файлы, используемые на практике, навряд ли являются случайными. Они содержат осмысленные тексты, и по опыту известно, что, например, в типичном английском тексте некоторые буквы, такие, как «Е», «Т» и «А», встречаются гораздо чаще, чем «Z» и «Q». Это объясняет, почему код ASCII является избыточным, а также указывает на пути устранения избыточности. ASCII избыточен прежде всего потому, что независимо присваивает каждому символу, часто или редко используемому, одно и то же число бит (восемь). Чтобы удалить такую избыточность, можно воспользоваться кодами переменной длины, в котором короткие коды присваиваются буквам, встречающимся чаще, а редко встречающимся буквам достаются более длинные коды. Точно так работает кодирование Хаффмана (см. § 1.4).

    Представим себе два текстовых файла А и В, содержащие один и тот же текст, причем файл А использует коды ASCII, а В записан с помощью некоторых кодов переменной длины. Мы ожидаем, что размер файла В меньше размера А. Тогда можно сказать, что файл А сжат в файл В. Понятно, что степень сжатия зависит от избыточности взятого текста, а также от используемых кодов переменной длины. Текст, в котором одни символы встречаются очень часто, а другие очень редко, имеет большую избыточность: он будет сжиматься хорошо, если коды переменной длины выбраны подходящим образом. В соответствующем файле В коды часто встречающихся символов будут короткими, а коды редких символов - длинными. Длинные коды не смогут понизить степень сжатия, так как они будут встречаться в файле В достаточно редко. Большая часть В будет состоять из коротких кодов. С другой стороны, случайный текстовый файл не получает преимущество при замене кодов ASCII кодами переменной длины, потому что сжатие, достигнутое с использованием коротких кодов, будет аннулировано длинными кодами. В этом частном примере работает общее правило, которое гласит: случайные данные невозможно сжать, так как в них нет избыточности.

    Вокруг нас разгорается пламя войны, в которой спорным вопросом является: чья программа компрессии данных является самой лучшей. Я решил тоже в ней поучаствовать и написать СВОЮ собственную программу.

    Вы конечно слышали про программы, которые схрустывают, глушат, ужимают, вдавливают, пакуют, дробят и т.д.

    Теперь есть программа TRASH (в мусор).

    TRASH сжимает файл до наименьшего возможного размера: 0 байт! Ничто не сожмет файл лучше, чем TRASH. Атрибуты дата/время не затрагиваются, и поскольку файл имеет нулевую длину, он совсем не займет место на вашем винчестере!

    И TRASH очень быстра. Ваши файлы будут скомканы за микросекунды! Вы потратите больше времени вглядываясь в задаваемые параметры, в то время как файл будет уже обработан.

    Это предпродажная версия моей программы. Вы можете хранить и испытывать ее. Я бы вам рекомендовал сделать резервную копию ваших файлов перед тем, как вы впервые запустите мой TRASH, хотя...

    Следующая версия TRASH будет иметь графический интерфейс и принимать кредитные карты.

    TRASH C:\PAYROOL\*.*

    И работать с целыми дисками

    И быть первой, чтобы заблокировать сбрасывание в мусор вашей системы НАРОЧНО!

    Мы даже надеемся научить нашу программу восстанавливать зa TRASHeнные файлы!

    Второй тип компьютерных данных это оцифрованные изображения: фотографии, рисунки, картинки, графики и т.п. Цифровое изображение это прямоугольная матрица окрашенных точек, называемых пикселами. Каждый пиксел представляется в компьютере с помощью цветового кода. (До конца этого параграфа термин «пиксел» используется только для цветового кода.) Для упрощения цифровой обработки изображений предполагается, что все пикселы имеют один и тот же размер. Размер пиксела зависит от числа цветов в изображении, которое, обычно, является степенью 2. Если в нем содержится разных цветов, то каждый пиксел - это -битовое число.

    Имеется два вида избыточности в цифровых изображениях. Первый вид похож на избыточность в текстовом файле. В каждом неслучайном изображении некоторые цвета могут преобладать, а другие встречаться редко. Такая избыточность может быть удалена с помощью кодов переменной длины, присваиваемых разным пикселам, точно также как и при сжатии текстовых файлов. Другой вид избыточности гораздо более важен, он является результатом корреляции пикселов. Когда наш взгляд перемещается по картинке, он обнаруживает в большинстве случаев, что соседние пикселы окрашены в близкие цвета. Представим себе фотографию, на которой изображено голубое небо, белые облака, коричневые горы и зеленые деревья. Пока мы смотрим на горы, близкие пикселы имеют похожий цвет; все или почти все из них имеют разные оттенки коричневого цвета. Про близкие пикселы неба можно сказать, что они носят различные оттенки голубого цвета. И только на горизонте, там, где горы встречаются с небом, соседние пикселы могут иметь совершенно разные цвета. Таким образом, отдельные пикселы не являются совершенно независимыми. Можно сказать, что ближайшие пикселы изображения коррелируют между собой. С этим видом избыточности можно бороться разными способами. Об этом будет рассказано в главе 3.

    Независимо от метода, которым сжимается изображение, эффективность его компрессии определяется прежде всего количеством избыточности, содержащимся в нем. Предельный случай - это однотонное изображение. Оно имеет максимальную избыточность, потому что соседние пикселы тождественны. Понятно, такое изображение не интересно с практической точки зрения, оно, если встречается, то крайне редко. Тем не менее, оно будет очень хорошо сжиматься любым методом компрессии. Другим экстремальным случаем является изображение с некоррелированными, то есть, случайными пикселами. В таком изображении соседние пикселы, как правило, весьма различаются по своему цвету, а избыточность этого изображения равна нулю. Его невозможно сжать никаким методом. Оно выглядит как случайная мешанина окрашенных точек, и потому не интересно. Нам вряд ли понадобится сохранять и обрабатывать подобные изображения, и нет смысла пытаться их сжимать.

    Следующее простое наблюдение поясняет существо утверждения: «Сжатие данных достигается сокращением и удалением из них избыточности». Оно также дает понять, что большинство файлов невозможно сжать никакими методами. Это может показаться странным, так как мы постоянно сжимаем свои файлы. Причина заключается в том, что большинство файлов являются случайными или почти случайными, и поэтому, в них совсем нет избыточности. Существует относительно немного файлов, которые можно сжимать, и именно с ними мы хотим это сделать, с этими файлами мы работаем все время. В них есть избыточность, они не случайны, а потому полезны и интересны.

    Пусть два разных файла А и В сжаты в файлы С и D, соответственно. Ясно, что С и D должны также отличаться друг от друга. В противном случае было бы невозможно по ним восстановить исходные файлы А и В.

    Предположим, что файл состоит из бит, и мы хотим его сжать эффективным образом. Будем приветствовать любой алгоритм, который сожмет этот файл, скажем, в 10 бит. Компрессия в 11 или 12 бит тоже была бы замечательна. Сжатие файла до половины его размера будет для нас вполне удовлетворительным. Всего существует различных файлов размера . Их надо бы сжать в различных файлов размера не больше . Однако, общее число таких файлов равно

    поэтому только исходных файлов имеют шанс сжаться эффективным образом. Проблема в том, что число существенно меньше числа . Вот два примера соотношения между ними.

    Для (файл всего в 100 бит) общее число файлов равно , а число файлов, эффективно сжимаемых, равно . А их частное просто до смешного малая дробь .

    Для (файл из 1000 бит, т.е. около 125 байт) число всех файлов равно , а число сжимаемых всего . Их доля просто катастрофически мала, она равна .

    Большинство интересных файлов имеют размер по крайней мере в несколько тысяч байт. Для таких размеров доля эффективно сжимаемых файлов настолько мала, что ее невозможно выразить числом с плавающей точкой даже на суперкомпьютере (результат будет нуль).

    Из этих примеров становится ясно, что не существует методов и алгоритмов, способных эффективно сжимать ЛЮБЫЕ файлы, или даже существенную часть их. Для того, чтобы сжать файл, алгоритм компрессии должен сначала изучить его, найти в нем избыточность, а потом попытаться удалить ее. Поскольку избыточность зависит от типа данных (текст, графика, звук и т.д.), методы компрессии должны разрабатываться с учетом этого типа. Алгоритм будет лучше всего работать именно со своими данными. В этой области не существует универсальных методов и решений.

    В конце введения напомним некоторые важные технические термины, которые используются в области сжатия информации.

    а) Компрессор или кодер - программа, которая сжимает «сырой» исходный файл и создает на выходе файл со сжатыми данными, в которых мало избыточности. Декомпрессор или декодер работает в обратном направлении. Отметим, что понятие кодера является весьма общим и имеет много значений, но поскольку мы обсуждаем сжатие данных, то у нас слово кодер будет означать компрессор. Термин кодек иногда используется для объединения кодера и декодера.

    б) Метод неадаптивного сжатия подразумевает неспособность алгоритма менять свои операции, параметры и настройки в зависимости от сжимаемых данных. Такой метод лучше всего сжимает однотипные данные. К ним относятся методы группы 3 и группы 4 сжатия факсимильных сообщений (см. § 1.6). Они специально разработаны для сжатия в факс-машинах и будут весьма слабо работать на других типах данных. Напротив, адаптивные методы сначала тестируют «сырые» исходные данные, а затем подстраивают свои параметры и/или операции в соответствии с результатом проверки. Примером такого алгоритма может служить кодирование Хаффмана из § 1.5. Некоторые методы компрессии используют двухпроходные алгоритмы, когда на первом проходе по файлу собирается некоторая статистика сжимаемых данных, а на втором проходе происходит непосредственно сжатие с использованием параметров, вычисленных на первой стадии. Такие методы можно назвать полуадаптивными. Методы компрессии могут быть также локально адаптивными, что означает способность алгоритма настраивать свои параметры исходя из локальных особенностей файла и менять их, перемещаясь от области к области входных данных. Пример такого алгоритма приведен в .

    в) Компрессия без потерь/с потерей: некоторые методы сжатия допускают потери. Они лучше работают, если часть информации будет опущена. Когда такой декодер восстанавливает данные, результат может не быть тождественен исходному файлу. Такие методы позволительны, когда сжимаемыми данными является графика, звук или видео. Если потери невелики, то бывает невозможно обнаружить разницу. А текстовые данные, например, текст компьютерной программы, могут стать совершенно непригодными, если потеряется или изменится хоть один бит информации. Такие файлы можно сжимать только методами без потери информации. (Здесь стоит отметить два момента относительно текстовых файлов. (1) Если текстовый файл содержит исходный код компьютерной программы, то из него можно безболезненно удалить большинство пробелов, так как компилятор, обычно, их не рассматривает. (2) Когда программа текстового процессора сохраняет набранный текст в файле, она также сохраняет в нем информацию об используемых шрифтах. Такая информация также может быть отброшена, если автор желает сохранить лишь текст своего произведения).

    г) Симметричное сжатие - это когда и кодер, и декодер используют один и тот же базовый алгоритм, но используют его в противоположных направлениях. Такой метод имеет смысл, если постоянно сжимается и разжимается одно и то же число файлов. При асимметричном методе или компрессор или декомпрессор должны проделать существенно большую работу. Таким методам тоже находится место под солнцем, они совсем не плохи. Метод, когда компрессия делается долго и тщательно с помощью сложнейшего алгоритма, а декомпрессия делается быстро и просто, вполне оправдан при работе с архивами, когда приходится часто извлекать данные. То же происходит и при создании и прослушивании аудиофайлов формата mp3. Обратный случай, это когда внешние файлы часто меняются и сохраняются в виде резервных копий. Поскольку вероятность извлечения резервных данных невелика, то декодер может работать существенно медленнее своего кодера.

    д) Производительность сжатия: несколько величин используются для вычисления эффективности алгоритмов сжатия.

    1) Коэффициент сжатия определяется по формуле

    Коэффициент 0.6 означает, что сжатые данные занимают 60% от исходного размера. Значения большие 1 говорят о том, что выходной файл больше входного (отрицательное сжатие). Коэффициент сжатия принято измерять в bpb (bit per bit, бит на бит), так как он показывает, сколько в среднем понадобится бит сжатого файла для представления одного бита файла на входе. При сжатии графических изображений аналогично определяется величина bpp (bit per pixel, бит на пиксел). В современных эффективных алгоритмах сжатия текстовой информации имеет смысл говорить о похожей величине bpc (bit per character, бит на символ), то есть, сколько в среднем потребуется бит для хранения одной буквы текста.

    Здесь следует упомянуть еще два понятия, связанные с коэффициентом сжатия. Термин битовая скорость (bitrate) является более общим, чем bpb и bpc. Целью компрессии информации является представление данных с наименьшей битовой скоростью. Битовый бюджет (bit budget) означает некоторый довесок к каждому биту в сжатом файле. Представьте себе сжатый файл, в котором 90% размера занимают коды переменной длины, соответствующие конкретным символам исходного файла, а оставшиеся 10% используются для хранения некоторых таблиц, которые будут использоваться декодером при декомпрессии. В этом случае битовый бюджет равен 10%.

    2) Величина, обратная коэффициенту сжатия, называется фактором сжатия:

    В этом случае значения большие 1 означают сжатие, а меньшие 1 - расширение. Этот множитель представляется большинству людей более естественным показателем: чем больше фактор, тем лучше компрессия. Эта величина отдаленно соотносится с коэффициентом разреженности, который будет обсуждаться в § 4.1.2.

    3) Выражение , где - коэффициент сжатия, тоже отражает качество сжатия. Его значение равное 60 означает, что в результате сжатия занимает на 60% меньше, чем исходный файл.

    4) Для оценивания эффективности алгоритмов сжатия образов используется величина bpp. Она показывает, сколько необходимо в среднем использовать битов для хранения одного пиксела. Это число удобно сравнивать с его значением до компрессии.

    е) Вероятностная модель. Это понятие очень важно при разработке статистических методов сжатия данных. Зачастую, алгоритм компрессии состоит из двух частей, вероятностной модели и непосредственно компрессора. Перед тем как приступить к сжатию очередного объекта (бита, байта, пиксела и т.п.), активируется вероятностная модель и вычисляется вероятность этого объекта. Эта вероятность и сам объект сообщаются компрессору, который использует полученную информацию при сжатии. Чем выше вероятность, тем лучше сжатие.

    Приведем пример простой модели для черно-белого изображения. Каждый пиксел такого изображения - это один единственный бит. Предположим, что алгоритм уже прочитал и сжал 1000 пикселов и читает 1001-ый пиксел. Какова вероятность того, что пиксел будет черным? Модель может просто сосчитать число черных пикселов в уже прочитанном массиве данных. Если черных пикселов было 350, то модель приписывает 1001-ому пикселу вероятность быть черным. Эта вероятность вместе с пикселом (черным или белым) передаются компрессору. Главным моментом является то, что декодер может также легко вычислить вероятность 1001-ого пиксела.

    ж) Слово алфавит означает множество символов в сжимаемых данных. Алфавит может состоять из двух символов, 0 и 1, из 128 символов ASCII, из 256 байтов по 8 бит в каждом или из любых других символов.

    з) Возможности каждого алгоритма сжатия имеют ограничения. Никакой алгоритм не может эффективно сжимать любые файлы. Как было уже показано, любой алгоритм может эффективно сжимать лишь малую долю файлов, которые не являются случайными. Подавляющее же число случайных или близких к случайным файлов не поддается сжатию.

    Последнее заключение выглядит немного обескураживающим, но я надеюсь, оно не заставит читателя закрыть эту книгу со вздохом и обратиться к другим многообещающим занятиям. Это удивительно, но среди всевозможных файлов размера , именно те файлы, которые мы захотим сжать, будут сжиматься хорошо. Те же, которые сжимаются плохо, являются случайными, а значит, неинтересными и неважными для нас. Мы не будем их сжимать, пересылать или хранить.

    Чудесные дни перед свадьбой сродни живому вступлению к скучной книге.
    - Уилсон Мизнер

    Доброго времени суток.
    Сегодня я хочу коснуться темы сжатия данных без потерь. Несмотря на то, что на хабре уже были статьи, посвященные некоторым алгоритмам, мне захотелось рассказать об этом чуть более подробно.
    Я постараюсь давать как математическое описание, так и описание в обычном виде, для того, чтобы каждый мог найти для себя что-то интересное.

    В этой статье я коснусь фундаментальных моментов сжатия и основных типов алгоритмов.

    Сжатие. Нужно ли оно в наше время?

    Разумеется, да. Конечно, все мы понимаем, что сейчас нам доступны и носители информации большого объема, и высокоскоростные каналы передачи данных. Однако, одновременно с этим растут и объемы передаваемой информации. Если несколько лет назад мы смотрели 700-мегабайтные фильмы, умещающиеся на одну болванку, то сегодня фильмы в HD-качестве могут занимать десятки гигабайт.
    Конечно, пользы от сжатия всего и вся не так много. Но все же существуют ситуации, в которых сжатие крайне полезно, если не необходимо.

    • Пересылка документов по электронной почте (особенно больших объемов документов с использованием мобильных устройств)
    • При публикации документов на сайтах, потребность в экономии трафика
    • Экономия дискового пространства в тех случаях, когда замена или добавление средств хранения затруднительно. Например, подобное бывает в тех случаях, когда выбить бюджет под капитальные расходы непросто, а дискового пространства не хватает

    Конечно, можно придумать еще множество различных ситуаций, в которых сжатие окажется полезным, но нам достаточно и этих нескольких примеров.

    Все методы сжатия можно разделить на две большие группы: сжатие с потерями и сжатие без потерь. Сжатие без потерь применяется в тех случаях, когда информацию нужно восстановить с точностью до бита. Такой подход является единственно возможным при сжатии, например, текстовых данных.
    В некоторых случаях, однако, не требуется точного восстановления информации и допускается использовать алгоритмы, реализующие сжатие с потерями, которое, в отличие от сжатия без потерь, обычно проще реализуется и обеспечивает более высокую степень архивации.

    Итак, перейдем к рассмотрению алгоритмов сжатия без потерь.

    Универсальные методы сжатия без потерь

    В общем случае можно выделить три базовых варианта, на которых строятся алгоритмы сжатия.
    Первая группа методов – преобразование потока. Это предполагает описание новых поступающих несжатых данных через уже обработанные. При этом не вычисляется никаких вероятностей, кодирование символов осуществляется только на основе тех данных, которые уже были обработаны, как например в LZ – методах (названных по имени Абрахама Лемпеля и Якоба Зива). В этом случае, второе и дальнейшие вхождения некой подстроки, уже известной кодировщику, заменяются ссылками на ее первое вхождение.

    Вторая группа методов – это статистические методы сжатия. В свою очередь, эти методы делятся на адаптивные (или поточные), и блочные.
    В первом (адаптивном) варианте, вычисление вероятностей для новых данных происходит по данным, уже обработанным при кодировании. К этим методам относятся адаптивные варианты алгоритмов Хаффмана и Шеннона-Фано.
    Во втором (блочном) случае, статистика каждого блока данных высчитывается отдельно, и добавляется к самому сжатому блоку. Сюда можно отнести статические варианты методов Хаффмана, Шеннона-Фано, и арифметического кодирования.

    Третья группа методов – это так называемые методы преобразования блока. Входящие данные разбиваются на блоки, которые затем трансформируются целиком. При этом некоторые методы, особенно основанные на перестановке блоков, могут не приводить к существенному (или вообще какому-либо) уменьшению объема данных. Однако после подобной обработки, структура данных значительно улучшается, и последующее сжатие другими алгоритмами проходит более успешно и быстро.

    Общие принципы, на которых основано сжатие данных

    Все методы сжатия данных основаны на простом логическом принципе. Если представить, что наиболее часто встречающиеся элементы закодированы более короткими кодами, а реже встречающиеся – более длинными, то для хранения всех данных потребуется меньше места, чем если бы все элементы представлялись кодами одинаковой длины.
    Точная взаимосвязь между частотами появления элементов, и оптимальными длинами кодов описана в так называемой теореме Шеннона о источнике шифрования(Shannon"s source coding theorem), которая определяет предел максимального сжатия без потерь и энтропию Шеннона.

    Немного математики
    Если вероятность появления элемента s i равна p(s i), то наиболее выгодно будет представить этот элемент - log 2 p(s i) битами. Если при кодировании удается добиться того, что длина всех элементов будет приведена к log 2 p(s i) битам, то и длина всей кодируемой последовательности будет минимальной для всех возможных методов кодирования. При этом, если распределение вероятностей всех элементов F = {p(s i)} неизменно, и вероятности элементов взаимно независимы, то средняя длина кодов может быть рассчитана как

    Это значение называют энтропией распределения вероятностей F, или энтропией источника в заданный момент времени.
    Однако обычно вероятность появления элемента не может быть независимой, напротив, она находится в зависимости от каких-то факторов. В этом случае, для каждого нового кодируемого элемента s i распределение вероятностей F примет некоторое значение F k , то есть для каждого элемента F= F k и H= H k .

    Иными словами, можно сказать, что источник находится в состоянии k, которому соответствует некий набор вероятностей p k (s i) для всех элементов s i .

    Поэтому, учитывая эту поправку, можно выразить среднюю длину кодов как

    Где P k - вероятность нахождения источника в состоянии k.

    Итак, на данном этапе мы знаем, что сжатие основано на замене часто встречающихся элементов короткими кодами, и наоборот, а так же знаем, как определить среднюю длину кодов. Но что же такое код, кодирование, и как оно происходит?

    Кодирование без памяти

    Коды без памяти являются простейшими кодами, на основе которых может быть осуществлено сжатие данных. В коде без памяти каждый символ в кодируемом векторе данных заменяется кодовым словом из префиксного множества двоичных последовательностей или слов.
    На мой взгляд, не самое понятное определение. Рассмотрим эту тему чуть более подробно.

    Пусть задан некоторый алфавит , состоящий из некоторого (конечного) числа букв. Назовем каждую конечную последовательность символов из этого алфавита (A=a 1 , a 2 ,… ,a n) словом , а число n - длиной этого слова.

    Пусть задан также другой алфавит. Аналогично, обозначим слово в этом алфавите как B.

    Введем еще два обозначения для множества всех непустых слов в алфавите. Пусть - количество непустых слов в первом алфавите, а - во втором.

    Пусть также задано отображение F, которое ставит в соответствие каждому слову A из первого алфавита некоторое слово B=F(A) из второго. Тогда слово B будет называться кодом слова A, а переход от исходного слова к его коду будет называться кодированием .

    Поскольку слово может состоять и из одной буквы, то мы можем выявить соответствие букв первого алфавита и соответствующих им слов из второго:
    a 1 <-> B 1
    a 2 <-> B 2

    a n <-> B n

    Это соответствие называют схемой , и обозначают ∑.
    В этом случае слова B 1 , B 2 ,…, B n называют элементарными кодами , а вид кодирования с их помощью - алфавитным кодированием . Конечно, большинство из нас сталкивались с таким видом кодирования, пусть даже и не зная всего того, что я описал выше.

    Итак, мы определились с понятиями алфавит, слово, код, и кодирование . Теперь введем понятие префикс .

    Пусть слово B имеет вид B=B"B"". Тогда B" называют началом, или префиксом слова B, а B"" - его концом. Это довольно простое определение, но нужно отметить, что для любого слова B, и некое пустое слово ʌ («пробел»), и само слово B, могут считаться и началами и концами.

    Итак, мы подошли вплотную к пониманию определения кодов без памяти. Последнее определение, которое нам осталось понять - это префиксное множество. Схема ∑ обладает свойством префикса, если для любых 1≤i, j≤r, i≠j, слово B i не является префиксом слова B j .
    Проще говоря, префиксное множество – это такое конечное множество, в котором ни один элемент не является префиксом (или началом) любого другого элемента. Простым примером такого множества является, например, обычный алфавит.

    Итак, мы разобрались с основными определениями. Так как же происходит само кодирование без памяти?
    Оно происходит в три этапа.

    1. Составляется алфавит Ψ символов исходного сообщения, причем символы алфавита сортируются по убыванию их вероятности появления в сообщении.
    2. Каждому символу a i из алфавита Ψ ставится в соответствие некое слово B i из префиксного множества Ω.
    3. Осуществляется кодирование каждого символа, с последующим объединением кодов в один поток данных, который будет являться результатам сжатия.

    Одним из канонических алгоритмов, которые иллюстрируют данный метод, является алгоритм Хаффмана.

    Алгоритм Хаффмана

    Алгоритм Хаффмана использует частоту появления одинаковых байт во входном блоке данных, и ставит в соответствие часто встречающимся блокам цепочки бит меньшей длины, и наоборот. Этот код является минимально – избыточным кодом. Рассмотрим случай, когда, не зависимо от входного потока, алфавит выходного потока состоит из всего 2 символов – нуля и единицы.

    В первую очередь при кодировании алгоритмом Хаффмана, нам нужно построить схему ∑. Делается это следующим образом:

    1. Все буквы входного алфавита упорядочиваются в порядке убывания вероятностей. Все слова из алфавита выходного потока (то есть то, чем мы будем кодировать) изначально считаются пустыми (напомню, что алфавит выходного потока состоит только из символов {0,1}).
    2. Два символа a j-1 и a j входного потока, имеющие наименьшие вероятности появления, объединяются в один «псевдосимвол» с вероятностью p равной сумме вероятностей входящих в него символов. Затем мы дописываем 0 в начало слова B j-1 , и 1 в начало слова B j , которые будут впоследствии являться кодами символов a j-1 и a j соответственно.
    3. Удаляем эти символы из алфавита исходного сообщения, но добавляем в этот алфавит сформированный псевдосимвол (естественно, он должен быть вставлен в алфавит на нужное место, с учетом его вероятности).
    Шаги 2 и 3 повторяются до тех пор, пока в алфавите не останется только 1 псевдосимвол, содержащий все изначальные символы алфавита. При этом, поскольку на каждом шаге и для каждого символа происходит изменение соответствующего ему слова B i (путем добавление единицы или нуля), то после завершения этой процедуры каждому изначальному символу алфавита a i будет соответствовать некий код B i .

    Для лучшей иллюстрации, рассмотрим небольшой пример.
    Пусть у нас есть алфавит, состоящий из всего четырех символов - { a 1 , a 2 , a 3 , a 4 }. Предположим также, что вероятности появления этих символов равны соответственно p 1 =0.5; p 2 =0.24; p 3 =0.15; p 4 =0.11 (сумма всех вероятностей, очевидно, равна единице).

    Итак, построим схему для данного алфавита.

    1. Объединяем два символа с наименьшими вероятностями (0.11 и 0.15) в псевдосимвол p".
    2. Объединяем два символа с наименьшей вероятностью (0.24 и 0.26) в псевдосимвол p"".
    3. Удаляем объединенные символы, и вставляем получившийся псевдосимвол в алфавит.
    4. Наконец, объединяем оставшиеся два символа, и получаем вершину дерева.

    Если сделать иллюстрацию этого процесса, получится примерно следующее:


    Как вы видите, при каждом объединении мы присваиваем объединяемым символам коды 0 и 1.
    Таким образом, когда дерево построено, мы можем легко получить код для каждого символа. В нашем случае коды будут выглядить так:

    A 1 = 0
    a 2 = 11
    a 3 = 100
    a 4 = 101

    Поскольку ни один из данных кодов не является префиксом какого-нибудь другого (то есть, мы получили пресловутое префиксное множество), мы можем однозначно определить каждый код в выходном потоке.
    Итак, мы добились того, что самый частый символ кодируется самым коротким кодом, и наоборот.
    Если предположить, что изначально для хранения каждого символа использовался один байт, то можно посчитать, насколько нам удалось уменьшить данные.

    Пусть на входу у нас была строка из 1000 символов, в которой символ a 1 встречался 500 раз, a 2 - 240, a 3 - 150, и a 4 - 110 раз.

    Изначально данная строка занимала 8000 бит. После кодирования мы получим строку длинной в ∑p i l i = 500 * 1 + 240 * 2 + 150 * 3 + 110 * 3 = 1760 бит. Итак, нам удалось сжать данные в 4,54 раза, потратив в среднем 1,76 бита на кодирование каждого символа потока.

    Напомню, что согласно Шеннону, средняя длина кодов составляет . Подставив в это уравнение наши значения вероятностей, мы получим среднюю длину кодов равную 1.75496602732291, что весьма и весьма близко к полученному нами результату.
    Тем не менее, следует учитывать, что помимо самих данных нам необходимо хранить таблицу кодировки, что слегка увеличит итоговый размер закодированных данных. Очевидно, что в разных случаях могут с использоваться разные вариации алгоритма – к примеру, иногда эффективнее использовать заранее заданную таблицу вероятностей, а иногда – необходимо составить ее динамически, путем прохода по сжимаемым данным.

    Заключение

    Итак, в этой статье я постарался рассказать об общих принципах, по которым происходит сжатие без потерь, а также рассмотрел один из канонических алгоритмов - кодирование по Хаффману.
    Если статья придется по вкусу хабросообществу, то я с удовольствием напишу продолжение, так как есть еще множество интересных вещей, касающихся сжатия без потерь; это как классические алгоритмы, так и предварительные преобразования данных (например, преобразование Барроуза-Уилира), ну и, конечно, специфические алгоритмы для сжатия звука, видео и изображений (самая, на мой взгляд, интересная тема).

    Литература

    • Ватолин Д., Ратушняк А., Смирнов М. Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео; ISBN 5-86404-170-X; 2003 г.
    • Д. Сэломон. Сжатие данных, изображения и звука; ISBN 5-94836-027-Х; 2004г.