Глава 2. Основные проблемы при обработке мультимедийной информации.

Основными проблемами при обработке мультимедийной информации являются необходимость хранения гигантских объемов файлов и обеспечение высокой скорости их обработки. Эти проблемы решаются за счет применения дисковых накопителей большой емкости, процессоров с большой тактовой частотой и большим объемом оперативной памяти и специальных алгоритмов сжатия данных.

Почему мультимедийные файлы имеют такой большой объем?

Дело в том, что мультимедийные файлы - звуковые, графические, видео, по своей природе содержат очень много информации и кодировка ее цифрами приводит к созданию файлов очень большого объема. Разберемся в природе этого явления.

Первоначальная причина этого в том, что человек воспринимает информацию в аналоговом (непрерывном) формате. Например, если мы смотрим на закат солнца, то цвета непрерывно переходят из одного в другой, если видим движущийся предмет, то он в любой сколь угодно малый квант времени изменяет свое положение. Линия нарисованная на бумаге – она ведь непрерывна. Но при вводе в компьютер мы должны непрерывную информацию заменять на дискретную – точки на экране, амплитуду звука, закодированные числами и т.д. И чем большим количеством точек мы представим линию в компьютере – тем точнее она будет отражать реальную линию на бумаге.

Первоначально компьютеры были изобретены для работы только с числами и вся информация в них кодируется цифрами. Любое число, из диапазона чисел нужных людям можно закодировать в двоичной системе четырьмя или восемью байтами. Поэтому, если в машине нужно было хранить числовую таблицу, например таблицу логарифмов объемом сто страниц, а каждый логарифм изображать десятью цифрами, для записи в компьютере одной страницы ( а на ней в среднем помещается 2000 символов), то на странице будет 200 логарифмов х 4 байта = 800 байт на страницу, на сто страниц - приблизительно 80 кб.

Если нужно записать в память компьютера 100 страниц текста, т.е. некоторые слова, а каждый символ кодируется одним байтом, 100х2000 = примерно 200 кб.

Предположим, что ту же информацию, которую мы записали в текстовом виде и затратили на это 200 кб., мы хотим прочитать вслух и записать в виде звукового файла, чтобы потом воспроизвести голос. Пусть мы читаем тест со скоростью 3 минут страница, значит 100 страниц будет звучать 300 минут, 5 часов. Как можно звук ввести в компьютер? Схема здесь та же самая, что и при записи на магнитофон: микрофон - микрофонный усилитель - провода - мощный усилитель - записывающие головки магнитофона, только вместо записывающих головок будет специальное устройство - аналого - цифровой преобразователь (АЦП) и далее запоминающее устройство компьютера (оперативная память, дискета или жесткий диск)

АЦП через фиксированные моменты времени измеряет значение амплитуды сигнала в линии и преобразует ее в цифровой код - число. Это число записывается в память компьютера и т. д. Таким образом в памяти компьютера будет последовательность чисел - замеров амплитуды звукового сигнала через определенные промежутки времени. Для того чтобы воспроизвести звук записанный таким образом, надо эти коды последовательно считывать из памяти и подавать на другое устройство - цифро - аналоговый преобразователь (ЦАП), на выходе которого формируется уровень напряжения в соответствии с входным кодом, таким образом на выходе ЦАП будет восстановленный аналоговый звуковой сигнал. Далее его можно сгладить, усилить и подать на звуковые колонки и получить звук, более или менее эквивалентный тому, что был записан через микрофон.

Очень важно определить, через какие периоды времени следует квантовать аналоговый звуковой сигнал. Это делается из следующих соображений - человеческое ухо улавливает звуки частотой от 16 до 200000 гц., для того чтобы по точкам восстановить значение синусоиды, надо иметь не менее двух отсчетов за период, таким образом, чтобы полностью восстановить все звуки, которые может слышать человек, надо квантовать сигнал не менее 40 000 раз в секунду.

Подсчитаем, сколько же памяти компьютера потребуется чтобы записать 100 страниц прочитанного текста. 60 сек х 300 минут х 40 000 = 720 000 000, примерно 720 мб. На самом деле при записи на жесткий диск или CD ROM запись байтов идет не сплошным потоком, существуют промежутки для форматирования, если записывать с качеством «стерео» - по двум каналам получившийся результат нужно увеличит вдвое. Если кодировать амплитуду 16 битами для более высокого качества – еще вдвое. На практике для записи одной минуты звука требуется около 10 мб.

Может возникнуть вопрос: зачем нужно прибегать к такой сложной схеме, когда 5 часов звука очень просто записать на 3-4 стандартных аудиокассеты? Ответ здесь такой: оцифрованный звук приобретает совершенно новые потребительские качества - во первых, он может храниться вечно (например записанный на CD-ROM) абсолютно без потери качества., во - вторых, его можно обрабатывать ( редактировать ) на компьютере и существенно изменять и улучшать характеристики, например, устранять шумы при записи старых грампластинок, в третьих, его можно посылать на любые расстояния по компьютерным сетям без потери качества..

А если мы хотим снять эти страницы на видео так, чтобы потом можно было прочитать с экрана? Процесс чтения займет тоже около 5 часов. Видео воспроизводится кадрами с частотой 30 кадров в секунду. Будем считать, что каждый кадр воспроизводит одну страницу текста в течении 3 минут, которые надо, чтобы прочитать ее.

Один кадр - это один экран компьютера. Графическая информация кодируется точками и цветом. Обычно сейчас на экране размещают 800х600 точек. В каждой точке еще кодируется и цвет, как минимум три байта на точку. Таким образом необходимо:

60х300 сек х 30 раз в сек х 800х600 точек х 3 байта = 77 600 000 000 или примерно 77 Гб.

Памяти любого персонального компьютера здесь не хватит.

На самом деле видеофайлы никогда не хранятся в виде последовательности байтов, всегда применяют сложные алгоритмы сжатия, что приводит к уменьшению файлов в 50 – 100 раз, но повышает требования к быстродействию компьютеров для кодирования – раскодирования «на лету»

Итак сравните: цифры - 80 кб.

Текст - 200 кб.

Звук - 0,72 Гб

Видео - 77 Гб.

Несмотря на большие допущения, которые были приняты в этих рассуждениях, очевидно что чем сложнее способ представления информации, тем больше места в памяти компьютера она требует.

Отсюда очевидна основная проблема при обработке мультимедийной информации – необходимость хранить и обрабатывать очень большие объемы файлов.

Глава 3. Стандарты и структура мультимедийных файлов

Звуковые файлы

Существует три основных формата звуковых файлов:

· Waveform audio - WAV или WAVE (wave-файлы, имеют расширение wav)

· Musical Instrument Digital Inrerface - MIDI или MID (midi-файлы, имеют расширение mid)

· MPEG - на компьютере пользователя имеют расширение .mp3

WAV-файлы - это полный аналог записи на магнитофонную ленту, только значения амплитуды сигнала записывается не в аналоговом виде, а в виде последовательности цифровых кодов, соответствующих значению амплитуды звукового согнала в каждый момент времени сигнала

Для записи WAV-файла необходима специальная аппаратура, как правило это дополнительная звуковая плата компьютера, включающая - аналого - цифровой преобразователь, который в последовательные моменты времени замеряет амплитуды сигнала и записывает их в память компьютера в виде 8-ми или 16-ти разрядных кодов, и для воспроизведения цифро- аналоговый преобразователь, который по записанным кодам, восстанавливает амплитуду согнала, т.е. приводит его к исходному виду. Поскольку звуковой сигнал записывается в памяти компьютера в виде цифр, его можно корректировать - изменять амплитуду, а значит громкость, отсеивать шумы, изменять тембр и т. д.

Файлы с расширением .WAV, к сожалению, довольно громоздки - занимают сотни Кбайт на каждую минуту записи. Так например, знакомый всем звук аккорда, который проигрывается при завершении загрузки ОС WINDOWS 95 и звучит 6,12 секунды, занимает 135 876 байт.

Информация при записи WAVE-файлов сжимается как аппаратными входящими в состав звуковой платы, так и программными, входящими в состав операционной системы, средствами для уменьшения размеров файла.

Размер файлов зависит прежде всего от частоты квантования, задающей число выборок (отсчетов) звукового сигнала в единицу времени. Именно эти выборки представляются АЦП в виде двоичных чисел, несущих информацию о мгновенном значении сигнала в моменты выборок. Звуковые компакт-диски, к примеру, имеют частоту квантования 44.1 кГц. Считается (приближенно), что частота квантования должна быть вдвое выше высшей частоты спектра звуковых сигналов. Практически частота квантования в 44.1 кГц позволяет записывать (и затем воспроизводить) весь частотный диапазон звуковых сигналов - от 20 до 20 000 Гц.

Однако для записей умеренного качества достаточен более узкий диапазон частот - например для разборчивой речи от примерно 400 до 3 500 Гц. Поэтому при записи WAVE-файлов предусматривается ряд частот квантования, чаще всего от 5 Кгц до 44-45 Кгц., а точность измерения уровня сигнала может быть выбрана 8 или 16 разрядов. Чем ниже частоты квантования, чем меньше точность измерения тем меньше (пропорционально) размер WAVE-файлов и хуже качество воспроизведения звука.. Переход от двухканальной (стереофонической) записи с одноканальной (монофонической) уменьшает длину звуковых файлов вдвое. Проигрыватели WAVE-файлов обычно автоматически распознают тип записи и частоту квантования.

WAV-файлы обычно используются для записи и воспроизведения речи или голоса певца, так как они имеют индивидуальную окраску и искусственно создать голос с характеристиками голоса Шаляпина невозможно, а вернее очень трудно. Хотя в прессе появляются сообщения, что разработаны программы, которые могут говорить голосом любого человека. Они сначала анализируют записанные тексты, выявляют индивидуальные особенности индивидуума, а затем могут синтезировать произвольную речь или даже песню голосом этого человека.

MIDI-файлы не являются непосредственной записью звуков, а представляют собой набор команд, какой музыкальный инструмент, какую ноту, какой длительности (и некоторые другие характеристики) использовать Реальной звуковой информации такие файлы не несут. Они просто указывают, когда и в какой момент должен звучать тот или иной музыкальный инструмент, по какому каналу, с какой громкостью и какими иными звуковыми параметрами. Словом, MIDI-файлы являются набором инструкций для синтезатора музыкальных звуков. Можно сказать, что они подобны нотам, по которым исполняется музыкальное произведение - не случайно есть программы, которые по таким файлам действительно воссоздают нотные записи музыки!

Однако как и сами ноты это не музыка и для получения ее нужен исполнитель и музыкальный инструмент, так и MIDI-файлы требуют для получения музыки своего инструмента - синтезатора музыки - в постом случае это звуковая плата компьютера. Принцип синтеза здесь следующий - в памяти звуковой платы записываются образцы звучания всех нот нескольких инструментов, от трех до двадцати инструментов. В соответствии с командами из файла, извлекается тот или иной эталон, возможно модифицируется - изменяется тембр, громкость, высота и преобразуется в аналоговый сигнал и подается на выходной усилитель.

Эти файлы используются для записи и воспроизведения инструментальной музыки и генерации музыкального сопровождения и аранжировки музыкальных произведений.

Такой подход приводит к тому, что MIDI-файлы имеют значительно меньший размер, чем файлы с информацией о реальных звуках. С частотным диапазоном и частотами квантования размеры MIDI-файлов никоим образом не связаны. В результате запись даже довольно длинного музыкального произведения занимает обычно десятки Кбайт (редко до 150-200 Кбайт). Если преобразовать MIDI- файл размером в 20 кб. В WAV-файл, то последний будет около 3 мб. MIDI-файлы поддерживают работу как обычных музыкальных синтезаторов, использующих частотную модуляцию FM (Frequense Modulation), так и более новых волновых синтезаторов WS.

Файлы MPEG

Существует четыре версии алгоритма сжатия файлов MPEG, которые обозначаются как MPEG-1 - MPEG-4. В Internet наиболее часто используется версия MPEG-1, хотя по мере развития коммуникационных технологий будут внедряться и остальные варианты. Стандарт MPEG-1 определяет три уровня, каждому из которых соответствует свой собственный формат. Усложненные алгоритмы более высокого уровня требуют более длительного времени работы, однако обеспечивают более высокие степени сжатия при сохранении практически точного соответствия оригиналу. Уровень I обеспечивает самую высокую скорость кодирования, а уровень III дает наибольшую степень сжатия при сопоставимом качестве звука. Для звуковых файлов наиболее часто используется MPEG-1 уровня III (расширения файлов .МР3) Все уровни основаны на психоакустических моделях, которые обосновывают выбор частотных составляющих сигнала, которые могут быть отброшены без ущерба для субъективного восприятия качества звучания. Файлы MPEG-1 уровня III сохраняют практически неотличимое от несжатого оригинала качество звучания при степени сжатия до 12:1.

Эта система кодирования звуковых файлов , чрезвычайно широко распространенной в Internet. Существуют специальные музыкальные сервера или отдельные музыкальные страницы на которых имеются ссылки на музыкальные произведения. Например в России есть сервер www.music.ru с обширным музыкальным архивом CD-ROMов различных российских и зарубежных групп. Пользователь может зайти на этот сервер, выбрать любимую музыкальную группу, диск, произведение и щелкнуть мышью на значок рядом с названием, после этого на компьютер пользователя будет загружаться по частям звуковой файл в специальном формате и воспроизводиться с хорошим или не очень хорошим качеством, - в зависимости от скорости работы линии связи, которая используется для соединения с Internet.

Предварительно пользователь должен загрузить и установить у себя на компьютере специальную программу - Real Radio плейер или другую. Ее можно взять бесплатно на сервере www.mpeg3.org. Там есть две версии этой программы - бесплатная и за 30$. Платная версия обладает более широкими возможностями. Программа скачивается в виде exe-файла, после его переписи на компьютер пользователя это файл надо запустить на выполнение и плеер будет установлен.

Преимущества данной технологии в том, что информация передается клиенту непосредственно с транслирующего сервера без предварительной загрузки и сохранения на жестком диске компьютера. Однако, качество воспроизведения сильно зависит от скорости канала и качества связи по нему. На линии 14.4 кб/сек - нормальное воспроизведение монофонной программы, на 28.8 кб/сек - стереопрограммы с качеством близким к УКВ приему, на ISDN линиях качество близко к компакт-диску.

Управление плеером достаточно простое, позволяющее останавливать проигрывание, возобновлять с точки прерывания или с любого места. Разумеется эти действия можно выполнять, если поток транслируется не в прямом эфире.

Графические файлы.

Несколько слов о технической стороне формирования на экране монитора графического изображения. Экран монитора состоит из большого количества микроскопических участков, на каждом из которых расположены три различных пятна вещества - люминофора, которые под воздействием электронного луча могут светиться синим, красным и желтим цветом. Сила свечения зависит от силы электронного пучка, попадающего на люминофор, а та, а свою очередь от силы тока в катушке управления электронной- лучевой трубки. Таких катушек три - для каждого типа люминофора. Схема управления монитором формирует сигналы развертки луча (перемещения) по экрану, обычно построчно сверху вниз и модуляции луча сигналами управления цветом. Таким образом луч пробегая весь экран засвечивает различные точки экрана различными цветами, а мы воспринимаем это как графическое цветное изображение. Информация о том, какую точку каким цветом и какой яркостью высветит хранится в видеоплате компьютера, а туда попадает из оперативной памяти.

Существуют два способа кодирования графических изображений: векторный и растровый.

Векторный способ кодирования графической информации отличается от описанного выше - здесь луч пробегает не все точки экрана, а только некоторые. Изображение на экране генерируется с помощь задания векторов точек на экране - углом наклона и длиной вектора. Причем значения векторов генерируются аппаратно специальными микросхемами, а рисунок задается в виде комбинации простых геометрических фигур - отрезков прямой, окружностей, эллипсов и т.д. Этот способ применяется для построения чертежей на экране и при выводе на графопостроитель, картину или фотографию им не построить. Сейчас используется редко, но все же используется, так как обладает большим быстродействием - луч пробегает не все точки экрана, а только те, что образуют рисунок. Этот способ используется в системах САПР для формирования чертежей. Он не позволяет формировать полутоновые изображения.

Растровый способ - сейчас основной. Он позволяет строить многоцветные картины, движущиеся изображения. Суть его в том, что все пространство экрана разбивается на маленькие прямоугольники - пиксели от (Picture Element). Для каждого пикселя в файле хранится определенная информация - координаты пикселя по вертикали и горизонтали и код цвета, т.е. как минимум три числа. Вывод изображения происходит следующим образом: данные из графического файла перемещаются в оперативную память, далее графическая плата (видеоадаптер) переписывает их в свою память, а специальная микросхема берет последовательно тройки чисел, определяющие пиксель, преобразует их в сигналы для монитора и выдает их в монитор. Эта процедура повторяется 25 - 50 раз в секунду и изображение на экране кажется неподвижным.

От чего зависит качество изображения?

· От количества пикселей на экране. Дисплей с видеоплатой VGA позволяет иметь на экране 640х480 (горизонталь и вертикаль). С видеоплатой SVGA 800х600, 1024х768, 1152 868, 1280х1024, 1600х1200. Конкретное значение зависит от параметров платы.

· От объема оперативной памяти на видеоплате, она может быть от 512 кб. до 64 мб. При маленьком объеме памяти скорость повторения кадров на экране снижается и может быть мерцание экрана.

· От количества бит, отведенных под кодировку цвета. Если цвет пикселя кодируется одним битом - то изображение может быть только черно - белым без всяких оттенков. Если отвести под кодировку цвета 4 бита, то кодируется 16 цветов, если 8 бит - один байт, можно закодировать 256 цветов, 16 бит - 65536 цветов и оттенков и наконец существуют платы с кодировкой цвета 24 бита - 16 777 216 цветов и оттенков. Однако надо понимать, что для графического файла всегда имеется прототип в реальном мире - картина, фотография и т.д., и при преобразовании ее в файл, может быть потеря цветов и цветовые искажения, и применять 24 разрядную кодировку цвета будет бессмысленно.

Операционная система WIDOWS 98 позволяет настраивать количество пикселей и цветов и следует знать характеристики вашего монитора и видеоплаты, чтобы настроиться оптимальным образом, в противном случае возможны искажения в передаче цветов.

Предыдущая 123 4 5 6 7 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: