Как найти уровень дискретизации - Сайт, где вы сможете решить свои вопросы

Автор материалов – Лада Борисовна Есакова.

При оцифровке звука в памяти запоминаются только отдельные значения сигнала. Чем чаще записывается сигнал, тем лучше качество записи.

Частота дискретизации f – это количество раз в секунду, которое происходит преобразование аналогового звукового сигнала в цифровой. Измеряется в Герцах (Гц).

Глубина кодирования (а также, разрешение) – это количество бит, выделяемое на одно преобразование сигнала. Измеряется в битах (Бит).

Возможна запись нескольких каналов: одного (моно), двух (стерео), четырех (квадро).

Обозначим частоту дискретизации – f (Гц), глубину кодирования – B(бит), количество каналов – k, время записи – t(Сек).

Количество уровней дискретизации d можно рассчитать по формуле: d = 2^B.

Тогда объем записанного файла V(бит) = f * B * k * t.

Или, если нам дано количество уровней дискретизации,

V(бит) = f * log₂d * k * t.

Единицы измерения объемов информации:

1 б (байт) = 8 бит

1 Кб (килобайт) = 2¹⁰ б

1 Мб (мегабайт) = 2²⁰ б

1 Гб (гигабайт) = 2³⁰ б

1 Тб (терабайт) = 2⁴⁰ б

1 Пб (петабайт) = 2⁵⁰ б

При оцифровке графического изображения качество картинки зависит от количества точек и количества цветов, в которые можно раскрасить точку.

Если X – количество точек по горизонтали,

Y – количество точек по вертикали,

I – глубина цвета (количество бит, отводимых для кодирования одной точки), то количество различных цветов в палитре N = 2^I. Соответственно, I = log₂N.

Тогда объем файла, содержащего изображение, V(бит) = X * Y * I

Или, если нам дано количество цветов в палитре, V(бит) = X * Y * log₂N.

Скорость передачи информации по каналу связи (пропускная способность канала) вычисляется как количество информации в битах, переданное за 1 секунду (бит/с).

Объем переданной информации вычисляется по формуле V = q * t, где q – пропускная способность канала, а t – время передачи.

Кодирование звука

Пример 1.

Производится двухканальная (стерео) звукозапись с частотой дискретизации 16 кГц и глубиной кодирования 32 бит. Запись длится 12 минут, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?

1) 30 2) 45 3) 75 4) 90

Решение:

V(бит) = f(Гц)* B(бит) * k * t(Сек),

где V – размер файла, f – частота дискретизации, B – глубина кодирования, k – количество каналов, t – время.

Значит, V(Мб) = (f * B * k * t ) / 2²³

Переведем все величины в требуемые единицы измерения:

V(Мб) = (16*1000 * 32 * 2 * 12 * 60 ) / 2²³

Представим все возможные числа, как степени двойки:

V(Мб) = (2⁴ * 2³ * 125 * 2⁵ * 2 * 2² * 3 * 15 * 2²) / 2²³ = (5625 * 2¹⁷) / 2²³ = 5625 / 2⁶ =

5625 / 64 ≈ 90.

Ответ: 4

!!! Без представления чисел через степени двойки вычисления становятся намного сложнее.

!!! Частота – это физическая величина, а потому 16 кГц = 16 * 1000 Гц, а не 16 * 2¹⁰. Иногда этой разницей можно пренебречь, но на последних диагностических работах она влияла на правильность ответа.

Пример 2.

В течение трех минут производилась четырёхканальная (квадро) звукозапись с частотой дискретизации 16 КГц и 24-битным разрешением. Сжатие данных не производилось. Какая из приведенных ниже величин наиболее близка к размеру полученного файла?

1) 25 Мбайт

2) 35 Мбайт

3) 45 Мбайт

4) 55 Мбайт

Решение:

V(бит) = f(Гц)* B(бит) * k * t(Сек),

где V – размер файла, f – частота дискретизации, B – глубина кодирования (или разрешение), k – количество каналов, t – время.

Значит, V(Мб) = (f * B * k * t ) / 2²³= (16 * 1000 * 24 * 4 * 3 * 60) / 2²³ = (2⁴ * 2³ * 125 * 3 * 2³ * 2² * 3 * 15 * 2²) / 2²³ = (125 * 9 * 15 * 2¹⁴) / 2²³ = 16875 / 2⁹ = 32, 96 ≈ 35

Ответ: 2

Пример 3.

Аналоговый звуковой сигнал был записан сначала с использованием 64 уровней дискретизации сигнала, а затем с использованием 4096 уровней дискретизации сигнала. Во сколько раз увеличился информационный объем оцифрованного звука?

1) 64

2) 8

3) 2

4) 12

Решение:

V(бит) = f * log₂d * k * t, где V – размер файла, f – частота дискретизации, d – количество уровней дискретизации, k – количество каналов, t – время.

V₁= f * log₂64 * k * t = f * 6 * k * t

V₂= f * log₂4096 * k * t = f * 12 * k * t

V₂ / V₁ = 2

Правильный ответ указан под номером 3.

Ответ: 3

Кодирование изображения

Пример 4.

Какой минимальный объём памяти (в Кбайт) нужно зарезервировать, чтобы можно было сохранить любое растровое изображение размером 64×64 пикселей при условии, что в изображении могут использоваться 256 различных цветов? В ответе запишите только целое число, единицу измерения писать не нужно.

Решение:

V(бит) = X * Y * log₂N, где V – объем памяти, X,Y – количество пикселей по горизонтали и вертикали, N – количество цветов.

V (Кб) = (64 * 64 * log₂256) / 2¹³ = 2¹² * 8 / 2¹³ = 4

Ответ: 4

Пример 5.

Для хранения растрового изображения размером 64×32 пикселя отвели
1 килобайт памяти. Каково максимально возможное число цветов в палитре изображения?

Решение:

log₂N = V /( X*Y) = 2¹³ / (2⁶* 2⁵) = 4

N = 16

Ответ:16

Сравнение двух способов передачи данных

Пример 6.

Документ объемом 5 Мбайт можно передать с одного компьютера на другой двумя способами:

А) Сжать архиватором, передать архив по каналу связи, распаковать.

Б) Передать по каналу связи без использования архиватора.

Какой способ быстрее и насколько, если

– средняя скорость передачи данных по каналу связи составляет 2¹⁸ бит в секунду,

– объем сжатого архиватором документа равен 80% от исходного,

– время, требуемое на сжатие документа – 35 секунд, на распаковку – 3 секунды?

В ответе напишите букву А, если способ А быстрее или Б, если быстрее способ Б. Сразу после буквы напишите количество секунд, насколько один способ быстрее другого. Так, например, если способ Б быстрее способа А на 23 секунды, в ответе нужно написать Б23. Слов «секунд», «сек.», «с.» к ответу добавлять не нужно.

Решение:

Способ А. Общее время складывается из времени сжатия, распаковки и передачи. Время передачи t рассчитывается по формуле t = V / q, где V — объём информации, q — скорость передачи данных.

Объем сжатого документа: 5 * 0,8 = 4 Мб =4 * 2²³ бит.

Найдём общее время: t = 35 с + 3 с + 4 * 2²³ бит / 2¹⁸ бит/с = 38 + 2⁷ с = 166 с.

Способ Б. Общее время совпадает с временем передачи: t = 5 * 2²³ бит / 2¹⁸ бит/с = 5 * 2⁵ с = 160 с.

Способ Б быстрее на 166 – 160 = 6 с.

Ответ: Б6

Определение времени передачи данных

Пример 7.

Скорость передачи данных через ADSL─соединение равна 128000 бит/c. Через данное соединение передают файл размером 625 Кбайт. Определите время передачи файла в секундах.

Решение:

Время t = V / q, где V — объем файла, q — скорость передачи данных.

t = 625 * 2¹⁰ байт / (2 ⁷ * 1000) бит/c = 625 * 2¹³ бит / (125 * 2¹⁰) бит/c = 5 * 2³ с = 40 с.

Ответ: 40

Пример 8.

У Васи есть доступ к Интернет по высокоскоростному одностороннему радиоканалу, обеспечивающему скорость получения им информации 2¹⁷ бит в секунду. У Пети нет скоростного доступа в Интернет, но есть возможность получать информацию от Васи по низкоскоростному телефонному каналу со средней скоростью 2¹⁵ бит в секунду. Петя договорился с Васей, что тот будет скачивать для него данные объемом 4 Мбайта по высокоскоростному каналу и ретранслировать их Пете по низкоскоростному каналу. Компьютер Васи может начать ретрансляцию данных не раньше, чем им будут получены первые 512 Кбайт этих данных. Каков минимально возможный промежуток времени (в секундах), с момента начала скачивания Васей данных, до полного их получения Петей? В ответе укажите только число, слово «секунд» или букву «с» добавлять не нужно.

Решение:

Нужно определить, сколько времени будет передаваться файл объемом 4 Мбайта по каналу со скоростью передачи данных 2¹⁵ бит/с; к этому времени нужно добавить задержку файла у Васи (пока он не получит 512 Кбайт данных по каналу со скоростью 2¹⁷ бит/с).

Время скачивания данных Петей: t₁= 4*2²³ бит / 2¹⁵ бит/с = 2¹⁰ c.

Время задержки: t₂ = 512 кб / 2¹⁷ бит/с = 2^{(9 + 10 + 3) – 17} c = 2⁵ c.

Полное время: t₁ + t₂ = 2¹⁰ c + 2⁵ c = (1024 + 32) c = 1056 c.

Ответ: 1056

Пример 9.

Данные объемом 60 Мбайт передаются из пункта А в пункт Б по каналу связи, обеспечивающему скорость передачи данных 2¹⁹ бит в секунду, а затем из пункта Б в пункт В по каналу связи, обеспечивающему скорость передачи данных 2²⁰ бит в секунду. Задержка в пункте Б (время между окончанием приема данных из пункта А и началом передачи в пункт В) составляет 25 секунд. Сколько времени (в секундах) прошло с момента начала передачи данных из пункта А до их полного получения в пункте В? В ответе укажите только число, слово «секунд» или букву «с» добавлять не нужно.

Решение:

Полное время складывается из времени передачи из пункта А в пункт Б (t₁), задержки в пункте Б (t2) и времени передачи из пункта Б в пункт В (t₃).

t₁= (60 * 2²³) / 2¹⁹ =60 * 16 = 960 c

t₂ = 25 c

t₃ = (60 * 2²³) / 2²⁰ =60 * 8 = 480 c

Полное время t₁ + t₂ +t₃ = 960 + 25 + 480 = 1465 c

Ответ: 1465

Спасибо за то, что пользуйтесь нашими материалами.
Информация на странице «Задача №9. Кодирование звуковой и графической информации. Передача информации, Время записи звукового файла, время передачи данных, определение объема информации.» подготовлена нашими авторами специально, чтобы помочь вам в освоении предмета и подготовке к ЕГЭ и ОГЭ.
Чтобы успешно сдать нужные и поступить в ВУЗ или техникум нужно использовать все инструменты: учеба, контрольные, олимпиады, онлайн-лекции, видеоуроки, сборники заданий.
Также вы можете воспользоваться другими материалами из разделов нашего сайта.

Публикация обновлена:
07.05.2023

Источник

Определение объёма памяти, необходимого для хранения графической информации

Различают три вида компьютерной графики:

растровая графика;
векторная графика;
фрактальная графика.

Они различаются принципами формирования изображения при отображении на экране монитора или при печати на бумаге. Наименьшим элементом растрового изображения является точка (пиксель), векторное изображение строится из геометрических примитивов, фрактальная графика задаётся математическими уравнениями.

Расчёт информационного объёма растрового графического изображения основан на подсчёте количества пикселей в этом изображении и на определении глубины цвета (информационного веса одного пикселя).

Глубина цвета зависит от количества цветов в палитре:

N=2i

.
(N) — это количество цветов в палитре,
(i) — глубина цвета (или информационный вес одной точки, измеряется в битах).

Чтобы найти информационный объём растрового графического изображения (I) (измеряется в битах), воспользуемся формулой

I=i⋅k

.
(k) — количество пикселей (точек) в изображении;
(i) — глубина цвета (бит).

Пример:

Полина увлекается компьютерной графикой. Для конкурса она создала рисунок размером (1024*768) пикселей, на диске он занял (900) Кбайт. Найди максимально возможное количество цветов в палитре изображения.

Дано

(k=1024*768);

(I=900) Кбайт.

Найти: (N).

Решение

Чтобы найти (N), необходимо знать (i):

N=2i

Из формулы

I=i⋅k

выразим

i=Ik

, подставим числовые значения. Не забудем перевести (I) в биты.

Получим

i=900∗1024∗81024∗768≈9,3

Возьмём (i=9) битам. Обрати внимание, нельзя взять (i=10) битам, так как в этом случае объём файла (I) превысит (900) Кбайт. Тогда

N=29=512.

Ответ: (512) цветов.

На качество изображения влияет также разрешение монитора, сканера или принтера.

Разрешение — величина, определяющая количество точек растрового изображения на единицу длины.

Получается, если увеличить разрешение в (3) раза, то увеличится в (3) раза количество пикселей по горизонтали и увеличится в (3) раза количество пикселей по вертикали, т. е. количество пикселей в изображении увеличится в (9) раз.

Параметры PPI и DPI определяют разрешение или чёткость изображения, но каждый относится к отдельным носителям:
• цифровой (монитор) — PPI;
• печать (бумага) — DPI.
При решении задач величины PPI и DPI имеют одинаковый смысл.

При расчётах используется формула

I=k⋅i⋅ppi2

.
(I) — это информационный объём растрового графического изображения (бит);
(k) — количество пикселей (точек) в изображении;
(i) — глубина цвета (бит),
ppi (или dpi) — разрешение.

Пример:

для обучения нейросети распознаванию изображений фотографии сканируются с разрешением (600) ppi и цветовой системой, содержащей (16 777 216) цветов. Методы сжатия изображений не используются. Средний размер отсканированного документа составляет (18) Мбайт. В целях экономии было решено перейти на разрешение (300) ppi и цветовую систему, содержащую (65 536) цветов. Сколько Мбайт будет составлять средний размер документа, отсканированного с изменёнными параметрами?

Решение

Заметим, что

16777216=224

, значит,

i1=24

бита.

65536=216

, значит,

i2=16

бит.

Воспользуемся формулой

I=k⋅i⋅ppi2

I1=24⋅k⋅6002;I2=16⋅k⋅3002;I1I2=24⋅k⋅600216⋅k⋅3002=6;18I2=6;I2=186=3.

Ответ: (3) Мбайта.

Определение объёма памяти, необходимого для хранения звуковой информации

Звук — это распространяющиеся в воздухе, воде или другой среде волны с непрерывно меняющейся амплитудой и частотой.
Чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму. Для этого его подвергают временной дискретизации и квантованию: параметры звукового сигнала измеряются не непрерывно, а через определённые промежутки времени (временная дискретизация); результаты измерений записываются в цифровом виде с ограниченной точностью (квантование).
Сущность временной дискретизации заключается в том, что через равные промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации.

Частота дискретизации ((H)) — это количество измерений громкости звука за одну секунду.

Частота дискретизации измеряется в герцах (Гц) и килогерцах (кГц). (1) кГц (=) (1000) Гц. Частота дискретизации, равная (100) Гц, означает, что за одну секунду проводилось (100) измерений громкости звука.
Качество звукозаписи зависит не только от частоты дискретизации, но также и от глубины кодирования звука.

Глубина кодирования звука или разрешение ((i)) — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

В результате измерений звукового сигнала будет получено некоторое значение громкости, при этом все результаты измерений будут лежать в некотором диапазоне — количество уровней дискретизации.

Обозначим за (N) количество уровней дискретизации, тогда глубину кодирования можно найти по формуле:

N=2i

Для решения задач на нахождение объёма памяти, необходимого для хранения звуковой информации, воспользуемся формулой:

I=H⋅i⋅t⋅k

, где
(I) — информационный объём звукового файла (бит);
(H) — частота дискретизации (Гц);
(i) — глубина кодирования информации (бит);
(k) — количество каналов (моно — (1) канал, стерео — (2) канала, квадро — (4) канала).

Пример:

для распределения птиц по категориям обучают нейросеть. Для этого загружают звуки, издаваемые птицами. Каждый файл записан в формате монозвукозаписи с частотой дискретизации (128) Гц. При записи используется (64) уровня дискретизации. Запись длится (6) минут (24) секунды. Определи размер загружаемого файла в килобайтах.

Дано

(k=1);

(H=128) Гц;

(N=64);

(t=384) секунды.

Найти: (I) (Кбайт).

Решение

Воспользуемся формулой

N=2i

, (i=6) бит.

Подставим числовые значения в формулу

I=H⋅i⋅t⋅k

и переведём биты в килобайты:

Ответ: (36) килобайт.

Любой файл может быть передан по каналу связи, тогда объём переданной информации вычисляется по формуле:

I=V⋅t

, где
(I) — объём информации (бит);
(V) — пропускная способность канала связи (бит/секунду);
(t) — время передачи (секунды).

Пример:

в дельте Волги орнитологи оцифровывают звуки птиц и записывают их в виде файлов без использования сжатия данных. Получившийся файл передают в Астраханский биосферный заповедник по каналу связи за (56) секунд. Затем тот же файл оцифровывают повторно с разрешением в (8) раз ниже и частотой дискретизации в (3) раза выше, чем в первый раз. Сжатие данных не производится. Полученный файл передают в Кавказский природный заповедник; пропускная способность канала связи с Кавказским заповедником в (2) раза ниже, чем канала связи с Астраханским заповедником. Сколько секунд длилась передача файла в Кавказский заповедник?

Решение

Воспользуемся формулой

I=H⋅i⋅t⋅k

I1=k⋅i⋅t⋅H;I2=k⋅i8⋅t⋅3⋅H;I2I1=38.По условиюV2=V12.

Выразим (V) из формулы

I=V⋅t

, получим

V=It

, учтём, что

t1=56 секунд.Тогда I2t2=I156⋅2;t2=56⋅2⋅I2I1=56⋅2⋅38=42.

Ответ: (42) секунды.

Обрати внимание!

1 Мбайт=220 байт=223 бит.1 Кбайт=210 байт=213 бит.

Источник

Цифровое представление аналогового аудиосигнала. Краткий ликбез

Время на прочтение
7 мин

Количество просмотров 40K

Дорогие читатели, меня зовут Феликс Арутюнян. Я студент, профессиональный скрипач. В этой статье хочу поделиться с Вами отрывком из моей презентации, которую я представил в университете музыки и театра Граца по предмету прикладная акустика.

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

рис. 1

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

рис. 2

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

рис. 3

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

рис. 4

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

рис. 5

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

рис. 6

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

рис. 7

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

рис. 8.

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением

$X$ и квантованным значением

$X'$ (

$X-X'$ )

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

рис. 9

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

рис. 10. Интенсивность шумов при разрядности 6 бит и 8 бит

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

шум квантования

амплитуда сигнала при разрядности 1 бит (сверху) и 4 бит

Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Аудиопример 1

Аудиопример 2: 4bit/48kHz, ~25dB SNR

Аудиопример 2

Аудиопример 3: 1bit/48kHz, ~8dB SNR

Аудиопример 3

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

$F=1/T$

Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Алиасинг

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Спектральный анализ

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Спектральный анализ

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатые («сырые») данные
Данные, сжатые без потерь
Данные, сжатые с потерями

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

рис. 11

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Этим и пользуется кодек: 2kHz-звук можно убрать.

Спектральный анализ кодека mp3 с разными уровнями компрессии

Кодеки сжатия с потерям: mp3, aac, ogg, wma, Musepack…

Спасибо за внимание.

UPD:
Если по каким-либо причинам аудиофайлы не загружаются, можете их скачать здесь: cloud.mail.ru/public/HbzU/YEsT34i4c

Источник

Оптимальные числа…

Работа с современным звуковым оборудованием требует от пользователя всё больше и больше знаний в различных областях науки. Помимо обязательных дисциплин – электроакустики и электротехники, каждый специалист современной отрасли звукоусиления должен обладать (хотя бы) базовыми знаниями по информатике, программной инженерии, физике. Безусловно, это касается только тех, кто считает себя профессионалом, а своё оборудование – профессиональным (для остальных вполне достаточно прочитать руководство пользователя к конкретному прибору).

Пытаясь найти повод для серьёзных дискуссий с «серьёзными парнями», в прошлом выпуске «звуковых новостей» мы затронули проблему выбора разделительных фильтров и удивительных открытий на этом поле. Сегодня мы зайдем ещё дальше и поговорим о нюансах в преобразованиях сигнала в цифровой среде. Вероятно, кто-то что-то уже подозревал и сам, но мы все же попросили обобщить знания по этому вопросу одного из самых авторитетных инженеров индустрии – Микеле Марани.

ЗВУК — это физическое явление, НЕПРЕРЫВНО воспринимаемое органами слуха, что означает, что наши уши могут воспринимать звук на всех промежуточных уровнях: 1) с точки зрения амплитуды, от самого низкого уровня до максимума, и 2) с точки зрения времени, что означает, что наши уши в определённом диапазоне частот могут НЕПРЕРЫВНО воспринимать все частоты, от самой низкой до самой высокой (частота — число повторений одного тона (один период колебаний) за единицу времени).

Информация по глубине квантования и частоте дискретизации

На рисунке выше видно, что если за единицу времени мы имеем только один ПЕРИОД колебаний, то получаем основной тон, который будет высотой (частотой) звука, если такой период колебаний будет повторяться циклически. Если период завершается за время T, то при циклическом повторе мы должны услышать звук, частота которого равна F=1/T.

На рисунке пунктирная синяя линия обозначает период колебаний T/2, который составляет половину основного тона (сплошная красная линия), поэтому мы ожидаем, что циклическое повторение тона, показанного пунктирной синей линией, будет иметь частоту F=1/(T/2 )=2/T. Действительно, тон, показанный синей пунктирной линией, имеет в два раза более высокую частоту, чем основной тон (сплошная красная линия).

При необходимости обработки звука в ЦИФРОВОЙ СРЕДЕ, где единственные известные уровни амплитуды описываются БИТАМИ (0/1), ВРЕМЯ не является непрерывным, а контролируется тактовыми сигналами. Концепция непрерывности превращается в ДИСКРЕТНОСТЬ: в цифровой среде амплитуды и временные характеристики звука от своих минимальных до максимальных значений изменяются СТУПЕНЧАТО, с относительно большими шагами.

Простой пример, позволяющий отчётливо понять разницу между понятием непрерывности и дискретности, — это сравнение пандуса и лестницы (Рис. выше). Если нам необходимо подняться по пандусу, мы можем шагать с любым интервалом. Если же нам нужно подняться по лестнице, мы не сможем подняться на высоту меньше, чем расстояние между двумя ступенями лестницы. Другими словами, мы не можем определить промежуточную высоту между двумя ступенями.

Для последующей обработки или изменения звука с помощью компьютерных процессов необходимо ПРЕОБРАЗОВАТЬ физическое событие, слышимое нашими ушами, в цифровой сигнал (дискретный код), обрабатываемый ЦИФРОВЫМ ПРОЦЕССОРОМ. Это делается в два этапа. Первый — преобразование физического явления «звук» в электрический сигнал, который будет ТОЧНО соответствовать реальному звуку, ведущему себя АНАЛОГОВЫМ образом.

Это первое преобразование, выполняемое микрофонами при записи звуков природы или классических инструментов, обеспечивает получение электрического сигнала, который ведёт себя аналоговым образом и поэтому называется аналоговым сигналом. Это НЕПРЕРЫВНЫЙ СИГНАЛ, который может быть записан, например, на ленту, и при воспроизведении обладает характеристиками исходных звуков с точки зрения уровней амплитуды и распределения частот.

Аналоговый сигнал может обрабатываться аналоговыми устройствами, например, динамическими компрессорами или эквалайзерами.

Но, опять же, такой сигнал не может быть обработан компьютерными средствами.

Поэтому необходимо выполнить второе преобразование — АНАЛОГО-ЦИФРОВОЕ. Это преобразование позволяет «перевести» аналоговый сигнал, точно представляющий исходный звук, в последовательность цифр 0/1.

Эта последовательность цифр по-прежнему представляет исходный звук и может обрабатываться компьютерными средствами, например, процессорами.

Точность АНАЛОГО-ЦИФРОВОГО ПРЕОБРАЗОВАНИЯ — это то, что может гарантировать сохранение в цифровом виде ВСЕЙ информации, содержащейся в оригинальном звуке.

Существует два параметра, которые могут гарантировать точность преобразования:

ГЛУБИНА КВАНТОВАНИЯ
ЧАСТОТА ДИСКРЕТИЗАЦИИ

ГЛУБИНА КВАНТОВАНИЯ

Как было сказано выше, компьютер или любое цифровое устройство для обработки звука может работать с последовательностями битов, которые характеризуются наличием только двух уровней — 0 и 1. Системы, работающие на основе битов, называются ДВОИЧНЫМИ СИСТЕМАМИ.

Каждый бит, также называемый «ЧИСЛО», может принимать только два значения – 0 или 1, поэтому, если мы хотим представить более высокие числа, необходимо собрать биты в КОМБИНАЦИИ.

Размер комбинации битов определяет, насколько большим может быть максимальное значение представленных чисел, а сама комбинация двоичных цифр/битов используется для описания любых действий компьютера, включая управление звуком.

Компьютеры могут одновременно работать с целыми комбинациями этих битов. Группа из 8 битов известна как байт, один или несколько байтов составляют цифровое слово. Шестнадцать битов (два байта) означают, что в слове 16 цифр, каждая из которых равна 1 или 0. Двадцать четыре бита (три байта) означают, что в слове содержится 24 двоичных разряда и т. д.

Количество битов в слове определяет точность значений. Работа с более высокой глубиной квантования похожа на измерение линейкой с меньшим шагом шкалы — вы получаете более точное измерение. Таким образом, более высокая глубина квантования позволяет системе точно записывать и воспроизводить более тонкие колебания формы волны (Рис. 1).

Чем выше глубина квантования, тем больше данных будет преобразовано для более точного воссоздания звука. Если глубина квантования слишком мала, информация будет потеряна, а качество воспроизводимого звука ухудшится. Для сравнения, каждый образец, записанный с 16-битным разрешением, может содержать любое из 65 536 уникальных значений (2 в степени 16). При 24-битном разрешении вы получаете 16 777 216 уникальных значений (2 в степени 24) — огромная разница!

Здесь можно было бы подумать, что чем больше битов используется, тем лучше результат в отношении детализации амплитуды сигнала. Тем не менее, необходимо учитывать несколько аспектов, а именно: реальную способность аппаратного преобразователя точно измерять такую небольшую разницу в амплитуде, реальную способность акустической системы воспроизвести такую небольшую разницу и, наконец, возможность человеческого уха воспринимать такую маленькую разницу.

Широко распространено мнение, что за пределами РЕАЛЬНЫХ 20 бит глубины квантования, ещё не существует систем воспроизведения звука, способных точно воспроизводить столь малые различия в амплитуде. И уж точно это относится к стандартным и широко распространённым акустическим системам.

В конечном итоге, даже при условии воспроизведения такого высокоточного сигнала, необходимо учитывать способность человеческого уха его воспринимать.

ЧАСТОТА ДИСКРЕТИЗАЦИИ

Для преобразования аналогового сигнала в цифровой необходимо соответствие второму требованию цифрового устройства, работающего в установленных временных рамках, определяемых тактовыми сигналами. Поэтому, как показано выше, цифровому устройству необходимо предоставить комбинацию битов, соответствующую уровню аналогового сигнала, который должен быть измерен через определённые отрезки времени.

Операция измерения уровня аналогового сигнала называется ВЫБОРКА, и, поскольку она должна выполняться через определённые ИНТЕРВАЛЫ времени, то есть с определённой ЧАСТОТОЙ, такая частота измерения аналогового сигнала называется ЧАСТОТОЙ ВЫБОРКИ или ЧАСТОТОЙ ДИСКРЕТИЗАЦИИ.

Рассматривая пример с форматом Audio CD, мы принимаем условие, что частота дискретизации составляет 44,1 кГц, а глубина квантования — 16 бит. Таким образом, количество выборок — 44 100 в секунду с 16-битным разрешением (комбинация 16 битов), что позволяет получить диапазон 65 536 значений (как положительных, так и отрицательных). Максимальное значение здесь 32 767, а минимальное −32 768.

Существует ТЕОРЕМА, называемая теоремой Найквиста—Шеннона (она же теорема Котельникова, теорема отсчётов), которая гласит, что для точного восстановления сигнала в заданной полосе частот (например, во всей полосе слышимых частот 20 Гц — 20 кГц), частота дискретизации должна более чем в два раза превышать максимальную частоту в спектре сигнала. Если используется более низкая частота дискретизации, информация об исходном сигнале может быть не полностью восстановлена из дискретизированного сигнала (Рис. 2).

Если аналоговый сигнал преобразуется с правильной частотой дискретизации, которая, как сказано выше, вдвое превышает максимальную частоту спектра сигнала, результат преобразования содержит ВСЮ НЕОБХОДИМУЮ ИНФОРМАЦИЮ для восстановления исходного сигнала без каких-либо потерь.

Если частота дискретизации слишком низкая, могут возникнуть алиасинговые искажения. Алиасинг является серьёзной проблемой при аналого-цифровом преобразовании. Неправильная дискретизация аналогового сигнала приведёт к тому, что высокочастотные составляющие сигнала будут накладываться на его низкочастотные составляющие. В результате при цифро-аналоговом преобразовании мы получим восстановленный сигнал с искажениями.

Кроме того, более высокая частота дискретизации позволяет записывать очень высокие частоты, которые находятся за пределами восприятия человеческим ухом. Хотя сами по себе эти ультразвуковые частоты не различимы на слух, они могут взаимодействовать, создавая ИНТЕРМОДУЛЯЦИОННЫЕ ИСКАЖЕНИЯ, которые, по мнению многих инженеров, придают сигналам слышимого диапазона едва уловимые психоакустические эффекты.

Небольшое отступление по данному вопросу:

Интермодуляция — это явление объединения нежелательных частотных составляющих внутри активной системы, например, в управляющем процессоре, или поступающих к ней от внешнего источника. Такие составляющие, в нашем случае, могут находиться в полосе частот, которая не различима на слух, но всё ещё «захватываются» из-за высокой частоты дискретизации. Комбинация двух или более из этих неотфильтрованных нежелательных сигналов создаст другой сигнал, который может вызывать искажения в системе. Более того, такой сигнал может находиться в слышимом спектре обработанного сигнала.

На рисунке выше мы можем видеть, что взаимодействие двух сигналов, f1 и f2, может порождать другие сигналы, например, комбинации их гармоник и субгармоник. Комбинации таких субгармоник могут попадать в полосу частот, которые различимы на слух. Таким образом, риск получить искажения, исходящие от комбинации неотфильтрованных нежелательных сигналов, расположенных далеко за пределами слышимого диапазона, является реальным.

Два приведённых выше соображения и теорема Найквиста подводят к следующим заключениям об оптимальной частоте дискретизации:

Вся необходимая информация, содержащаяся в исходном аналоговом сигнале, сохраняется в процессе преобразования с частотой дискретизации, равной или превышающей максимальную частоту в интересующей полосе частот. Если мы примем, что человеческий слух не может воспринимать сигналы выше 20 кГц, то частота дискретизации 40 кГц даёт нам всю информацию об исходном сигнале, которую мы можем услышать.
Чтобы избежать проблемы с алиасингом, необходимо отфильтровать восстанавливаемый аналоговый сигнал после цифровой обработки.
Фильтр с высокой степенью крутизны среза, слишком близкий к максимальной слышимой частоте, может привести к нежелательной модификации сигнала, что приведёт к появлению нежелательных артефактов. Для того, чтобы устранить эту проблему алиасинга, определённая степень передискретизации поможет использовать простые фильтры с низкими значениями поворота фазы, расположенные достаточно далеко от максимальной слышимой частоты, чтобы не влиять на слышимый восстанавливаемый сигнал. Эксперты и профессионалы считают, что ОПТИМАЛЬНАЯ ЧАСТОТА ДИСКРЕТИЗАЦИИ составляет от 88 кГц до 96 кГц.
Как видно из пункта выше, избыточная передискретизация, как, например, частота дискретизации 192 кГц, вместо этого может привести к возникновению нежелательных дополнительных гармоник из-за ИНТЕРМОДУЛЯЦИОННЫХ ИСКАЖЕНИЙ.

Приводя слова профессионалов:

«Цифровые музыкальные файлы с частотой дискретизации 192 кГц не обладают никакими преимуществами. Они также не совсем нейтральны, практическая точность сигнала немного хуже. Ультразвук является помехой во время воспроизведения.

Это противоречит многим первоначальным представлениям о сверхзвуковых частотах дискретизации, в том числе и моему собственному. Но доказательства этому существуют. Поскольку аналоговые схемы почти никогда не обладают линейными характеристиками на сверхвысоких частотах, они могут и будут вносить особый тип искажений, называемый интермодуляционными искажениями. Это означает, что две частоты, которые невозможно услышать, скажем, 22 кГц и 32 кГц, могут создавать интермодуляционные искажения в слышимом диапазоне, в данном случае на частоте 10 кГц. Когда сверхзвуковые частоты не отфильтровываются — это реальный риск».

«Многие согласны с ложным представлением о том, что работа с частотой дискретизации выше оптимальной может улучшить звук. Правда заключается в том, что существует оптимальная частота дискретизации, и работа с частотой дискретизации выше оптимальной ставит под угрозу точность звука. Некоторым это кажется нелогичным, но полностью доказано. Тогда как большинство сторонников частоты дискретизации выше оптимальной предлагают только субъективные результаты в её поддержку, существует реальная вероятность того, что ДОПОЛНИТЕЛЬНЫЕ детали, слышимые некоторыми слушателями, возникают из-за дополнительных гармоник (эффект интермодуляции), которые могут быть приятными на слух, но, безусловно, не существуют в исходном материале и, следовательно, считаются крайне нежелательными для профессиональных пользователей».#IMLIGHT #MARANI

Источник

Sabinka

Мастер

(1210),
на голосовании

10 лет назад

Дополнен 10 лет назад

….в условии дано “разрешения- 24 бита”. Это одно и то же? или какое то другое понятие?

Голосование за лучший ответ

svb

Мыслитель

(8540)

10 лет назад

Количество_уровней_дискретизации = 2 ^ разрешение_в_битах (два в степени… )
32 ур. дискр. соответствует разрешение в 5 бит.
Разрешению в 24 бита соответствуют 16777216 уровней дискретизации.

SabinkaМастер (1210)

10 лет назад

Спасибо, все ясно.

Похожие вопросы

Источник

Цифровое представление аналогового аудиосигнала. Краткий ликбез

Чем отличается цифровой аудиосигнал от аналогового?

Теперь о дискретизации.

Несжатый (RAW) формат данных

Аудиоформаты с сжатием без потерь

При сжатии с потерями

ГЛУБИНА КВАНТОВАНИЯ

ЧАСТОТА ДИСКРЕТИЗАЦИИ

Вам также может понравиться

Как правильно составить заявление в полицию по телефону

Как найти силу тока в каждой лампочке

Как найти изменение затрат на

Добавить комментарий Отменить ответ