Как найти уровень дискретизации

Автор материалов – Лада Борисовна Есакова.

При оцифровке звука в памяти запоминаются только отдельные значения сигнала. Чем чаще записывается сигнал, тем лучше качество записи.

Частота дискретизации f – это количество раз в секунду, которое происходит преобразование аналогового звукового сигнала в цифровой. Измеряется в Герцах (Гц).

Глубина кодирования (а также, разрешение) – это количество бит, выделяемое на одно преобразование сигнала. Измеряется в битах (Бит).

Возможна запись нескольких каналов: одного (моно), двух (стерео), четырех (квадро).

Обозначим частоту дискретизации – f (Гц), глубину кодирования – B(бит), количество каналов – k, время записи – t(Сек).

Количество уровней дискретизации d можно рассчитать по формуле: d = 2B.

Тогда объем записанного файла V(бит)  = f * B * k * t.

Или, если нам дано количество уровней дискретизации,

V(бит)  = f * log2d * k * t.

Единицы измерения объемов информации:

1 б (байт) = 8 бит

1 Кб (килобайт) = 210 б

1 Мб (мегабайт) = 220 б

1 Гб (гигабайт) = 230 б

1 Тб (терабайт) = 240 б

1 Пб (петабайт) = 250 б

При оцифровке графического изображения качество картинки зависит от количества точек и количества цветов, в которые можно раскрасить точку.

Если X – количество точек по горизонтали,

Y – количество точек по вертикали,

I – глубина цвета (количество бит, отводимых для кодирования одной точки), то количество различных цветов в палитре N = 2I. Соответственно, I = log2N.

Тогда объем файла, содержащего изображение, V(бит) = X * Y * I

Или, если нам дано количество цветов в палитре, V(бит) = X * Y * log2N.

Скорость передачи информации по каналу связи (пропускная способность канала) вычисляется как количество информации в битах, переданное за 1 секунду (бит/с).

Объем переданной информации вычисляется по формуле V = q * t, где q – пропускная способность канала, а t – время передачи.

Кодирование звука

Пример 1.

Производится двухканальная (стерео) звукозапись с частотой дискретизации 16 кГц и глубиной кодирования 32 бит. Запись длится 12 минут, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?

1) 30               2) 45           3)  75         4)  90

Решение:

V(бит)  = f(Гц)* B(бит) * k * t(Сек),

где V – размер файла, f – частота дискретизации, B – глубина кодирования, k – количество каналов, t – время.

Значит, V(Мб) = (f * B * k * t ) / 223

Переведем все величины в требуемые единицы измерения:

V(Мб) = (16*1000 * 32 * 2 * 12 * 60 ) / 223

Представим все возможные числа, как степени двойки:

V(Мб) = (24 * 23 * 125 * 25 * 2 * 22 * 3 * 15 * 22) / 223 = (5625 * 217) / 223 = 5625 / 26 =

5625 / 64 ≈ 90.

Ответ: 4

!!! Без представления чисел через степени двойки вычисления становятся намного сложнее.

!!! Частота – это физическая величина, а потому 16 кГц = 16 * 1000 Гц, а не 16 * 210. Иногда этой разницей можно пренебречь, но на последних диагностических работах она влияла на правильность ответа.

Пример 2.

В те­че­ние трех минут про­из­во­ди­лась четырёхка­наль­ная (квад­ро) зву­ко­за­пись с ча­сто­той дис­кре­ти­за­ции 16 КГц и 24-бит­ным раз­ре­ше­ни­ем. Сжа­тие дан­ных не про­из­во­ди­лось. Какая из при­ве­ден­ных ниже ве­ли­чин наи­бо­лее близ­ка к раз­ме­ру по­лу­чен­но­го файла?

1) 25 Мбайт

2) 35 Мбайт

3) 45 Мбайт

4) 55 Мбайт

Решение:

V(бит)  = f(Гц)* B(бит) * k * t(Сек),

где V – размер файла, f – частота дискретизации, B – глубина кодирования (или разрешение), k – количество каналов, t – время.

Значит, V(Мб) = (f * B * k * t ) / 223 = (16 * 1000 * 24 * 4 * 3 * 60) / 223 = (24 * 23 * 125 * 3 * 23 * 22 * 3 * 15 * 22) / 223 = (125 * 9 * 15 * 214) / 223 = 16875 / 29 = 32, 96 ≈ 35

Ответ: 2

Пример 3.

Ана­ло­го­вый зву­ко­вой сиг­нал был записан сна­ча­ла с ис­поль­зо­ва­ни­ем 64 уров­ней дис­кре­ти­за­ции сиг­на­ла, а затем с ис­поль­зо­ва­ни­ем 4096 уров­ней дис­кре­ти­за­ции сиг­на­ла. Во сколь­ко раз уве­ли­чил­ся ин­фор­ма­ци­он­ный объем оциф­ро­ван­но­го звука?

            1) 64

2) 8

3) 2

4) 12

Решение:

V(бит)  = f * log2d * k * t, где V – размер файла, f – частота дискретизации, d – количество уровней дискретизации, k – количество каналов, t – время.

V1 = f * log264 * k * t = f * 6 * k * t

V2 = f * log24096 * k * t = f * 12 * k * t

V2 / V1 = 2

Пра­виль­ный ответ ука­зан под но­ме­ром 3.

Ответ: 3

Кодирование изображения

Пример 4.

Какой минимальный объём памяти (в Кбайт) нужно зарезервировать, чтобы можно было сохранить любое растровое изображение размером 64×64 пикселей при условии, что в изображении могут использоваться 256 различных цветов? В ответе запишите только целое число, единицу измерения писать не нужно.

Решение:

V(бит) = X * Y * log2N, где V – объем памяти, X,Y – количество пикселей по горизонтали и вертикали, N – количество цветов.

V (Кб) = (64 * 64 * log2256) / 213 = 212 * 8 / 213 = 4

Ответ: 4

Пример 5.

Для хранения растрового изображения размером 64×32 пикселя отвели
1 килобайт памяти. Каково максимально возможное число цветов в палитре изображения?

Решение:

V(бит) = X * Y * log2N, где V – объем памяти, X,Y – количество пикселей по горизонтали и вертикали, N – количество цветов.

log2N = V /( X*Y) = 213 / (26 * 25) = 4

N = 16

Ответ:16

Сравнение двух способов передачи данных

Пример 6.

До­ку­мент объ­е­мом 5 Мбайт можно пе­ре­дать с од­но­го ком­пью­те­ра на дру­гой двумя спо­со­ба­ми:

А) Сжать ар­хи­ва­то­ром, пе­ре­дать архив по ка­на­лу связи, рас­па­ко­вать.

Б) Пе­ре­дать по ка­на­лу связи без ис­поль­зо­ва­ния ар­хи­ва­то­ра.

Какой спо­соб быст­рее и на­сколь­ко, если

– сред­няя ско­рость пе­ре­да­чи дан­ных по ка­на­лу связи со­став­ля­ет 218 бит в се­кун­ду,

– объем сжа­то­го ар­хи­ва­то­ром до­ку­мен­та равен 80% от ис­ход­но­го,

– время, тре­бу­е­мое на сжа­тие до­ку­мен­та – 35 се­кунд, на рас­па­ков­ку – 3 се­кун­ды?

В от­ве­те на­пи­ши­те букву А, если спо­соб А быст­рее или Б, если быст­рее спо­соб Б. Сразу после буквы на­пи­ши­те ко­ли­че­ство се­кунд, на­сколь­ко один спо­соб быст­рее дру­го­го. Так, на­при­мер, если спо­соб Б быст­рее спо­со­ба А на 23 се­кун­ды, в от­ве­те нужно на­пи­сать Б23. Слов «се­кунд», «сек.», «с.» к от­ве­ту до­бав­лять не нужно.

Решение:

Спо­соб А. Общее время скла­ды­ва­ет­ся из вре­ме­ни сжа­тия, рас­па­ков­ки и пе­ре­да­чи. Время пе­ре­да­чи t рас­счи­ты­ва­ет­ся по фор­му­ле t = V / q, где V — объём ин­фор­ма­ции, q — скорость пе­ре­да­чи дан­ных.

Объем сжатого документа: 5 * 0,8 = 4 Мб =4 * 223 бит.

Найдём общее время: t = 35 с + 3 с + 4 * 223 бит / 218 бит/с = 38 + 27 с = 166 с.

Спо­соб Б. Общее время сов­па­да­ет с вре­ме­нем пе­ре­да­чи: t = 5 * 223 бит / 218 бит/с = 5 * 25 с = 160 с.

Спо­соб Б быст­рее на 166 – 160 = 6 с.

Ответ: Б6

Определение времени передачи данных

Пример 7.

Ско­рость пе­ре­да­чи дан­ных через ADSL─со­еди­не­ние равна 128000 бит/c. Через дан­ное со­еди­не­ние пе­ре­да­ют файл раз­ме­ром 625 Кбайт. Опре­де­ли­те время пе­ре­да­чи файла в се­кун­дах.

Решение:

Время t = V / q, где V — объем файла, q — скорость пе­ре­да­чи дан­ных.

t = 625 * 210 байт / (2 7 * 1000) бит/c = 625 * 213 бит / (125 * 210) бит/c = 5 * 23 с = 40 с.

Ответ: 40

Пример 8.

У Васи есть до­ступ к Ин­тер­нет по вы­со­ко­ско­рост­но­му од­но­сто­рон­не­му ра­дио­ка­на­лу, обес­пе­чи­ва­ю­ще­му ско­рость по­лу­че­ния им ин­фор­ма­ции 217 бит в се­кун­ду. У Пети нет ско­рост­но­го до­сту­па в Ин­тер­нет, но есть воз­мож­ность по­лу­чать ин­фор­ма­цию от Васи по низ­ко­ско­рост­но­му те­ле­фон­но­му ка­на­лу со сред­ней ско­ро­стью 215 бит в се­кун­ду. Петя до­го­во­рил­ся с Васей, что тот будет ска­чи­вать для него дан­ные объ­е­мом 4 Мбай­та по вы­со­ко­ско­рост­но­му ка­на­лу и ре­транс­ли­ро­вать их Пете по низ­ко­ско­рост­но­му ка­на­лу. Ком­пью­тер Васи может на­чать ре­транс­ля­цию дан­ных не рань­ше, чем им будут по­лу­че­ны пер­вые 512 Кбайт этих дан­ных. Каков ми­ни­маль­но воз­мож­ный про­ме­жу­ток вре­ме­ни (в се­кун­дах), с мо­мен­та на­ча­ла ска­чи­ва­ния Васей дан­ных, до пол­но­го их по­лу­че­ния Петей? В от­ве­те ука­жи­те толь­ко число, слово «се­кунд» или букву «с» до­бав­лять не нужно.

Решение:

Нужно опре­де­лить, сколь­ко вре­ме­ни будет пе­ре­да­вать­ся файл объ­е­мом 4 Мбай­та по ка­на­лу со ско­ро­стью пе­ре­да­чи дан­ных 215 бит/с; к этому вре­ме­ни нужно до­ба­вить за­держ­ку файла у Васи (пока он не по­лу­чит 512 Кбайт дан­ных по ка­на­лу со ско­ро­стью 217 бит/с).

Время скачивания дан­ных Петей: t1= 4*223 бит / 215 бит/с = 210 c.

Время за­держ­ки: t2 = 512 кб / 217 бит/с = 2(9 + 10 + 3) – 17 c = 25 c.

Пол­ное время: t1 + t2 = 210 c + 25 c = (1024 + 32) c = 1056 c.

Ответ: 1056

Пример 9.

Данные объемом 60 Мбайт передаются из пункта А в пункт Б по каналу связи, обеспечивающему скорость передачи данных 219 бит в секунду, а затем из пункта Б в пункт В по каналу связи, обеспечивающему скорость передачи данных 220 бит в секунду. Задержка в пункте Б (время между окончанием приема данных из пункта А и началом передачи в пункт В) составляет 25 секунд. Сколько времени (в секундах) прошло с момента начала передачи данных из пункта А до их полного получения в пункте В? В ответе укажите только число, слово «секунд» или букву «с» добавлять не нужно.

Решение:

Полное время складывается из времени передачи из пункта А в пункт Б (t1), задержки в пункте Б (t2) и времени передачи из пункта Б в пункт В (t3).

t1 = (60 * 223) / 219 =60 * 16 = 960 c

t2 = 25 c

t3 = (60 * 223) / 220 =60 * 8 = 480 c

Полное время t1 + t2 +t3 = 960 + 25 + 480 = 1465 c

Ответ: 1465

Спасибо за то, что пользуйтесь нашими материалами.
Информация на странице «Задача №9. Кодирование звуковой и графической информации. Передача информации, Время записи звукового файла, время передачи данных, определение объема информации.» подготовлена нашими авторами специально, чтобы помочь вам в освоении предмета и подготовке к ЕГЭ и ОГЭ.
Чтобы успешно сдать нужные и поступить в ВУЗ или техникум нужно использовать все инструменты: учеба, контрольные, олимпиады, онлайн-лекции, видеоуроки, сборники заданий.
Также вы можете воспользоваться другими материалами из разделов нашего сайта.

Публикация обновлена:
07.05.2023

Определение объёма памяти, необходимого для хранения графической информации

Различают три вида компьютерной графики:

  • растровая графика;
  • векторная графика;
  • фрактальная графика.

Они различаются принципами формирования изображения при отображении на экране монитора или при печати на бумаге. Наименьшим элементом растрового изображения является точка (пиксель), векторное изображение строится из геометрических примитивов, фрактальная графика задаётся математическими уравнениями.

Расчёт информационного объёма растрового графического изображения основан на подсчёте количества пикселей в этом изображении и на определении глубины цвета (информационного веса одного пикселя).

Глубина цвета зависит от количества цветов в палитре:

N=2i

.
(N) — это количество цветов в палитре,
(i) — глубина цвета (или информационный вес одной точки, измеряется в битах).

Чтобы найти  информационный объём растрового графического изображения (I) (измеряется в битах), воспользуемся формулой

I=i⋅k

.
(k) — количество пикселей (точек) в изображении;
(i) — глубина цвета (бит).

Пример:

Полина увлекается компьютерной графикой. Для конкурса она создала рисунок размером (1024*768) пикселей, на диске он занял (900) Кбайт. Найди максимально возможное количество цветов в палитре изображения.

Дано

(k=1024*768);

(I=900) Кбайт.

Найти: (N).

Решение

Чтобы найти (N), необходимо знать (i):

N=2i

.

Из формулы

I=i⋅k

  выразим

i=Ik

, подставим числовые значения. Не забудем перевести (I) в биты.

Получим

i=900∗1024∗81024∗768≈9,3

.

Возьмём (i=9) битам. Обрати внимание, нельзя взять (i=10) битам, так как в этом случае объём файла (I) превысит (900) Кбайт. Тогда

N=29=512.

Ответ: (512) цветов.

На качество изображения влияет также разрешение монитора, сканера или принтера.

Разрешение — величина, определяющая количество точек растрового изображения на единицу длины.

Получается, если увеличить разрешение в (3) раза, то увеличится в (3) раза количество пикселей по горизонтали и увеличится в (3) раза количество пикселей по вертикали, т. е. количество пикселей в изображении увеличится в (9) раз.

Параметры PPI и DPI определяют разрешение или чёткость изображения, но каждый относится к отдельным носителям:
• цифровой (монитор) — PPI;
• печать (бумага) — DPI.
При решении задач величины PPI и DPI имеют одинаковый смысл.

При расчётах используется формула

I=k⋅i⋅ppi2

.
(I) — это информационный объём растрового графического изображения (бит);
(k) — количество пикселей (точек) в изображении;
(i) — глубина цвета (бит),
ppi (или dpi) — разрешение.

Пример:

для обучения нейросети распознаванию изображений фотографии сканируются с разрешением (600) ppi и цветовой системой, содержащей (16 777 216) цветов. Методы сжатия изображений не используются. Средний размер отсканированного документа составляет (18) Мбайт. В целях экономии было решено перейти на разрешение (300) ppi и цветовую систему, содержащую (65 536) цветов. Сколько Мбайт будет составлять средний размер документа, отсканированного с изменёнными параметрами?

Решение

Заметим, что

16777216=224

, значит,

i1=24

 бита.

 65536=216

, значит,

i2=16

 бит.

Воспользуемся формулой

I=k⋅i⋅ppi2

.

I1=24⋅k⋅6002;I2=16⋅k⋅3002;I1I2=24⋅k⋅600216⋅k⋅3002=6;18I2=6;I2=186=3.

Ответ: (3) Мбайта.

Определение объёма памяти, необходимого для хранения звуковой информации

Звук — это распространяющиеся в воздухе, воде или другой среде волны с непрерывно меняющейся амплитудой и частотой.
Чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму. Для этого его подвергают временной дискретизации и квантованию: параметры звукового сигнала измеряются не непрерывно, а через определённые промежутки времени (временная дискретизация); результаты измерений записываются в цифровом виде с ограниченной точностью (квантование).
Сущность временной дискретизации заключается в том, что через равные промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации.

Частота дискретизации ((H)) — это количество измерений громкости звука за одну секунду.

Частота дискретизации измеряется в герцах (Гц) и килогерцах (кГц). (1) кГц (=) (1000) Гц. Частота дискретизации, равная (100) Гц, означает, что за одну секунду проводилось (100) измерений громкости звука.
Качество звукозаписи зависит не только от частоты дискретизации, но также и от глубины кодирования звука.

Глубина кодирования звука или разрешение ((i)) — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

В результате измерений звукового сигнала будет получено некоторое значение громкости, при этом все результаты измерений будут лежать в некотором диапазоне — количество уровней дискретизации.

Обозначим за (N) количество уровней дискретизации, тогда глубину кодирования можно найти по формуле:

N=2i

.

Для решения задач на нахождение объёма памяти, необходимого для хранения звуковой информации, воспользуемся формулой:

I=H⋅i⋅t⋅k

, где
(I) — информационный объём звукового файла  (бит);
(H) — частота дискретизации (Гц);
(i) — глубина кодирования информации (бит);
(k) — количество каналов (моно — (1) канал, стерео — (2) канала, квадро — (4) канала).

Пример:

для распределения птиц по категориям обучают нейросеть. Для этого загружают звуки, издаваемые птицами. Каждый файл записан в формате монозвукозаписи с частотой дискретизации (128) Гц. При записи используется (64) уровня дискретизации. Запись длится (6) минут (24) секунды. Определи размер загружаемого файла в килобайтах.

Дано

(k=1);

(H=128) Гц;

(N=64);

(t=384) секунды.

Найти: (I) (Кбайт).

Решение

Воспользуемся формулой

N=2i

, (i=6) бит.

Подставим числовые значения в формулу

I=H⋅i⋅t⋅k

 и переведём биты в килобайты:

Ответ: (36) килобайт.

Любой файл может быть передан по каналу связи, тогда объём переданной информации вычисляется по формуле:

I=V⋅t

, где
(I) — объём информации (бит);
(V) — пропускная способность канала связи (бит/секунду);
(t) — время передачи (секунды).

Пример:

в дельте Волги орнитологи оцифровывают звуки птиц и записывают их в виде файлов без использования сжатия данных. Получившийся файл передают в Астраханский биосферный заповедник по каналу связи за (56) секунд. Затем тот же файл оцифровывают повторно с разрешением в (8) раз ниже и частотой дискретизации в (3) раза выше, чем в первый раз. Сжатие данных не производится. Полученный файл передают в Кавказский природный заповедник; пропускная способность канала связи с Кавказским заповедником в (2) раза ниже, чем канала связи с Астраханским заповедником. Сколько секунд длилась передача файла в Кавказский заповедник?

Решение

Воспользуемся формулой

I=H⋅i⋅t⋅k

.

I1=k⋅i⋅t⋅H;I2=k⋅i8⋅t⋅3⋅H;I2I1=38.По условиюV2=V12.

Выразим (V) из формулы

I=V⋅t

, получим

V=It

, учтём, что

t1=56 секунд.Тогда I2t2=I156⋅2;t2=56⋅2⋅I2I1=56⋅2⋅38=42.

Ответ: (42) секунды.

Обрати внимание!

1 Мбайт=220 байт=223 бит.1 Кбайт=210 байт=213 бит.

Цифровое представление аналогового аудиосигнала. Краткий ликбез

Время на прочтение
7 мин

Количество просмотров 40K

Дорогие читатели, меня зовут Феликс Арутюнян. Я студент, профессиональный скрипач. В этой статье хочу поделиться с Вами отрывком из моей презентации, которую я представил в университете музыки и театра Граца по предмету прикладная акустика.

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

рис. 1

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

рис. 2

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

рис. 3

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

рис. 4

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

рис. 5

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

рис. 6

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

рис. 7

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

рис. 8.

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

$N = 2^n$

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением

$X$ и квантованным значением

$X'$ (

$X-X'$)

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

рис. 9

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

рис. 10. Интенсивность шумов при разрядности 6 бит и 8 бит

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

шум квантования

амплитуда сигнала при разрядности 1 бит (сверху) и 4 бит

Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Аудиопример 1

Аудиопример 2: 4bit/48kHz, ~25dB SNR

Аудиопример 2

Аудиопример 3: 1bit/48kHz, ~8dB SNR

Аудиопример 3

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

$F=1/T$

Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Алиасинг

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Спектральный анализ

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Спектральный анализ

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину. 

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

  • Несжатые («сырые») данные
  • Данные, сжатые без потерь
  • Данные, сжатые с потерями

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

рис. 11

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Этим и пользуется кодек: 2kHz-звук можно убрать.

Спектральный анализ кодека mp3 с разными уровнями компрессии

Кодеки сжатия с потерям: mp3, aac, ogg, wma, Musepack…

Спасибо за внимание.

UPD:
Если по каким-либо причинам аудиофайлы не загружаются, можете их скачать здесь: cloud.mail.ru/public/HbzU/YEsT34i4c

Оптимальные числа…

Работа с современным звуковым оборудованием требует от пользователя всё больше и больше знаний в различных областях науки. Помимо обязательных дисциплин – электроакустики и электротехники, каждый специалист современной отрасли звукоусиления должен обладать (хотя бы) базовыми знаниями по информатике, программной инженерии, физике. Безусловно, это касается только тех, кто считает себя профессионалом, а своё оборудование – профессиональным (для остальных вполне достаточно прочитать руководство пользователя к конкретному прибору).

Пытаясь найти повод для серьёзных дискуссий с «серьёзными парнями», в прошлом выпуске «звуковых новостей» мы затронули проблему выбора разделительных фильтров и удивительных открытий на этом поле. Сегодня мы зайдем ещё дальше и поговорим о нюансах в преобразованиях сигнала в цифровой среде. Вероятно, кто-то что-то уже подозревал и сам, но мы все же попросили обобщить знания по этому вопросу одного из самых авторитетных инженеров индустрии – Микеле Марани.

ЗВУК — это физическое явление, НЕПРЕРЫВНО воспринимаемое органами слуха, что означает, что наши уши могут воспринимать звук на всех промежуточных уровнях: 1) с точки зрения амплитуды, от самого низкого уровня до максимума, и 2) с точки зрения времени, что означает, что наши уши в определённом диапазоне частот могут НЕПРЕРЫВНО воспринимать все частоты, от самой низкой до самой высокой (частота — число повторений одного тона (один период колебаний) за единицу времени).

Информация по глубине квантования и частоте дискретизации

На рисунке выше видно, что если за единицу времени мы имеем только один ПЕРИОД колебаний, то получаем основной тон, который будет высотой (частотой) звука, если такой период колебаний будет повторяться циклически. Если период завершается за время T, то при циклическом повторе мы должны услышать звук, частота которого равна F=1/T.

На рисунке пунктирная синяя линия обозначает период колебаний T/2, который составляет половину основного тона (сплошная красная линия), поэтому мы ожидаем, что циклическое повторение тона, показанного пунктирной синей линией, будет иметь частоту F=1/(T/2 )=2/T. Действительно, тон, показанный синей пунктирной линией, имеет в два раза более высокую частоту, чем основной тон (сплошная красная линия).

При необходимости обработки звука в ЦИФРОВОЙ СРЕДЕ, где единственные известные уровни амплитуды описываются БИТАМИ (0/1), ВРЕМЯ не является непрерывным, а контролируется тактовыми сигналами. Концепция непрерывности превращается в ДИСКРЕТНОСТЬ: в цифровой среде амплитуды и временные характеристики звука от своих минимальных до максимальных значений изменяются СТУПЕНЧАТО, с относительно большими шагами.

Информация по глубине квантования и частоте дискретизации

Простой пример, позволяющий отчётливо понять разницу между понятием непрерывности и дискретности, — это сравнение пандуса и лестницы (Рис. выше). Если нам необходимо подняться по пандусу, мы можем шагать с любым интервалом. Если же нам нужно подняться по лестнице, мы не сможем подняться на высоту меньше, чем расстояние между двумя ступенями лестницы. Другими словами, мы не можем определить промежуточную высоту между двумя ступенями.

Для последующей обработки или изменения звука с помощью компьютерных процессов необходимо ПРЕОБРАЗОВАТЬ физическое событие, слышимое нашими ушами, в цифровой сигнал (дискретный код), обрабатываемый ЦИФРОВЫМ ПРОЦЕССОРОМ. Это делается в два этапа. Первый — преобразование физического явления «звук» в электрический сигнал, который будет ТОЧНО соответствовать реальному звуку, ведущему себя АНАЛОГОВЫМ образом.

Информация по глубине квантования и частоте дискретизации

Это первое преобразование, выполняемое микрофонами при записи звуков природы или классических инструментов, обеспечивает получение электрического сигнала, который ведёт себя аналоговым образом и поэтому называется аналоговым сигналом. Это НЕПРЕРЫВНЫЙ СИГНАЛ, который может быть записан, например, на ленту, и при воспроизведении обладает характеристиками исходных звуков с точки зрения уровней амплитуды и распределения частот.

Информация по глубине квантования и частоте дискретизации

Аналоговый сигнал может обрабатываться аналоговыми устройствами, например, динамическими компрессорами или эквалайзерами.

Но, опять же, такой сигнал не может быть обработан компьютерными средствами.

Поэтому необходимо выполнить второе преобразование — АНАЛОГО-ЦИФРОВОЕ. Это преобразование позволяет «перевести» аналоговый сигнал, точно представляющий исходный звук, в последовательность цифр 0/1.

Информация по глубине квантования и частоте дискретизации

Эта последовательность цифр по-прежнему представляет исходный звук и может обрабатываться компьютерными средствами, например, процессорами.

Информация по глубине квантования и частоте дискретизации

Точность АНАЛОГО-ЦИФРОВОГО ПРЕОБРАЗОВАНИЯ — это то, что может гарантировать сохранение в цифровом виде ВСЕЙ информации, содержащейся в оригинальном звуке.

Существует два параметра, которые могут гарантировать точность преобразования:

  1. ГЛУБИНА КВАНТОВАНИЯ
  2. ЧАСТОТА ДИСКРЕТИЗАЦИИ

ГЛУБИНА КВАНТОВАНИЯ

Как было сказано выше, компьютер или любое цифровое устройство для обработки звука может работать с последовательностями битов, которые характеризуются наличием только двух уровней — 0 и 1. Системы, работающие на основе битов, называются ДВОИЧНЫМИ СИСТЕМАМИ.

Информация по глубине квантования и частоте дискретизации

Каждый бит, также называемый «ЧИСЛО», может принимать только два значения – 0 или 1, поэтому, если мы хотим представить более высокие числа, необходимо собрать биты в КОМБИНАЦИИ.

Размер комбинации битов определяет, насколько большим может быть максимальное значение представленных чисел, а сама комбинация двоичных цифр/битов используется для описания любых действий компьютера, включая управление звуком.

Компьютеры могут одновременно работать с целыми комбинациями этих битов. Группа из 8 битов известна как байт, один или несколько байтов составляют цифровое слово. Шестнадцать битов (два байта) означают, что в слове 16 цифр, каждая из которых равна 1 или 0. Двадцать четыре бита (три байта) означают, что в слове содержится 24 двоичных разряда и т. д.

Количество битов в слове определяет точность значений. Работа с более высокой глубиной квантования похожа на измерение линейкой с меньшим шагом шкалы — вы получаете более точное измерение. Таким образом, более высокая глубина квантования позволяет системе точно записывать и воспроизводить более тонкие колебания формы волны (Рис. 1).

Информация по глубине квантования и частоте дискретизации

Чем выше глубина квантования, тем больше данных будет преобразовано для более точного воссоздания звука. Если глубина квантования слишком мала, информация будет потеряна, а качество воспроизводимого звука ухудшится. Для сравнения, каждый образец, записанный с 16-битным разрешением, может содержать любое из 65 536 уникальных значений (2 в степени 16). При 24-битном разрешении вы получаете 16 777 216 уникальных значений (2 в степени 24) — огромная разница!

Здесь можно было бы подумать, что чем больше битов используется, тем лучше результат в отношении детализации амплитуды сигнала. Тем не менее, необходимо учитывать несколько аспектов, а именно: реальную способность аппаратного преобразователя точно измерять такую небольшую разницу в амплитуде, реальную способность акустической системы воспроизвести такую небольшую разницу и, наконец, возможность человеческого уха воспринимать такую маленькую разницу.

Широко распространено мнение, что за пределами РЕАЛЬНЫХ 20 бит глубины квантования, ещё не существует систем воспроизведения звука, способных точно воспроизводить столь малые различия в амплитуде. И уж точно это относится к стандартным и широко распространённым акустическим системам.

В конечном итоге, даже при условии воспроизведения такого высокоточного сигнала, необходимо учитывать способность человеческого уха его воспринимать.

ЧАСТОТА ДИСКРЕТИЗАЦИИ

Для преобразования аналогового сигнала в цифровой необходимо соответствие второму требованию цифрового устройства, работающего в установленных временных рамках, определяемых тактовыми сигналами. Поэтому, как показано выше, цифровому устройству необходимо предоставить комбинацию битов, соответствующую уровню аналогового сигнала, который должен быть измерен через определённые отрезки времени.

Информация по глубине квантования и частоте дискретизации

Операция измерения уровня аналогового сигнала называется ВЫБОРКА, и, поскольку она должна выполняться через определённые ИНТЕРВАЛЫ времени, то есть с определённой ЧАСТОТОЙ, такая частота измерения аналогового сигнала называется ЧАСТОТОЙ ВЫБОРКИ или ЧАСТОТОЙ ДИСКРЕТИЗАЦИИ.

Информация по глубине квантования и частоте дискретизации

Рассматривая пример с форматом Audio CD, мы принимаем условие, что частота дискретизации составляет 44,1 кГц, а глубина квантования — 16 бит. Таким образом, количество выборок — 44 100 в секунду с 16-битным разрешением (комбинация 16 битов), что позволяет получить диапазон 65 536 значений (как положительных, так и отрицательных). Максимальное значение здесь 32 767, а минимальное −32 768.

Существует ТЕОРЕМА, называемая теоремой Найквиста—Шеннона (она же теорема Котельникова, теорема отсчётов), которая гласит, что для точного восстановления сигнала в заданной полосе частот (например, во всей полосе слышимых частот 20 Гц — 20 кГц), частота дискретизации должна более чем в два раза превышать максимальную частоту в спектре сигнала. Если используется более низкая частота дискретизации, информация об исходном сигнале может быть не полностью восстановлена из дискретизированного сигнала (Рис. 2).

Информация по глубине квантования и частоте дискретизации

Если аналоговый сигнал преобразуется с правильной частотой дискретизации, которая, как сказано выше, вдвое превышает максимальную частоту спектра сигнала, результат преобразования содержит ВСЮ НЕОБХОДИМУЮ ИНФОРМАЦИЮ для восстановления исходного сигнала без каких-либо потерь.

Если частота дискретизации слишком низкая, могут возникнуть алиасинговые искажения. Алиасинг является серьёзной проблемой при аналого-цифровом преобразовании. Неправильная дискретизация аналогового сигнала приведёт к тому, что высокочастотные составляющие сигнала будут накладываться на его низкочастотные составляющие. В результате при цифро-аналоговом преобразовании мы получим восстановленный сигнал с искажениями.

Кроме того, более высокая частота дискретизации позволяет записывать очень высокие частоты, которые находятся за пределами восприятия человеческим ухом. Хотя сами по себе эти ультразвуковые частоты не различимы на слух, они могут взаимодействовать, создавая ИНТЕРМОДУЛЯЦИОННЫЕ ИСКАЖЕНИЯ, которые, по мнению многих инженеров, придают сигналам слышимого диапазона едва уловимые психоакустические эффекты.

Небольшое отступление по данному вопросу:

Интермодуляция — это явление объединения нежелательных частотных составляющих внутри активной системы, например, в управляющем процессоре, или поступающих к ней от внешнего источника. Такие составляющие, в нашем случае, могут находиться в полосе частот, которая не различима на слух, но всё ещё «захватываются» из-за высокой частоты дискретизации. Комбинация двух или более из этих неотфильтрованных нежелательных сигналов создаст другой сигнал, который может вызывать искажения в системе. Более того, такой сигнал может находиться в слышимом спектре обработанного сигнала.

Информация по глубине квантования и частоте дискретизации

На рисунке выше мы можем видеть, что взаимодействие двух сигналов, f1 и f2, может порождать другие сигналы, например, комбинации их гармоник и субгармоник. Комбинации таких субгармоник могут попадать в полосу частот, которые различимы на слух. Таким образом, риск получить искажения, исходящие от комбинации неотфильтрованных нежелательных сигналов, расположенных далеко за пределами слышимого диапазона, является реальным.

Два приведённых выше соображения и теорема Найквиста подводят к следующим заключениям об оптимальной частоте дискретизации:

  1. Вся необходимая информация, содержащаяся в исходном аналоговом сигнале, сохраняется в процессе преобразования с частотой дискретизации, равной или превышающей максимальную частоту в интересующей полосе частот. Если мы примем, что человеческий слух не может воспринимать сигналы выше 20 кГц, то частота дискретизации 40 кГц даёт нам всю информацию об исходном сигнале, которую мы можем услышать.
  2. Чтобы избежать проблемы с алиасингом, необходимо отфильтровать восстанавливаемый аналоговый сигнал после цифровой обработки.
  3. Фильтр с высокой степенью крутизны среза, слишком близкий к максимальной слышимой частоте, может привести к нежелательной модификации сигнала, что приведёт к появлению нежелательных артефактов. Для того, чтобы устранить эту проблему алиасинга, определённая степень передискретизации поможет использовать простые фильтры с низкими значениями поворота фазы, расположенные достаточно далеко от максимальной слышимой частоты, чтобы не влиять на слышимый восстанавливаемый сигнал. Эксперты и профессионалы считают, что ОПТИМАЛЬНАЯ ЧАСТОТА ДИСКРЕТИЗАЦИИ составляет от 88 кГц до 96 кГц.
  4. Как видно из пункта выше, избыточная передискретизация, как, например, частота дискретизации 192 кГц, вместо этого может привести к возникновению нежелательных дополнительных гармоник из-за ИНТЕРМОДУЛЯЦИОННЫХ ИСКАЖЕНИЙ.

Приводя слова профессионалов:

«Цифровые музыкальные файлы с частотой дискретизации 192 кГц не обладают никакими преимуществами. Они также не совсем нейтральны, практическая точность сигнала немного хуже. Ультразвук является помехой во время воспроизведения.

Это противоречит многим первоначальным представлениям о сверхзвуковых частотах дискретизации, в том числе и моему собственному. Но доказательства этому существуют. Поскольку аналоговые схемы почти никогда не обладают линейными характеристиками на сверхвысоких частотах, они могут и будут вносить особый тип искажений, называемый интермодуляционными искажениями. Это означает, что две частоты, которые невозможно услышать, скажем, 22 кГц и 32 кГц, могут создавать интермодуляционные искажения в слышимом диапазоне, в данном случае на частоте 10 кГц. Когда сверхзвуковые частоты не отфильтровываются — это реальный риск».

«Многие согласны с ложным представлением о том, что работа с частотой дискретизации выше оптимальной может улучшить звук. Правда заключается в том, что существует оптимальная частота дискретизации, и работа с частотой дискретизации выше оптимальной ставит под угрозу точность звука. Некоторым это кажется нелогичным, но полностью доказано. Тогда как большинство сторонников частоты дискретизации выше оптимальной предлагают только субъективные результаты в её поддержку, существует реальная вероятность того, что ДОПОЛНИТЕЛЬНЫЕ детали, слышимые некоторыми слушателями, возникают из-за дополнительных гармоник (эффект интермодуляции), которые могут быть приятными на слух, но, безусловно, не существуют в исходном материале и, следовательно, считаются крайне нежелательными для профессиональных пользователей».#IMLIGHT #MARANI

Sabinka



Мастер

(1210),
на голосовании



10 лет назад

Дополнен 10 лет назад

….в условии дано “разрешения- 24 бита”. Это одно и то же? или какое то другое понятие?

Голосование за лучший ответ

svb

Мыслитель

(8540)


10 лет назад

Количество_уровней_дискретизации = 2 ^ разрешение_в_битах (два в степени… )
32 ур. дискр. соответствует разрешение в 5 бит.
Разрешению в 24 бита соответствуют 16777216 уровней дискретизации.

SabinkaМастер (1210)

10 лет назад

Спасибо, все ясно.

Похожие вопросы

Добавить комментарий