Как найти объем информации за время

Скорость передачи данных

  1. Главная
  2. /
  3. Информатика
  4. /
  5. Скорость передачи данных

Скорость передачи данных — объём данных (информации), переданный за единицу времени (как правило 1 секунду). Базовой единицей измерения скорости передачи данных является бит в секунду. Также к базовым единицам можно отнести байт в секунду, который равен 8 битам в секунду. Все остальные единицы измерения скорости передачи данных являются производными от этих двух.

Они образуются при помощи приставок:

  • используемых для обозначения десятичных кратных единиц: кило- (103), мега- (106), гига- (109) и т.д.
  • используемых для обозначения 2-x кратных единиц — двоичные (бинарные) приставки: киби- (210) , меби- (220), гиби- (230) и т.д.

При этом, к примеру:

1 килобит в секунду = 1×103 = 1000 бит в секунду

1 кибибит в секунду = 1×210 = 1024 бит в секунду

1 кибибит в секунду = 1.024 килобит в секунду

1 килобит в секунду = 0.9765625 кибибит в секунду

1 килобит в секунду 1024 бит в секунду

Хотя до введения двоичных приставок международной электротехнической комиссией (МЭК) в 1999 году, принято было считать, что 1 килобит равняется именно 1024 бит. Но по сути это было не верно.

К сожалению новый стандарт до сих пор используется не повсеместно и из-за этого могут возникнуть ошибки и недопонимания.

Онлайн конвертер

Чтобы перевести скорость передачи данных из одних единиц измерения в другие, введите значение и выберите единицы измерения скорости.

Онлайн калькулятор

Скорость передачи данных

Объём данных (размер файла) I =
Время передачи данных t =

Скорость передачи данных V =

0

Округление ответа:

Объём данных

Скорость передачи данных V =
Время передачи данных t =

Объём данных (размер файла) I =

0

Округление ответа:

Время передачи данных

Объём данных (размер файла) I =
Скорость передачи данных V =

Время передачи данных t =

0

Округление ответа:

Теория

Как найти скорость передачи данных

Чему равна скорость передачи данных (V), если известен объём переданных данных (I) и время (t), за которое эти данные переданы?

Формула

V = I t

Пример

Через некое соединение был передан файл размером 5MB (мегабайт), передача заняла 16 секунд. Необходимо определить скорость передачи данного файла в мегабитах в секунду.

Для начала переведём 5 мегабайт в биты (cм. таблицу ниже):

5MB = 5 ⋅ 8000000 = 40 000 000 бит

Далее считаем по формуле:

V = 40000000/16 = 2 500 000 бит/с

Переводим полученный результат в мегабиты в секунду:

V = 2500000/1000000 = 2.5 Мбит/с

Как найти объём данных

Чему равен объём данных (I), если известны скорость передачи данных (V) и время (t), за которое эти данные переданы?

Формула

I = V ⋅ t

Пример

Скорость передачи данных через ADSL-соединение равна 512000 бит/с. Передача файла заняла 16 секунд. Определим объем файла в килобайтах.

Для начала определим размер переданного файла в битах:

I = 512000 ⋅ 16 = 8192000 бит

Переведём полученный результат в килобайты:

I = 8192000/8000 = 1024 Кбайт

Этот результат верен если 1 Кбайт = 1000 бит. Если же вы производите расчет с устаревшими единицами (1 Кбайт = 1024 бит), то:

I = 8192000/8192 = 1000 Кбайт

А если результат записать в кибибайтах:

I = 8192000/8192 = 1000 КиБ

Как найти время передачи данных

Чему равно время передачи данных (t), если известны объём переданных данных (I) и скорость передачи данных (V):

Формула

t = I V

Пример

За сколько секунд скачается файл размером в 1GB (гигабайт), если скорость соединения 2 Мбит/с?

1GB = 8 000 000 000 бит = 8 000 Мбит

t = 8000/2 = 4000 сек

Таблица преобразования единиц скорости передачи данных

Обозначение
RU
Обозначение
EN
бит в секунду байт в секунду перевод в бит/с
формула
перевод в Б/с
формула
бит в секунду бит/с bit/s 1 0.125 1 18
байт в секунду Б/с B/s 8 1 8 1
килобит в секунду Kбит/с kbit/s 1,000 125 103 18 × 103
кибибит в секунду Кибит/с Kibit/s 1,024 128 210 27
килобайт в секунду Кбайт/с kB/s 8,000 1,000 8 × 103 103
кибибайт в секунду КиБ/с KiB/s 8,192 1,024 213 210
мегабит в секунду Мбит/с Mbit/s 1,000,000 125,000 106 18 × 106
мебибит в секунду Мибит/с Mibit/s 1,048,576 131,072 220 217
мегабайт в секунду Мбайт/с MB/s 8,000,000 1,000,000 8 × 106 106
мебибайт в секунду МиБ/с MiB/s 8,388,608 1,048,576 223 220
гигабит в секунду Гбит/с Gbit/s 1,000,000,000 125,000,000 109 18 × 109
гибибит в секунду Гибит/с Gibit/s 1,073,741,824 134,217,728 230 227
гигабайт в секунду Гбайт/с GB/s 8,000,000,000 1,000,000,000 8 × 109 109
гибибайт в секунду ГиБ/с GiB/s 8,589,934,592 1,073,741,824 233 230
терабит в секунду Тбит/с Tbit/s 1,000,000,000,000 125,000,000,000 1012 18 × 1012
тебибит в секунду Тибит/с Tibit/s 1,099,511,627,776 137,438,953,472 240 237
терабайт в секунду Тбайт/с TB/s 8,000,000,000,000 1,000,000,000,000 8 × 1012 1012
тебибайт в секунду ТиБ/с TiB/s 8,796,093,022,208 1,099,511,627,776 243 240

Ссылки

Мы ежедневно работаем с информацией из разных источников. При этом каждый из нас имеет некоторые интуитивные представления о том, что означает, что один источник является для нас более информативным, чем другой. Однако далеко не всегда понятно, как это правильно определить формально. Не всегда большое количество текста означает большое количество информации. Например, среди СМИ распространена практика, когда короткое сообщение из ленты информационного агентства переписывают в большую новость, но при этом не добавляют никакой «новой информации». Или другой пример: рассмотрим текстовый файл с романом Л.Н. Толстого «Война и мир» в кодировке UTF-8. Его размер — 3.2 Мб. Сколько информации содержится в этом файле? Изменится ли это количество, если файл перекодировать в другую кодировку? А если заархивировать? Сколько информации вы получите, если прочитаете этот файл? А если прочитаете его второй раз?

По мотивам открытой лекции для Computer Science центра рассказываю о том, как можно математически подойти к определению понятия “количество информации”.

В классической статье А.Н. Колмогорова “Три подхода к определению понятия количества информации” (1965) рассматривают три способа это сделать:

  • комбинаторный (информация по Хартли),

  • вероятностный (энтропия Шеннона),

  • алгоритмический (колмогоровская сложность).

Мы будем следовать этому плану.

Комбинаторный подход: информация по Хартли

Мы начнём самого простого и естественного подхода, предложенного Хартли в 1928 году.

Пусть задано некоторое конечное множество A. Количеством информации в A будем называть chi(A) = log_2|A|.

Можно интерпретировать это определение следующим образом: нам нужно chi(A) битов для описания элемента из A.

Почему мы используем биты? Можно использовать и другие единицы измерения, например, триты или байты, но тогда нужно изменить основание логарифма на 3 или 256, соответственно. В дальшейшем все логарифмы будут по основанию 2.

Этого определения уже достаточно для того, чтобы измерить количество информации в некотором сообщении. Пусть про xin A стало известно, что xin B. Теперь нам достаточно chi(Acap B) = log_2 |Acap B| битов для описания x, таким образом нам сообщили chi(A) - chi(Acap B) битов информации.

Пример

Загадано целое число x от 1 до 1000. Нам сообщили, что x делится на 6. Сколько информации нам сообщили?

Воспользуемся рассуждением выше.

log_2 1000 - log_2 166 = log_2 frac{1000}{166} approx 2.59 text{битов.}

(Тот факт, что некоторое сообщение может содержать нецелое количество битов, может показаться немного неожиданным.)

Можно ещё сказать, что сообщение, уменшающее пространство поиска в alphaраз приносит log_2 alpha битов информации. В данном примере пространство поиска уменьшилось в 1000/166 раз.

Интересно, что одного этого определения уже достаточно для того, чтобы решать довольно нетривиальные задачи.

Применение: цена информации

Загадано целое число xот 1 до n. Разрешается задавать любые вопросы на ДА/НЕТ. Если ответ на вопрос “ДА”, то мы должны заплатить рубль, если ответ “НЕТ” — два рубля. Сколько нужно заплатить для отгадывания числа x?

Любой вопрос можно сформулировать как вопрос о принадлежности некоторому множеству, поэтому мы будем считать, что все вопросы имеют вид “xin T?” для некоторого множества T.

Каким образом нужно задавать вопросы? Нам бы хотелось, чтобы вне зависимости от ответа цена за бит информации была постоянной. Другими словами, в случае ответа “НЕТ” и заплатив два рубля мы должны узнать в два больше информации, чем при ответе “ДА”. Давайте запишем это формально.

Потребуем, чтобы

2cdot(log |X| - log|X cap T|) = log |X| - log|Xcapoverline T|.

Пусть |X cap T| = alpha|X|, тогда |Xcapoverline T| = (1 - alpha)|X|. Подставляем и получаем, что

2log (1/alpha) = log (1/(1-alpha)).

Это эквивалентно квадратному уравнению alpha^2 = 1 - alpha. Положительный корень этого уравнения alpha=(sqrt 5 - 1) / 2. Таким образом, при любом ответе мы заплатим c = 1/log(1/alpha)approx 1.44 рублей за бит информации, а в сумме мы заплатим примерноclog nрублей (с точностью до округления).

Осталось понять, как выбирать такие множества T. Будем выбирать в качестве T непрерывные отрезки прямой. Пусть нам известно, что x принадлежит отрезку [a,b] (изначально это отрезок [1,n]). В следующего множества T возмём отрезок [a, a+ alphacdot(b-a)], гдеalpha=(sqrt 5 - 1) / 2. Тогда за каждый заплаченный рубль текущий отрезок будет уменьшаться в 1/alpha^2 = 1/(1-alpha) раз. Когда длина отрезка станет меньше единицы, мы однозначно определим x. Поэтому цена отгадывания не будет превосходить

clog((n-1)/alpha^2) = clog(n-1) - 2clog alpha = clog(n-1) + 2.

Приведённое рассуждение доказывает только верхнюю оценку. Можно доказать и нижнюю оценку: для любого способа задавать вопросы будет такое число x, для отгадывания которого придётся заплатить не менее clog (n-1)рублей.

Вероятностный подход: энтропия Шеннона

Вероятностный подход, предложенный Клодом Шенноном в 1948 году, обобщает определение Хартли на случай, когда не все элементы множества являются равнозначными. Вместо множества в этом подходе мы будем рассматривать вероятностное распределение на множестве и оценивать среднее по распределению количество информации, которое содержит случайная величина.

Пусть задана случайная величина X, принимающая k различных значений с вероятностями p_1,p_2,dotsc,p_k. Энтропия Шеннона случайной величины X определяется как

H(X) = sum_{i=1}^k p_icdotlogfrac1p_i.

(По непрерывности тут нужно доопределить 0cdot logfrac10 = 0.)

Энтропия Шеннона оценивает среднее количество информации (математическое ожидание), которое содержится в значениях случайной величины.

При первом взгляде на это определение, может показаться совершенно непонятно откуда оно берётся. Шеннон подошёл к этой задаче чисто математически: сформулировал требования к функции и доказал, что это единственная функция, удовлетворяющая сформулированным требованиям.

Я попробую объяснить происхождение этой формулы как обобщение информации по Хартли. Нам бы хотелось, чтобы это определение согласовывалось с определением Хартли, т.е. должны выполняться следующие “граничные условия”:

Будем искать H(alpha) в виде математического ожидания количества информации, которую мы получаем от каждого возможного значения X.

H(X) = sum_i p_icdot text{(информация в событии $X=a_i$)}.

Как оценить, сколько информации содержится в событии X = a_i? Пусть U — всё пространство элементарных исходов. Тогда событие X = a_i соответствует множеству элементарных исходов меры p_i. Если произошло событие X = a_i, то размер множества согласованных с этим событием элементарных исходов уменьшается с |U| до p_icdot|U|, т.е. событие X = a_i сообщает нам log|U| - log(p_icdot|U|) = log(1/p_i) битов информации. Тут мы пользуемся тем, что количество информации в сообщении, которое уменьшает размер пространство поиска в 1/p_iраз приносит log(1/p_i) битов информации.

Примеры

Свойства энтропии Шеннона

Для случайной величины X, принимающей k значений с вероятностями p_1,p_2,dotsc,p_k, выполняются следующие соотношения.

  • H(X) ge 0.

  • H(X) = 0 iff распределение X вырождено.

  • H(X) le log k.

  • H(X) = log k iff распределение X равномерно.

Чем распределение ближе к равномерному, тем больше энтропия Шеннона.

Энтропия пары

Понятие энтропии Шеннона можно обобщить для пары случайных величин. Аналогично это обощается для тройки, четвёрки и т.д.

Пусть совместно распределённые случайные величины X и Y принимают значения a_1,a_2,dotsc,a_k и b_1,b_2,dotsc,b_m, соответственно. Энтропия пары случайных величин X и Y определяется следующим соотношением:

H(X,Y) = sum_{i=1}^ksum_{j=1}^mPr[X = a_i, Y=b_j]cdot logfrac{1}{Pr[X = a_i, Y = b_j]}.

Примеры

Рассмотрим эксперимент с выбрасыванием двух игральных кубиков — синего и красного.

Свойства энтропии Шеннона пары случайных величин

Для энтропии пары выполняются следующие свойства.

Условная энтропия Шеннона

Теперь давайте научимся вычислять условную энтропию одной случайной величины относительно другой.

Условная энтропия X относительно Y определяется следующим соотношением:

H(Xmid Y) = H(X,Y) - H(Y).

Примеры

Рассмотрим снова примеры про два игральных кубика.

Свойства условной энтропии

Условная энтропия обладает следующими свойствами

Взаимная информация

Ещё одна информационная величина, которую мы введём в этом разделе — это взаимная информация двух случайных величин.

Информация в X о величине Y (взаимная информация случайных величин X и Y) определяется следующим соотношением

I(X:Y) = H(Y) - H(Ymid X).

Примеры

И снова обратимся к примерам с двумя игральными кубиками.

Свойства взаимной информации

Выполняются следующие соотношения.

  • I(X:Y) = I(Y:X). Т.е. определение взаимной информации симметрично и его можно переписать так:

I(X:Y) = H(X) - H(Xmid Y).

  • Или так: I(X:Y) = H(X) + H(Y) - H(X,Y).

  • I(X:Y) le H(X) и I(X:Y) le H(Y).

  • I(X:X) = H(X).

  • I(X:Y)ge 0.

Все информационные величины, которые мы определили к этому моменту можно проиллюстрировать при помощи кругов Эйлера.

Мы пойдём дальше и рассмотрим информационную величину, зависящую от трёх случайных величин.

Пусть X, Y и Z совместно распределены. Информация в X о Y при условии Z определяется следующим соотношением:

I(X:Ymid Z) = H(Ymid Z) -  H(Ymid X,Z).

Свойства такие же как и обычной взаимной информации, нужно только добавить соответствующее условие ко всем членам.

Всё, что мы успели определить можно удобно проиллюстрировать при помощи трёх кругов Эйлера.

Из этой иллюстрации можно вывести все определения и соотношения на информационные величины.

Мы не будем продолжать дальше и рассматривать четыре случайные величины по трём причинам. Во-первых, рисовать четыре круга Эйлера со всеми возможными областями — это непросто. Во-вторых, для двух и трёх случайных величин почти все возможные соотношения можно вывести из кругов Эйлера, а для четырёх случайных величин это уже не так. И в третьих, уже для трёх случайных величин возникают неприятные эффекты, демонстрирующие, что дальше будет хуже.

Рассмотрим треугольник в пересечении всех трёх кругов H(X), H(Y) и H(Z). Этот треугольник соответствуют взаимной информации трёх случайных величин I(X:Y:Z). Проблема с этой информационной величиной заключается в том, что ей не удаётся придать какой-то “физический” смысл. Более того, в отличие от всех остальных величин на картинке I(X:Y:Z) может быть отрицательной!

Рассмотрим пример трёх случайных величин равномерно распределённых на {0,1}. Пусть X и Y будут независимы, а Z=Xoplus Y. Легко проверить, что H(X)=H(Y)=H(Z)=1. При этом I(X:Y) = I(Y:Z) = I(Z:X) = 0. В то же время H(Xmid Y,Z) = H(Ymid X,Z) = H(Zmid X,Y) = 0. Получается следующая картинка.

Мы знаем, что a+c+d=a+d+b=c+d+b=1. При этом a+d=c+d=b+d=0. Получается, что a=b=c=1, а d=-1, т.е. для таких случайных величинI(X:Y:Z) = -1.

Применение энтропии Шеннона: кодирование

В этом разделе мы обсудим, как энтропия Шеннона возникает в теории кодирования. Будем рассматривать коды, которые кодируют каждый символ по отдельности.

Пусть задан алфавит Sigma. Код — это отображение из Sigma в {0,1}^*. Код C называется однозначно декодируемым, если любое сообщение, полученное применением C к символам некоторого текста, декодируется однозначно.

Код называется префиксным (prefix-free), если нет двух символов alpha и beta таких, что C(alpha) является префиксом C(beta).

Префиксные коды являются однозначно декодируемыми. Действительно, при декодировании префиксного кода легко понять, где находятся границы кодов отдельных символов.

Теорема [Шеннон]. Для любого однозначно декодируемого кода существует префиксный код с теми же длинами кодов символов.

Таким образом для изучения однозначно декодируемых кодов достаточно рассматривать только префиксные коды.

Задача об оптимальном кодировании.
Дан текст T = langle a_1,a_2,dotsc,a_nrangle. Нужно найти такой код C, что

sum_{i=1}^n |C(a_i)| to min.

Пусть Sigma = {alpha_1,alpha_2,dotsc,alpha_k}. Обозначим через f_i частоту, с которой символ alpha_i встречается в T. Тогда выражение выше можно переписать как

nsum_{i=1}^k f_icdot |C(alpha_i)| to min.

Следующая теорема могла встречаться вам в курсе алгоритмов.

Теорема [Хаффман]. Код Хаффмана, построенный по f_1,f_2,dotsc,f_k, является оптимальным префиксным кодом.

Алгоритм Хаффмана по набору частот эффективно строит оптимальный код для задачи оптимального кодирования.

Связь с энтропией

Имеют место две следующие оценки.

Теорема [Шеннон]. Для любого однозначно декодируемого кода выполняется

sum_{i=1}^k f_icdot|C(alpha_i)|ge sum_{i=1}^n f_icdot logfrac1{f_i}.

Теорема [Шеннон]. Для любых значений {f_1,f_2,dotsc,f_k} существует префиксный код C, такой что

sum_{i=1}^n f_icdot|C(alpha_i)|le sum_{i=1}^n f_icdot logfrac1{f_i} + 1.

Рассмотрим случайную величину X, равномерно распределённую на символах текста T. Получим, что H(X) = f_icdot logfrac1{f_i}. Таким образом, эти две теоремы задают оценку на среднюю длину кода символа при оптимальном кодировании, т.е. и для кодирования Хаффмана.

H(X) le sum_{i=1}^n f_icdot|C(alpha_i)|le H(X) + 1.

Следовательно, длину кода Хаффмана текста T можно оценить, как

nH(X) le |C(T)|le n(H(X) + 1).

Применение энтропии Шеннона: шифрования с закрытым ключом

Рассмотрим простейшую схему шифрования с закрытым ключом. Шифрование сообщения m с ключом шифрования k выполняется при помощи алгоритма шифрования E. В результате получается шифрограмма c = E(k, m). Зная k получатель шифрограммы восстанавливает исходное сообщение m: m = D(k, c).

Мы будем анализировать эту схему с помощью аппарата энтропии Шеннона. Пусть m и k являются случайными величинами. Противник не знает m и k, но знает c, которая так же является случайной величиной.

Для совершенной схемы шифрования (perfect secrecy) выполняются следующие соотношения:

  1. H(cmid k, m) = 0, т.е. шифрограмма однозначно определяется по ключу и сообщению.

  2. H(mmid k, c) = 0, т.е. исходное сообщение однозначно восстанавливается по шифрограмме и ключу.

  3. I(c : m) = 0, т.е. в отсутствие ключа из шифрограммы нельзя получить никакой информации о пересылаемом сообщении.

Теорема [Шеннон]. H(k)ge H(m), даже если условие H(cmid k,m) = 0 нарушается (т.е. алгоритм E использует случайные биты).

Эта теорема утверждает, что для совершенной схемы шифрования длина ключа должна быть не менее длины сообщения. Другими словами, если вы хотите зашифровать и передать своему знакомому файл размера 1Гб, то для этого вы заранее должны встретиться и обменяться закрытым ключом размера не менее 1Гб. И конечно, этот ключ можно использовать только однажды. Таким образом, самая оптимальная совершенная схема шифрования — это “одноразовый блокнот”, в котором длина ключа совпадает с длиной сообщения.

Если же вы используете ключ, который короче пересылаемого сообщения, то шифрограмма раскрывает некоторую информацию о зашифрованном сообщении. Причём количество этой информации можно оценить, как разницу между энтропией сообщения и энтропией ключа. Если вы используете пароль из 10 символов при пересылке файла размера 1Гб, то вы разглашаете примерно 1Гб – 10 байт.

Это всё звучит очень печально, но не всё так плохо. Мы ведь никак не учитываем вычислительную мощь противника, т.е. мы не ограничиваем количество времени, которое противнику потребуется на выделение этой информации.

Современная криптография строится на предположении об ограниченности вычислительных возможностей противника. Тут есть свои проблемы, а именно отсутствие математического доказательства криптографической стойкости (все доказательства строятся на различных предположениях), так что может оказаться, что вся эта криптография бесполезна (подробнее можно почитать в статье о мирах Рассела Импальяццо, которая переведена на хабре), но это уже совсем другая история.

Доказательство. Нарисуем картинку для трёх случайных величин и отметим то, что нам известно.

  • H(mmid k, c) = 0.

  • I(c:m) = 0, следовательно x + w = 0, а значит x = -w.

  • I(c:k)ge 0 (по свойству взаимной информации), следовательно w + yge 0, а значит y ge -w = x.

  • uge 0. Таким образом,

H(k) = u + z + w + y ge u + z + w + x = u + H(m)ge H(m).

В доказательстве мы действительно не воспользовались тем, что H(cmid k,m) = 0.

Алгоритмический подход: колмогоровская сложность

Подход Шеннона хорош для случайных величин, но если мы попробуем применить его к текстам, то выходит, что количество информации в тексте зависит только от частот символов, но не зависит от их порядка. При таком подходе получается, что в “Войне и мире” и в тексте, который получается сортировкой всех знаков в “Войне и мире”, содержится одинаковое количество информации. Колмогоров предложил подход, позволяющий измерять количество информации в конкретных объектах (строках), а не в случайных величинах.

Внимание. До этого момента я старался следить за математической строгостью формулировок. Для того, чтобы двигаться дальше в том же ключе, мне потребовалось бы предположить, что читатель неплохо знаком с математической логикой и теорией вычислимости. Я пойду более простым путём и просто буду махать руками, заметая под ковёр некоторые подробности. Однако, все утверждения и рассуждения дальше можно математически строго сформулировать и доказать.

Нам потребуется зафиксировать способ описания битовой строки. Чтобы не углубляться в рассуждения про машины Тьюринга, мы будем описывать строки на языках программирования. Нужно только сделать оговорку, что программы на этих языках будут запускаться на компьютере с неограниченным объёмом оперативной памяти (иначе мы получили бы более слабую вычислительную модель, чем машина Тьюринга).

Сложностью K_F(x) строки x относительно языка программирования F называется длина кратчайшей программы, которая выводит x.

Таким образом сложность “Войны и мира” относительноя языка Python — это длина кратчайшей программы на Python, которая печатает текст “Войны и мира”. Естественным образом сложность отсортированной версии “Войны и мира” относительно языка Python получится значительно меньше, т.к. её можно предварительно закодировать при помощи RLE.

Сравнение языков программирования

Дальше нам потребуется научиться любимой забаве всех программистов — сравнению языков программирования.

Будем говорить, что язык F не хуже языка программирования G и обозначать Fprec G, если существует константа c_G такая, что для для всех xin{0,1}^* выполняется K_F(x) le K_G(x) + c_G.

Исходя из этого определения получается, что язык Python не хуже (!) этого вашего Haskell! И я это докажу. В качестве константы c_text{Haskell}мы возьмём длину реализации интепретатора Haskell на Python. Таким образом, любая программа на Haskell переделывается в программу на Python просто дописыванием к ней интерпретатора Haskell на Python.

Соломонов и Колмогоров пошли дальше и доказали существования оптимального языка программирования.

Теорема [Соломонова-Колмогорова]. Существует способ описания (язык программирования) U такой, что для любого другого способа описания F выполняется Uprec F.

И да, некоторые уже наверное догадались, что U — это JavaScript. Или любой другой Тьюринг полный язык программирования.

Это приводит нас к следующему определению, предложенному Колмогоровым в 1965 году.

Колмогоровской сложностью строки x будем называть её сложность относительно оптимального способа описания Uи будем обозначать K(x) = K_U(x).

Важно понимать, что при разных выборах оптимального языка программирования Uколмогоровская сложность будет отличаться, но только на константу. Для любых двух оптимальных языков программирования F_1 и F_2 выполняется F_1prec F_2 и F_2prec F_1, т.е. существует такая константа c, что |K_{F_1} - K_{F_2}| le c.Это объясняет, почему в этой науке аддитивные константы принято игнорировать.

При этом для конкретной строки и конкретного выбора колмогоровская сложность определена однозначно.

Свойства колмогоровской сложности

Начнём с простых свойств. Колмогоровская сложность обладает следующими свойствами.

Первое свойство выполняется потому, что мы всегда можем зашить строку в саму программу. Второе свойство верно, т.к. из программы, выводящей строку x, легко сделать программу, которая выводит эту строку дважды.

Примеры

Несжимаемые строки

Важнейшее свойство колмогоровской сложности заключается в существовании сложных (несжимаемых строк). Проверьте себя и попробуйте объяснить, почему не бывает идеальных архиваторов, которые умели бы сжимать любые файлы хотя бы на 1 байт, и при этом позволяли бы однозначно разархивировать результат.

В терминах колмогоровской сложности это можно сформулировать так.

Вопрос. Существует ли такая длина строки n, что для любой строки xin{0,1}^n колмогоровская сложность x меньше n?

Следующая теорема даёт отрицательный ответ на этот вопрос.

Теорема. Для любого n существует xin{0,1}^n такой, что K(x)ge n.

Доказательство. Битовых строк длины n всего 2^n. Число строк сложности меньше n не превосходит число программ длины меньше n, т.е. таких программ не больше чем

1+2+dotsb +2^{n-1} = 2^n - 1 < 2^n.

Таким образом, для какой-то строки гарантированно не хватит программы.

Верна и более сильная теорема.

Теорема. Существует c > 0 такое, что для 99% слов длины n верно

n - c le K(x) le n + c .

Другими словами, почти все строки длины n имеют почти максимальную сложность.

Колмогоровская сложность: вычислимость

В этом разделе мы поговорим про вычислимость колмогоровской сложности. Я не буду давать формально определение вычислимости, а буду опираться на интуитивные предствления читателей.

Теорема. Не существует программы, которая по двоичной записи числа n выводит строку x, такую что K(x)ge n.

Эта теорема говорит о том, что не существует программы-генератора, которая умела бы генерировать сложные строки по запросу.

Доказательство. Проведём доказетельство от противного. Пусть такая программа P существует и P(n) = x. Тогда с одной стороны сложность x не меньше n, а с другой стороны мы можем описать x при помощи log n битов и кода программыP.

nle K(x)le K_P(x) + c_P le lceillog nrceil +  c_P.

Это приводит нас к противоречию, т.к. при достаточно больших значениях n неизбежно станет больше, чем lceillog nrceil +c_P.

Как следствие мы получаем невычислимость колмогоровской сложности.

Следствие. Отображение xto K(x) не является вычислимым.

Опять же, предположим, что это нет так и существует программа Q, которая по строку вычисляет её колмогоровскую сложность. Тогда на основе программы Qможно реализовать программу Pиз теоремы выше: она будет перебирать все строки длины не более nи находить лексикографически первую, для которой сложность будет не меньше n. А мы уже доказали, что такой программы не существует.

Связь с энтропией Шеннона

Теорема. Пусть x = langle{011010010dotso 10110}rangle длины n содержит pcdot n единиц и (1-p)cdot n нулей, тогда

K(x)le left(pcdotlogfrac1p + (1-p)cdotlogfrac{1}{1-p}right)cdot n        + O(log n).

Я надеюсь, что вы уже узнали энтропию Шеннона для случайной величины с двумя значениями с вероятностями p и 1-p.

Для колмогоровской сложности можно проделать весь путь, который мы проделали для энтропии Шеннона: определить условную колмогоровскую сложность, сложность пары строк, взаимную информацию и условную взаимную информацию и т.д. При этом формулы будут повторять формулы для энтропии Шеннона с точностью до O(log n). Однако это тема для отдельной статьи.

Применение колмогоровской сложности: бесконечность множества простых чисел

Начнём с довольно игрушечного применения. С помощью колмогоровской сложности мы докажем следующую теорему, знакомую нам со школы.

Теорема. Простых чисел бесконечно много.

Очевидно, что для доказательства этой теоремы никакая колмогоровская сложность не нужна. Однако на этом примере я смогу продемонстрировать основные идеи применения колмогоровской сложности в более сложных ситуациях.

Доказательство. Проведём доказательство от обратного. Пусть существует всего m простых чисел: p_1,p_2,dotsc,p_m. Тогда любое натуральное x раскладывается на степени простых:

x = p_1^{k_1}cdot p_2^{k_2}cdotdotsmcdot p_m^{k_m},

т.е. определяется набором степеней k_1,k_2,dotsc,k_m. Каждое k_ilelog x, т.е. задаётся O(log log x) битами. Поэтому любое xможно задать при помощи O(loglog x) битов (помним, что m — это константа).

Теперь воспользуемся теоремой о существовании несжимаемых строк. Как следствие, мы можем заключить, что существуют n-битовые числа x сложности не менее n (можно взять сложную строку и приписать в начало единицу). Получается, что сложное число можно задать при помощи небольшого числа битов.

n le K(x) le O(loglog x) = O(log n).

Противоречие.

Применение колмогоровской сложности: алгоритмическая случайность

Колмогоровская сложность позволяет решить следующую проблему из классической теории вероятностей.

Пусть в лаборатории живёт обезьянка, которую научили печатать на печатной машинке так, что каждую кнопку она нажимает с одинаковой вероятность. Вам предлагается посмотреть на лист печатного текста и сказать, верите ли вы, что его напечатала эта обезьянка. Вы смотрите на лист и видите, что это первая страница “Гамлета” Шекспира. Поверите ли вы? Очевидно, что нет. Хорошо, а если это не Шекспир, а, скажем, текст детектива Дарьи Донцовой? Скорей всего тоже не поверите. А если просто какой-то набор русских слов? Опять же, очень сомневаюсь, что вы поверите.

Внимание, вопрос. А как объяснить, почему вы не верите? Давайте для простоты считать, что на странице помещается 2000 знаков и всего на машинке есть 80 знаков. Вы можете резонно заметить, что вероятность того, что обезьянка случайным образом породила текст “Гамлета” порядка 1/80^{2000}, что астрономически мало. Это верно.

Теперь предположим, что вам показали текст, который вас устроил (он с вашей точки зрения будет похож на “случайный”). Но ведь вероятность его появления тоже будет порядка 1/80^{2000}. Как же вы определяете, что один текст выглядит “случайным”, а другой — не выглядит?

Колмогоровская сложность позволяет дать формальный ответ на этот вопрос. Если у текста отстутствует короткое описание (т.е. в нём нет каких-то закономерностей, которые можно было бы использовать для сжатия), то такую строку можно назвать случайной. И как мы увидели выше почти все строки имеют большую колмогоровскую сложность. Поэтому, когда вы видите строку с закономерностями, т.е. маленькой колмогоровской сложности, то это соответствует очень редкому событию. В противоположность наблюдению строки без закономерностей. Вероятность увидеть строку без закономерностей близка к 1.

Это обобщается на случай бесконечных последовательностей. Пусть bar x = x_1x_2x_3dotso x_ndotso. Как определить понятие случайной последовательности?

(неформальное определение)
Последовательность случайна по Мартину–Лёфу, если каждый её префикс является несжимаемым.

Оказывается, что это очень хорошее определение случайных последовательностей, т.к. оно обладает ожидаемыми свойствами.

Свойства случайных последовательностей

  • Почти все последовательности являются случайными по Мартину–Лёфу, а мера неслучайных равна 0.

  • Всякая случайная по Мартину-Лёфу последовательность невычислима.

  • Если bar x случайная по Мартин-Лёфу, то

lim_{ntoinfty} frac{text{число единиц в префиксе длины n}}{n} = frac12.

Заключение

Если вам интересно изучить эту тему подробнее, то я рекомендую обратиться к следующим источникам.

  • Верещагин Н.К., Щепин Е.В. Информация, кодирование и предсказание. МЦНМО. (нет в свободном доступе, но pdf продаётся за копейки)

  • В.А. Успенский, А.Х. Шень, Н.К. Верещагин. Колмогоровская сложность и алгоритмическая случайность.

  • Курс “Введение в теорию информации” А.Е. Ромащенко в Computer Science клубе.

Если вам интересны подобные материалы, подписывайтесь в соцсетях на CS клуб и CS центр, а так же на наши каналы на youtube: CS клуб, CS центр.

Как найти объём информации

При изучении курса информатики приходится решать задачи на нахождение объема информации, хранящейся на носителе или переданной по каналу связи за определенный времени. Единицами измерения объема информации являются бит, полубайт, байт, слово, двойное слово и их производные.

Как найти объём информации

Инструкция

При расчетах учитывайте, что один полубайт равен четырем битам, байт – восьми битам, слово – шестнадцати, а двойное слово – тридцати двум. Килобайт равен 1024 байтам, мегабайт – 1024 килобайтам, гигабайт – 1024 мегабайтам, терабайт – 1024 гигабайтам. Аналогичным образом переводятся друг в друга и килобиты, мегабиты, гигабиты и терабиты. Биты обозначаются строчной буквой «б», байты – заглавной буквой «Б».

Чтобы узнать объем информации, хранящейся на носителе, сложите между собой объемы всех хранящихся на нем файлов. Если все они одинаковые, просто умножьте объем одного из них на их количество. Учтите, что в некоторых файловых системах длина всех файлов автоматически округляется в сторону увеличения до некоторого заранее заданного значения. Обычно оно равно 4096 байт. Например, если на диске находится четыре файла объемом в 30, 50, 58749 и 14358 байт, то их суммарный объем равен 4096+4096+61440+20480 (последние два значения получены умножением числа 4096, соответственно, на 15 и на 5), или 90112 байт.

Объем информации, переданной по каналу связи за заданный промежуток времени, рассчитывайте так. Поскольку скорость передачи данных указывается в битах в секунду и их производных, вначале переведите ее в байты в секунду или их производные, поделив на 8. Например, 56 кб/с (килобит в секунду) = 7 кБ/с (килобайт в секунду). Затем умножьте эту скорость на время, выраженное в секунду. Например, за 10 секунд при указанной выше скорости по каналу будет передано 70 кБ (килобайт). Если данные передаются по GPRS-каналу, и тариф не безлимитный, результат следует всегда округлять в сторону увеличения до указанного провайдером порога. Так, если по такому каналу передан 1 килобайт, а порог равен 10 килобайт, стоимость передачи такого объема данных будет такой же, как для 10 килобайт.

Если в условиях задачи указана длина текста в символах, учитывайте, что в различных кодировках одному символов соответствует различное количество бит. В коде Бодо на один символ приходится 5 бит, в коде ASCII – 7 (но особенности хранения данных в вычислительных устройствах приводят к тому, что расходуется на его хранение 8 бит), в кодировках 866, КОИ-8Р, КОИ-8У, 1251 и аналогичных – 8 бит, а в кодировке Unicode – 16 бит (кроме символов из таблицы ASCII, которые занимают 8 бит и в Unicode).

Видео по теме

Войти на сайт

или

Забыли пароль?
Еще не зарегистрированы?

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Объем текстового файла

     Кодирование информации в ПК заключается в том, что каждому символу ставится в соответствие уникальный двоичный код. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

 КОИ-8: 1 символ – 1 байт = 8 бит

 UNICODE1 символ – 2 байта = 16 бит

ЗАДАЧА 1. Считая, что каждый символ кодируется одним байтом, оцените информационный объем сообщения:   Без труда не вытащишь рыбку из пруда!

РЕШЕНИЕ: Считаем количество символов в сообщении с учетом пробелов и знаков препинания. Получаем N=35. Т.к. один символ кодируется 1 байтом, то всё сообщение будет занимать в памяти компьютера 35 байт.

ЗАДАЧА 2. Оценить информационный объем сообщения в Unicode:   Без труда не вытащишь рыбку из пруда!

РЕШЕНИЕ: Количество символов в сообщении 35. Т.к. в Unicode один символ кодируется 2 байтами, то всё сообщение будет занимать в памяти компьютера 70 байт.

ЗАДАЧА 3. Определить информационный объем книги (в Мбайтах) подготовленной на компьютере, состоящей из 150 страниц (каждая страница содержит 40 строк, 60 символов в каждой строке).

РЕШЕНИЕ:

1) Подсчитаем количество символов в книге 40 * 60 * 150 = 360 000

2) Информационный объем книги составит    360 000 * 1 байт = 360 байт

3) Переведем в заданные единицы  360 000 байт / 1024 = 351,5625 Кбайт / 1024 = 0,34332275 Мбайт

Длина фразы составляет примерно 40 символов. Следовательно, ее объем можно приблизительно оценить в 40 х 2 = 80 байт. Такого варианта ответа нет, попробуем перевести результат в биты: 80 байт х 8 = 640 бит. Наиболее близкое значение из предложенных — 592 бита. Заметим, что разница между 640 и 592 составляет всего 48/16 = 3 символа в заданной кодировке и его можно считать несущественным по сравнению с длиной строки.

      Замечание: Подсчетом символов в строке можно убедиться, что их ровно 37 (включая точку и пробелы), поэтому оценка 592 бита = 74 байта, что соответствует ровно 37 символам в двухбайтовой кодировке, является точной.

Алфавит – это набор букв, символов препинания, цифр, пробел и т.п.

Полное число символов в алфавите называют мощностью алфавита

ЗАДАЧА 4. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 16 символов. Второй текст в алфавите мощностью 256 символов. Во сколько раз количество информации во втором тексте больше, чем в первом?

РЕШЕНИЕ:  Если первый текст составлен в алфавите мощностью (К) 16 символов, то количество информации, которое несет 1 символ (1) в этом тексте, можно определить из соотношения: N = 2′, таким образом, из 16 = 2′ получим 1 = 4 бита. Мощность второго алфавита – 256 символов, из 256 = 2′ получим 1 = 8 бит. Т.к. оба текста содержат одинаковое количество символов, количество информации во втором тексте больше, чем в первом, в 2 раза.

Скорость передачи информации

       Скорость передачи данных по каналам связи ограничена пропускной способностью канала. Пропускная способность канала связи изменяется как и скорость передачи данных в бит/сек (или кратностью этой величины Кбит/с, Мбит/с, байт/с, Кбайт/с, Мбайт/с). 
       Для вычислении объема информации V переданной по каналу связи с пропускной способностью а за время t используют формулу:
 

V = а * t
 

          ЗАДАЧА 1. Через ADSLсоединение файл размером 1000 Кбайт передавался 32 с. Сколько секунд потребуется для передачи файла размером 625 Кбайт.

          РЕШЕНИЕ: Найдем скорость ADSL соединения: 1000 Кбайт / 32 с. = 8000 Кбит / 32 с. = 250 Кбит/с.
Найдем время для передачи файла объемом 625 Кбайт: 625 Кбайт / 250 Кбит/с = 5000 Кбит / 250 Кбит/с. = 20 секунд.

         При решении задач на определении скорости и времени передачи данных возникает трудность с большими числами (пример 3 Мб/с = 25 165 824 бит/с), поэтому проще работать со степенями двойки (пример 3 Мб/с = 3 *  210 * 210 * 23  = 3 * 223 бита/с).
 

n

0
 
1
 
2
 
3
 
4
 
5
 
6
 
7
 
8
 
9
 
10
 

2n

1
 
2
 
4
 
8
 
16
 
32
 
64
 
128
 
256
 
512
 
1024
 

          ЗАДАЧА 2Скорость передачи данных через ADSL─соединение равна 512 000 бит/c. Передача файла через это соединение заняла 1 минуту. Определить размер файла в килобайтах.

          РЕШЕНИЕ:  Время передачи файла: 1 мин = 60 с = 4 * 15 с = 22 * 15 с 
                                  Скорость передачи файла:    512000 бит/c = 512 * 1000 бит/с = 29 * 125 * 8 бит/с    (1 байт = 8 бит)

                                                                                  29 * 125 байт/с = 29 * 125 бит/с  / 210  = 125 / 2   Кб/с

                                   Чтобы найти время объем файла, нужно умножить время передачи на скорость передачи:

                                        (22 * 15 с) * 125 / 2  Кб/с  = 2 * 15 * 125 Кб = 3750 Кб

7. Передача данных. Размеры файлов.


1. Вспоминай формулы по каждой теме


2. Решай новые задачи каждый день


3. Вдумчиво разбирай решения

Передача данных. Простейшие задачи на скорость, время и размер файла.

Игорь отправил файл весом (128) Кбайт своему другу. Файл пришёл другу Игоря через (64) секунды.

Укажите максимальный размер файла в Мбайтах, который сможет передать Игорь по этому же каналу связи за (512) секунд.

В ответе укажите только целое число, единицу измерение писать не нужно.

Найдём скорость данного канала связи: (cfrac{128}{64} = 2) Кбайт/с.

Найдём максимальный размер файла в Мбайтах, который можно передать за (512) секунд по этому же каналу связи: (512 cdot 2 = 1) Мбайт

Ответ: 1

Григорий сравнивает скорости двух модемов. Первый передаёт файл размером (3200) Мбайта за (256) секунд, а второй файл размером (400) Мбайт за (64) секунд.

Какой модем работает быстрее? Укажите в ответе модуль разности скоростей этих модемов в Мбит/с.

Найдём скорость первого модема в Мбит/с: (cfrac{3200 cdot 8}{256} = 100) Мбит/с

Найдём скорость второго модема в Мбит/с: (cfrac{400 cdot 8}{64} = 50) Мбит/с

(|v_1 – v_2| = 100 – 50 = 50) Мбит/с.

Ответ: 50

Анатолий сравнивает скорости двух модемов. Первый передаёт файл размером (2) Гбайта за (2048) секунд, а второй файл размером (2000) Мбайт за (4096) секунд.

Какой модем работает быстрее? Укажите в ответе модуль разности скоростей этих модемов в Кбит/с.

Найдём скорость первого модема в Кбит/с: (cfrac{2 cdot 2^{23}}{2^{11}} = 2^{13} = 8192) Кбит/с

Найдём скорость второго модема в Кбит/с: (cfrac{2000 cdot 2^{13}}{2^{12}} = 2000 cdot 2 = 4000) Кбит/с

(|v_1 – v_2| = 8192 – 4000 = 4192) Кбит/с.

Ответ: 4192

Яна отправила свой доклад, в котором (6000) символов(каждый символ кодируется (8) битами), своей подруге через канал связи со скоростью (15) Кбит/с.

Через сколько секунд доклад придёт подруге Яны? В ответе укажите только значение, единицу измерение писать не нужно.

Вес сообщения составил (6000 cdot 8 = 46,875) Кбит. Откуда время (= cfrac{46,875}{15} = 3,125) секунды.

Ответ: 3, 125

По защищённому каналу связи Школково((125) Мбит/с()) передаётся (3) файла: изображение, аудиофайл и видеофайл.

Файлы имеют следующие характеристики:

1) Изображение (-) (FullHD(1920 times 1080) пикселей().)

2) Аудиофайл (-) (64) Мбайт.

3) Видеофайл (-) (60) Мбайт.

Какое максимальное количество цветов могло быть использовать в палитре этого изображения, если передача файлов шла (8,189125) секунды?

Так как передача файлов шла (8,189125) секунды, было передано: (8,189125 cdot 125 cdot 2^{20} = 65513 cdot 2^{14}) бит.

Из них: (64) Мбайт (-) аудиофайл, (60) Мбайт (-) видеофайл.

Откуда, изображение могло занимать (65513 cdot 2^{14} – 124 cdot 2^{23} = 2025 cdot 2^{14}) бит.

Для хранения растрового изображения нужно выделить в памяти (I=N cdot i) бит, где (N) (-) количество пикселей и (i) (-) количество бит, отводимое на (1) пиксель.

Подставим известные значения в формулу: (I=N cdot i) и найдем глубину кодирования (-) (i:)

(2025 cdot 2^{14} = 1920 cdot 1080 cdot i Rightarrow 16)

Глубина кодирования (-) это количество бит, которые выделяются на хранение цвета одного пикселя. При глубине кодирования (i) бит на пиксель, код каждого пикселя выбирается из (2^i) возможных вариантов, поэтому можно использовать не более (2^i) различных цветов. Следовательно, изображение использует: (2^{16}=65536) цветов.

Ответ: 65536

По защищённому каналу связи Школково((50) Мбит/с()) передаётся (3) файла: изображение, аудиофайл и видеофайл.

Файлы имеют следующие характеристики:

1) Изображение (-) (2240) Кбайт.

2) Аудиофайл (-) (128) c; (32) кГц, глубина кодирования – (8) бит.

3) Видеофайл (-) (30) Мбайт.

Найдите количество каналов аудиозаписи, если передача файлов шла (6,4) секунды? В ответе укажите только целое число.

Так как передача файлов шла (6,4) секунды, было передано: (6,4 cdot 50 cdot 2^{20} = 320 cdot 2^{20} = 40) Мбайт.

Из них: (2,1875) Мбайт (-) изображение, (30) Мбайт (-) видеофайл.

Откуда, аудиофайл мог занимать (40 – 30 – 2,1875 = 125 cdot 2^{19}) бит.

Для хранения информации о звуке длительностью (t) секунд, закодированном с частотой дискретизации (f) Гц и глубиной кодирования (B) бит с (k) каналами записи требуется (t cdot f cdot B cdot k) бит памяти.

(f)(Гц) – частота дискретизации определяет количество отсчетов, запоминаемых за (1) секунду.

(B)(бит) – глубина кодирования – это количество бит, которые выделяются на один отсчет.

(I=tcdot f cdot Bcdot k)

(125 cdot 2^{19} = 128 cdot 32000 cdot k cdot 8 Rightarrow k = 2)

Ответ: 2

Яна сравнивает скорости двух модемов. Первый передаёт файл размером (2220000) Кбайт за (2) минуты, а второй файл размером (2250000) Кбайт за 3 минуты.

Какой модем работает быстрее? Укажите в ответе модуль разности скоростей этих модемов в Кбит/с.

Найдём скорость первого модема в Кбит/с: (cfrac{2220000 cdot 8}{2 cdot 60} = 148000) Кбит/с

Найдём скорость второго модема в Кбит/с: (cfrac{2250000 cdot 8}{3 cdot 60} = 100000) Кбит/с

(|v_1 – v_2| = 148000 – 100000 = 48000) Кбит/с.

Ответ: 48000

УСТАЛ? Просто отдохни

Добавить комментарий