Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 17 мая 2019 года; проверки требуют 47 правок.
Формула Хартли или хартлиевское количество информации или мера Хартли — логарифмическая мера информации, которая определяет количество информации, содержащееся в сообщении.
Где N — количество символов в используемом алфавите (мощность алфавита), K — длина сообщения (количество символов в сообщении), I — количество информации в сообщении в битах.
Формула была предложена Ральфом Хартли в 1928 году как один из научных подходов к оценке сообщений.
Для случая определения количества информации i в одном символе алфавита мощности N, формула Хартли принимает вид:
Соответственно, мощность алфавита равна:
Из формулы Хартли следует, что алфавит, содержащий только 1 символ не может быть использован для передачи информации:
Пусть, имеется алфавит А, из N букв которого составляется сообщение:
Количество возможных вариантов разных сообщений:
где M — возможное количество различных сообщений, N — количество букв в алфавите, K — количество букв в сообщении.
Рассмотрим следующий пример. Цепь ДНК состоит из 4 видов азотистых оснований: Аденин (A), Гуанин (G), Тимин (T), Цитозин (C). Следовательно, мощность «алфавита» ДНК N равна 4. Значит, каждое азотистое основание несет бита информации.
Пример: Пусть алфавит состоит из 16 символов «1», «2», «3», «4», «5», «6», «7», «8», «9», «0», «+», «-», «*», «/», «^», «#», а длина сообщения составляет 10 символов (например, команда «*123*1*3^#») — таким образом, мощность алфавита N = 16, а длина сообщения K = 10. При выбранных нами алфавите и длине сообщения можно составить сообщений. По формуле Хартли можно определить, что количество информации в каждом символе одного из этих сообщений равно бита, а количество информации во всем сообщении, соответственно, равно бит.
При равновероятности символов формула Хартли переходит в собственную информацию.
Иллюстрация[править | править код]
Допустим, нам требуется что-либо найти или определить в той или иной системе. Есть такой способ поиска, как «деление пополам». Например, кто-то загадывает число от 1 до 100, а другой должен отгадать его, получая лишь ответы «да» или «нет». Задаётся вопрос: «число меньше N?». Любой из ответов «да» и «нет» сократит область поиска вдвое. Далее по той же схеме диапазон снова делится пополам. В конечном счёте загаданное число будет найдено.
Сколько вопросов надо задать, чтобы найти задуманное число от 1 до 100. Допустим, загаданное число 27. Вариант диалога:
Больше 50? Нет. Больше 25? Да. Больше 38? Нет. Меньше 32? Да. Меньше 29? Да. Меньше 27? Нет. Это число 28? Нет.
Если число не 28 и не меньше 27, то это явно 27. Чтобы угадать методом «деления пополам» число от 1 до 100, нам потребовалось 7 вопросов.
Можно просто спрашивать: это число 1? Это число 2? И т. д. Но тогда вам потребуется намного больше вопросов. «Деление пополам» — оптимальный в данном случае способ нахождения числа. Объём информации, заложенный в ответ «да»/«нет», если эти ответы равновероятны, равен одному биту (действительно, ведь бит имеет два состояния: 1 или 0). Итак, для угадывания числа от 1 до 100 нам потребовалось 35 битов (семь ответов «да»/«нет»).
Такой формулой можно представить, сколько вопросов (битов информации) потребуется, чтобы определить одно из возможных значений. N — это количество значений, а i — количество битов. Например, в нашем примере 27 меньше, чем 28, однако больше, чем 26. Да, нам могло бы потребоваться и всего 6 вопросов, если бы загаданное число было 28.
Формула Хартли:
Количество информации (i), необходимой для определения конкретного элемента, есть логарифм по основанию 2 общего количества элементов (N).
Формула Шеннона[1][править | править код]
Когда события не равновероятны, может использоваться формула Шеннона:
где pi вероятность i-го события.
См. также[править | править код]
- Собственная информация
Примечания[править | править код]
- ↑ Шеннон, Клод // Википедия. — 2019-08-05.
Все мы привыкли к тому, что все вокруг можно измерить. Мы можем определить массу посылки, длину стола, скорость движения автомобиля. Но как определить количество информации, содержащееся в сообщении? Ответ на вопрос в статье.
Итак, давайте для начала выберем сообщение. Пусть это будет «Принтер — устройство вывода информации.«. Наша задача — определить, сколько информации содержится в данном сообщении. Иными словами — сколько памяти потребуется для его хранения.
Определение количества информации в сообщении
Для решения задачи нам нужно определить, сколько информации несет один символ сообщения, а потом умножить это значение на количество символов. И если количество символов мы можем посчитать, то вес символа нужно вычислить. Для этого посчитаем количество различных символов в сообщении. Напомню, что знаки препинания, пробел — это тоже символы. Кроме того, если в сообщении встречается одна и та же строчная и прописная буква — мы считаем их как два различных символа. Приступим.
В слове Принтер 6 различных символов (р встречается дважды и считается один раз), далее 7-й символ пробел и девятый — тире. Так как пробел уже был, то после тире мы его не считаем. В слове устройство 10 символов, но различных — 7, так как буквы с, т и о повторяются. Кроме того буквы т и р уже была в слове Принтер. Так что получается, что в слове устройство 5 различных символов. Считая таким образом дальше мы получим, что в сообщении 20 различных символов.
Далее вспомним формулу, которую называют главной формулой информатики:
2i=N
Подставив в нее вместо N количество различных символов, мы узнаем, сколько информации несет один символ в битах. В нашем случае формула будет выглядеть так:
2i=20
Вспомним степени двойки и поймем, что i находится в диапазоне от 4 до 5 (так как 24=16, а 25=32). А так как бит — минимальная единица измерения информации и дробным быть не может, то мы округляем i в большую сторону до 5. Иначе, если принять, что i=4, мы смогли бы закодировать только 24=16 символов, а у нас их 20. Поэтому получаем, что i=5, то есть каждый символ в нашем сообщении несет 5 бит информации.
Осталось посчитать сколько символов в нашем сообщении. Но теперь мы будем считать все символы, не важно повторяются они или нет. Получим, что сообщение состоит из 39 символов. А так как каждый символ — это 5 бит информации, то, умножив 5 на 39 мы получим:
5 бит x 39 символов = 195 бит
Это и есть ответ на вопрос задачи — в сообщении 195 бит информации. И, подводя итог, можно написать алгоритм нахождения объема информации в сообщении:
- посчитать количество различных символов.
- подставив это значение в формулу 2i=N найти вес одного символа (округлив в большую сторону)
- посчитать общее количество символов и умножить это число на вес одного символа.
Автор:
Задачи, связанные с определением количества информации, занимают довольно большое место как в общем курсе 9-11 классов, так и при итоговой аттестации разного типа.
Обычно решение подобных задач не представляет трудности для учащихся с хорошими способностями к анализу ситуаций. Но большинство учеников поначалу путаются в понятиях и не знают, как приступить к решению.
Тем не менее, к 9-му классу учащиеся уже имеют определенный опыт решения задач по другим предметам (более всего – физика) с применением формул. Определить, что в задаче дано, что необходимо найти, и выразить одну переменную через другую – действия довольно привычные, и с ними справляются даже слабые ученики. Представляется возможным ввести некоторые дополнительные формулы в курсе информатики и найти общий стиль их применения в решении задач.
Оттолкнемся от одной из главных формул информатики – формулы Хартли N=2i. При ее использовании учащиеся могут еще не знать понятия логарифма, достаточно вначале иметь перед глазами, а затем запомнить таблицу степеней числа 2 хотя бы по 10-й степени.
При этом формула может применяться в решении задач разного типа, если правильно определить систему обозначений.
Выделим в системе задач на количество информации задачи следующих типов:
- Количество информации при вероятностном подходе;
- Кодирование положений;
- Количество информации при алфавитном подходе (кодирование текста);
- Кодирование графической информации;
- Кодирование звуковой информации
Все задачи группы A (в случае, если мы имеем дело с равновероятными событиями) решаются непосредственно по формуле Хартли с ее привычными обозначениями:
- N – количество равновероятных событий;
- i – количество бит в сообщении о том, что событие произошло,
Причем в задаче может быть определена любая из переменных с заданием найти вторую. В случае если число N не является непосредственно числом, представляющим ту или иную степень числа 2, количество бит нам необходимо определить «с запасом». Так для гарантированного угадывания числа в диапазоне от 1 до 100 необходимо задать минимально 7 вопросов (27=128).
Решение задач для случаев неравновероятных событий в этой статье не рассматривается.
Для решения задач групп B-E дополнительно введем еще одну формулу:
Q=k*i
и определим систему обозначений для задач разного типа.
Для задач группы B значение переменных в формуле Хартли таково:
- i – количество «двоичных элементов», используемых для кодирования;
- N – количество положений, которые можно закодировать посредством этих элементов.
Так:
- два флажка позволяют передать 4 различных сообщения;
- с помощью трех лампочек можно потенциально закодировать 8 различных сигналов;
- последовательность из 8 импульсов и пауз при передаче информации посредством электрического тока позволяет закодировать 256 различных текстовых знаков;
и т.п.
Рассмотрим структуру решения по формуле:
Задача 1: Сколько существует различных последовательностей из символов «плюс» и «минус» длиной ровно в пять символов?
Дано: i = 5
Найти: N
Решение: N = 25
Ответ: 5
Каждый элемент в последовательности для кодирования несет один бит информации.
Очевидно, что при определении количества элементов, необходимых для кодирования N положений, нас всегда интересует минимально необходимое для этого количество бит.
При однократном кодировании необходимого количества положений мы определяем необходимое количество бит и ограничиваемся формулой Хартли. Если кодирование проводится несколько раз, то это количество мы обозначаем как k и, определяя общее количество информации для всего кода (Q), применяем вторую формулу.
Задача 2: Метеорологическая станция ведет наблюдение за влажностью воздуха, результатом которых является целое число от 1 до 100%, которое кодируется посредством минимально возможного количества бит. Станция сделала 80 измерений. Какой информационный объем результатов наблюдений.
Дано: N = 100; k = 80
Найти: Q
Решение:
По формуле Хартли i = 7 (с запасом); Q = 80 * 7 = 560
Ответ: 560 бит
(Если в задаче даны варианты ответов с использованием других единиц измерения количества информации, осуществляем перевод: 560 бит = 70 байт).
Отметим дополнительно, что, если для кодирования используются нe «двоичные», а скажем, «троичные» элементы, то мы меняем в формуле основание степени.
Задача 3: Световое табло состоит из лампочек. Каждая из лампочек может находиться в одном из трех состояний («включено», «выключена» или «мигает»). Какое наименьшее количество лампочек должно находиться на табло, чтобы с его помощью можно было передать 18 различных сигналов.
В данном случае N = 18, основание степени – 3. Необходимо найти i. Если логарифмы еще не знакомы, определяем методом подбора – 5. Ответ: 5 лампочек
Далее рассмотрим решение задач на кодирование текстовой, графической и звуковой информации.
Здесь важно провести параллели:
Информация, которая обрабатывается на компьютере, должна быть представлена в виде конечного множества элементов (символ для текста, точка – для графики, фрагмент звуковой волны – для звука), каждый из которых кодируется отдельно с использованием заданного количества бит. Зависимость количества элементов, которые могут быть закодированы, от количества бит, отводимых, на кодирование одного элемента, как и раньше, определяем по формуле Хартли.
А путем умножения количества элементов (k) на «информационный вес» одного из них, определяем общее количество информации в текстовом, графическом, звуковом фрагменте (Q).
Каждую задачу можно решить, обозначив заданными переменными известные данные, и выразив одну переменную через другую. Только необходимо помнить, что непосредственно расчеты чаще всего производятся в минимальных единицах измерения (битах, секундах, герцах), а потом, если необходимо, ответ переводится в более крупные единицы измерения.
Рассмотрим конкретные примеры:
Алфавитный подход позволяет определить количество информации, заключенной в тексте. Причем под «текстом» в данном случае понимают любую конечную последовательность знаков, несущую информационную нагрузку. Поэтому обозначения переменных для задач группы C одинаково применимы как для задач на передачу обычной текстовой информации посредством компьютера (i = 8, N = 256 или i = 16, N = 16256) так и для задач на передачу сообщений посредством любых других алфавитов (здесь и далее используются разные названия, встречающиеся в задачах):
- i – количество бит, используемое для кодирования одного текстового знака, равнозначно: количество информации (в битах), в нем содержащееся, информационный «вес», информационный «объем» одного знака;
- N – полное количество знаков в алфавите, используемом для передачи сообщения, мощность алфавита;
- k – количество знаков в сообщении;
- Q – количество информации в сообщении (информационный «вес», «объем» сообщения), количество памяти, отведенное для хранения закодированной информации;
Задача 4: Объем сообщения – 7,5 кбайт. Известно, что данное сообщение содержит 7680 символов. Какова мощность алфавита?
Дано:
Q = 7,5 Кбайт = 7680 байт ( в данном случае нет необходимости перевода в биты);
k = 7680
Найти: N
Решение: i = Q / k = 1 байт = 8 бит; N = 28 = 256
Ответ: 256 знаков
Задача 5: Дан текст из 600 символов. Известно, что символы берутся из таблицы размером 16 на 32. Определите информационный объем текста в битах.
Дано:
k = 600; N = 16 * 32
Найти: Q
Решение:
N = 24 * 25 = 29; i = 9; Q = 600 * 9 = 5400 бит;
Ответ: 5400 бит
Задача 6: Мощность алфавита равна 64. Сколько кбайт памяти потребуется, чтобы сохранить 128 страниц текста, содержащего в среднем 256 символов на каждой странице?
Дано:
N = 64; k = 128 * 256
Найти: Q
Решение:
64 = 2i; i = 6; Q = 128 * 256 * 6 = 196608 бит = 24576 байт = 24 Кбайт;
Ответ: 24 Кбайт
Задача 7: Для кодирования нотной записи используется 7 значков-нот. Каждая нота кодируется одним и тем же минимально возможным количеством бит. Чему равен информационный объем сообщения, состоящего из 180 нот?
Дано:
N = 7; k = 180
Найти: Q
Решение:
7 = 2i; i = 3 (с запасом); Q = 180 * 3 = 540 бит;
Ответ: 540 бит
Рассматривая задачи групп D и E, вспоминаем, что при кодировании графики и звука производится дискретизация, то есть разбиение изображения на конечное множество элементов (пикселей) и звуковой волны на конечное множество отрезков, количество которых зависит от количества измерений в секунду уровня звука (частоты дискретизации) и времени звучания звукового файла.
То есть –
- общее количество элементов в графическом файле (k) равно разрешению изображения или разрешению экрана монитора, если изображение формируется на весь экран,
- общее количество элементов в звуковом файле (k) равно произведению частоты дискретизации на время звучания (важно при этом использовать в качестве единиц измерения минимальные единицы – герцы и секунды).
Рассмотрим всю систему обозначений для данного типа задач:
- i – количество бит, используемое для кодирования одного элемента изображения или звукового фрагмента, равнозначно: глубина цвета, звука;
- N – насыщенность цвета, равнозначно: количество цветов в палитре изображения, цветовое разрешение изображения; насыщенность звука (в задачах обычно не используется);
- k – количество точек в изображении, равнозначно: разрешение изображения (или экрана) или количество фрагментов дискретной звуковой волны (равно произведению частоты дискретизации на время звучания);
- Q – количество информации, содержащееся в графическом (звуковом) файле, равнозначно: информационный «объем», «вес» графического (звукового) файла, объем памяти (видеопамяти), необходимый для хранения заданного файла.
Задача 8: Для хранения растрового изображения размером 64 на 64 пикселя отвели 512 байтов памяти. Каково максимально возможное число цветов в палитре изображения?
Дано:
k = 64 * 64 = 212; Q = 512 байтов = 29 * 23 = 212 бит;
Найти: N
Решение:
i = Q / k = 212 / 212 = 1; N = 21 = 2
Ответ: 2 цвета
Задача 9: Сколько памяти нужно для хранения 64-цветного растрового графического изображения размером 32 на 128 точек?
Дано:
N = 64; k = 32 * 128;
Найти: Q
Решение:
i = 6 (по формуле Хартли); Q = 32 * 128 * 6 = 24576 бит = 3072 байт = 3 Кбайт
Ответ: 3 Кбайт
Задача 10: Оцените информационный объем моноаудиофайла длительностью звучания 1 минута, если глубина кодирования равна 16 бит при частоте дискретизации 8 кГц
Дано:
k = 60 * 8000; i = 16;
Найти: Q
Решение:
Q = 60 * 8000 * 16 = 7680000 бит = 960000 байт = 937,5 Кбайт
Ответ: 937,5 Кбайт
(Если файл стерео, Q будет больше в 2 раза).
Задача 11: Рассчитайте время звучания моноаудиофайла, если при 16-битном кодировании и частоте дискретизации 32 кГц его объем равен 625 Кбайт
Дано:
i = 16; k = 32000 * t; Q = 625 кбайт = 640000 байт = 5120000 бит;
Найти: t
Решение:
k = Q / i; k = 5120000 / 16 = 320000; t = 320000 / 32000 = 10 сек
Ответ: 10 секунд
В эту же схему укладывается решение задач на скорость передачи информации любого типа, если в хорошо известной учащимся формуле:
S = V * t принять S = Q (количество переданной информации вместо расстояния).
Задача 12: Сколько секунд потребуется обычному модему, передающему сообщения со скоростью 28800 бит/сек, чтобы передать цветное растровое изображение размером 640 на 480 пикселей, при условии, что цвет каждого пикселя кодируется тремя байтами?
Дано:
V = 28800 бит/сек; k = 640 * 480; i = 3 байт = 24 бит;
Найти: t
Решение:
t = S (Q) / V; Q = k * i = 640 * 480 * 24 = 7372800 бит; t = 7372800 / 28800 = 256 сек.
Ответ: 256 сек
В заключение отметим, что после определенной тренировки решения задач по формулам, многие учащиеся перестают нуждаться в их прописывании в задаче, сразу определяя порядок необходимых арифметических действий для ее решения.
Лекция 7. Вычисление количества информации по формулам Хартли и Шеннона. Решение задач
При определении количества информации на основе уменьшения неопределенности наших знаний мы рассматриваем информацию с точки зрения содержания, ее понятности и новизны для человека. С этой точки зрения в опыте по бросанию монеты одинаковое количество информации содержится и в зрительном образе упавшей монеты, и в коротком сообщении “Орел”, и в длинной фразе “Монета упала на поверхность земли той стороной вверх, на которой изображен орел”.
Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цветов точек изображения и так далее).
Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события). Тогда, если считать, что появление символов в сообщении равновероятно, по формуле (2.1) можно рассчитать, какое количество информации несет каждый символ.
Так, в русском алфавите, если не использовать букву ё, количество событий (букв) будет равно 32. Тогда:
32 = 2I, откуда I = 5 битов.
Каждый символ несет 5 битов информации (его информационная емкость равна 5 битов). Количество информации в сообщении можно подсчитать, умножив количество информации, которое несет один символ, на количество символов.
Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на количество знаков.
Вопросы для размышления
1. Пусть две книги на русском и китайском языках содержат одинаковое количество знаков. В какой книге содержится большее количество информации с точки зрения алфавитного подхода?
Содержательный подход к измерению информации рассматривает информацию с точки зрения человека, как уменьшение неопределенности наших знаний.
Однако любое техническое устройство не воспринимает содержание информации.Поэтому в вычислительной технике используется другой подход к определению количества информации. Он называется алфавитным подходом.
При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Проще всего разобраться в этом на примере текста, написанного на каком-нибудь языке. Для нас удобнее, чтобы это был русский язык.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.
Алфавит – множество символов, используемых при записи текста.
Мощность (размер) алфавита – полное количество символов в алфавите.
Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.
Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение. В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле N = 2I (см. содержательный подход) каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит – такое количество информации несет один символ в русском тексте.
Чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.
Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50×60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.
При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.
Таким образом, алфавитный подход к измерению информации можно изобразить в виде таблицы:
При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации.
Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые – старые», «понятные – непонятные» сведения.
Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.
Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24= 16. А если N =32, то один символ «весит» 5 бит.
Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы встречались при рассмотрении темы “Кодирование текствовой информации”. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания….
Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название – байт.
1 байт = 8 бит.
Для измерения больших объемов информации используются следующие единицы:
1 Кб (один килобайт)= 1024 байт=210байт
1 Мб (один мегабайт)= 1024 Кб=210Кбайт=220байт
1 Гб (один гигабайт)= 1024 Мб=210Mбайт=230байт
1Тбайт (один терабайт)=210Гбайт=1024Гбайт=240байт
1Пбайт(один петабайт)=210Тбайт=1024Тбайт=250байт
1Эбайт(один экзабайт)=210Пбайт=1024Пбайт=260байт
1Збайт(один зетабайт)=210Эбайт=1024Эбайт=270байт
1Йбайт(один йотабайт)=210Збайт=1024Збайт=280байт.
Алфавитный подход к определению количества информации РЕШЕНИЕ ЗАДАЧ
При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов – знаков (букв, цифр, кодов цветов точек изображения и т.д.).
Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событийN можно вычислить как N=2i
Количество информации в сообщении I можно подсчитать умножив количество символов K на информационный вес одного символа i
Итак, мы имеем формулы, необходимые для определения количества информации в алфавитном подходе:
N=2i |
i |
Информационный вес символа, бит |
N |
Мощность алфавита |
|
I=K*i |
K |
Количество символов в тексте |
I |
Информационный объем текста |
Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:
Тип |
Дано |
Найти |
Формула |
|
1 |
i |
N |
N=2i |
|
2 |
N |
i |
||
3 |
i,K |
I |
I=K*i |
|
4 |
i,I |
K |
||
5 |
I, K |
i |
||
6 |
N, K |
I |
Обе формулы |
|
7 |
N, I |
K |
||
8 |
I, K |
N |
Если к этим задачам добавить задачи на соотношение величин, записанных в разных единицах измерения, с использованием представления величин в виде степеней двойки мы получим 9 типов задач.
Рассмотрим задачи на все типы. Договоримся, что при переходе от одних единиц измерения информации к другим будем строить цепочку значений. Тогда уменьшается вероятность вычислительной ошибки.
Задача 1. Получено сообщение, информационный объем которого равен 32 битам. чему равен этот объем в байтах?
Решение: В одном байте 8 бит. 32:8=4
Ответ: 4 байта.
Задача 2. Объем информацинного сообщения 12582912 битов выразить в килобайтах и мегабайтах.
Решение: Поскольку 1Кбайт=1024 байт=1024*8 бит, то 12582912:(1024*8)=1536 Кбайт и
поскольку 1Мбайт=1024 Кбайт, то 1536:1024=1,5 Мбайт
Ответ:1536Кбайт и 1,5Мбайт.
Задача 3. Компьютер имеет оперативную память 512 Мб. Количество соответствующих этой величине бит больше:
1) 10 000 000 000бит 2) 8 000 000 000бит 3) 6 000 000 000бит 4) 4 000 000 000бит Решение: 512*1024*1024*8 бит=4294967296 бит.
Ответ: 4.
Задача 4. Определить количество битов в двух мегабайтах, используя для чисел только степени 2.
Решение: Поскольку 1байт=8битам=23битам, а 1Мбайт=210Кбайт=220байт=223бит. Отсюда, 2Мбайт=224бит.
Ответ: 224бит.
Задача 5. Сколько мегабайт информации содержит сообщение объемом 223бит?
Решение: Поскольку 1байт=8битам=23битам, то
223бит=223*223*23бит=210210байт=210Кбайт=1Мбайт.
Ответ: 1Мбайт
Задача 6. Один символ алфавита “весит” 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:
i=4 |
По формуле N=2i находим N=24, N=16 |
Найти: N – ? |
Ответ: 16
Задача 7. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
Решение:
Дано:
i=8 |
По формуле N=2i находим N=28, N=256 |
Найти:N – ? |
Ответ: 256
Задача 8. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
Решение:
Дано:
N=32 |
По формуле N=2i находим 32=2i, 25=2i,i=5 |
Найти: i– ? |
Ответ: 5
Задача 9. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:
N=100 |
По формуле N=2i находим 32=2i, 25=2i,i=5 |
Найти: i– ? |
Ответ: 5
Задача 10. У племени “чичевоков” в алфавите 24 буквы и 8 цифр. Знаков препинания и арифметических знаков нет. Какое минимальное количество двоичных разрядов им необходимо для кодирования всех символов? Учтите, что слова надо отделять друг от друга!
Решение:
Дано:
N=24+8=32 |
По формуле N=2i находим 32=2i, 25=2i,i=5 |
Найти: i– ? |
Ответ: 5
Задача 11. Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге? Ответ дайте в килобайтах и мегабайтах
Решение:
Дано:
K=360000 |
Определим количество символов в книге 150*40*60=360000. Один символ занимает один байт. По формуле I=K*iнаходим I=360000байт 360000:1024=351Кбайт=0,4Мбайт |
Найти: I– ? |
Ответ: 351Кбайт или 0,4Мбайт
Задача 12. Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, — 128 килобайт. Определить количество символов в тексте книги.
Решение:
Дано:
I=128Кбайт,i=2байт |
В кодировке Unicode один символ занимает 2 байта. Из формулыI=K*iвыразимK=I/i,K=128*1024:2=65536 |
Найти: K– ? |
Ответ: 65536
Задача 13.Информационное сообщение объемом 1,5 Кб содержит 3072 символа. Определить информационный вес одного символа использованного алфавита
Решение:
Дано:
I=1,5Кбайт,K=3072 |
Из формулы I=K*iвыразимi=I/K,i=1,5*1024*8:3072=4 |
Найти: i– ? |
Ответ: 4
Задача 14.Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?
Решение:
Дано:
N=64, K=20 |
По формуле N=2i находим 64=2i, 26=2i,i=6. По формуле I=K*i I=20*6=120 |
Найти: I– ? |
Ответ: 120бит
Задача 15. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составил 1/16 часть мегабайта?
Решение:
Дано:
N=16, I=1/16 Мбайт |
По формуле N=2i находим 16=2i, 24=2i,i=4. Из формулы I=K*i выразим K=I/i, K=(1/16)*1024*1024*8/4=131072 |
Найти: K– ? |
Ответ: 131072
Задача 16. Объем сообщения, содержащего 2048 символов,составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?
Решение:
Дано:
K=2048,I=1/512 Мбайт |
Из формулы I=K*i выразим i=I/K, i=(1/512)*1024*1024*8/2048=8. По формулеN=2iнаходим N=28=256 |
Найти: N– ? |
Ответ: 256
Задачи для самостоятельного решения:
-
Каждый символ алфавита записывается с помощью 4 цифр двоичного кода. Сколько символов в этом алфавите?
-
Алфавит для записи сообщений состоит из 32 символов, каков информационный вес одного символа? Не забудьте указать единицу измерения.
-
Информационный объем текста, набранного на компьюте¬ре с использованием кодировки Unicode (каждый символ кодируется 16 битами), — 4 Кб. Определить количество символов в тексте.
-
Объем информационного сообщения составляет 8192 бита. Выразить его в килобайтах.
-
Сколько бит информации содержит сообщение объемом 4 Мб? Ответ дать в степенях 2.
-
Сообщение, записанное буквами из 256-символьного ал¬фавита, содержит 256 символов. Какой объем информации оно несет в килобайтах?
-
Сколько существует различных звуковых сигналов, состоящих из последовательностей коротких и длинных звонков. Длина каждого сигнала — 6 звонков.
-
Метеорологическая станция ведет наблюдение за влажностью воздуха. Результатом одного измерения является целое число от 20 до 100%, которое записывается при помощи минимально возможного количества бит. Станция сделала 80 измерений. Определите информационный объем результатом наблюдений.
-
Скорость передачи данных через ADSL-соединение равна 512000 бит/с. Через данное соединение передают файл размером 1500 Кб. Определите время передачи файла в секундах.
-
Определите скорость работы модема, если за 256 с он может передать растровое изображение размером 640х480 пикселей. На каждый пиксель приходится 3 байта. А если в палитре 16 миллионов цветов?
Тема определения количества информации на основе алфавитного подхода используется в заданиях А1, А2, А3, А13, В5 контрольно-измерительных материалов ЕГЭ.
ОПРЕДЕЛЕНИЕ КОЛИЧЕСТВА ИНФОРМАЦИИ
представленной с помощью знаковых систем
Вариант 1
01 Алфавит племени Мульти состоит из 8 букв. Какое количество информации несет одна буква этого алфавита?
02 Сообщение, записанное буквами из 64-х символьного алфавита, содержит 20 символов. Какой объем информации оно несет?
03 Племя Мульти имеет 32-х символьный алфавит. Племя Пульти использует 64-х символьный алфавит. Вожди племен обменялись письмами. Письмо племени Мульти содержало 80 символов, а письмо племени Пульти – 70 символов. Сравните объемы информации, содержащейся в письмах.
04 Информационное сообщение объемом 1,5 Кбайта содержит 3072 символа. Сколько символов содержит алфавит, при помощи которого было записано это сообщение?
05 Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Каков размер алфавита, с помощью которого записано сообщение?
Вариант 2
01 Сколько символов содержит сообщение, записанное с помощью 16-ти символьного алфавита, если объем его составил 1/16 часть Мбайта?
02 Сколько килобайтов составляет сообщение, содержащее 12288 битов?
03 Сколько килобайтов составит сообщение из 384 символов 16-ти символьного алфавита?
04 Для записи текста использовался 256-символьный алфавит. Каждая страница содержит 30 строк по 70 символов в строке. Какой объем информации содержат 5 страниц текста?
05 Сообщение занимает 3 страницы по 25 строк. В каждой строке записано по 60 символов. Сколько символов в использованном алфавите, если все сообщение содержит 1125 байтов?
Вариант 3
01 Для записи сообщения использовался 64-х символьный алфавит. Каждая страница содержит 30 строк. Все сообщение содержит 8775 байтов информации и занимает 6 страниц. Сколько символов в строке?
02 Сообщение занимает 2 страницы и содержит 1/16 Кбайта информации. На каждой станице записано 256 символов. Какова мощность использованного алфавита?
03 Для записи текста использовался код Unicode. Каждая страница содержит 30 строк по 50 символов в строке. Какое количество информации содержат 6 страниц текста? Выразить в Кбайтах
04 Сравните (поставьте знак отношения)
1) 3 байта _____24 бита.
2) 1536 бит_____ 1,5 Кбайта..
05 Скорость передачи данных через ADSL-соединение равна 256 000 бит/с. Передача файла через данное соединение заняла 3 мин. Определите размер файла в килобайтах.
Вариант 4
01 Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
02 Какова мощность алфавита, с помощью которого записано сообщение, содержащее 2048 символов, если его объем составляет 1/512 часть одного мегабайта?
03 Пользователь компьютера, хорошо владеющий навыками ввода информации с клавиатуры, может вводить в минуту 100 знаков. Мощность алфавита, используемого в компьютере, равна 256. Какое количество информации в байтах может ввести пользователь в компьютер за 1 минуту?
04 Система оптического распознавания символов позволяет преобразовывать отсканированные изображения страниц документа в текстовый формат со скоростью 4 страницы в минуту и использует алфавит мощностью 65536 символов. Какое количество информации будет нести текстовый документ после 5 минут работы приложения, страницы которого содержат 40 строк по 50 символов?
05 На странице 32 строки, в каждой строке 64 символа. Определите информационный объём рассказа, если каждый символ кодируется 16 битами.
Вариант 5
01 Сколько килобайт занимает текстовая информация, записанная на 10 страницах. На каждой странице 256 символов, один символ занимает 8 бит.
02 Переведите единицы количества информации
a) 87 байт в биты
b) 122880 бит в кбайты
c) 18432 кбайт в Мбайты
03 Какое количество информации несет двоичный код 101111011?
04 Студенты сдают экзамен по информатике по билетам. Преподаватель сообщил им, что информационное сообщение о номере билета содержит 7 битов информации. Сколько экзаменационных билетов?
05 Переведите:
a) 94 байта в биты
b) 25 кбайт в биты
Вариант 6
01 Из непрозрачного мешочка вынимают шарики с номерами, известно, что информационное сообщение о номере шарика несет 7 бит информации. Определить количество шариков в мешочке
02 Считая, что каждый символ кодируется 16-ю битами, оцените информационный объем следующей пушкинской фразы:
Привычка свыше нам дана: Замена счастию она.
Выразить в байтах.
03 Считая, что каждый символ кодируется одним байтом. Каждая страница содержит 30 строк по 70 символов в строке. Какое количество информации содержат 3 страницы текста? Выразить в килобайтах
04 Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, — 128 килобайт. Определить количество символов в тексте книги.
05 Файл объемом 5120 Кбайт передается по локальной сети. Скорость передачи данных равна 256 000 бит/с. Сколько времени в минутах займет передача данных?
Вариант 7
01 На странице 48 строк, в каждой строке 64 символа. Определите информационный объём рассказа, если каждый символ кодируется 8 битами. Выразить в килобайтах.
02 Сколько килобайт занимает текстовая информация, записанная на 20 страницах. На каждой странице 128 символов, один символ занимает 8 бит.
03 Переведите единицы количества информации
а) 712 бит в байты
б) 16 кбайт в биты
в) 32 Гбайта в Мбайты
04 Какое количество информации несет двоичный код 101101011?.
05 Из непрозрачного мешочка вынимают шарики с номерами и известно, что информационное сообщение о номере шарика несет 6 битов информации. Определите количество шариков в мешочке. (Подробное решение)
Вариант 8
01 Информационное сообщение объемом 1,5 Кб содержит 3072 символа. Определить информационный вес одного символа использованного алфавита
02 Переведите: а) 448 бит в байты б) 147456 бит в кбайты
03 В корзине лежат шары. Все разного цвета. Сообщение о том, что достали синий шар, несет 5 бит информации. Сколько всего шаров было в корзине?
04 Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге? Ответ дайте в мегабайтах
05 Считая, что каждый символ кодируется двумя байтами, оцените информационный объем следующего предложения:
Один пуд – около 16,4 килограмм.
Дополнительные задания:
01 Два сообщения содержат одинаковое количество символов. Количество информации в первом тексте в 1,5 раза больше, чем во втором. Сколько символов содержат алфавиты, с помощью которых записаны сообщения, если известно, что число символов в каждом алфавите не превышает 10 и на каждый символ приходится целое число битов?
02 Два сообщения содержат одинаковое количество информации. Количество символов в первом тексте в 2,5 раза меньше, чем во втором. Сколько символов содержат алфавиты, с помощью которых записаны сообщения, если известно, что размер каждого алфавита не превышает 32 символов и на каждый символ приходится целое число битов?
03 ДНК человека (генетический код) можно представить себе как некоторое слово в четырехбуквенном алфавите, где каждой буквой помечается звено цепи ДНК, или нуклеотид. Сколько информации (в битах) содержит ДНК человека, содержащий примерно 1,5 х1023 нуклеотидов?
1.2. Формула Хартли измерения количества информации. Закон аддитивности информации
Как уже упоминалось выше, в качестве основной единицы измерения информации мы будем использовать бит. Соответственно, с точки зрения алфавитного подхода мы будем кодировать информацию при помощи нулей и единиц (двоичных знаков).
Для того чтобы измерить количество информации в сообщении, надо закодировать сообщение в виде последовательности нулей и единиц наиболее рациональным способом, позволяющим получить самую короткую последовательность. Длина полученной последовательности нулей и единиц и является мерой количества информации в битах.
Поставим себе одну из наиболее часто встречающихся задач в теории информации. Пусть у нас есть `N` возможных равновероятных вариантов исходов некоторого события. Какое количество информации нам нужно получить, чтобы оставить только один вариант?
Например, пусть мы знаем, что некоторая интересная для нас книга находится на одной из полок нашего книжного шкафа, в котором `8` полок. Какое количество информации нам нужно получить, чтобы однозначно узнать полку, на которой находится книга?
Решим эту задачу с точки зрения содержательного и алфавитного подходов. Поскольку изначально в шкафу было `8` полок, а в итоге мы выберем одну, следовательно, неопределённость знания о местоположении книги уменьшится в `8` раз. Мы говорили, что один бит – это количество информации, уменьшающее неопределённость знания в `2` раза. Следовательно, мы должны получить `3` бита информации.
Теперь попробуем использовать алфавитный подход. Закодируем номера всех полок при помощи `0` и `1`. Получим следующие номера: `000, 001, 010, 011, 100, 101, 110, 111`. Для того чтобы узнать, на какой полке находится книга, мы должны узнать номер этой полки. Каждый номер состоит из `3` двоичных знаков. А по определению, `1` бит (в алфавитном подходе) – это количество информации в сообщении, состоящем из `1` двоичного знака. То есть мы тоже получим `3` бита информации.
Прежде чем продолжить рассмотрение поставленной общей задачи введём важное математическое определение.
Назовём логарифмом числа `N` по основанию `a` такое число `X`, что Обозначение:
`X=log_aN`.
На параметры логарифма налагаются некоторые ограничения. Число `N` обязательно должно быть строго больше `0`. Число `a` (основание логарифма) должно быть также строго больше нуля и при этом не равняться единице (ибо при возведении единицы в любую степень получается единица).
Теперь вернёмся к нашей задаче. Итак, какое же количество информации нам нужно получить, чтобы выбрать один исход из `N` равновероятных? Ответ на этот вопрос даёт формула Хартли: `H=log_aN`, где `N` – это количество исходов, а `H` – количество информации, которое нужно получить для однозначного выбора `1` исхода. Основание логарифма обозначает единицу измерения количества информации. То есть если мы будем измерять количество информации в битах, то логарифм нужно брать по основанию `2`, а если основной единицей измерения станет трит, то, соответственно, логарифм берётся по основанию `3`.
Рассмотрим несколько примеров применения формулы Хартли.
В библиотеке `16` стеллажей, в каждом стеллаже `8` полок. Какое количество информации несёт сообщение о том, что нужная книга находится на четвёртой полке?
Решим эту задачу с точки зрения содержательного подхода. В переданном нам сообщении указан только номер полки, но не указан номер стеллажа. Таким образом, устранилась неопределённость, связанная с полкой, а стеллаж, на котором находится книга, мы всё ещё не знаем. Так как известно, что в каждом стеллаже по `8` полок, следовательно, неопределённость уменьшилась в `8` раз. Следовательно, количество информации можно вычислить по формуле Хартли `H=log_2 8=3` бита информации.
Имеется `27` монет, одна из которых фальшивая и легче всех остальных. Сколько потребуется взвешиваний на двухчашечных весах, чтобы однозначно найти фальшивую монету?
В этой задаче неудобно использовать бит в качестве основной единицы измерения информации. Двухчашечные весы могут принимать три положения: левая чаша перевесила, значит, фальшивая монета находится в правой; правая чаша перевесила, значит, монета находится в левой; или же весы оказались в равновесии, что означает отсутствие фальшивой монеты на весах. Таким образом, одно взвешивание может уменьшить неопределённость в три раза, следовательно, будем использовать в качестве основной единицы измерения количес-тва информации трит.
По формуле Хартли `H = log _3 27 = 3` трита. Таким образом, мы видим, что для того чтобы найти фальшивую монету среди остальных, нам потребуется три взвешивания.
Логарифмы обладают очень важным свойством: `log_a(X*Y)=log_aX+log_aY`.
Если переформулировать это свойство в терминах количества информации, то мы получим закон аддитивности информации: Коли-чество информации`H(x_1, x_2)`, необходимое для установления пары `(x_1, x_2)`, равно сумме количеств информации `H(x_1)` и `H(x_2)`, необходимых для независимого установления элементов `x_1` и `x_2`:
`H(x_1,x_2)=H(x_1)+H(x_2)`.
Проиллюстрируем этот закон на примере. Пусть у нас есть игральная кость в форме октаэдра (с `8` гранями) и монета. И мы одновременно подбрасываем их вверх. Нужно узнать, какое количество информации несёт сообщение о верхней стороне монеты после падения (орёл или решка) и числе, выпавшему на игральной кости.
Игральная кость может упасть `8` различными способами, следовательно, по формуле Хартли можно вычислить, что, определив число, выпавшее на игральной кости, мы получаем `3` бита информации. Соответственно, монета может упасть только `2` способами и несёт в себе `1` бит информации. По закону аддитивности информации мы можем сложить полученные результаты и узнать, что интересующее нас сообщение несёт `4` бита информации.
Рассмотрим другой способ решения этой задачи. Если мы сразу рассмотрим все возможные исходы падения `2` предметов, то их будет `16` (кость выпадает `8` способами, а монета – орлом вверх, и кость выпадает `8` способами, а монета – решкой вверх). По формуле Хартли находим, что интересующее нас сообщение несёт `4` бита информации.
Если в результате вычислений по формуле Хартли получилось нецелое число, а в задаче требуется указать целое число бит, то результат следует округлить в большую сторону.