Алфавитный подход к измерению информации. Измерение информации
Юникод. UTF-8
Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=2 16 =65 536 символов.
Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.
С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.
В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.
Для символов кириллицы в Юникоде выделено два диапазона кодов:
Cyrillic (#0400 - #04FF)
Cyrillic Supplement (#0500 - #052F).
Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени.
Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.
При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).
Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i .
Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе :
Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:
Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?
Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
Задача 4. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Литература:
1. Информатика:учебник. Под ред.Н.Макаровой –М.:Финансы и статистика, 2000, 768с.
2. Симонович В.С. Информатика базовый курс:Учебник –М.:Питер, СПб,2000 – Пресс, 2000, 680с.
3. Симонович В.С. Информатика для экономистов и юристов:Учебник – М.:Питер, СПб, 2000-Пресс, 2000, 680с.
4. Операционная система Windows 95. Для программиста –М.: ДИАЛОГ-МИФИ, 1996.-288с.
«Биография Алексея Толстого» - В последние годы обратился к поэзии (писал баллады и политические сатиры в стихах). Совместно с братьями Жемчужниковыми создал пародийный образ Козьмы Пруткова. Родился 24 августа (5 сентября н.с.) в Петербурге в знатной дворянской семье. Алексей Толстой. Похоронен в Ницце на Русско кладбище Кокад. Граф, русский писатель, член-корреспондент Петербургской Академии Наук (1873).
«Память и её виды» - Вопросы памяти человека. Память и её виды. Эмоциональная память. Немецкий ученый Г. Эббингауз. Слуховая память. Формирование и развитие памяти. Память. Индивидуальные различия памяти у людей. Предварительное повторение материала. Живое существо. Теории и законы памяти. Память лежит в основе способностей человека.
«Рылеев» - Они знаменуют окончательное преодоление поэтом конституционно-монархических иллюзий. По воспоминанию сослуживца, Рылеев был помешан на «равенстве и свободомыслии». Кондратий Федорович Рылеев 1795-1826. Стихотворение «Гражданин» - вершинное произведение декабристской лирики. Рылеев получил образование в 1 Кадетском корпусе в Петербурге.
«Полные и краткие прилагательные» - Студеный - очень холодный. Найдите лексическое соответствие. Славный – свежий, чистый. Река быстра и широкая. Цели: Славный – очень хороший, приятный. Полные и краткие прилагательные. Усталый - испытывающий слабость, упадок сил. Ядреный - свежий, чистый. Славная Ядреный Мягкой Свежи Здоровый Студеный Желты Усталые.
«Моя мама» - Мама самый нужный и прекрасный человек. Моя мама очень красивая. Мою маму зовут Татьяна. Мама работает в детском саду нянечкой. Летом на лице много веснушек. Моя мама высокого роста, рыжеволосая с зелеными глазами. Мама у меня самая красивая. Я очень люблю свою маму. Моя мама очень красивая, добрая, ласковая и заботливая.
«Овощи» - Кресс-салат. Томат. Роль овощей в питании человека. Технология приготовления салатов. Оформление овощных салатов. Группы овощей. Первичная обработка овощей. Нарезка овощей. Что такое салат. Карвинг в кулинарии. Сортировка овощей. Пряности. Патиссон. Правила приготовления салатов. Вопросы для повторения.
Всего в теме 23693 презентации
Задача№ 6:
В достаточном алфавите 1 символ весит 1 байт
В книге 100 страниц. На каждой странице 60 строк по 80 символов в строке. Вычислить информационный объем книги.
В книге 100 страниц
На странице 60 строк
В строке 80 символов
Вычислить информационный объем книги.
1. Количество символов в книге: 60 * 80 * 100 = 480 000.
2. 1 символ – это 1 байт, значит, в книге содержится 480 000 байт информации.
3. 480 000 / 1024 = 486,75 Кб ~ 0,46 Мб.
Ответ: Информационный объем книги – 0,46 Мбайт.
Задача№7
Какой объём памяти на диске требуется для записи 5 страниц текста набранного на компьютере, если каждая страница содержит 30 строк по 70 символов в строке?
Дано:
Алфавит имеет 256 символов. Для точного указания каждого из них в двоичном коде нужно 8 бит (или 1 байт), потому что 2 ^ 8 = 256. То есть диапазон двоичных чисел, соответствующих символам, будет от 00000000 до 11111111. Значит, для записи любого символа достаточно 8 бит (1 байт) информации.
Ответ: 70 * 30 * 5 [символов] * 1 [байт/символ] = 10500 байт (или 10500 * 8 = 84000 бит).
Задача№8
Документ содержит точечную черно-белую фотографию 10 х 15 см. Каждый квадратный сантиметр содержит 600 точек, каждая точка описывается 4 битами. Каков общий информационный объем документа в килобайтах?
Решение. Вычислим общее количество точек, содержащихся в фотографии. Обратите внимание, что 600 точек содержит не линейный сантиметр, а квадратный. Таким образом общее число точек будет 10 х 15 х 600 = 9000 точек. Поскольку точка описывается 4 битами, то общее число бит 9000 х 4 = 36000 бит.
Переведем биты в байты и получим 36000: 8 = 4500 байт
Переведем байты в килобайты 4500: 1024 = 4,39 килобайт.
Ответ:Общий объем=4,39
Задача№9
Информационный объем текста, набранного на компьютере с использованием кодировки UNICODE (каждый символ кодируется 16 битами), — 2 Кб. Определить количество символов в тексте.
Решение. Чтобы определить количество символов в тексте, надо знать информационный объем всего текста и информационный вес одного символа.
Однако прежде, чем выполнять деление, необходимо привести величины к одинаковым единицам измерения.
2 кб= 2 х 1024 = 2048 байт весь объем информации.
каждый символ кодируется 16 битами или 2 байтами. Отсюда 2048: 2 = 1024 символа в тексте.
Задача№10
Черные шарики составляют 1/4 из всех шаров, следовательно информация о том что достали черный шарик соответствует одному из 4 вариантов. 1 из 4 вариантов несет в себе количество информации равное 2 (4=2
2 ).
Также можно решить данную задачу по формуле Шеннона: количество вариантов получения черного шарика равна 4, следовательно, I=log
2 4 = 2 бита.
Ответ: 2 бита.
ЭВМ может хранить и обрабатывать информацию только в виде комбинации электрических сигналов двух типов, которые принято обозначать 0 и 1 . Любая информация представляется в ЭВМ последовательностью этих сигналов. Такие последовательности называют двоичными кодами . 0 и 1 в коде самая мелкая единица информации и называется битом .
Какой длины должна быть кодовая группа (из скольких 0 и 1 состоять).
Рассмотрим пример. Закодировать (записать) все буквы русского алфавита одинаковым количеством нулей и единиц, но так, чтобы каждой букве соответствовал особый номер.
1. Если взять только два знака: 0 и 1, то удается закодировать только 4 буквы. Поясним это: А=00 Б=01 В=10 Г=11
Это объясняется тем, что число комбинаций из двух символов (битов) 0 и 1 по два равно 2 2 =4.
2. Попробуем взять три знака:
А=000 Б=001 В=010 Г=011
Д=100 Е=101 Ж=110 3=111
Теперь число комбинаций равно 2 3 = 8
3. Легко догадаться, что 2 5 =32 , т.е. использование пяти знаков позволяет закодировать однозначно каждую букву русского алфавита.
Но для представления произвольной информации в ЭВМ недостаточно закодировать только буквы. Поэтому кодирование букв (заглавных и прописных латинского и русского алфавитов), цифр, знаков препинания, спецзнаков и прочее требует использования 8 знаков (1 символ записывается кодом из 8 нулей и единиц).
Двоичный 8-разрядный код позволяет закодировать 2 8 =256 различных символов.
Соответствие между символами и их кодами задается с помощью таблиц кодов. В ЭВМ широко используется Код Обмена Информацией - КОИ-7.
Итак:
Код - это ключ для перевода информации из одной формы в другую.
Кодирование процесс преобразования информации в совокупность символов, определяемую кодом.
Основные понятия:
Объективным способом измерения информации является алфавитный подход. Только этот подход пригоден при использовании технических средств работы с информацией.
Алфавит – это все множество символов, используемых в некотором языке для представления информации.
Мощность алфавита – это число символов в нем.
Количество информации i , которое несет один символ (информационный вес одного символа алфавита) в тексте, и мощность алфавита N связаны формулой:
2 i = N
Количество информации зависит от объема текста и от мощности алфавита.
Компьютерные редакторы работают с алфавитом мощностью 256 символов .
Примеры решения задач
Задача 1.
Один символ алфавита "весит" 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:
Ответ: 16
Задача 2
Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:
Ответ: 5
Задача 3
Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице - 40 строк, в каждой строке - 60 символов. Каков объем информации в книге? Ответ дайте в килобайтах и
мегабайтах
Решение:
Дано:
Ответ: 351Кбайт или 0,4Мбайт
Задача 4
Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, - 128 килобайт. Определить количество символов в тексте книги.
Решение:
Дано:
Ответ: 65536
Решаем сами
Задача 1
Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
сверь ответ: 256
Задача 2
У племени "чичевоков" в алфавите 24 буквы и 8 цифр. Знаков препинания и арифметических знаков нет. Какое минимальное количество двоичных разрядов им необходимо для кодирования всех символов?
сверь ответ: 5 бит
Задача 3
Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?
сверь ответ: 120 бит
Задача 4
Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составил 1/16 часть мегабайта?
сверь ответ: 131072