caspian72.ru

Алфавитный подход к измерению информации. Измерение информации

Юникод. UTF-8

Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=2 16 =65 536 символов.

Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.

С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.

Для символов кириллицы в Юникоде выделено два диапазона кодов:

Cyrillic (#0400 - #04FF)

Cyrillic Supplement (#0500 - #052F).

Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени.

Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.

При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i .

Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе :

Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:



Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?

Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?

Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?

Задача 4. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?

Литература:

1. Информатика:учебник. Под ред.Н.Макаровой –М.:Финансы и статистика, 2000, 768с.

2. Симонович В.С. Информатика базовый курс:Учебник –М.:Питер, СПб,2000 – Пресс, 2000, 680с.

3. Симонович В.С. Информатика для экономистов и юристов:Учебник – М.:Питер, СПб, 2000-Пресс, 2000, 680с.

4. Операционная система Windows 95. Для программиста –М.: ДИАЛОГ-МИФИ, 1996.-288с.

«Биография Алексея Толстого» - В последние годы обратился к поэзии (писал баллады и политические сатиры в стихах). Совместно с братьями Жемчужниковыми создал пародийный образ Козьмы Пруткова. Родился 24 августа (5 сентября н.с.) в Петербурге в знатной дворянской семье. Алексей Толстой. Похоронен в Ницце на Русско кладбище Кокад. Граф, русский писатель, член-корреспондент Петербургской Академии Наук (1873).

«Память и её виды» - Вопросы памяти человека. Память и её виды. Эмоциональная память. Немецкий ученый Г. Эббингауз. Слуховая память. Формирование и развитие памяти. Память. Индивидуальные различия памяти у людей. Предварительное повторение материала. Живое существо. Теории и законы памяти. Память лежит в основе способностей человека.

«Рылеев» - Они знаменуют окончательное преодоление поэтом конституционно-монархических иллюзий. По воспоминанию сослуживца, Рылеев был помешан на «равенстве и свободомыслии». Кондратий Федорович Рылеев 1795-1826. Стихотворение «Гражданин» - вершинное произведение декабристской лирики. Рылеев получил образование в 1 Кадетском корпусе в Петербурге.

«Полные и краткие прилагательные» - Студеный - очень холодный. Найдите лексическое соответствие. Славный – свежий, чистый. Река быстра и широкая. Цели: Славный – очень хороший, приятный. Полные и краткие прилагательные. Усталый - испытывающий слабость, упадок сил. Ядреный - свежий, чистый. Славная Ядреный Мягкой Свежи Здоровый Студеный Желты Усталые.

«Моя мама» - Мама самый нужный и прекрасный человек. Моя мама очень красивая. Мою маму зовут Татьяна. Мама работает в детском саду нянечкой. Летом на лице много веснушек. Моя мама высокого роста, рыжеволосая с зелеными глазами. Мама у меня самая красивая. Я очень люблю свою маму. Моя мама очень красивая, добрая, ласковая и заботливая.

«Овощи» - Кресс-салат. Томат. Роль овощей в питании человека. Технология приготовления салатов. Оформление овощных салатов. Группы овощей. Первичная обработка овощей. Нарезка овощей. Что такое салат. Карвинг в кулинарии. Сортировка овощей. Пряности. Патиссон. Правила приготовления салатов. Вопросы для повторения.

Всего в теме 23693 презентации

Задача№ 6:

В достаточном алфавите 1 символ весит 1 байт

В книге 100 страниц. На каждой странице 60 строк по 80 символов в строке. Вычислить информационный объем книги.

В книге 100 страниц
На странице 60 строк
В строке 80 символов

Вычислить информационный объем книги.

1. Количество символов в книге: 60 * 80 * 100 = 480 000.

2. 1 символ – это 1 байт, значит, в книге содержится 480 000 байт информации.

3. 480 000 / 1024 = 486,75 Кб ~ 0,46 Мб.

Ответ: Информационный объем книги – 0,46 Мбайт.

Задача№7

Какой объём памяти на диске требуется для записи 5 страниц текста набранного на компьютере, если каждая страница содержит 30 строк по 70 символов в строке?

Дано:

Алфавит имеет 256 символов. Для точного указания каждого из них в двоичном коде нужно 8 бит (или 1 байт), потому что 2 ^ 8 = 256. То есть диапазон двоичных чисел, соответствующих символам, будет от 00000000 до 11111111. Значит, для записи любого символа достаточно 8 бит (1 байт) информации.

Ответ: 70 * 30 * 5 [символов] * 1 [байт/символ] = 10500 байт (или 10500 * 8 = 84000 бит).

Задача№8

Документ содержит точечную черно-белую фотографию 10 х 15 см. Каждый квадратный сантиметр содержит 600 точек, каждая точка описывается 4 битами. Каков общий информационный объем документа в килобайтах?
Решение. Вычислим общее количество точек, содержащихся в фотографии. Обратите внимание, что 600 точек содержит не линейный сантиметр, а квадратный. Таким образом общее число точек будет 10 х 15 х 600 = 9000 точек. Поскольку точка описывается 4 битами, то общее число бит 9000 х 4 = 36000 бит.
Переведем биты в байты и получим 36000: 8 = 4500 байт
Переведем байты в килобайты 4500: 1024 = 4,39 килобайт.

Ответ:Общий объем=4,39

Задача№9

Информационный объем текста, набранного на компьютере с использованием кодировки UNICODE (каждый символ кодируется 16 битами), — 2 Кб. Определить количество символов в тексте.
Решение. Чтобы определить количество символов в тексте, надо знать информационный объем всего текста и информационный вес одного символа.
Однако прежде, чем выполнять деление, необходимо привести величины к одинаковым единицам измерения.
2 кб= 2 х 1024 = 2048 байт весь объем информации.
каждый символ кодируется 16 битами или 2 байтами. Отсюда 2048: 2 = 1024 символа в тексте.

Задача№10

Черные шарики составляют 1/4 из всех шаров, следовательно информация о том что достали черный шарик соответствует одному из 4 вариантов. 1 из 4 вариантов несет в себе количество информации равное 2 (4=2 2 ).
Также можно решить данную задачу по формуле Шеннона: количество вариантов получения черного шарика равна 4, следовательно, I=log 2 4 = 2 бита.
Ответ: 2 бита.

ЭВМ может хранить и обрабатывать информацию только в виде комбинации электрических сигналов двух типов, которые принято обозначать 0 и 1 . Любая информация представляется в ЭВМ последовательностью этих сигналов. Такие последовательности называют двоичными кодами . 0 и 1 в коде самая мелкая единица информации и называется битом .

Какой длины должна быть кодовая группа (из скольких 0 и 1 состоять).

Рассмотрим пример. Закодировать (записать) все буквы русского алфавита одинаковым количеством нулей и единиц, но так, чтобы каждой букве соответствовал особый номер.

1. Если взять только два знака: 0 и 1, то удается закодировать только 4 буквы. Поясним это: А=00 Б=01 В=10 Г=11

Это объясняется тем, что число комбинаций из двух символов (битов) 0 и 1 по два равно 2 2 =4.

2. Попробуем взять три знака:

А=000 Б=001 В=010 Г=011

Д=100 Е=101 Ж=110 3=111

Теперь число комбинаций равно 2 3 = 8

3. Легко догадаться, что 2 5 =32 , т.е. использование пяти знаков позволяет закодировать однозначно каждую букву русского алфавита.

Но для представления произвольной информации в ЭВМ недостаточно закодировать только буквы. Поэтому кодирование букв (заглавных и прописных латинского и русского алфавитов), цифр, знаков препинания, спецзнаков и прочее требует использования 8 знаков (1 символ записывается кодом из 8 нулей и единиц).

Двоичный 8-разрядный код позволяет закодировать 2 8 =256 различных символов.

Соответствие между символами и их кодами задается с помощью таблиц кодов. В ЭВМ широко используется Код Обмена Информацией - КОИ-7.

Итак:

Код - это ключ для перевода информации из одной формы в другую.

Кодирование процесс преобразования информации в совокупность символов, определяемую кодом.

Основные понятия:

Объективным способом измерения информации является алфавитный подход. Только этот подход пригоден при использовании технических средств работы с информацией.

Алфавит – это все множество символов, используемых в некотором языке для представления информации.

Мощность алфавита – это число символов в нем.

Количество информации i , которое несет один символ (информационный вес одного символа алфавита) в тексте, и мощность алфавита N связаны формулой:

2 i = N

Количество информации зависит от объема текста и от мощности алфавита.

Компьютерные редакторы работают с алфавитом мощностью 256 символов .

Примеры решения задач

Задача 1.

Один символ алфавита "весит" 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:

Ответ: 16

Задача 2

Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:

Ответ: 5

Задача 3

Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице - 40 строк, в каждой строке - 60 символов. Каков объем информации в книге? Ответ дайте в килобайтах и мегабайтах
Решение:
Дано:

Ответ: 351Кбайт или 0,4Мбайт

Задача 4

Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, - 128 килобайт. Определить количество символов в тексте книги.
Решение:
Дано:

Ответ: 65536

Решаем сами

Задача 1

Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?

сверь ответ: 256

Задача 2

У племени "чичевоков" в алфавите 24 буквы и 8 цифр. Знаков препинания и арифметических знаков нет. Какое минимальное количество двоичных разрядов им необходимо для кодирования всех символов?

сверь ответ: 5 бит


Задача 3

Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?

сверь ответ: 120 бит

Задача 4

Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составил 1/16 часть мегабайта?

сверь ответ: 131072



Загрузка...