Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах




НазваниеКраткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах
страница1/6
Дата публикации27.03.2013
Размер0.73 Mb.
ТипДокументы
vbibl.ru > Информатика > Документы
  1   2   3   4   5   6



Краткая история систем кодирования символов естественных языков в США, Европе и Восточно-азиатских странах

Общая информация о кодировании символов естественных языков



Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными

Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения. И с тем, что сейчас сложно будет найти компьютер, на котором не была бы установлена какая-либо программа для обработки текстов.

При этом многие люди, вероятно, и не догадываются о том, что текстовые данные в ПК представлены, в конечном итоге, в виде числовых данных. В современных компьютерных системах символы*, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления (см. Табл. 1). Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции**.

* Под "символами" далее в тексте статьи понимаются и цифры, и буквы, и иероглифы - прим. перев.
** Только в первом случае последовательность нулей и единиц трактуется как число в двоичной системе счисления, а во втором - как сложное логическое высказывание, в котором "1" обозначает истинность элементарного высказывания, а "0" - его ложность - прим. ред.



Таблица 1.
Двоичные значения, стоящие за алфавитно-цифровыми символами на экране в 7-битной кодировке ASCII.






^ Символ на экране

Двоичное значение для его обработки

Символ на экране

Двоичное значение для его обработки

 

1

0110001

A

1000001

2

0110010

B

1000010

3

0110011

C

1000011

4

0110100

D

1000100

5

0110101

E

1000101

Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее*.

* Конечно, в данном абзаце всё изложено в сильно упрощённом виде. Более подробно всё это описано в [1]. - прим. перев.

Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках*. Единственная возникающая при этом сложность состоит в том, что при работе с языками, в которых используется большое количество символов, например, с японским, для нумерации этих символов требуется использовать бóльшие числовые значения - и, соответственно, более длинные двоичные коды**.

* Поддержка такой функции далее в тексте называется "многоязыковой поддержкой" - прим. перев.
** При этом необходимо учитывать, что длина двоичного кода зависит от величины представляемого им числа как log2(x). Т.е. для кодирования только букв английского языка (26 символов) достаточно было бы длины кода, равной log2(26)~=5 бит, а для кодирования иероглифов японского языка (65.000 символов) необходимо уже log2(65000)~=16 бит, см. ниже. - прим. ред.

ПК для работы с английским языком, используемые в США , используют 7-битную таблицу символов и метод кодирования ASCII (American Standard Code for Information Interchange)*, которые обеспечивают возможность кодирования 128 символов (поскольку бит может иметь только два значения - "1" или "0" - используя 7 бит, можно представить максимум 27=128 разных чисел. Набор символов**, использованный для заполнения этой таблицы, включает в себя заглавные и строчные буквы латинского*** алфавита, арабские цифры, знаки препинания и некоторые управляющие двоичные последовательности. Если используется 8-й бит, который изначально был зарезервирован для контроля чётности (вид проверки корректности передачи данных), метод кодирования ASCII становится 8-битным, или 1-байтным****. Если же этот 8-й бит используется, как и 7 других, для нумерации символов, а не для контроля чётности, то максимально возможный объём таблицы символов, используемой вместе с методом кодирования ASCII , возрастает до 28=256 позиций.

* Далее в тексте совокупность таблицы символов и метода, использованного для кодирования этих символов (чаще - их номеров), которые (таблица и метод) используются вместе, называется "системой кодирования". Как правило, и таблица символов, и метод кодирования, составляющие ту или иную систему кодирования, бывают определены в рамках того или иного стандарта. Система кодирования ASCII является американским официальным государственным стандартом - прим. перев.
** Обратите внимание: "таблица символов" и "набор символов" - это разные термины. Набор символов называют алфавитом кода. Таблица отличается от набора тем, что в ней символы пронумерованы (или как-либо иначе структурированы). - прим. перев.
*** На самом деле, настоящий латинский алфавит и алфавит английского языка не эквивалентны: в латинском алфавите 25 букв, а в английском - 26 (добавлена "w"). В оригинале автор статьи, помимо того, что путается в указанных выше терминах, вдобавок под "латинским" в большинстве случаев подразумевает 26-буквенный алфавит, т.е. не латинский, а именно английский. - прим. перев.
**** 8 бит, как известно, = 1 байт. С учётом сказанного в абзаце, думаю, понятно, почему далее по возможности используются термины "n-битный" вместо "n-байтный": 7 бит нельзя выразить через байты - прим. перев.

В случае работы с языками типа японского, в которых используется огромное количество символов - десятки тысяч, - для нумерации символов, используемых в этом языке, необходимо использовать числа длиною как минимум в 16 бит (2 байта). 16-битный метод кодирования обеспечивает 216=65.536 возможных позиций в таблице символов.

Однако в стандартную таблицу символов, используемую в настоящее время в японских ПК и определённую, в частности, в японском промышленном стандарте JIS [Japan Industrial Standard] X 0208-1990, внесено только 6879 символов. Этого достаточно для решения многих задач по обработке текстов, встречающихся в повседневной жизни, но мало для написания имён людей, географических названий мест, цитирования исторических данных и даже для написания названий рыб, что японцы едят в ресторанах "суши"!

Кроме этой, необходимо отметить ещё одну проблему. Современные компьютеры могут наиболее эффективно работать с порциями данных, размер которых кратен 8 битам (1 байту). Это потому, что в их электронных схемах данные обычно передаются и обрабатываются порциями по 8, 16, 32 или 64 бита. По этой причине 10-битный или 15-битный метод кодирования окажется неудобным и неэффективным для применения в ПК. С другой стороны, если для нумерации символов использовать слишком длинные числа (двоичные последовательности), объём данных, с которыми придётся работать компьютеру, резко возрастёт, что вновь приведёт к существенному снижению эффективности работы. Например, если для нумерации символов использовать 24 бита, это позволило бы работать с символами всех естественных языков мира, как известных из истории, так и используемых сейчас (224=16.777.216). Однако для нумерации символов большинства языков, имеющих алфавиты, всё же достаточно чисел длиною в 8 бит, поскольку в этих алфавитах насчитывается не более 256 символов. И поэтому использование для их представления 24-битного метода кодирования привело бы к обработке 16-ти ненужных в данном случае бит, и при записи той же латинской буквы "А" на дискету привело бы к нерациональному расходованию места на носителе, которое могло бы быть использовано для хранения данных.
  1   2   3   4   5   6

Добавить документ в свой блог или на сайт

Похожие:

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconНазвание дисциплины
Обработка программ под управлением ос. Краткая характеристика современных операционных систем. Общая характеристика языков программирования,...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconЛитература баларамамурти Й., Краткая история народа андхра, М, 1956....
Воробьев-Десятовский В. С., К вопросу о роли субстрата в развитии индоарийских языков, — «Советское востоковедение», 1956 №1

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconДерек Джонстон Краткая история философии Дерек Джоннстон Краткая история философии
«философия». Все эти определения философии прежде всего взяты из богатейшего повседневного жизненного опыта человека. Философия (с...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconСтроки это последовательность символов, заключенная в кавычки. В...
Первые 128 элементов этого набора символов идентичны набору символов ascii; следующие 128 элементов образуют остаток набора символов...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconПеречень сокращений, условных обозначений, символов, терминов
Краткая геолого-физическая характеристика туймазинского нефтяного месторождения 11

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconPr-технологии в азиатских странах
Донесение и работа с информацией, влияние на определенные слои общества, а также проталкивание, лоббирование некоторых своих, личных...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconК. Маркса 165Б аудитория №2
Вузах. Краткая история развития учения о внутренних болезнях. Основные отечественные терапевтические школы. История кафедры пропедевтической...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconЗаконодательный комитет
Система кодирования upov является ключевым элементом обеих баз данных, и, следовательно, данный документ начинается с отчета о прогрессе,...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconПрограмма: Постскриптум
Пока такой угрозы в Европе не просматривается, и слава богу. Но с другой стороны, некоторые аналогии с Карибским кризисом все же...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах iconДжон Перкинс Исповедь экономического убийцы
Сша стран мира. В книге исповеди, ставшей в США и Европе бестселлером, Дж. Перкинс раскрывает тайные пружины мировой экономической...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
vbibl.ru
Главная страница