Кодування "юнікод": стандарт кодування символів

Кожен користувач Інтернету в спробах налаштувати ту чи іншу його функцію хоча б один раз бачив на дисплеї написане латинськими літерами

слово «Юнікод». Що це таке, ви дізнаєтеся, прочитавши цю статтю.

юнікод що це

визначення

Кодування "Юнікод" - Стандарт кодування символів. Він був запропонований некомерційною організацією Unicode Inc. в 1991 році. Стандарт розроблений з метою об`єднання якомога більшої кількості різнотипних символів в одному документі. Сторінка, яка створена на його основі, може містити в собі букви і ієрогліфи з різних мов (від російського до корейського) і математичні знаки. При цьому всі символи в даному кодуванні відображаються без проблем.

причини створення

Колись, задовго до появи єдиної системи "Юнікод", Кодування вибиралася виходячи з переваг автора документа. З цієї причини нерідко, щоб прочитати один документ, потрібно було використовувати різні таблиці. Іноді це доводилося робити по кілька разів, що істотно ускладнювало життя звичайному користувачеві. Як вже було сказано, рішення цієї проблеми в 1991 році було запропоновано некомерційною організацією Unicode Inc., яка запропонувала новий тип кодування символів. Він мав на меті об`єднати морально застарілі і різноманітні стандарти. "Юнікод" - Кодування, яка озволіла домогтися немислимого на той момент: створити інструмент, який підтримує величезну кількість символів. Результат перевершив багато очікувань - з`явилися документи, одночасно містять як англійська, так і російський текст, латинь і математичні вирази.

Але створення єдиної кодування передувала необхідність дозволу ряду проблем, які виникли через величезного розмаїття стандартів, вже існували на той момент. Найпоширеніші з них:

  • ельфійські письмена, або «кракозябри»;
  • обмеженість набору символів;
  • проблема перетворення кодувань;
  • дублювання шрифтів.

юнікод стандарт

Невеликий історичний екскурс

Уявіть, що на дворі 80-е. Комп`ютерна техніка ще не так поширена і має вигляд, відмінний від сьогоднішнього. У той час кожна ОС по-своєму унікальна і доопрацьована кожним ентузіастом під конкретні потреби. Необхідність обміну інформацією перетворюється в додаткове доопрацювання всього на світі. Спроба прочитати документ, створений під іншою ОС, часто виводить на екран незрозумілий набір символів, і починаються ігри з кодуванням. Не завжди виходить зробити це швидко, і часом необхідний документ вдається відкрити через півроку, а то й пізніше. Люди, які часто обмінюються інформацією, створюють для себе таблиці перетворення. І ось робота над ними виявляє цікаву деталь: створювати їх потрібно за двома напрямками: «з моєї в твою» і назад. Зробити банальну інверсію обчислень машина не може, для неї в правому стовпчику исходник, а в лівому - результат, але ніяк не навпаки. Якщо з`являлася необхідність використовувати будь-які спеціальні символи в документі, їх необхідно було спочатку додати, а потім ще й пояснити партнеру, що йому потрібно зробити, щоб ці символи не перетворилися в «кракозябри». І не будемо забувати, що під кожну кодування доводилося розробляти або впроваджувати власні шрифти, що призводило до створення величезної кількості дублів в ОС.

Уявіть ще, що на сторінці шрифтів ви побачите 10 штук ідентичних Times New Roman з маленькими позначками: для cp1251, UTF-16, ANSI, UCS-2. Тепер ви розумієте, що розробка універсального стандарту була нагальною потребою?



кодування Юнікод

«Батьки-творці»

Витоки створення Unicode слід шукати в 1987 році, коли Джо Беккер з Xerox разом з Лі Коллінзом і Марком Девісом з компанії Apple почали дослідження в сфері практичного створення універсального набору символів. У серпні 1988 року Джо Беккер опублікував проект пропозиції щодо створення 16-бітної міжнародної багатомовної системи кодування.

Через кілька місяців робоча група Unicode була розширена за рахунок включення Кена Уістлера і Майка Кернегана з RLG, Гленн Райт з Sun Microsystems і декількох інших фахівців, що дозволило завершити роботи з попереднього формування єдиного стандарту кодування.

юнікод кодування

Загальний опис

В основі Unicode лежить поняття символу. Під цим визначенням розуміється абстрактне явище, існуюче в конкретному виді писемності і реалізоване через графеми (свої «портрети»). Кожен символ задається в "Юникоде" унікальним кодом, що належить конкретному блоку стандарту. Наприклад, графема B є і в англійській, і в російській алфавітах, але в Unicode їй відповідають 2 різних символу. До них застосовується перетворення в малу літеру, т. е. кожен з них описується ключем бази даних, набором властивостей і повною назвою.

переваги Unicode



Від інших сучасників кодування "Юнікод" відрізнялася величезним запасом знаків для «шифрування» символів. Справа в тому, що його попередники мали 8 біт, тобто підтримували 28 символів, а ось нова розробка мала вже 216 символів, що стало гігантським кроком вперед. Це дозволило закодувати практично всі існуючі і поширені алфавіти.

З появою "юникода" відпала потреба використовувати таблиці перетворення: як єдиний стандарт він просто зводив нанівець їх необхідність. Точно так же канули в Лету і «кракозябри» - єдиний стандарт зробив їх неможливими, так само як і виключив необхідність створення дублів шрифтів.

розвиток Unicode

Звичайно, прогрес не стоїть на місці, і з моменту першої презентації минуло вже 25 років. Однак кодування "Юнікод" вперто утримує свої позиції в світі. Багато в чому це стало можливим завдяки тому, що він став легко впроваджуються і набув поширення, будучи визнаним розробникам пропрієтарного (платного) і відкритого ПЗ.

кодування юнікод (стандарт кодування символів)

При цьому не варто думати, що сьогодні нам доступна та ж кодування "Юнікод", Що і чверть століття тому. На даний момент її версія змінилася на 5.х.х, а кількість кодованих символів зросла до 231. Від можливості використовувати більший запас знаків відмовилися, щоб все ще зберегти підтримку для Unicode-16 (кодування, де максимальна їх кількість обмежувалася цифрою 216). З моменту своєї появи і до версії 2.0.0 "Юнікод-стандарт" збільшив кількість символів, які в нього входили, практично в 2 рази. Зростання можливостей тривав і в наступні роки. До версії 4.0.0 вже з`явилася необхідність збільшити сам стандарт, що і було зроблено. В результаті "Юнікод" знайшов той вид, в якому ми його знаємо сьогодні.

юнікод що це таке

Що ще є в Unicode?

Крім величезного, постійно поповнюється кількості символів, "Юнікод"-кодування текстової інформації має ще одну корисну рису. Йдеться про так званої нормалізації. Замість того щоб перегортати весь документ символ за символом і підставляти відповідні значки з таблиці відповідності, використовується один з існуючих алгоритмів нормалізації. Про що мова?

Замість того щоб витрачати ресурси обчислювальної машини на регулярну перевірку одного і того ж символу, який може бути схожим в різних алфавітах, використовується спеціальний алгоритм. Він дозволяє винести схожі символи окремою графою таблиці підстановки і звертатися вже до них, а не раз по раз перевіряти всі дані.

Таких алгоритмів розроблено і впроваджено чотири. У кожному з них перетворення відбувається по строго певним принципом, що відрізняється від інших, тому назвати якийсь один з них найбільш ефективним не представляється можливим. Кожен розроблявся для певних потреб, був впроваджений і успішно використовується.

юнікод кодування текстової інформації

поширення стандарту

За 25 років своєї історії кодування "Юнікод" отримала, ймовірно, найбільше поширення в світі. Під цей стандарт підганяються також програми і web-сторінки. Про широту застосування може говорити той факт, що Unicode сьогодні використовують понад 60% інтернет-ресурсів.

Тепер вам відомо, коли з`явився стандарт "Юнікод". Що це таке, ви також знаєте і зможете оцінити всі значення винаходи, зробленого групою фахівців Unicode Inc. більше 25 років тому.


Увага, тільки СЬОГОДНІ!


Поділися, будь ласка статтю
всього голосів: 160
Увага, тільки СЬОГОДНІ!