Кодування символів у HTML

HTML

Мова гіпертекстової розмітки HTML використовується з 1991 року, але версія 4.0 (1997) була першою, де відтворення символів, відмінних від ASCII (тобто, англійської мови), належним чином стандартизовано.

Визначення кодування засобами HTTP

При відображенні HTML-сторінки браузерами останнім потрібно повідомити в якому кодуванні збережено сторінку. Для цього можна скористатися двома методами:

  • набір символів документа задається в заголовку HTTP, наприклад для тексту з кодуванням windows-1251
Content-Type: text/html; charset=windows-1251
  • інформацію про кодування можна вставити в сам документ HTML, використовуючи тег meta в розділі <head> HTML-документа. Наприклад, у разі кодування UTF-8 тег meta може мати такий вигляд:

  <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

У стандарті для мови HTML 5 мета тег, що інформує браузер про кодування сторінки, записується відмінно від правил прийнятих в раніших стандартах HTML. Так приклад, наведений вище, в HTML 5 виглядатиме так:

  <meta charset="utf-8"/>

Такий спосіб непогано працює для файлів, але при видачі документа за допомогою HTTP результат залежатиме від дій HTTP-сервера, а саме від того, чи буде вказано цю інформацію в заголовку. Згідно HTTP /1.1, відсутність вказівки charset у заголовку прирівнюється до використання набору символів ISO 8859-1.

Тобто, пріоритетним фактором для браузера з питання «в якому кодуванні виводити документ» може бути переданий сервером заголовок. В цьому випадку браузер зобов'язаний нехтувати відповідні атрибути в тезі META.

Див. також

Джерела

  • Declaring character encodings in HTML [Архівовано 2 Лютого 2016 у Wayback Machine.](англ.)
  • п
  • о
  • р
Кодування символів
Історичні
кодування
докомп'ютерні
семафорна (Макарова)
Морзе
Бодо
МТК-2
комп'ютерні
6-бітне
УПП
RADIX-50
EBCDIC
ДКОІ
КОІ-7
ISO 646
сучасне
8-бітове
подання
символи
ASCII
керувальні
друковані
не-ASCII
псевдографіка
8-бітові код.стор.
кирилиця
КОІ-8
Основне кодування
MacCyrillic
ISO 8859
1 (лат.)
2
3
4
5 (кир.)
6
7
8
9
10
11
12
13
14
15 (€)
16
Windows
1250
1251 (кир.)
1252
1253
1254
1255
1256
1257
1258
WGL4
IBM & DOS
437
850
852
855
866 «альт.»
МІК
Багатобайтові
традиційні
DBCS
GB2312
HTML
юнікод
UTF-32
UTF-16
UTF-8
список символів
кирилиця
Бази даних Це незавершена стаття з інформатики.
Ви можете допомогти проєкту, виправивши або дописавши її.