Язык гипертекстовой разметки HTML используется с 1991 года, но версия 4.0 (1997) была первой, где представление символов, отличных от английского набора латиницы (первые 127 символов таблицы ASCII), достаточно стандартизировано. Тип кодировки задается в заголовке HTTP документа, например для русского текста в кодировке КОИ-8:
Content-Type: text/html; charset=koi8-r
Информацию о кодировке можно также вставить в сам документ HTML, используя тег meta:
<meta http-equiv="Content-Type" content="text/html; charset=US-ASCII">
Но в таком случае меньше шансов на использование этой информации.
В XHTML можно также указывать кодировку в преамбуле XML, например:
<?xml version="1.0" encoding="utf-8"?>
Символы, имеющие специальные названия (см. Мнемоники в HTML), могут быть закодированы в виде &entity;, например:
* à — à
* α — α
В то же время все символы могут быть также закодированы в числовом обозначении с использованием десятичного (&#DD;) или шестнадцатеричного (&#xHHHH;) кода Unicode.
* à — à — à
* α — α — α