Системы письменности и блоки Юникода
Подсчитывает число символов в тексте, принадлежащих тому или иному блоку Юникода или системе письменности.
Калькулятор ниже группирует символы входного текста по блокам Юникода и подсчитывает количество символов, принадлежащих тому или иному блоку.
Блоки Юникода
Все пространство символов Юникода разбито на 17 плоскостей, содержащих 216 или 65536 кодовых позиций.
Внутри одной плоскости может содержаться один или более блоков Юникода. Размер блока не превышает размер плоскости и кратен 16. Блок, как и плоскость, это непрерывная последовательность кодовых позиций, диапазон которых задается границами начала и конца. Каждый блок имеет свое уникальное имя. Список всех блоков с диапазонами кодовых позиций можно найти тут http://www.unicode.org/Public/UNIDATA/Blocks.txt.
Несмотря на то, что название блоков зачастую соответствует какой-нибудь системе письменности, не все символы блока принадлежат этой системе. А в некоторых случаях один блок содержит несколько систем, например, 0370..03FF Греческий и Коптский. Да и символы одной системы письменности могут быть разбросаны по нескольким блокам.
Следующий калькулятор подсчитывает количество символов принадлежащих той или иной системе письменности.
Наборы письменных символов различных алфавитов в Юникоде занимают непоследовательные кодовые позиции.
Например, символы кириллицы находятся в следующих кодовых позициях:
0400..0484, 0487..052F, 1C80..1C88, 1D2B, 1D78, 2DE0..2DFF, A640..A69F, FE2E..FE2F.
Эти символы распределены по 7-ми различным блокам Юникода:
0400..04FF Кириллица
0500..052F Кириллица Вспомогательная
1C80..1C8F Кириллица Расширенная-C
1D00..1D7F Фонетические расширения
2DE0..2DFF Кириллица Расширенная-A
A640..A69F Кириллица Расширенная-B
FE20..FE2F Комбинируемые полузнаки
Диапазоны всех остальных систем письменности можно найти тут http://www.unicode.org/Public/UNIDATA/Scripts.txt.
Комментарии