Кодировка файла
Можно использовать этот калькулятор для изменения кодировки текста.
Этот материал распространяется на условиях лицензии Creative Commons Attribution/Share-Alike License 3.0 (Unported). Это означает, что вы можете размещать этот контент на своем сайте или создавать на его основе собственный (в том числе и в коммерческих целях), при условии сохранения оригинального лицензионного соглашения. Кроме того, Вы должны отметить автора этой работы, путем размещения HTML ссылки на оригинал работы https://planetcalc.ru/9043/. Пожалуйста оставьте без изменения все ссылки на других авторов данной работы или работы, на основе которой создана данная работа (если таковые имеются в спроводительном тексте).
В предыдущей статье я уже затрагивал тему кодировок текста, более подробно описал Юникод и представление его в виде последовательности символов переменной длины UTF-8. Данный калькулятор позволяет преобразовать текст в другие исторические кодировки. Я называю их историческими, потому, что в современных решениях везде, где это можно следует использовать Юникод и его самое удобное представление UTF-8.
Однако старые кодировки также могут быть полезны, когда требуется компактно закодировать текст, например для последующего сжатия и передачи, в том случае, когда принимающая сторона гарантированно знает в какой кодировке передается текст. Например русский текст в в кодировке Windows-1251 будет занимать вдвое меньше места, чем текст в UTF-8.
Итак калькулятор ниже позволяет скачать файл в выбранной кодировке или просмотреть шестнадцатеричный дамп закодированного текста.
Просмотреть созданный файл можно при помощи калькулятора Прочитать файл в старой кодировке.
Калькулятор вернет ошибку, в том случае, если выбрана неверная кодировка. В случае с Юникодом, это невозможно - в нем представлены символы всех современных языков. А вот устаревшие 8-битные кодировки содержат ограниченный набор символов и для текста на нескольких языках может вполне не найтись нужной кодировки.
За годы до появления Юникода было придумано множество кодировок для разных языков и наборов символов, поэтому сама задача выбора правильной кодировки для вашего текста может быть непростой. Следующий калькулятор позволяет подобрать кодировки для введенного текста. В результирующей таблице будут выданы, только те кодировки, при помощи которых можно гарантированно закодировать заданный текст.
В калькуляторах поддерживаются 70 различных кодировок:
Кодировки IBM EBCDIC
EBCDIC - стандартный 8-битный код, разработанный корпорацией IBM для использования на мэйнфреймах IBM и совместимых с ними.
Кодировка | Языки / Страны использования |
---|---|
EBCDIC 424 Hebrew | Иврит |
EBCDIC 037 USA/Canada | США, Канада, Португалия, Бразилия, Австралия, Новой Зеландия и Южной Африка |
EBCDIC 1026 Turkish | Турция |
EBCDIC 500 International | Интернациональный |
EBCDIC 875 Greek | Греческий |
Кодировки в стандарте ISO 8859
Семейство ASCII совместимых кодировок, разработанных международными организациями ISO и IEC
Кодировка | Языки/Страны |
---|---|
ISO 8859-2 (Latin-2) | Восточноевропейские языки, использующие латиницу |
ISO 8859-5 | Кириллица |
ISO 8859-6 | Арабский |
ISO 8859-7 | Современный греческий |
ISO/IEC 8859-1 (Latin-1) | Западноевропейские языки |
ISO/IEC 8859-10 (Latin-6) | Североевропейские языки |
ISO/IEC 8859-11 | Тайский |
ISO/IEC 8859-13 (Latin-7) | Эстонский, латышский, литовский |
ISO/IEC 8859-14 | Кельтские языки |
ISO/IEC 8859-15 (Latin-9) | Западноевропейские языки |
ISO/IEC 8859-16 (Latin-10) | Восточноевропейские языки, использующие латиницу |
ISO/IEC 8859-3 | Турецкий, мальтийский, эсперанто |
ISO/IEC 8859-4 (Latin-4) | Эстонский, латышский, литовский, гренландский, саамский |
ISO/IEC 8859-8 | Иврит |
ISO/IEC 8859-9 | Турецкий |
Кодировки KOI8
KOI8 - 8-битовая кодировка совместимая с ASCII для представления букв кириллических алфавитов
Кодировка | Языки |
---|---|
KOI8-R | Русский |
KOI8-U | Украинский |
Кодировки Mac OS
Кодировка | Языки/Страны |
---|---|
Mac OS Celtic | Кельтские языки |
Mac OS Gaelic | Гэльский |
Mac OS Central European | Языки Центральной Европы |
Mac OS Croatian | Сербско/Хорватский |
Mac OS Cyrillic | Кириллица |
Mac OS Greek | Греческй |
Mac OS Icelandic | Исландский |
Mac OS Inuit | Инуктитут |
Mac OS Roman | Западноевропейские языки |
Mac OS Romanian | Румынский |
Mac OS Turkish | Турецкий |
Кодировки DOS
Кодировки для MS-DOS и подобных ей операционных систем.
Кодировка | Языки/Страны |
---|---|
DOS Latin US (CP437) | Восточноевропейские языки, использующие латиницу |
DOS Greek (CP737) | Греческий |
DOS Baltic Rim (CP775) | Эстонский, латышский, литовский |
DOS Latin 1 (CP850) | Западноевропейские языки |
DOS Latin 2 (CP852) | Восточноевропейские языки, использующие латиницу |
DOS Cyrillic (CP855) | Кириллица |
CP 856 Hebrew | Иврит |
DOS Turkish (CP857) | Турецкий |
DOS Portuguese (CP860) | Португальский |
DOS Icelandic (CP861) | Исландский |
DOS Hebrew (CP862) | Иврит |
DOS French Canada (CP863) | Французский |
DOS Arabic (CP864) | Арабский |
DOS Nordic (CP865) | Норвежский |
DOS Cyrillic Russian (CP866) | Русский |
DOS Greek 2 (CP869) | Греческий |
Кодировки Windows
Кодировка | Языки/Страны |
---|---|
Windows-1250 | Языки Центральной и Восточной Европы |
Windows-1251 | Русский, украинский белорусский, сербский, македонский, болгарский |
Windows-1252 | Западноевропейские языки |
Windows-1253 | Современный греческий |
Windows-1254 | Турецкий |
Windows-1255 | Иврит |
Windows-1256 | Арабский |
Windows-1257 | Эстонский, латышский, литовский |
Windows-1258 | Вьетнамский |
Windows-874 | Тайский |
Windows-932 | Японский |
Windows-936 | Упрощенный китайский |
Windows-949 | Корейский |
Windows-950 | Традиционный китайский |
KZ-1048 | Казахский |
Прочие кодировки
Кодировка | Описание |
---|---|
Atari ST | Кодировка, использовалась в домашних персональных компьютерах фирмы Atari |
GSM 03.38 | Кодировка использовалась в сетях GSM для SMS (коротких сообщений), CB (широковещательная передача коротких сообщений) and USSD (Сервис для организации интерактивных взаимодействий) |
KPS 9566 | Кодировка, разработанная в Северной Корее для поддержки символов корейского языка Хангыль |
ISO 8-bit Urdu (IBM CP1006) | Использовалась компанией IBM в операционной системе AIX в Пакистане для языка Урду |
ISO-IR-68 | Кодировка для представления символов в языке программирования APL |
Правила преобразования исторических кодировок в Юникод были получены с сайта unicode.org1
-
Отображение кодировок в Юникоде http://www.unicode.org/Public/MAPPINGS/ ↩
Комментарии