Jul. 22nd, 2022

spamsink: (Default)
Берём большой файл со списком русских слов, включая словоформы. Он в кодировке Win-1251, а не в Unicode - или чтобы короче был, или потому что некоторые операционные системы до сих пор тупят. Его длина - 18265150 байт.

Чтобы смотреть на него в линуксе, делаем, как указано в инструкции,
iconv -f WINDOWS-1251 -t UTF-8 russian.txt > russian.utf-8

и получаем файл длиной 34993984.

Насмотревшись на этот файл, решаем его не выбрасывать, а сжать, попробовав оба варианта файла и две программы сжатия - gzip и bzip2, обе с ключом -9.

Итого, ls -lSr russian*
-rw-r--r-- 1 spamsink users  3814446 Jul 22 19:40 russian.txt.gz
-rw-r--r-- 1 spamsink users  4164422 Jul 22 18:27 russian.utf-8.bz2
-rw-r--r-- 1 spamsink users  4326903 Jul 22 18:25 russian.txt.bz2
-rw-r--r-- 1 spamsink users  4659786 Jul 22 19:41 russian.utf-8.gz
-rw-r--r-- 1 spamsink users 18265150 Jul 22 19:39 russian.txt
-rw-r--r-- 1 spamsink users 34993984 Jul 22 19:40 russian.utf-8


Меня позабавило не то, что russian.txt.gz самый маленький - это более или менее объяснимо, а то, что russian.txt.bz2 больше, чем russian.utf-8.bz2. Вот это я навскидку объяснить не могу.
Page generated Jun. 16th, 2025 09:33 am
Powered by Dreamwidth Studios