Занимательная информатика
Jul. 22nd, 2022 07:30 pmБерём большой файл со списком русских слов, включая словоформы. Он в кодировке Win-1251, а не в Unicode - или чтобы короче был, или потому что некоторые операционные системы до сих пор тупят. Его длина - 18265150 байт.
Чтобы смотреть на него в линуксе, делаем, как указано в инструкции,
и получаем файл длиной 34993984.
Насмотревшись на этот файл, решаем его не выбрасывать, а сжать, попробовав оба варианта файла и две программы сжатия - gzip и bzip2, обе с ключом -9.
Итого, ls -lSr russian*
Меня позабавило не то, что russian.txt.gz самый маленький - это более или менее объяснимо, а то, что russian.txt.bz2 больше, чем russian.utf-8.bz2. Вот это я навскидку объяснить не могу.
Чтобы смотреть на него в линуксе, делаем, как указано в инструкции,
iconv -f WINDOWS-1251 -t UTF-8 russian.txt > russian.utf-8
и получаем файл длиной 34993984.
Насмотревшись на этот файл, решаем его не выбрасывать, а сжать, попробовав оба варианта файла и две программы сжатия - gzip и bzip2, обе с ключом -9.
Итого, ls -lSr russian*
-rw-r--r-- 1 spamsink users 3814446 Jul 22 19:40 russian.txt.gz -rw-r--r-- 1 spamsink users 4164422 Jul 22 18:27 russian.utf-8.bz2 -rw-r--r-- 1 spamsink users 4326903 Jul 22 18:25 russian.txt.bz2 -rw-r--r-- 1 spamsink users 4659786 Jul 22 19:41 russian.utf-8.gz -rw-r--r-- 1 spamsink users 18265150 Jul 22 19:39 russian.txt -rw-r--r-- 1 spamsink users 34993984 Jul 22 19:40 russian.utf-8
Меня позабавило не то, что russian.txt.gz самый маленький - это более или менее объяснимо, а то, что russian.txt.bz2 больше, чем russian.utf-8.bz2. Вот это я навскидку объяснить не могу.