Что вижу - о том пою (aragont) wrote,
Что вижу - о том пою
aragont

Весь русский язык

Библиотека flibusta.net доступна для скачивания любому компьютерно-грамотному человеку. Сейчас архив занимает 220 ГБ в zip-архивах. Беглый просмотр файлов показывает, что скан обложки иногда занимает в книге до 2/3 объёма. Итого, за вычетом обложек, прикидывая двукратное увеличение при распаковке и двукратное сокращение за счёт юникода получаем:

70 миллиардов букв (жуть). При средней длине слова в 5 букв - 14 миллиардов слов. Если считать что в русском языке 100 тысяч слов, то каждое разумное слово (не считая предлоги) повторяется, в среднем, 140 тысяч раз.

Сейчас я обдумываю программу, которая посчитала бы число уникальных предложений в этих текстах и сообщила бы, какое предложение в русскоязычной литературе встречается чаще всего.
Tags: интернет, пингвистика, программы
Subscribe

  • Как я взламывал освежитель воздуха

    У меня в туалете висит автоматический освежитель воздуха. Небольшая пластмассовая коробочка снаряжается двумя пальчиковыми батарейками и сменным…

  • Мокрые слова

    Похоже, что нашёл в иероглифах еще одну легко узнаваемую деталь. У знакомых мне иероглифов, обозначающих жидкости, слева три характерные черточки,…

  • Счетные слова

    ...животные делятся на: а) принадлежащих Императору, б) набальзамированных, в) прирученных, г) молочных поросят, ... (Борхес. Аналитический язык…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 2 comments