После мастер-класса Инфографера в Киеве решил попробовать создать свою «тучку» слов. Интересно же как такая красота получается!
Для сравнения выбрал самую покупаемую книгу всех времен — Библию (точнее, рассматривал только Ветхий Завет), и ее собрата — Коран. В обеих книга сравним самые часто употребляемые слова. Будем исключать слова, которые состоят меньше, чем из трех букв, не интересно же проверять еще раз, что «и» — самое повторяющееся слово. За источник данных были взяты открыты версии на сайте lib.ru. Визуализировал силами сервиса wordle.net (кстати, очень удобный ресурс, если не учитывать сложного механизма использования своего «чуда» в Сети). Результаты получились даже очень интересными: «Господь» (учитывая все окончания) — одно из ТОПовых слов в обоих книгах, та же ситуация со словом «сказал». Еще следует обратить внимание на высокую частоту слов «поистине» и «уверовал» в Коране.
В поисках сервиса подсчета частоты слов в гугле нашел следующие:
Но, к сожалению, они не потянули тот объем данных (по моим подсчетам в Ветхом Завете более 300 тыс. слов).
Дополнение №1.
Смелые ребят с visual.ly визуализировали Ветхий, Новый Заветы и Коран. У них получилась очень занимательная и интересная программа, которая не только подсчитывает частоту слов в этих книгах, но и указывает на место расположение.
Дополнение №2.
Любителям английского языка придется по вкусу wordcount.org — отображает все слова английского языка в порядке спадания частоты употребления. Гордое первое место занимает «the».