Видео проигрыватель загружается.Воспроизвести видеоВоспроизвестиБез звукаТекущее время 0:00/Продолжительность 1:20Загрузка: 0.00%0:00Тип потока ОНЛАЙНSeek to live, currently behind liveОНЛАЙНОставшееся время -1:20 1xСкорость воспроизведения2x1.75x1.5x1.25x1x, выбрано0.75x0.5xГлавыГлавыОписанияОтключить описания, выбраноСубтитрынастройки субтитров, откроется диалог настройки субтитровСубтитры выкл., выбраноЗвуковая дорожкаPicture-in-PictureПолноэкранный режимThis is a modal window.Начало диалоговго окна. Кнопка Escape закроет или отменит окноТекстColorБелыйЧерныйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйФонColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачностьПолупрозрачныйПрозрачныйОкноColorЧерныйБелыйКрасныйЗеленыйСинийЖелтыйПурпурныйГолубойTransparencyПрозрачныйПолупрозрачныйПрозрачностьРазмер шрифта50%75%100%125%150%175%200%300%400%Стиль края текстаНичегоПоднятыйПониженныйОдинаковыйТеньШрифтПропорциональный без засечекМоноширинный без засечекПропорциональный с засечкамиМоноширинный с засечкамиСлучайныйПисьменныйМалые прописныеСбросить сбросить все найстройки по умолчаниюГотовоЗакрыть модальное окноКонец диалогового окна.
Самое время рассказать про один из фундаментальных эмпирических законов лингвистики (и не только лингвистики, на самом деле) — закон Ципфа. Возьмём большую коллекцию документов, посчитаем для каждого слова в этой коллекции частоту его встречаемости, то есть количество документов, в которых это слово используется, потом отсортируем полученный список по убыванию частот и получим примерно следующий график. По оси абсцисс отложим ранг слова, то есть его порядковый номер в отсортированном списке. По оси ординат отложим частоту слова — относительную частоту. Это график распределения Ципфа — распределения вероятностей, описывающего взаимоотношения частоты события и количества событий с такой частотой. Оно относится к классу степенных распределений и задаётся следующей функцей. Случайная величина, поведение которой мы описываем — это ранг, то есть порядковый номер слова. У этого распределения два параметра: это "s" — определяет скорость убывания (чем больше "s", тем реже редкие слова), и "n" — это количество слов в нашем словаре; "z" — это просто нормализационная константа, чтобы распределение стало распределением.

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.