Среднее количество букв в русских словах

Среднее количество букв в русских словах

Индекс удобочитаемости — мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.

Индекс удобочитаемости Флеша [ править | править код ]

Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка. Она оценивает сложность текста по следующей формуле [1]

F R E = 206,835 − 1,015 total words total sentences − 84 , 6 total syllables total words , <displaystyle FRE=206<,>835-1<,>015<frac < ext>< ext>>-84<,>6<frac < ext>< ext>>,>

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

ASL — средняя длина предложения в словах (англ. average sentence length ), ASW — средняя длина слова в слогах (англ. average number of syllables per word ) [2] .

Индекс по шкале FRES (англ. Flesch reading ease scale ) распределяется таким образом:

100: Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем 2 слогов. 65: простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога. 30: Немного трудно читать. Предложения содержат до 25 слов. Обычно, двусложные слова. : Очень трудно читать. В среднем предложение имеет 37 слов. Слово имеет в среднем более 2 слогов.

Для английского языка значение 90—100 соответствует лёгкому тексту для младших школьников, 60—70 — тексту, который могут читать выпускники школы, тексты с индексом 0—30 предназначены для людей с высшим образованием.

В связи с тем, что в русском языке средняя длина предложения меньше (за счёт меньшего использования служебных слов, таких как артикли или вспомогательные глаголы), а слова в среднем длиннее, было предпринято несколько попыток разработать специфическую для русского языка версию меры, например, путём подгонки коэффициентов при сравнении индексов, полученных для оригинальных английских текстов и их переводов. Ниже представлен один из вариантов такой адаптации [3] :

Читайте также:  Как открыть диспетчер задач на андроиде

FRE = 206,835 − 1,3 × ASL − 60,1 × ASW.

В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за эталонные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком. [4]

В разных источниках приводится такая статистика: средняя длина слова на английском языке короче, чем в случае с русским. Приводятся различные статистические показатели, один из них вот:

Из курса школьной информатики мы помним, что используя, например, формулу Шеннона и понятие количества информации мы можем сделать вывод, что текст на английском языке можно закодировать меньшим количеством бит чем текст на русском.

А вот вопрос: есть ли связь между средней длиной слова и количеством букв в алфавите? Или же другие гипотезы могут быть? Или это вопрос сугубо не математический?

При анализе второй мировой войны американские военные историки обнаружили очень интересный факт. А именно, при внезапном столкновении с силами японцев американцы, как правило, гораздо быстрее принимали решения и, как следствие, побеждали даже превосходящие силы противника. Исследовав данную закономерность ученые пришли к выводу что средняя длина слова у американцев составляет 5,2 символа, тогда как у японцев 10,8, следовательно на отдачу приказов уходит на 56 % меньше времени, что в коротком бою играет немаловажную роль.

Читайте также:  Как пользоваться принтером canon pixma

Ради "интереса" они проанализировали русскую речь и оказалось, что длина слова в русском языке составляет 7,2 символа на слово (в среднем), однако при критических ситуациях русско-язычный командный состав переходит на ненормативную лексику, и длина слова сокращается до (!) 3,2 символов в слове. Это связано с тем, что некоторые словосочетания и даже фразы заменяются ОДНИМ словом.

Для примера приводится фраза: "32-ой ё#ни по этому х@ю", что означает "32-ой приказываю немедленно уничтожить вражеский танк, ведущий огонь по нашим позициям".

Дубликаты не найдены

При подсчёте звуков, например, английскую лигатуру ch надо считать за один звук. И здесь проявляется ещё и то, что для родного то языка письменность отлажена на протяжении веков, а иностранная речь транслитируется чёрт знает как. Ну нет в русском трёх вариантов звука "э", но открытые и закрытые слоги и лигатура er уже предусмотрены, усложняя письмо, при этом статистическая частота звука отличается от английской. Русские мягкий и твёрдый знак тоже часто ли применяются? На сколько мне известно, их даже договариваются убирать в сторону перед тем, как сыграть в "эрудит". Кроме того, отдельное слово в большинстве случаев не несёт информации. Исключением являются во-первых полисинтетические языки. Во-вторых исключением может быть ответ в тех случаях, когда все остальные слова ответа кроме одного заключены в вопросе. В-третьих исключением является приказ о немедленном начале действия в тех случаях, когда смысл передан заранее (сначала распределены цели, а потом короткое "огонь"). В-четвёртых команды вроде "равняйсь", смысл которых также определён заранее, по сути являющиеся скорей кодами, чем словами. Поэтому считать надо среднее не в слове, а в предложении, или даже в группе предложений. И вот здесь английский проигрывает из-за огромного количества вспомогательных слов. В русском даже глагол "быть" (to be) применяется только когда действительно нужен для передачи смысла, в английском он встроен в структуру предложения и отличает, например, утвердительное предложение от вопросительного, для чего в русском языке достаточно интонации, а на письме — знака препинания в конце предложения. А ещё артикли. Например, "the" — это не "этот", а "конкретный". А какой именно? Тот? Или этот? А чёрт его знает, в слове "the" заложен лишь один бит, указывающий на то, что различие между тем и этим важно. А какой именно указывается отдельно. А зачем артикль? Русское "этот" соответствует не "the", а "this" и содержит больше информации, а слово "конкретный" (как раз соответствующее "the") вообще из числа редчайших. Даже русские клитики (вроде частицы "же") применяются лишь для большей выразительности. Да и без слова "например" в бою можно обойтись.

Ссылка на основную публикацию
Adblock detector