Сайт функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям

30.11.2016

Русский язык в словаре Даля и поиске Яндекса

Сто пятьдесят лет назад был впервые полностью опубликован словарь Даля. Он прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Мы решили посмотреть, насколько сильно с тех пор изменился язык, и сравнили слова из словаря Даля с теми, которые используют люди в поисковых запросах.

Словарь Даля не является нормативным — то есть его далеко не всегда можно использовать для ответа на вопросы «как пишется то или иное слово» или «что значит то или иное слово». Зато он представляет собой уникальный справочник по живому разговорному языку XIX века, который можно читать не как словарь, а просто подряд. Поисковые запросы содержат в том числе и разговорную лексику, так что сравнив слова из словаря со словами из запросов, можно увидеть, какие изменения произошли за 150 лет.
Количество слов в словаре Даля обычно оценивается приблизительно — около 200 тысяч. Это те слова, которые Даль называл «красными», для которых дано толкование. Эти слова организованы в гнёзда — немногим более 40 тысяч гнёзд и, соответственно, гнездовых слов. 

Все слова
За год Яндекс отвечает примерно на 70 миллиардов запросов из России. Если по пробелам и специальным символам разделить эти запросы на словоформы, выбрать только те, которые состоят из кириллических букв, и автоматически привести их к начальной форме, получается больше 285 миллионов разных слов. На самом деле далеко не все из них настоящие русские слова: в поиске люди часто пишут с ошибками — [детский мир отзовы], [турагенство] — и в неправильной раскладке — [нщгегиу], а иногда просто вводят непонятные последовательности букв — [аааааааааааааау].
Чтобы сделать этот огромный список слов чище, мы сравнили его со словами из Национального корпуса русского языка за XX и XXI века. Пересечений оказалось всего около 750 тысяч. Можно сказать, что это слова, которые употребляются в современных текстах разных жанров — от художественной литературы до деловых документов.
Даль даёт толкование примерно двухсот тысяч слов. Из них почти одна пятая (18%) за год ни разу не встретилась в поисковых запросах к Яндексу. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44% слов.


Ушедшие слова
18% слов из словаря Даля можно считать полностью вышедшими из употребления: в течение года люди ничего не искали с помощью этих слов и даже не спрашивали про их значение.
Доля глаголов среди этих слов заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, глаголы из словаря Даля устаревают быстрее, чем существительные.


Около 85% ушедших глаголов содержат приставки. Самая распространённая, по-, встречается в каждом пятом случае, иногда в комбинации с другими приставками: 
понасудачить, попринаряжать, повзопреть. Почти треть существительных оканчивается на -ье или -ие и означает действие по соответствующему глаголу: 
вывороченье, избоданье, ловничанье. Много существительных на -чик-чица-ник-ница и так далее. Часто они обозначают людей определённых занятий — как правило, эти занятия больше не актуальны или изменили название: наживотчик,
каравайщик, нравописательница.
Вообще вышедшие из употребления слова часто образованы от корней, которые вполне используются и сейчас: переребячиться, злодейчивый, заволшебствовать,
отблинничать, испивочный, поплеванье — сегодня так не говорят, но можно легко догадаться, что имеется в виду.

Посмотреть 10 тысяч случайных устаревших слов из словаря Даля (txt)

Живые и уходящие слова
С двумя другими группами слов всё не так просто. Можно предположить, что та часть словаря Даля, которая есть и в поисковых запросах, и в текстах из корпуса русского языка (44%), — это живые слова. А 38%, которые есть в поиске, но отсутствуют в корпусе, — уходящие: их уже не используют в письменной речи, но иногда ищут в интернете. С другой стороны, вряд ли можно назвать живым слово, которое есть в письменных текстах, но встречается в запросах всего несколько раз в год, или слово, которое вводят в поиск только для того, чтобы узнать значение.
Кроме того, часть словаря могла попасть в поиск и корпус из-за омонимии: пишется так же, но значит другое. У Даля встречаются такие популярные в интернете слова, как порно, двач, прикол, клубняк — но совсем в другом значении. Иногда написание слов у Даля совпадает с распространённой в поиске ошибкой или опечаткой — навинка, кател, насиление, загатка. Также бывает, что слово ушло из русского языка, но сохранилось в украинском (ознак, соромиться, 
метелик), или остались родственные ему фамилии и названия населённых пунктов (верховец, хопер, пустовар).
Чтобы точнее определить, какая часть словаря Даля до сих пор жива, а какая вышла или выходит из употребления, мы оценили долю омонимии среди слов, встречавшихся в поисковых запросах, а также посчитали, сколько слов люди искали с целью узнать, что они значат.


Подробнее о методе оценки 


Омонимами оказались почти треть изученных слов. Больше всего омонимов — почти 60% — среди тех слов, которые относительно часто, более 1000 раз в течение года, встретились в поисковых запросах, но при этом отсутствовали в текстах из корпуса. А среди таких слов с более высокой частотностью (больше 100 тысяч запросов за год) доля омонимов превысила 80%.
Всего около 8,5% слов из словаря Даля интересуют пользователей в первую очередь в контексте поиска значения. Из них самые популярные: инсинуация, 
демагогия, утрировать, моногамия и импонировать. Большая часть таких слов отсутствует в текстах из корпуса и мало распространена в запросах.

Два с половиной тома словаря Даля
Теперь можно более точно распределить слова из словаря Даля между тремя главными группами: ушедшими, уходящими и живыми.
К вышедшим из употребления отнесли слова, которые ни разу не встретились ни в запросах, ни в текстах из корпуса русского языка, а также те, которые оказались там только из-за омонимии или по ошибке.
К словам, которые уходят из языка и употребляются сейчас крайне редко, причислили следующие:

  • те, которые встретились в поисковых запросах менее 10 раз в год,
  • те, которые сравнительно мало встречались в запросах — десятки или, в редких случаях, сотни раз за год, отсутствовали в корпусе, и для которых в интернете не удалось найти примеров употребления,
  • те, которые искали в первую очередь для того, чтобы узнать значение.

Живыми считали все остальные слова, в том числе мало распространённые специальные термины (поралье, 
счаливать, головик) — вне зависимости от их частотности в поисковых запросах.
Примерно треть слов из словаря Даля (32%) распространены до сих пор. Ещё чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.


Источник: yandex.ru



Еще новости / Назад к новостям