Тема: Типирование по особенностям речи
Давно собирался сделать на форуме тему по типированию по особенностям написания текстов, но несколько дней назад решил создать не просто тему, а провести достаточно серьезное исследование. Изначально в качестве объекта хотел взять блоги в ЖЖ, но потом сделал парсер, который может импортировать данные с любой блоговой платформы, где есть RSS. Затем полученный материал прогоняется через стеммер MyStem от Яндекса (стеммер — эта программа, которая определяет форму слова и приводит ее к нормальному виду, т.е. для существительных — именительному падежу, для глаголов — инфинитиву, и т.д.) и подсчитывался ряд параметров (всего чуть более шестидесяти штук), а также составляется частотный словарь.
Далее я решил проверить, что эти параметры являются устойчивыми на различных выборках текстов, написанных одним и тем же человеком. Для этого отобрал 10 достаточно объемных блогов в ЖЖ. Причем отбирал так, чтобы с одной стороны, блог содержал как можно меньше сторонней информации (репостов, цитат, копипасты и т.п.), с другой, чтобы тематика блогов была разнообразной. Далее для каждого блога я сделал 5 выборок: одна — 25 последних сообщений, остальные — по тегам (причем теги выбирались так, чтобы во-первых, как можно меньше сообщений пересекалось, во-вторых, тематики были различны).
В результате из 60 параметров в качестве более-менее устойчивых удалось отобрать 21:
* Av word len — средняя длина слова
* Tail ratio — отношение длины "хвоста" (слов, которые встречаются всего 1 раз) к общему количеств слов в тексте
* Dot ratio — отношение количества точек к длине текста (в словах).
* Comma ratio — то же для запятых
* Colon ratio — то же для двоеточий
* Доли существительных, глаголов, прилагательных, наречий, предлогов и союзов по отношению к общему количеству слов.
* Доля глаголов в непрошедшем времени (считается по отношению к общему количеству глаголов)
* Доли глаголов совершенного и несовершенного видов (считается по отношению к общему количеству глаголов)
* Доля инфинитивов (считается по отношению к общему количеству глаголов)
* Доля причастий(считается по отношению к общему количеству глаголов)
* Доля полных прилагательных (считается по отношению к общему количеству прилагательных)
Кроме того, есть еще ряд признаков, у которых с самосходимостью дело обстоит хуже, но, возможно, тоже окажутся годными для типирования:
*Доля bastard words (слов, которые стеммер отметил как незнакомые ему) — предполагаю, что у этиков она больше
*Top word rate (доля самого распространенного слова по отношению к общему количеству слов)
*Brackets diff (разница в количестве открывающих и закрывающих скобок по отношению к длине текста)
*Semicolon ratio — доля точек с запятыми
*Me ratio — доля местоимения "я" (и всех его форм)
*You ratio — доля местоимений "ты" и "вы" (есть подозрение, что этот параметр связан с экстра/интро, но непонятно, соционической или психологической)
*Ne ratio — доля частиц "не", "нет", также есть мысль добавить сюда слово "отсутствовать" (проверка на связь с позитивизмом/негативизмом)
*Доля междометий (есть предположение, что у этиков их будет больше)
*Доля союзов
*Доля деепричастий (по отношению ко всем глаголам)
*Доля глаголов 2 и 3 лица
*Доля сравнительных наречий
*Доля всех форм числительных и цифр (есть предположение, что у логиков их будет больше).
Исходные данные можно посмотреть в прикрепленном файле.
Если у кого есть идеи, какие еще признаки можно измерить в текстах, пишите. В частности, на данный момент я предполагаю померить еще суммарную долю слов, обозначающих возможность или вероятность (пока четыре "бы", "если", "возможно", "вероятно"), возможно, у интуитов их будет больше.
Есть только один истинно типологический форум! Остерегайтесь подделок!