1

Тема: Типирование по особенностям речи

Давно собирался сделать на форуме тему по типированию по особенностям написания текстов, но несколько дней назад решил создать не просто тему, а провести достаточно серьезное исследование. Изначально в качестве объекта хотел взять блоги в ЖЖ, но потом сделал парсер, который может импортировать данные с любой блоговой платформы, где есть RSS. Затем полученный материал прогоняется через стеммер MyStem от Яндекса (стеммер — эта программа, которая определяет форму слова и приводит ее к нормальному виду, т.е. для существительных — именительному падежу, для глаголов — инфинитиву, и т.д.) и подсчитывался ряд параметров (всего чуть более шестидесяти штук), а также составляется частотный словарь.
Далее я решил проверить, что эти параметры являются устойчивыми на различных выборках текстов, написанных одним и тем же человеком. Для этого отобрал 10 достаточно объемных блогов в ЖЖ. Причем отбирал так, чтобы с одной стороны, блог содержал как можно меньше сторонней информации (репостов, цитат, копипасты и т.п.), с другой, чтобы тематика блогов была разнообразной. Далее для каждого блога я сделал 5 выборок: одна — 25 последних сообщений, остальные — по тегам (причем теги выбирались так, чтобы во-первых, как можно меньше сообщений пересекалось, во-вторых, тематики были различны).
В результате из 60 параметров в качестве более-менее устойчивых удалось отобрать 21:

* Av word len — средняя длина слова
* Tail ratio — отношение длины "хвоста" (слов, которые встречаются всего 1 раз) к общему количеств слов в тексте
* Dot ratio — отношение количества точек к длине текста (в словах).
* Comma ratio — то же для запятых
* Colon ratio — то же для двоеточий
* Доли существительных, глаголов, прилагательных, наречий, предлогов и союзов по отношению к общему количеству слов.
* Доля глаголов в непрошедшем времени (считается по отношению к общему количеству глаголов)
* Доли глаголов совершенного и несовершенного видов (считается по отношению к общему количеству глаголов)
* Доля инфинитивов (считается по отношению к общему количеству глаголов)
* Доля причастий(считается по отношению к общему количеству глаголов)
* Доля полных прилагательных (считается по отношению к общему количеству прилагательных)


Кроме того, есть еще ряд признаков, у которых с самосходимостью дело обстоит хуже, но, возможно, тоже окажутся годными для типирования:
*Доля bastard words (слов, которые стеммер отметил как незнакомые ему) — предполагаю, что у этиков она больше
*Top word rate (доля самого распространенного слова по отношению к общему количеству слов)
*Brackets diff (разница в количестве открывающих и закрывающих скобок по отношению к длине текста)
*Semicolon ratio — доля точек с запятыми
*Me ratio — доля местоимения "я" (и всех его форм)
*You ratio — доля местоимений "ты" и "вы" (есть подозрение, что этот параметр связан с экстра/интро, но непонятно, соционической или психологической)
*Ne ratio — доля частиц "не", "нет", также есть мысль добавить сюда слово "отсутствовать" (проверка на связь с позитивизмом/негативизмом)
*Доля междометий (есть предположение, что у этиков их будет больше)
*Доля союзов
*Доля деепричастий (по отношению ко всем глаголам)
*Доля глаголов 2 и 3 лица
*Доля сравнительных наречий
*Доля всех форм числительных и цифр (есть предположение, что у логиков их будет больше).

Исходные данные можно посмотреть в прикрепленном файле.

Если у кого есть идеи, какие еще признаки можно измерить в текстах, пишите. В частности, на данный момент я предполагаю померить еще суммарную долю слов, обозначающих возможность или вероятность (пока четыре "бы", "если", "возможно", "вероятно"), возможно, у интуитов их будет больше.

Post's attachments

step1.xls 153.5 kb, 7 downloads since 2016-06-17 

You don't have the permssions to download the attachments of this post.
ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: Bormont, Zora, kain1stkainit, Eldein4

2

Re: Типирование по особенностям речи

Хорошая идея. И сразу прошу уточнить:
1.) Устойчивые параметры - это те, которые оказались разными у разных людей, правильно понимаю?
2.) К какому признаку относится, например, отношение количества точек к длине текста?
И мне кажется, что по-нормальному нужно анализировать семантику слов, а не морфологию: последняя скорее общий уровень грамотности покажет, а не тип. Формы глагола сильно от стиля зависят... Они действительно сильно отличались у разных блоггеров?

3

Re: Типирование по особенностям речи

Устойчивые — это те, которые оказались почти одинаковыми для всех пяти выборок у одного человека, и при нет почти полного совпадения диапазонов у всех авторов. Скажем, у меня средняя длина слова меняется в диапазоне 5.24 — 5.75, а у goblincat — от 5.45 до 5.92, а у evo-lution — от 4.905 до 5.45.

Bormont пишет:

2.) К какому признаку относится, например, отношение количества точек к длине текста?

Есть предположение, что максимум будет у логик-сенсориков.

Но вообще, я планирую сделать так: собрать данные по хотя бы нескольким десяткам блогов, типы авторов которых мне известны, а дальше проверить автоматизированно на связь со всеми 15 признаков Рейнина. Вот как анализировать более сложные связи, скажем, с малыми группами Рейнина — не знаю пока (эх, не хватает мне знания machine learning), придется это вручную делать.

По поводу семантики — уже столько попыток было, и ничего не вышло... Хотя, в принципе, данные по частоте употребляемых словам собираются (сейчас, правда, сохраняются только 50 самых частых), при желании можно попробовать что-то с ними сделать.

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: Bormont, Zora2

4

Re: Типирование по особенностям речи

4X_Pro пишет:

Но вообще, я планирую сделать так: собрать данные по хотя бы нескольким десяткам блогов, типы авторов которых мне известны, а дальше проверить автоматизированно на связь со всеми 15 признаков Рейнина.

Отлично. Результаты будут опубликованы?

5

Re: Типирование по особенностям речи

Да, естественно. Открытость — один из основополагающих принципов нашего проекта.

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: kain1stkainit1

6

Re: Типирование по особенностям речи

Кстати после можно и по информионике тест провести, у меня даже пара идей есть, что там к чему будет.

7

Re: Типирование по особенностям речи

Итак, отснял данные по нескольким десяткам блогов и отобрал из них те, в типах авторов которых более-менее уверен (или же были сомнения, но в ходе анализа получившийся тип совпал с тем, который человек сам считал верным). Всего получилось 28 блогов. Далее провел анализ первых 6 признаков Рейнина (базис Юнга + статика/динамика и тактика/стратегия) и вот что получилось:
1. Средняя длина слова — больше всего различается, как это ни странно, по тактике/стратегии: 5.345 у тактиков, 5.858 у стратегов. В меньшей степени различия замечены с экстра/интро и логикой/этикой. Это вполне согласуется с изначальным предположением, что этики стремятся говорить проще и понятнее, поэтому и слова используют соответствующие.
2. Доля bastard word — как это ни странно тоже больше всего связана с тактикой/стратегией: 0.021 у тактиков, 0.014 у стратегов. Опять же есть отличия по логике/этике (видимо потому этики больше любят играть со словами, искажая их), по рац/иррац, и в меньшей степени, по интуиции/сенсорике.
3. Длина "хвоста"— от рассмотренных признаков зависит мало, выявлено только очень небольшое различие по рац/иррац.
4. Доля точек — как и следовало ожидать, у логиков их больше: 0.083 против 0.0769 у этиков. Также есть небольшая связь с рац/иррац (причем у иррационалов их больше, что меня удивило, возможно, из-за того, что иррационалы чаще пользуются многоточиями, которые на данный момент считаются именно как множество точек, в дальнейшем, возможно, стоит сделать обработку этого момента) и экстра/интро (у интровертов точек чуть больше).
5. Доля запятых: в среднем их больше у интуитов (0.116 против 0.102 у сенсориков), что в целом ожидаемо (если вспомнить, что ЧС-ники склонны к коротким, четким, "рубленным" предложениям).
6. Дисбаланс скобок: к моему огромному удивленю, оказался наиболее выраженным не по логике/этике, а по интуиции/сенсорике. -0.186 у сенсориков (минус означает, что закрывающих скобок больше, чем открывающих), но и связь с логикой/этикой также наблюдается: у этиков дисбаланс скобок больше (что вполне объяснимо, если учесть то, что они скобки используют в составе смайликов).
7. Доля двоеточий: больше у логиков (0.088 против 0.77 у этиков), что также объяснимо склонностью логиков к более сложным фразам. Также есть небольшая связь с рац/иррац (у рационалов их больше).
8. Доля точек с запятыми: почти не различается по этике/логике (что удивило), зато огромная разница по иррациональности/рациональности (0.0051/0.0293) и несколько меньшая по интуиции/сенсорике (причем лидируют сенсорики) и рац/иррац (вполне ожидамо лидируют рационалы).
9. Доля существительных (S ratio): небольшая связь с тактикой/стратегией, у стратегов преобладают (0.261/0.287).
10. Доля глаголов (V ratio). Стереотипно принято считать, что глаголов больше у динамиков. И это подтвердилось, но с очень небольшой разницей: у статиков 0.154, у динамиков 0.163.
11. Доля прилагательных (A ratio): практически не связана ни с этикой, ни с сенсорикой, зато ощутимо различается по экстра/интро (что несколько удивило): 0.070/0.082.
12. Доля наречий (ADV ratio): очень небольшая связь с интуицией/сенсориков (у сенсориков больше)
13. Доля инфинитивов (inf ratio): неожиданно оказалась связана с признаком тактика/стратегия — у стратегов их больше (0.239 против 0.206)
14. Доля глаголов во втором лице (2p ratio) — вполне ожидаемо связана с этикой и экстраверсией.
15. Доля глаголов в третьем лице (3p ratio) — почему-то наибольшее различие по интуиции/сенсорике (изначально я ожидал экстра/интро)
16. Сравнительные наречия (ADV comp ratio) оказались достаточно явно связаны с признаком статика/динамика (0.065/0.083).

На этом пока все. Также прикладываю XLS-файл с "сырыми" данными на случай, если кто хочет поизучать их самостоятельно. Также хочу отметить, что выборка весьма и весьма небольшая (некоторые типы вообще отсутствуют, например, очень мало Беты).

Post's attachments

step2-export.xls 104.5 kb, 14 downloads since 2016-06-17 

You don't have the permssions to download the attachments of this post.
ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: Bormont, Zora, Eldein3

8

Re: Типирование по особенностям речи

А можно меня по открытым записям в моём блоге проанализировать, раз инструмент расчехлён и настроен?

СЛИ · ЛЭФВ · ПБНВ · Заботливая гарпия (ранее вампир) · ЭАФС · ОФСД · Творец по Марк и Пирсон

9

Re: Типирование по особенностям речи

Ты про тот, с которого мне писал в ЛС в свое время? Я вчера попробовал, но у тебя там тексты не на русском языке, в результате чего результат получается совершенно неадекватный: большую часть параметров просто не удается корректно посчитать.

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!

10

Re: Типирование по особенностям речи

4X_Pro пишет:

Можно. Давай ссылку.

http://niekas.diary.ru

СЛИ · ЛЭФВ · ПБНВ · Заботливая гарпия (ранее вампир) · ЭАФС · ОФСД · Творец по Марк и Пирсон

11

Re: Типирование по особенностям речи

Все, RSS нашел, сейчас посчитаю...

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: Qlyq1

12

Re: Типирование по особенностям речи

Вот что получилось:

Показатель логики/этики          Логик        13.2
Показатель интуиции/сенсорики         Интуит        11.9
Показатель иррациональности/рациональности        Иррац.        22.8
Показатель экстраверсии/интроверсии        Интро        -47.9
Показатель статики/динамики        Статик        3.5
Показатель тактики/стратегии        Тактик        41.2

То есть либо ИЛЭ, либо ИЛИ. Но экстра/интро там пока довольно глючно определяется: то ли в базе есть кто-то неправильный, то ли образцов мало.

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: alice_q1

13

Re: Типирование по особенностям речи

Добрый день, меня тоже заинтересовал такой способ типирования. Вот ссылка на журнал, если можно.

14

Re: Типирование по особенностям речи

http://thurbo.livejournal.com/ - ccылка

ЛИИ (Робеспьер), ЛЭВФ, Белый Единорог, ВБПН

15 (изменено: Zora, 2016-06-18 19:34:31)

Re: Типирование по особенностям речи

Про, извини, если я достала с этой темой, но если я есть в базе, то какое соотношение по сенсорике и интуиции получилось по моему блогу?

Если вдруг нужны примеры блогов, сейчас накидаю тех, кого знаю и у кого определен тип:

+ открыть спойлер

http://frie.livejournal.com/ ЭИИ
http://ellenwisdom.livejournal.com/ ИЭЭ
http://erdes.livejournal.com/ ЭИЭ/ЛСЭ (две доминирующие версии)
http://verde-viento-m.livejournal.com/ ЭСИ
http://dearmad.livejournal.com/ СЭЭ
http://daryssimo.livejournal.com/ СЛИ (раньше была версия ЭСЭ, мне сложно с ней расстаться)

У тех, у кого указан один тип, высокая уверенность в результате.

Высший гоблин, базовый белый этик, ФВЛЭ, ВБПН, ЭСФА

16

Re: Типирование по особенностям речи

Возможно, с  такой методикой по признакам Рейнина легче определить ТИМ, чем отдельно сенсорику-интуицию....

17

Re: Типирование по особенностям речи

Привет!
Мне пришла рассылка с сайта, хочу воспользоваться возможностью smile
оставляю ссылку на блог: http://kaisu-riina.livejournal.com/

18

Re: Типирование по особенностям речи

Вельkа:

Этик        -13.6
Интуит         27.3
Рационал         -13.9
Интро         -4.8
Динамик        -67.3
Тактик        38.0

С учетом явно выраженных тактики и динамики более вероятен вариант ИЭИ-"Есенин"

a_shulga, результат очень неожиданный:
Этик        -24.4
Интуит        103.5
Иррац.        71.3
Экстра        43.6
Динамик        -58.4
Стратег        -25.7
А если удалить из базы одну подозрительную участницу, получаешься ИЛЭ/ЛИЭ.

Веселка:
Этик         -2.7
Интуит        71.6
Иррац.        35.9
Экстра        21.1
Динамик        -66.7
Стратег        -26.3

То есть получается либо ИЭЭ-"Гексли", либо ЭИЭ-"Гамлет".

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: Zora, Веселка2

19

Re: Типирование по особенностям речи

На всякий случай уточню, что плюсовые знаки у дихотомий, которые совпадают с признаками ИЛЭ (логик, интуит, иррационал, экстраверт).

Zora пишет:

Про, извини, если я достала с этой темой, но если я есть в базе, то какое соотношение по сенсорике и интуиции получилось по моему блогу?

Тебя я в базу внес как ЭИИ. Но даже если тебя из базы убрать, а считать только по остальным пользователям, то ты все равно четко получаешься интуитом.

Hator пишет:

Возможно, с  такой методикой по признакам Рейнина легче определить ТИМ, чем отдельно сенсорику-интуицию....

Вообще, у меня в планах сделать подсчет всех 15 признаков, а затем можно будет досчитывать до конкретного типа по методике Касюкова с помощью вот этого калькулятора: http://reinin.ru/calc.shtml.

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!
Спасибо сказали: Zora, kain1stkainit, alice_q3

20

Re: Типирование по особенностям речи

4X_Pro пишет:

Тебя я в базу внес как ЭИИ. Но даже если тебя из базы убрать, а считать только по остальным пользователям, то ты все равно четко получаешься интуитом.

Поняла, благодарю.

Высший гоблин, базовый белый этик, ФВЛЭ, ВБПН, ЭСФА