Типирование по особенностям речи (Страница 1 из 7)

4X_Pro · 2016-06-14 01:00:33

4X_Pro
Официальный типировщик
Неактивен

Откуда: Москва, Перово
Зарегистрирован: 2009-12-25
Сообщений: 5,376

Тема: Типирование по особенностям речи

Давно собирался сделать на форуме тему по типированию по особенностям написания текстов, но несколько дней назад решил создать не просто тему, а провести достаточно серьезное исследование. Изначально в качестве объекта хотел взять блоги в ЖЖ, но потом сделал парсер, который может импортировать данные с любой блоговой платформы, где есть RSS. Затем полученный материал прогоняется через стеммер MyStem от Яндекса (стеммер — эта программа, которая определяет форму слова и приводит ее к нормальному виду, т.е. для существительных — именительному падежу, для глаголов — инфинитиву, и т.д.) и подсчитывался ряд параметров (всего чуть более шестидесяти штук), а также составляется частотный словарь.
Далее я решил проверить, что эти параметры являются устойчивыми на различных выборках текстов, написанных одним и тем же человеком. Для этого отобрал 10 достаточно объемных блогов в ЖЖ. Причем отбирал так, чтобы с одной стороны, блог содержал как можно меньше сторонней информации (репостов, цитат, копипасты и т.п.), с другой, чтобы тематика блогов была разнообразной. Далее для каждого блога я сделал 5 выборок: одна — 25 последних сообщений, остальные — по тегам (причем теги выбирались так, чтобы во-первых, как можно меньше сообщений пересекалось, во-вторых, тематики были различны).
В результате из 60 параметров в качестве более-менее устойчивых удалось отобрать 21:

* Av word len — средняя длина слова
* Tail ratio — отношение длины "хвоста" (слов, которые встречаются всего 1 раз) к общему количеств слов в тексте
* Dot ratio — отношение количества точек к длине текста (в словах).
* Comma ratio — то же для запятых
* Colon ratio — то же для двоеточий
* Доли существительных, глаголов, прилагательных, наречий, предлогов и союзов по отношению к общему количеству слов.
* Доля глаголов в непрошедшем времени (считается по отношению к общему количеству глаголов)
* Доли глаголов совершенного и несовершенного видов (считается по отношению к общему количеству глаголов)
* Доля инфинитивов (считается по отношению к общему количеству глаголов)
* Доля причастий(считается по отношению к общему количеству глаголов)
* Доля полных прилагательных (считается по отношению к общему количеству прилагательных)

Кроме того, есть еще ряд признаков, у которых с самосходимостью дело обстоит хуже, но, возможно, тоже окажутся годными для типирования:
*Доля bastard words (слов, которые стеммер отметил как незнакомые ему) — предполагаю, что у этиков она больше
*Top word rate (доля самого распространенного слова по отношению к общему количеству слов)
*Brackets diff (разница в количестве открывающих и закрывающих скобок по отношению к длине текста)
*Semicolon ratio — доля точек с запятыми
*Me ratio — доля местоимения "я" (и всех его форм)
*You ratio — доля местоимений "ты" и "вы" (есть подозрение, что этот параметр связан с экстра/интро, но непонятно, соционической или психологической)
*Ne ratio — доля частиц "не", "нет", также есть мысль добавить сюда слово "отсутствовать" (проверка на связь с позитивизмом/негативизмом)
*Доля междометий (есть предположение, что у этиков их будет больше)
*Доля союзов
*Доля деепричастий (по отношению ко всем глаголам)
*Доля глаголов 2 и 3 лица
*Доля сравнительных наречий
*Доля всех форм числительных и цифр (есть предположение, что у логиков их будет больше).

Исходные данные можно посмотреть в прикрепленном файле.

Если у кого есть идеи, какие еще признаки можно измерить в текстах, пишите. В частности, на данный момент я предполагаю померить еще суммарную долю слов, обозначающих возможность или вероятность (пока четыре "бы", "если", "возможно", "вероятно"), возможно, у интуитов их будет больше.

Post's attachments

step1.xls 153.5 kb, 7 downloads since 2016-06-17

You don't have the permssions to download the attachments of this post.

ЛИИ-"Робеспьер", ЛЭВФ, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!

Спасибо сказали: Bormont, Zora, kain1stkainit, Eldein4

Bormont · 2016-06-14 01:23:14

Bormont
Находящий ответы
Неактивен

Зарегистрирован: 2015-03-17
Сообщений: 3,418

Типирование по особенностям речи (Страница 1 из 7)

Сообщения с 1 по 20 из 131

1 Тема от 4X_Pro 2016-06-14 01:00:33

Тема: Типирование по особенностям речи

2 Ответ от Bormont 2016-06-14 01:23:14

Re: Типирование по особенностям речи

3 Ответ от 4X_Pro 2016-06-14 01:52:46

Re: Типирование по особенностям речи

4 Ответ от Bormont 2016-06-14 13:45:32

Re: Типирование по особенностям речи

5 Ответ от 4X_Pro 2016-06-15 13:54:45

Re: Типирование по особенностям речи

6 Ответ от Bormont 2016-06-16 15:09:52

Re: Типирование по особенностям речи

7 Ответ от 4X_Pro 2016-06-17 21:29:12

Re: Типирование по особенностям речи

8 Ответ от Qlyq 2016-06-17 21:48:53

Re: Типирование по особенностям речи

9 Ответ от 4X_Pro 2016-06-18 11:46:27

Re: Типирование по особенностям речи

10 Ответ от Qlyq 2016-06-18 11:54:19

Re: Типирование по особенностям речи

11 Ответ от 4X_Pro 2016-06-18 11:56:50

Re: Типирование по особенностям речи

12 Ответ от 4X_Pro 2016-06-18 12:01:35

Re: Типирование по особенностям речи

13 Ответ от Вельkа 2016-06-18 17:35:40

Re: Типирование по особенностям речи

14 Ответ от a_shulga 2016-06-18 18:41:06

Re: Типирование по особенностям речи

15 Ответ от Zora 2016-06-18 19:34:17 (изменено: Zora, 2016-06-18 19:34:31)

Re: Типирование по особенностям речи

16 Ответ от Hator 2016-06-18 19:57:57

Re: Типирование по особенностям речи

17 Ответ от Веселка 2016-06-18 21:04:01

Re: Типирование по особенностям речи

18 Ответ от 4X_Pro 2016-06-19 00:57:59

Re: Типирование по особенностям речи

19 Ответ от 4X_Pro 2016-06-19 01:08:47

Re: Типирование по особенностям речи

20 Ответ от Zora 2016-06-19 01:13:14

Re: Типирование по особенностям речи

Сообщения с 1 по 20 из 131