Попробовал применить алгоритмы машинного обучения к результатам гибридного теста. Если конкретно, алгоритм kNN (k ближайших соседей) и SVM (state vector machine), а также прокластеризовать результаты по методу k-mean. Но результаты оказались весьма плачевными: самосходимость, т.е. правильность определения типа в том случае, если человека убрали из базы, оказалась на уровне где-то 40%.
Кстати, что любопытно, максимальная самосходимость наблюдалась у ИЛЭ-"Дон Кихотов" и ИЛИ-"Бальзаков", среди этик-интуитов много перетипирований друг в друга (особенно ИЭИ и ИЭЭ), также чут ли не половина ЛИИ-"Робеспьров" оказывалась перетипированной в ИЛИ-"Бальзаки". Самая плохая сходимость оказалась у СЛИ-"Габенов" и ЛСИ-"Максимов" (возможно потому что последних очень мало в базе).
Когда стал разбираться в причинах, оказалось, что все дело том, что есть низкоэффективные вопросы, на которые почти все отвечают одинаково: либо почти все типы хорошо, либо почти все типы плохо. Это стало очень хорошо видно после того, как я построил тепловую карту:

В частности, там очень хорошо видно, что не работают вопросы 9 и 14 (в анкетной нумерации): по большинству из них все отвечают "хорошо", по вопросам 3 и 18 наблюдается большой разброс в ответах в пределах одного ТИМа
И даже нормализация данных почти не меняет картину:

В результате при кластеризации объединяются люди с весьма рзаличными типами:

В ближайшее время попробую отбросить эти столбцы, и посмотреть, каковы будут результаты без них, возможно, как это ни странно, качество работы алгоритма улучшится. Если нет, то придется придумывать новый набор вопросов и собирать данные снова с нуля...
ЛИИ-"Робеспьер", ЛЭВФ, Владыка Видений, ОФСД (информионика), тип D (псикосмология), 2367 (ТУАИ), Анубис (Эль-Тат).
Есть только один истинно типологический форум! Остерегайтесь подделок!