Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента

Светлана Васильевна Жучкова, Алексей Николаевич Ротмистров

Ссылка при цитировании


Жучкова С. В., Ротмистров А. Н. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента // Социология: методология, методы, математическое моделирование (4М), 2018. № 46. C. 85-122.

Аннотация


Рассматривается вариант работы с пропущенными данными («пропусками») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант кардинально отличается от других вариантов работы с пропусками: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Один из известных нам методов, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. Модели деревьев с пропусками нередко встречаются в эмпирических исследованиях, однако в литературе отсутствует систематическое рассмотрение вопроса, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. С целью начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. Также представлены рекомендации о том, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть»

Ключевые слова


деревья решений; деревья классификации; катего¬риальные переменные; поиск взаимодействий; пропущенные данные; пропущенные значения; статистический эксперимент; CHAID

Литература


Rubin D.B. Inference and Missing Data // Biometrika. 1976. Vol. 63. P. 581–592.

Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data. Boca Raton: CRC Press, 2012.

Doove L.L., van Buuren S., Dusseldorp E. Recursive Partitioning for Missing Data Imputation in the Presence of Interaction Effects // Computational Statistics and Data Analysis. 2014. Vol. 72. P. 92–104.

Von Hipple P.T. How to Impute Interactions, Squares, and Other Transformed Variables // Sociological Methodology. 2009. Vol. 39. No. 1. P. 265–291.

Dempster A.P., Rubin D.B. Incomplete Data in Sample Surveys. Vol. 2: Theory and Annotated Bibliography. New York: Academic Press, 1983.

Allison P.D. Missing Data. Thousand Oaks, CA: Sage, 2002.

Rokach L., Maimon O. Decision Trees // Data Mining and Knowledge Dis¬covery Handbook. Boston: Springer, 2010. P. 165–192.

Kenett R., Salini S. Modern Analysis of Customer Surveys: with Applications using R. Chichester: Wiley, 2012.

Kass G.V. An Exploratory Technique for Investigating Large Quantities of Categorical Data // Applied Statistics. 1980. Vol. 29. No. 2. P. 119–127.

Quinlan J.R. Unknown Attribute Values in Induction. Proceedings of the Sixth International Machine Learning Workshop. New York: Morgan Kaufmann Publishers Inc., 1989. P. 164–168.

Gentle J.E., Härdle W.K., Mori Y. Handbook of Computational Statistics: Concepts and Methods. Berlin: Springer, 2012.

Gesser-Edelsburg A., Zemach M., Lotan T., Elias W., Grimberg E. Perceptions, Intentions and Behavioral Norms that Affect Pre-license Driving among Arab Youth in Israel // Accident Analysis & Prevention. 2018. Vol. 111. P. 1–11.

Ritschard G. CHAID and Earlier Supervised Tree Methods. Contemporary Issues in Exploratory Data Mining in the Behavioral Sciences / Ed. J. McArdle, G. Ritschard. London: Routledge. 2013. P. 48–74.

Breiman L. Random Forest. Machine Learning. 2001. Vol. 45. P. 5–32.


Ссылки

  • Ссылки не определены.