Исследование устойчивости к аномальным наблюдениям модификаций метода главных компонент
Авторы: Горяинов В.Б., Горяинова Е.Р. | Опубликовано: 22.05.2023 |
Опубликовано в выпуске: #2(107)/2023 | |
DOI: 10.18698/1812-3368-2023-2-17-34 | |
Раздел: Математика и механика | Рубрика: Вычислительная математика | |
Ключевые слова: метод главных компонент, робастные оценки корреляционной матрицы, MCD-оценка, оценка Гнанадесикана --- Кетенринга, оценка Олива --- Хокинса, распределение Тьюки, бимодальное распределение |
Аннотация
Рассмотрена задача редукции многомерных коррелированных показателей. Один из подходов к решению этой задачи основан на методе главных компонент, который позволяет компактно описать вектор с коррелированными координатами (компонентами) с помощью вектора главных компонент с некоррелированными координатами существенно меньшей размерности, сохраняя при этом большую часть информации о корреляционной структуре исходного вектора. На моделированных и реальных данных проведено сравнение несколько модификаций метода главных компонент, отличающихся способом оценивания корреляционной матрицы вектора наблюдений. Цель работы --- демонстрация преимущества робастных модификаций метода главных компонент в тех случаях, когда данные содержат аномальные значения. Для сравнения рассматриваемых модификаций на модельных данных введена метрика, измеряющая различие оцененных и истинных собственных значений корреляционной матрицы исходных данных. Методом компьютерного моделирования исследовано поведение этой меры в зависимости от вероятностного распределения наблюдений. В качестве распределений выбраны имитирующие засоренную выборку многомерные распределения с недиагональными корреляционными матрицами. Далее изучена выборка 13 коррелированных социально-экономических показателей по 85 странам, в которой выявлено 46 аномальных значений. Рассмотренные модификации метода главных компонент выбрали одинаковое оптимальное число главных компонент, равное трем. Однако качество сжатия реальных данных, которое определяется как доля суммарной дисперсии исходных показателей, описываемая первыми тремя главными компонентами, оказалась существенно выше у робастных модификаций метода главных компонент. Полученные на реальных данных результаты хорошо согласуются с выводами компьютерного моделирования
Просьба ссылаться на эту статью следующим образом:
Горяинов В.Б., Горяинова Е.Р. Исследование устойчивости к аномальным наблюдениям модификаций метода главных компонент. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки, 2023, № 2 (107), с. 17--34. DOI: https://doi.org/10.18698/1812-3368-2023-2-17-34
Литература
[1] Айвазян С.А., ред. Прикладная статистика. Классификация и снижение размерности. М., Финансы и статистика, 1989.
[2] Jolliffe I.T. Principal component analysis. Springer Series in Statistics. New York, NY, Springer, 2002. DOI: https://doi.org/10.1007/b98835
[3] Huber P.J., Ronchetti E.M. Robust statistics. Wiley, 2009.
[4] Olive D.J. Robust multivariate analysis. Cham, Springer, 2017. DOI: https://doi.org/10.1007/978-3-319-68253-2
[5] Горяинов В.Б., Горяинова Е.Р. Сравнительный анализ качества робастных модификаций метода главных компонент при сжатии коррелированных данных. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки, 2021, № 3 (96), с. 23--45. DOI: https://doi.org/10.18698/1812-3368-2021-3-23-45
[6] Горяинова Е.Р., Панков А.P., Платонов Е.Н. Прикладные методы анализа статистических данных. М., ИД НИУ ВШЭ, 2012.
[7] Rousseeuw P.J., Leroy A.M. Robust regression and outlier detection. Wiley, 1987.
[8] Cator E.A., Lopuhaa H.P. Asymptotic expansion of the minimum covariance determinant estimators. J. Multivar. Anal., 2010, vol. 101, iss. 10, pp. 2372--2388. DOI: https://doi.org/10.1016/j.jmva.2010.06.009
[9] Maronna R.A., Martin R.D., Yohai V.J., et al. Robust statistics. Theory and methods (with R). Wiley, 2019.
[10] Maronna R., Zamar R.H. Robust estimates of location and dispersion for high-dimensional datasets. Technometrics, 2002, vol. 44, iss. 4, pp. 307--317. DOI: https://doi.org/10.1198/004017002188618509
[11] Olive D.J. A resistant estimator of multivariate location and dispersion. Comput. Stat. Data Anal., 2004, vol. 46, no. 1, pp. 93--102. DOI: https://doi.org/10.1016/S0167-9473(03)00119-1
[12] Zhang J., Olive D.J., Ye S. Robust covariance matrix estimation with canonical correlation analysis. Int. J. Probab. Stat., 2012, vol. 1, no. 2, pp. 119--136. DOI: http://dx.doi.org/10.5539/ijsp.v1n2p119
[13] Горяинова Е.Р., Шалимова Ю.А. Снижение размерности многомерных показателей с нелинейно зависимыми компонентами. Бизнес-информатика, 2015, № 3, с. 24--33.
[14] Maronna R. Principal components and orthogonal regression based on robust scales. Technometrics, 2005, vol. 47, iss. 3, pp. 264--273. DOI: https://doi.org/10.1198/004017005000000166
[15] Kotz S., Nadarajah S. Multivariate T-distributions and their applications. Cambridge Univ. Press, 2004.
[16] Razali N.M., Wah Y.B. Power comparisons of Shapiro --- Wilk, Kolmogorov --- Smirnov, Lilliefors, and Anderson --- Darling tests. JOSMA, 2011, vol. 2, no. 1, pp. 21--33.