Сравнительный анализ качества робастных модификаций метода главных компонент при сжатии коррелированных данных
Авторы: Горяинов В.Б., Горяинова Е.Р. | Опубликовано: 23.06.2021 |
Опубликовано в выпуске: #3(96)/2021 | |
DOI: 10.18698/1812-3368-2021-3-23-45 | |
Раздел: Математика и механика | Рубрика: Вычислительная математика | |
Ключевые слова: робастный метод главных компонент, MCD-оценка, оценка типа Гнанадесикана --- Кетенринга, оценка Олива --- Хокинса |
Одним из традиционных методов решения задачи снижения размерности многомерного вектора с коррелированными компонентами является метод главных компонент. Построение главных компонент проводится с использованием специального представления ковариационной или корреляционной матрицы наблюдаемых показателей. В классическом методе главных компонент в качестве оценок элементов корреляционной матрицы используются выборочные коэффициенты корреляции Пирсона. Эти оценки крайне чувствительны к засорению выборки и наличию аномальных наблюдений. Для робастификации метода главных компонент предложено заменить выборочные оценки корреляционных матриц известными робастными аналогами, к числу которых относятся ранговый коэффициент Спирмена, MCD-оценки, ортогонализованные оценки Гнанадесикана --- Кетенринга (OGK) и оценки Олива --- Хокинса. Цель работы состоит в проведении численного сравнительного анализа классического метода главных компонент и его робастных модификаций. Для этого проведено моделирование девятимерных векторов с известной структурой корреляционных матриц и введена специальная метрика, позволяющая оценивать качество сжатия данных. Обширный численный эксперимент показал, что наилучшее качество сжатия при нормальном распределении наблюдений имеет классический метод главных компонент. Когда наблюдения имеют распределение Стьюдента с тремя степенями свободы, а также при наличии в данных кластера выбросов, отдельных аномальных наблюдений или симметричных засорений, описываемых распределением Тьюки, наилучшее качество сжатия показывают оценки Гнанадесикана --- Кетенринга и Олива --- Хокинса модификации метода главных компонент. Качество классического метода главных компонент и ранговой модификации Спирмена в этих случаях снижается
Литература
[1] Hubert M., Engelen S. Robust PCA and classification in biosciences. Bioinformatics, 2004, vol. 20, iss. 11, pp. 1728--1736. DOI: https://doi.org/10.1093/bioinformatics/bth158
[2] Hubert M., Rousseeuw P.J., Branden K.V. ROBPCA: a new approach to robust principal component analysis. Technometrics, 2005, vol. 47, iss. 1, pp. 64--79. DOI: https://doi.org/10.1198/004017004000000563
[3] Горяинова Е.Р., Шалимова Ю.А. Снижение размерности многомерных показателей с нелинейно зависимыми компонентами. Бизнес-информатика, 2015, № 3, с. 24--33.
[4] Wright J., Peng Y., Ma Y., et al. Robust principal component analysis: exact recovery of corrupted low-rank matrices by convex optimization. 22nd NIPS. ACM, 2009, pp. 2080--2088.
[5] Wilcox R.R. Robust principal components: a generalized variance perspective. Behav. Res., 2008, vol. 40, no. 1, pp. 102--108. DOI: https://doi.org/10.3758/BRM.40.1.102
[6] Maronna R. Principal components and orthogonal regression based on robust scales. Technometrics, 2005, vol. 47, no. 3, pp. 264--273.
[7] Croux C., Haesbroeck G. Principal component analysis based on robust estimators of the covariance or correlation matrix: influence functions and efficiencies. Biometrika, 2000, vol. 87, iss. 3, pp. 603--618. DOI: https://doi.org/10.1093/biomet/87.3.603
[8] Spearman C. The proof and measurement of association between two things. Am. J. Psych., 1904, vol. 15, no. 1, pp. 72--101. DOI: https://doi.org/10.2307/1412159
[9] Rousseeuw P.J., Leroy A.M. Robust regression and outlier detection. Wiley, 1987.
[10] Gnanadesikan R., Kettenring J.R. Robust estimates, residuals, and outlier detection with multiresponse data. Biometrics, 1972, vol. 28, no. 1, Special Multivariate Issue, pp. 81--124. DOI: https://doi.org/10.2307/2528963
[11] Maronna R., Zamar R.H. Robust estimates of location and dispersion for high-dimensional datasets. Technometrics, 2002, vol. 44, iss. 4, pp. 307--317. DOI: https://doi.org/10.1198/004017002188618509
[12] Olive D.J. Robust multivariate analysis. Cham, Springer, 2017. DOI: https://doi.org/10.1007/978-3-319-68253-2
[13] Zhang J., Olive D.J., Ye P. Robust covariance matrix estimation with canonical correlation analysis. Int. J. Stat. Probab., 2012, vol. 1, no. 2, pp. 119--136. DOI: https://doi.org/10.5539/ijsp.v1n2p119
[14] Croux C., Garcia-Escudero L.A., Gordaliza A., et al. Robust principal component analysis based on trimming around affine subspaces. Stat. Sin., 2017, vol. 27, no. 3, pp. 1437--1459.
[15] Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику. М., ЛКИ, 2010.
[16] Айвазян С.А., ред. Прикладная статистика. Классификация и снижение размерности. М., Финансы и статистика, 1989.
[17] Jolliffe I.T. Principal component analysis. Springer Series in Statistics. New York, Springer-Verlag, 2002. DOI: https://doi.org/10.1007/b98835
[18] Delvin S.J., Gnanadesikan R., Kettenring J.R. Robust estimation of dispersion matrices and principal components. J. Am. Stat. Assoc., 1981, vol. 76, no. 374, pp. 354--362.
[19] Поляк Б.Т., Хлебников М.В. Метод главных компонент: робастные версии. Автомат. и телемех., 2017, № 3, с. 130--148.
[20] Горяинова Е.Р., Панков А.P., Платонов Е.Н. Прикладные методы анализа статистических данных. М., НИУ ВШЭ, 2012.
[21] Abdullah M.B. On a robust correlation coefficient. J. R. Stat. Soc. Ser. D, 1990, vol. 39, no. 4, pp. 455--460. DOI: https://doi.org/10.2307/2349088
[22] Cator E.A., Lopuhaa H.P. Asymptotic expansion of the minimum covariance determinant estimators. J. Multivar. Anal., 2010, vol. 101, iss. 10, pp. 2372--2388. DOI: https://doi.org/10.1016/j.jmva.2010.06.009
[23] Rousseeuw P.J., van Driessen K. A fast algorithm for the minimum covariance determinant estimator. Technometrics, 1999, vol. 41, iss. 3, pp. 212--223. DOI: https://doi.org/10.2307/1270566
[24] Maronna R.A., Martin D., Yohai V. Robust statistics theory and methods. Wiley, 2006.
[25] Хьюбер П.Дж. Робастность в статистике. М., Мир, 1984.
[26] Olive D.J. A resistant estimator of multivariate location and dispersion. Comput. Stat. Data Anal., 2004, vol. 46, iss. 1, pp. 93--102. DOI: https://doi.org/10.1016/S0167-9473(03)00119-1
[27] Lopuhaa H.P. Asymptotics of reweighted estimators of multivariate location and scatter. Ann. Stat., 1999, vol. 27, iss. 5, pp. 1638--1665. DOI: https://doi.org/10.1214/aos/1017939145