|

Построение управления на основе алгоритма обучения с подкреплением

Авторы: Девяткин Д.Д., Юрченков А.В. Опубликовано: 15.03.2026
 
DOI:

 
Раздел: Математика и механика | Рубрика: Математическое моделирование, численные методы и комплексы программ  
Ключевые слова: дискретно-непрерывное управление, Q-learning, обучение с подкреплением, линейные системы

Аннотация

Работа посвящена построению управления на основе алгоритма обучения с подкреплением для непрерывной системы и его сравнению с классическим методом дискретно-непрерывного управления. Дискретно-непрерывное управление расширяет классические методы, позволяя изменять управляющий сигнал внутри интервала дискретизации. Это повышает точность, однако требует знания параметров системы, что ограничивает его применение в условиях неопределенности. В качестве более современного и адаптивного метода рассмотрен подход на основе данных с использованием алгоритма off-policy Q-learning, который не требует априорной идентификации модели и знания точных параметров управляемого объекта, а обучается непосредственно на измеренных данных. Показано, что последовательность коэффициентов усиления имеет передел, при этом каждый элемент последовательности будет стабилизировать замкнутую систему. Разработанный алгоритм управления обладает свойством робастности. Проведено численное моделирование для системы двойного интегратора, демонстрирующее эффективность обоих методов, а также эксперимент с воздействием шума на модель. Выполнены анализ и сравнение обоих алгоритмов. Практическая часть реализована на языке программирования Python с использованием общедоступных библиотек NumPy, SciPy, Matplotlib и Seaborn

Просьба ссылаться на эту статью следующим образом:

Девяткин Д.Д., Юрченков А.В. Построение управления на основе алгоритма обучения с подкреплением. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки, 2026, № 1 (124), с. 32--50. EDN: YKJZQV

Литература

[1] Johnson C.D., Abdel-Haleem M. Optimal discrete-continuous control for the linear-quadratic regulator problem. Proc. 28th Southeastern Symposium on System Theory, 1996, pp. 184--188. DOI: https://doi.org/10.1109/SSST.1996.493495

[2] Cheng S., Quilodran-Casas C., Ouala S., et al. Machine learning with data assimilation and uncertainty quantification for dynamical systems: a review. CAA J. Autom. Sin., 2023, vol. 10, iss. 6, pp. 1361--1387. DOI: https://doi.org/10.1109/JAS.2023.123537

[3] Мыльников Л.А., Гергель Н.А., Кычкин А.В. и др. Использование динамических предиктивных моделей для управления техническими системами с инертностью. Вестник ПНИПУ. Электротехника, информационные технологии, системы управления, 2018, № 26, с. 77--91. EDN: XUEDGP

[4] Van Waarde H.J., Eising J., Trentelman H.L., et al. Data informativity: a new perspective on data-driven analysis and control. IEEE Trans. Autom. Control, 2020, vol. 65, iss. 11, pp. 4753--4768. DOI: https://doi.org/10.1109/TAC.2020.2966717

[5] Berberich J., Romer A., Scherer C., et al. Robust data-driven state-feedback design. Proc. ACC, 2020, pp. 1532--1538. DOI: https://doi.org/10.23919/ACC45564.2020.9147320

[6] Dorfler F., Coulson J., Markovsky I. Bridging direct and indirect data-driven control formulations via regularizations and relaxations. IEEE Trans. Autom. Control, 2023, vol. 68, iss. 2, pp. 883--897. DOI: https://doi.org/10.1109/TAC.2022.3148374

[7] Yang Y., Guo Z., Xiong H., et al. Data-driven robust control of discrete-time uncertain linear systems via off-policy reinforcement learning. IEEE Trans. Neural Netw. Learn. Syst., 2019, vol. 30, iss. 12, pp. 3735--3747. DOI: https://doi.org/10.1109/TNNLS.2019.2897814

[8] Johnson C.D. A new discrete-time state model for linear dynamical systems with continuously-varying control/disturbance inputs. Proc. of the 1994 Southeastern Symposium on System Theory (SSST), 1994, pp. 523--527. DOI: https://doi.org/10.1109/SSST.1994.287821

[9] Ogata K. Discrete-time control systems. Prentice-Hall, 1987.

[10] Kuo B.C. Digital control systems. Oxford Univ. Press, 1992.

[11] Dorato P., Levis A.H. Optimal linear regulators: the discrete-time case. EEE Trans. Autom. Control, 1971, vol. 16, iss. 6, pp. 613--620. DOI: https://doi.org/10.1109/TAC.1971.1099832

[12] Sutton R.S., Barto A.G. Reinforcement learning: an introduction. MIT Press, 2018.

[13] Watkins J., Dayan P. Q-learning. Mach. Learn., 1992, vol. 8, no. 3, pp. 279--292. DOI: https://doi.org/10.1007/BF00992698

[14] Willems J.C., Rapisarda P., Markovsky I., et al. A note on persistency of excitation. Syst. Control Lett., 2005, vol. 54, iss. 4, pp. 325--329. DOI: https://doi.org/10.1016/j.sysconle.2004.09.003

[15] Bradtke S.J., Ydstie B.E., Barto A.G. Adaptive linear quadratic control using policy iteration. Proc. ACC, 1994, vol. 3, pp. 3475--3479. DOI: https://doi.org/10.1109/ACC.1994.735224

[16] Lopez V.G., Alsalti M., Muller M.A. Efficient off-policy Q-learning for data-based discrete-time LQR problems. IEEE Trans. Autom. Control, 2023, vol. 68, iss. 5, pp. 2922--2933. DOI: https://doi.org/10.1109/TAC.2023.3235967

[17] Любанович Б. Простой Python. СПб., Питер, 2020.

[18] Бэрри П. Изучаем программирование на Python. М., Эксмо, 2020.

[19] Idris I. NumPy beginner’s guide. Packt Publ., 2015.

[20] Нуньес-Иглесиас Х., Уолт Ш., Дэшноу Х. Элегантный SciPy. М., ДМК Пресс, 2018.

[21] Абдрахманов М.И. Python. Визуализация данных. Devpractice.ru, 2020.