一种新型自学习控制器及其应用

摘要：本文提出了一种新的学习控制律，论证了控制律的合理性，证明了其收敛性，说明此控制律具有控制精度高，收敛速度快等优点，具有广阔的应用前景。
关键词：学习控制　收敛性　压力控制器1　前言

　　气动控制技术是70年代随着工业自动化的需要发展起来的一门新型控制技术。因其具有节能、无污染、结构简单、高效以及适应恶劣的工作环境等特点，在机器人、飞行器、风洞中尾撑机构以及冶金设备上得到广泛的应用。自Arimoto于1984年提出迭代学习控制以来［1］［2］，已在很多领域得到充分应用，它仅需较少的先验知识和计算量就可以处理不确定程度相当高的线性或非线性系统，而气动控制系统中广泛存在着参数漂移、非线性特性等，使我们无法得到精确的数学模型，用传统的控制方法很难得到令人满意的效果。因此我们把自学习控制方法引入气动控制系统，提出了一种变学习因子迭代自学习控制算法，并对它的合理性及收敛性进行分析和证明。并把它应用于压力跟踪控制系统，收到了很好的效果。

2　基本描述

　　考虑如下线性系统的微分状态方程为：

(1)

对于非线性系统：

可以在各个工作点附近线性化成式(1)的形式，我们可以用许多局部的线性方程组合起来，以体
现系统全局的非线性。
　　取控制律为如下形式：

(2)

式中：u_j(t)，u_j+1(t)分别是第j次学习，第j+1次学习的控制量；k^j₁(t)表示k1在t时刻，第j次迭代时的增益值；k^j_２(t)表示k2在t时刻，第j次迭代时的增益值；e_j(t)表示第j次学习时的响应误差，
　　合并式(1)、式(2)得：

(3)

　　假设系统是能控的，即：

则(4)

　　式中：B(t)⁺，C(t)⁺分别表示矩阵B(t)，矩阵C(t)的广义逆矩阵。下一步迭代学习，即j+1次时，控制量将等于理想控制输入ud(t)，所以系统输出Y_j+1(t)也将等于期望输出Y_d(t)，系统收敛。这表明采用形式如式(2)的控制律，如取学习增益阵k₁，k_２为式(4)所示，则正好得到系统的逆系统。系统的动力学特性已包含在k₁(t)，k_２(t)中，即学习算法已经“学会”了系统的特性，理论上讲，以后无论初始偏差e_d(t)，(t)有多大，下面只需一步学习就可达到期望输出。
　　学习控制的优点就是无需知道系统的先验知识，但在式(4)中要知道A，B，C阵的值。我们可用最小二乘法借助系统辨识的思想来完成求解k_１(t)k_２(t)的任务。最小二乘法求 k_１，k_２的值的形式：

　　由迭代最小二乘法得增益阵k(i，j)的估计为：

(5)

　　式(5)所表示的参数估计有以下特点：
　　(1)它不同于一般的最小方差参数估计，虽然形式上是相似的。式(5)的估计是沿学习轴迭代进行的，而不是通常的时间轴。所以可以不象自校正算法那样实时在线求解估计值，而是在两次学习的间隔上离线地运算。正因为这种特点，较为复杂的递推最小二乘法的运算时间，对控制效果没有影响。算法可以推广到运算速度较慢的微机上实现，而且在这种学习算法的基础上可以发展更为复杂的算法；
　　(2)设计者无需知道系统的结构知识，迭代学习的过程其实就是求解系统逆系统的过程，即已知y_d(t)，t∈〔0，T〕的情况下，求出u_d(t)，t∈〔0，T〕的过程；
　　(3)学习控制器不仅可以学习某一种设定的轨迹y_d(t)，因为学习因子k₁(i，j)，k_２(i，j)中包含着设定轨迹y_d(t)的逆动力学系统的信息，所以可以在此基础上较快地学习另一种相似的设定轨迹y_d1(t)，这样就表现为某种类似人类的“智能”；
　　(4)由于某些系统没有全局逆，只能求出对某一设定轨迹的局部逆，所以在学习另一种轨迹时，不会马上完全跟踪重合。但对于有全局逆的线性定常系统，学习因子估计值收敛后，将得到系统的真实逆系统，学习另一种设定轨迹y_d1(t)时y_d(t)将一步收敛到设定值y_d(t)。

3　控制算法的收敛性分析

　　首先定义几种范数：

　　其中：e⁽ⁱ⁾(t)是e(t)∈R^m的第i个元素；g^(i，j)是G∈R^m×m的第(i，j)个元素；λ＞0。
　　假设：
　　(1)系统每次迭代的初始误差为0，即e_j(0)=0，(j=1，2，3…)这里j代表学习次数。这个条件很容易满足，如压力控制器每次学习前，把气放完，使压力为零；
　　(2)k₁(t)，k₂(t)，t∈〔0，T〕经迭代估计后都收敛到某些常值。用系统辨识的知识可以证明，满足某些条件，k_１(t)，k₂(t)可以依概率收敛到它们的真值，所以这个假设是合理的。
　　定理：由式(3)决定的系统收敛(Yj(t)→Yd(t)，t∈〔0，T〕)如果满足以上(1)、(2)假设，且‖I-CBK‖_∞＜1，如果k_１(t)=-B⁺AC⁺，k₂(t)=(CB)⁺则达到最快收敛速度。
　　证明：由式(3)得：

(6) (7)

将(7)式代入(6)式得：

(8)

上式两端同乘exp(-λt)，再取‖*‖λ范数，得：

(9)

由假设(2)可知，‖I-CBk2‖∞＜1，所以可取足够大的λ使

　　由此结合(9)式可推出：
　　当j→∞时，‖e_j(t)‖λ→0，t∈〔0，T〕，即系统(3)收敛。
　　为获得最快的收敛速度由(9)式知，
　　‖I-CBk₂‖_∞=0，即k₂=(CB)⁺

同时由exp(At)的性质：Aexp(At)=exp(At)A则可得：

由上式可得：k_１=-B⁺AC⁺⁺，
由此可得当：
　　　　　　　　k_１=-B⁺AC⁺
　　　　　　　　k₂=(CB)⁺(10)

时，系统收敛速度最快。

4　仿真结果

　　这里采用如下气动伺服系统模型进行仿真，系统结构图如图1所示，气罐的热力学方程为〔3〕：

图1　系统结构图

(11)

　　p0=p(0)，T0=T(0)(12)

式中：m是气体质量；R是气体常数； T是开氏温度；V是气罐的容积；t为时间；n为绝热系数。

　　若温度T(t)波动很小，可设T(t)=T0
由式(11)、式(12)可得：

(13)

气体的质量流量可表示为：

(14)

式中：A_V1是电气比例阀的开口面积；AV2是节流阀的开口面积；p0是环境气压；ps是气源压力；C_d1和C_d2为充、放气系数。
　　充排气量是阀的输入电压和时间的函数，即

　　kn是常数(对空气kn=0.258)；g是重力常数。比例压力阀的力平衡方程为：

(15)

式中：y_i为阀芯位移；k_i为力矩马达磁力系数；u_i为加在阀芯线圈上的电压；p_i为工作压力；
As为阀芯的端部有效作用面积；ks为弹簧刚度。
　　则系统模型为：

(16)

仿真参数表

物理量参数值物理量参数值V1.2×10^-4m₃R287N.mn1.4T288KC_a10.53C_a20.53C_b10.231C_b20.121p_s1MPap₀1.013×10^-1MPak_n0.258A_s2.5×10³m²g9.80m/s²k_i7.04×10^-4N/mAk_s0.5×10^-4N/mp_i0.66MPa　　

　　从仿真结果可以看出，到第6次学习时，输出量已基本收敛到最大值为0.2MPa的三角形设定轨迹，如图2所示，表明k1、k2这时已学会了系统的动特性，让它转而跟踪另一斜率的曲线时，经一次学习后即可与期望曲线完全重合，如图3所示。这时学习控制的智能性被充分体现出来。

图2　跟踪三角波仿真曲线图

图3　变斜率跟踪三角波仿真曲线

5　结论

　　本文提出的变学习因子的迭代学习算法，因为理论上误差是按梯度方向减小的，所以收敛速度快，又因为学习算法是点点跟踪的，所以有较高的控制精度且能有效地克服系统非线性造成的模型估计误差。一系列变学习因子中包含了系统模型的信息，因而控制收敛后，可以较快地跟踪另一种设定轨迹。以上都表明这种新的迭代自学习算法具有较高的实用价值和广阔的应用前景。

轻松提高数控机床精度

随着我国经济的飞速发展，数控机床作为新一代工作母机，在机械制造中已得到广泛的应用，精密加工技术的迅速发展和零件加工精度的

0评论2025-01-04311

加工中心刀具长度补偿怎么用？

在数控加工中，刀具长度补偿是一种重要的措施，用于消除机床变形、热变形等因素引起的误差，保证加工精度，从而提高培训效率，减

0评论2024-12-18399

加工中心主轴定位角度怎么调？

　　在数控加工领域，加工中心主轴的定位角度是影响加工精度和效率的重要因素之一。正确调整主轴的定位角度可以提高加工质量，减

0评论2024-12-11496

简述机器人加装电主轴就选Kasite 4060ER-S的理由

　　近年来，随着科技的不断发展，机器人作业已经渗透到各个领域，尤其在工业制造领域，更加随处可见。高精密切割、铣削、雕刻、

0评论2024-05-20707