尽管基于深度强化学习(DRL)的主动流动控制已在数值模拟环境中得到了广 泛验证,但在实验中实现实时 DRL 控制仍然颇具挑战,这主要是因为数据采集和神经网络计算有着严格的时间要求。在本研究中,研究人员开发了一种基于高速现场可编程门阵列(FPGA)的实验性深度强化学习(FeDRL)控制框架,其控制 频率可达 1 - 10 千赫兹,比现有的基于中央处理器(CPU)的框架(10 赫兹)高出 两个数量级。
研究人员在一个颇具挑战性的案例中测试了FeDRL框架的可行性,该案例是马赫数为2 的超音速后向台阶流动,分别采用等离子体合成射流阵列和热线作为 执行器和传感器。闭环控制律由径向基函数网络表示,并通过经典的基于价值的算法(即深度 Q 网络)进行优化。结果显示,仅经过十秒的训练,智能体就能找到一 条令人满意的控制律,使剪切层中的混合程度提高了 21.2%。如此高的训练效率在 以往的实验中从未有过报道(典型的时间成本为数小时)。
1、引言
主动流动控制(AFC)是一种借助执行器来操控外部流场的技术,其目的在于改善目标物体的整体气动性能(加德哈克,2000年;卡塔费斯塔三世和谢普拉克,2011年)。从控制理论的角度而言,主动流动控制的根本目标是找到一条最优控制律,以使目标函数的值最大化(布伦顿、诺克和库穆塔索科斯,2020年)。传 统的基于模型的控制策略虽然前景良好,但依赖于对流动的降阶建模,并且仅适 用于诸如钝体绕流和圆柱绕流等简单
图 1. 近期深度强化学习控制研究的总结。绿色 区域表示与航空航天工程(AE)相关的参数范围。此处,F_f表示流动的特征频率。
几何形状的情况(帕斯托尔等人, 2008年) 。对于复杂流动的闭环控制,以深度 强化学习(DRL)为代表的最新数据驱动机器学习方法引起了学术界的广泛关注。
(维尼翁、拉博和维努埃萨, 2023年)在图 1 中,相关研究被绘制在一个由自由 流速度 (U∞) 和雷诺数 (Re∞ )构成的坐标系中。需要注意的是,对于那些仅报告了 雷诺数的数值研究,自由流速度是通过假设参考长度尺度 Lref=0.1m 推导得出的。 即 U∞=Re∞ν/L ref,其中 ν表示运动黏度。对于大多数实验室模型而言,这种长度 尺度的假设是合理的。
拉博等人(2019 年)利用二维低雷诺数数值模拟环境,首次证明了深度强化学习智能体能够在圆柱绕流中学习到有效的涡谷稳定策略,在自由流雷诺数Re∞=100的情况下,实现了 8% 的阻力减小(DR=8% )。随后,其他团队借鉴了这一数值模拟框架,并付出了大量努力来研究超参数的影响(拉博和屈内勒, 2019 年;园田等人,2023年) 、加快智能体的训练速度(王等人,2022年;邓、胡和陈,2024年;苏亚雷斯等人,2024年)、提高所学习控制策略的鲁棒性(任、拉唐, 2021年;唐等人,2020年;贾和徐,2024年) 以及优化传感器的布置(帕里斯、贝内迪纳和丹杜瓦,2021年;王等人,2024年)。尽管这些低雷诺数研究(大多为二维且Re<1000,提供了有价值的指导,但在实验中实际应用深度强化学习仍然具有挑战性,尤其是对于高速高雷诺数的航空流动而言。 这一困难主要源于控制律执行和神经网络训练对时间的严格要求。具体来说,为了与流动动力学相匹配,控制操作应在主流流动结构的特征尺度上进行。在此假设下,控制回路频率(记为F_c应至少比流动的特征频率(记为F_f)高出几倍(拉博和屈内勒,2019 年)。
对于航空航天工程(AE)应用,其中自由流速度 U通常在 10 - 1000 米 / 秒范 围内,雷诺数Re通常在 10Λ6- 10Λ8范围内,气流的特征频率估计为 100 赫兹 - 10千赫兹。结合公式(1.1),这表明实验性深度强化学习(DRL)系统中的控制频 率至少应超过 1 千赫兹才有真正的意义。然而, 现实情况是,几乎所有现有的实验 性 DRL研究(范等人, 2020 年;下村等人,2020 年;阿米科、卡菲耶罗和尤索,2022 年;董等人,2023 年)都以 CPU作为主控制器,负责神经网络的执行和 训练。在这样的框架中,传感器信号和控制指令先存储在数据采集卡的缓冲区中,然后传输到随机存取存储器(RAM),再由 CPU 进行处理。这种缓冲机制造 成的相应时间延迟很容易达到 10 毫秒的数量级,实际上将最大控制频率限制在了 100 赫兹以下,远不能满足航空航天工程应用的需求。实际上,在范等人(2020年)和下村等人(2020 年)的研究中,控制频率 F_c仅为 10 赫兹。除了上述实时 执行方面的挑战外,在超音速 / 高超声速实验中,神经网络的及时训练和快速收敛 也是一个关键问题,因为大多数这类风洞以瞬态模式运行,典型的测试时间约为10秒。
在上述需求的驱动下,本文提出了一种新颖的高速实验深度强化学习(DRL)控制框架,该框架使用现场可编程门阵列(FPGA)作为主控制器。这一 框架的最大控制频率达到了 O(1–10 kHz),比传统基于中央处理器(CPU)的实现 方式高出两个数量级。该框架的可行性在超音速后向台阶(BFS)流中进行了测试,这极具挑战性,因为整个深度强化学习过程必须在风洞的一次运行(10秒)内完成。本文的结构安排如下。第 2 节详细介绍了控制方法和框架。在第 3 节中, 将介绍实验装置,包括流场环境和测量系统。在第 4 节中,将展示深度强化学习的 学习曲线和高速纹影结果。主要研究成果总结在第 5 节中。
2、高速实验深度强化学习(DRL)控制框架
基于上一节的综述,很明显,要在高速实验中实现实时闭环控制,关键在于缩 短控制周期。在深度强化学习中, 一个硬件系统能够实现的最小控制周期为
其中Tacq 、Tnn 、Tout和 Tcom分别表示由数据采集、神经网络计算、控制指 令输出以及必要的硬件通信所导致的时间延迟。为了使 2.1 节中这四项中的每一项 都最小化,我们提出了一种基于现场可编程门阵列(FPGA)的实验性深度强化学 习(FeDRL)框架,如图 2 所示。与传统的基于中央处理器(CPU)的深度强化学 习框架(范等人,2020 年;下村等人,2020 年)相比,做了三处修改。首先,神 经网络的执行和训练过程被有效地分开,分别由对时间要求严格的现场可编程门 阵列(FPGA)芯片和高性能的中央处理器(CPU)芯片来完成。其次,原来用于 表示策略和 Q 函数的全连接神经网络(FCNN)被径向基函数(RBF)网络所取代。对于通用逼近而言,径向基函数(RBF)网络只需要一个隐藏层,因此其运行 和训练速度比传统的全连接神经网络(FCNN)要快得多。第三,数据采集
图 2. 由现场可编程门阵列(FPGA)和径向基函数(RBF)网络驱动的高速实验性深度强化学习
(DRL)框架。(DAQ)设备, 包括用于读取传感器信号和输出指令信号所必需 的模数转换器(ADC )和数模转换器( D A C) , 都直接连接在现场可编程门 阵列( F P G A )芯片上 。 这样一来 ,就不需要缓冲机制,并且消除了通信时间延迟Tcom。 因 此 , 新颖框架能够达到因此,这个新颖框架能够达到的最高控制频率(最小控制周期)等于Fcmax=1 / ( Tacq+ Tnn +Tout 。通过使 用 高 端 的现场可编程门阵列(FPGA)芯片和数据采集(DAQ)模块,我们可以轻松地将Fcmax提升到O(1–10kHz) 级别。为了阐明这个框架的基本工作流程, 我们实现 了一种经典的基于价值的深度强化学习(DRL)算法,即深度Q网络(DQN)。如图2 所示,两个在基于 FPGA 的深度强化学习(FeDRL)框架中配置了两个循环: 一个周期为 O(10–100 微秒)的实时控制循环,以及一个每几百毫秒运行一次的慢速网络训练循 环。在每个控制周期内,传感器信号,也就是瞬时流场状态st,首先由模数转换器 (ADC)进行采样,然后被 插入到一个先进先出(FIFO)序列中(SFIFO ,“S”代 表状态)。这个序列(长度为l),包含当前状态及其时间历史信息,将被用作径 向基函数(RBF)网络的输入,即x =[s_t, s_{t - 1}, s_{t - 2},..., s_{t - l + 1})。先前的 深度强化学习控制研究表明,对于流场系统观测在空间上较为稀疏的情况,这样对 流场状态的扩充能够帮助智能体找到更好的控制策略,接近在完全观测情况下的控 制策略(皮诺等人,2023 年;王等人,2024 年)。网络的输出本质上是不同动作 的 Q 值。在图2 中展示了一个最简单的情况,只有两个动作,分别表示执行器的 开启 / 关闭状态。从数学角度来看,由该网络表示的 Q 函数如下:
其中,v是基函数,选择为高斯核函数。 v的中心和方差分别记为 ci 和hi。以矩 阵形式表示,Clm= [c1T, c2T, cmT]^T) 且 Hm1= [h1, h2,... hm]。连接隐藏层与输 出层的权重以及输出层的偏置分别由 W2m和 B21表示。使用贪婪策略,可以从 Q 函数中选择一个动作 at,然后通过数模转换器(DAC)和电源将其转换为执行器的 驱动波形。为了进行训练,在每个控制周期中收集到的经验被组织成一个元组 st, at, st+1并排入到一个经验先进先出队列(简称为E-FIFO,长度为 n)中。在训练循 环中,设置了一个 Labview程序,该程序利用其 NI-FPGA 模块,充当控制器(FPGA 代码)和训练器(Python 代码)之间的桥梁。为了避免频繁的数据请求,Labview 程序以批量模式读取存储在 E-FIFO 中的经验。之后,分配奖励rt,并 将其作为额外的一列附加到经验元组中。这些经验通过技术数据管理流(TDMS) 文件传输到 Python 程序中,基于此计算预测损失,并更新径向基函数(RBF)网络 及其目标网络。为了使控制律保持最新,更新后的网络权重首先通过另一个 TDMS 文件发送回 Labview程序,然后写入到 FPGA 的系数先进先出队列(C-FIFO)中。
3、 超音速后向台阶(BFS)流中的实际应用
3.1. 实验装置
超音速后向台阶(BFS)流可在超燃冲压发动机的火焰稳定器以及火箭尾部中见到,现选用这种流场来测试基于 FPGA 的深度强化学习(FeDRL)框架,目的是增强剪切层中的混合效果。实验在空军工程大学的超音速风洞中进行。这是一座瞬态吸气式风洞,由一个200立方米的真空室驱动。自由流风速为2马赫U=510m/秒),每次运行的最长测试时间约为10 秒。该风洞有一个方形测试段(200 毫米 ×200 毫米),通过顶部和侧面的窗口提供光学观测通道。如图 3 所示,后向台阶 (BFS)模型由一块前缘尖锐的平板(材料:聚醚醚酮)制成。平板宽度、厚度和 台阶高度(记为H)分别为 80 毫米、15 毫米和10 毫米。台阶角与前缘之间的距离 为 190 毫米。基于自由流速度和
图 3. (a)后向台阶(BFS)模型的三维视图。(b)在 xy平面的横截面视图。(c)陶瓷块的结构。
基于平板长度的雷诺数达到了Re=2*10^{6}在台阶角的中间位置建立了一个坐标系, 其中x 、y和z分别沿着流向、壁面法向和展向方向。 一个热线探针被夹在台阶下游 较远处,作为传感器来测量剪切层中的速度脉动。这个探针是专门为超音速流设计 的,具有楔形前端和坚硬的钢质主体。热线的直径为 6.5 微米,对应的频率响应超 过 10 千赫兹。该热线探针连接到一个恒温风速仪传感器(CTA-4,航华科技)上。 热线的工作温度Twire设定为 410 开尔文,在冷态超音速流中这相当于2.5 的过热度。
为了对超音速后向台阶(BFS)流产生扰动,在台阶角前方安装了一个由五个 展向排列的等离子体合成射流致动器(PSJAs)组成的阵列,如图 3(b)所示。选 择这种致动器是因为它兼具高射流速度(量级为 100 米 / 秒)和高频率(大于 5 千 赫兹)的独特优势。与先前的设计不同,以往的设计中为每个致动器单独设置外壳 和腔体(宗和科特索尼斯, 2017 年;宗等人,2024 年),在本研究中设计了一个 集成的陶瓷块,其中容纳了五对钨针,并且所有致动器共享一个内部槽形腔体(见 图 3c)。这个陶瓷块的横截面呈 L 形,从底部嵌入到平板中。相应的射流孔开设在 平板的顶面上。射流孔的直径(D)、展向间距以及到台阶角的距离分别为 3 毫米、15 毫米和 8 毫米。内部腔体的宽度、高度和长度分别为 4 毫米、5 毫米和 66 毫 米,从而使得腔体的总体积Vca1320立方毫米。
如图 4(a)所示,采用了宗和科特索尼斯(2017 年)开发的顺序放电电路来 为等离子体合成射流致动器(PSJA)阵列供电。所有的等离子体致动器都串联连 接,这样它们就会共用相同的放电电流。在每个周期内,首先由一个纳秒(NS)电 源产生一个高压触发脉冲,以使电极之间的空气发生击穿。然后,存储在电容器C1 中的电能会迅速
图 4. (a)用于为等离子体合成射流致动器(PSJA)阵列供电的顺序放电电路。(b)风洞一次运行中三个测试阶段的示意图。
直流电源的充电电流,电容和直流电压分别设置为C0 = 0.1μF 和U0 = 1kV。添加了 两个高压二极管(D1 和 D2)用于隔离。与宗和科特索尼斯(2017)的原始设计不 同,在 R1 和 D1 之间插入了一个高压电子开关(Q1)。在电容放电阶段,Q1 会断 开,以防止电流直接从直流电源流向等离子体合成射流致动器(PSJA)阵列。根据 相关的电气和几何参数,可以计算出无量纲能量沉积(λ),它被定义为电容器能 量(Ec)与腔体气体总焓(Eg)之比。
其中,cp 是定压比热容;rho0和 T0分别表示测试段中的静态密度0.23千克 / 立方米)和温度(163 开尔文)。因此,被确定为λ=10,是宗和科特索尼斯(2018
年)研究中数值的两倍。根据宗等人(2018年)的研究,最大射流速度Up与 λ的立 方根成正比。因此,本研究中 Up的值估计为宗和科特索尼斯(2018 年)研究中数值的 2Λ(1/3)倍,即 146 米 / 秒。
3.2. 闭环深度强化学习设置
根据图2所示的框架,搭建了一个闭环深度强化学习(DRL)控制系统。该系 统由集成FPGA芯片的NI实时控制器(National Instruments cRIO-9049)、热线传感 器和PSJA阵列组成。控制器机箱内安装有两个模块:用于采集热线电压信号的模 拟输入模块(NI-9223),以及用于向执行器电源发送触发脉冲的模拟输出模块(NI-9262)。模数转换器(ADC)的采样率设置为50 kHz,对应数据采集周期Tacq = 20 μs 。S-FIFO缓冲区的深度设定为l= 10,这决定了径向基函数(RBF)神经 网络输入层的最大节点数。PSJA阵列采用开关控制模式(at = 0或1):当at = 1时,向高压电源发送5μs宽度的触发脉冲,使其向流场发射一束等离子射流。受限 于PSJA的最大工作频率(5.2 kHz,参见Zong & Kotsonis 2018),控制回路频率选 定为5 kHz。此外,考虑到RBF网络的输入节点数(l)不超过10,隐含层神经元数 量设定为m = 20。
理想情况下,我们会将控制周期内的速度脉动作为即时奖励。但实际上,由 于可压缩效应的影响,超声速流场中不同流动参数的变化相互耦合,要像在不可 压缩亚声速流中那样获得精确的速度-电压标定曲线并不现实。因此,我们直接采 用后续 l 步内归一化电压信号的标准偏差( st)作为替代指标来表征即时奖励,即
其中,基准工况下测得的无扰动电压信号的均值(μ₀)和标准差(σ₀)被用 于归一化处理。根据定义,在第一个表达式中,当未施加等离子体激励时,等式右侧第一项的期望值为1。因此,通过从该表达式中减去1,正(负)奖励将对应 于测量到的流动脉动增强(减弱)。
本研究采用Keras API训练网络,训练循环频率设为2 Hz。具体而言,每500毫秒 将FPGA采集的2500条最新经验数据存入经验回放池(容量:10,000条),并基于这 些数据对RBF网络进行约两轮训练。由于采用经典DQN算法,通过贝尔曼方程的迭 代运算来更新Q函数,其损失函数(L)定义如下(Mnih等,2015):
其中,γ为折扣因子(取值为0.95) ,用于调节智能体的决策视野;θ表示 RBF 网络中的可训练参数,包括中心矩阵C、方差矩阵H、权重矩阵W和偏置矩阵 B。在式(3.3)右侧,前两项之和定义了期望Q值,而最后一项给出了预测Q值。显 然,二者平方差的期望本质上构成了损失函数。需注意的是,此处采用独立的目 标网络(Q*)来计算期望Q值,且每完成五次训练周期后,会将原始Q网络的参数复 制到目标Q网络。
在每次训练周期中,从经验回放池随机抽取包含1000条经验的迷你批次(mini- batch)计算损失,并按照下式更新网络参数:
其中,上标“i”和“i+ 1”表示迭代次数。这里,α 表示学习率,初始值设为 0.001, 并在训练过程中通过 Adam优化器(Kingma ,2014)动态调整。
为了在强化学习(RL)中实现探索与利用的平衡,ε -贪婪策略中的探索概率 (即 ε 的值)被设定为时间的分段函数(见式 (3.5))。如图 4(b) 所示,在每次风 洞运行中,总运行时间(10 秒)被划分为三个阶段:第一阶段(t ≤ 0.5 秒):无 等离子体激励的基准测试阶段(ε = 0 ,a = 0) ;第二阶段(0.5 秒 < t <9 秒): 训练阶段,探索概率从 0.5 线性递减至 0;
3. 第三阶段(t ≥ 9 秒):评估阶段,固定 ε = 0,以测试训练后的策略性能。第三 阶段(t≥9秒)为评估阶段,在此阶段将确定性执行最终训练得到的控制策略(即 不进行探索,按 a =argmax{Q(x a} 选择动作。作者通过对比发现:基于该训练后 评估方案统计得到的控制策略性能 2. 与独立评估试验获得的结果相比仅存在边际 差异。该评估方案的优势在于:单次试验同步获取数据:可在同一次风洞运行中 同时采集基准状态(无激励)与受控状态的统计量。消除系统误差:避免因风洞 工况漂移(如环境温度变化)导致的测量误差
4、结果与讨论
4.1. 速度统计
本研究共选取三种不同状态维度和初始化策略的案例进行深度强化学习 (DRL)控制,具体配置如表1所示:
案例1:网络输入:x = [s , s 1, ..., s 9](10维时序状态)。参数初始化: 高斯核中心矩阵Cˡ:均匀随机初始化(范围[0,1]);权重矩阵W:Xavier均匀 初始化(Keras默认);方差矩阵H:全1矩阵 ;偏置矩阵B:零矩阵
案例2:网络输入:x = [s , s 1](2维简化状态)初始化策略:与案例1完 全相同;研究目的:评估状态维度缩减对控制效果的影响
案例3:网络输入:保持与案例1相同的10维状态 ;创新初始化方法:基于K- means聚类初始化高斯核中心(受Maceda等人2023年腔体流动研究的启发);具体 实施:a) 采集基准工况下2500个状态样本(t≤0.5s时段);b) 通过聚类生成20个质 心向量(每个质心为10维);c) 将质心矩阵直接映射为Cˡ初始值;其他参数:保 持与案例1相同的初始化策略
性能演化分析(图5(a)所有案例均显示低通滤波奖励值(记为r截止频率50Hz)的单调上升趋势;峰值增幅显著:速度脉动的相对增量从初始0提升至稳定 峰值。不同初始化策略和状态维度下损失函数均呈现收敛特性;特别发现:DQN智能体仅通过10秒在线学习即可实现有效控制。案例3的聚类初始化虽未显著提升 最终性能,但表现出更快的初始收敛速度。状态维度对比(案例1vs2)揭示:高维 状态包含更丰富的流场动态信息
图5. (a) 滤波后奖励值(r)随时间演化曲线及网络损失(虚线)的周期变化; (b) 激励器激活率变化;(c) 热线风速仪(HWA)电压信号的功率谱密度; (d) 案例2中基于动作选择的状态分类
最终奖励值达到0.2,且所需训练周期数比基于策略的DRL算法(Rabault等,2019)少一个数量级。在0.5秒≤t≤1秒区间内,DQN智能体保持接近0.5的高 探索概率,因此约半数时间执行随机激励。与t≤0.5秒的基准阶段相比,该阶段瞬 时奖励提升有限,表明随机激励对流动掺混的促进效果不佳。
等离子体致动器的激活比率,定义为在短时间内的出现概率,如图 5(b)所 示。在t < 0.5秒的基线测试阶段,激活比率保持为零不变。当进入训练阶t = 0.5秒 时,在三种情况下呈现出从 0.2 到 0.4 不等的不同激活比率。这是合理的,因为的 这个初始值既取决于探索概率,也取决于 Q 网络的初始参数。如图 4(b)所示, 初始化为 0.5。因此,随机控制仅在一半的时间内应用。在另一半时间里,根据 Q 网络的盲目预测选择确定性动作。因此,初始激活比率可以在 0.25 到 0.75 之间变 化。对于在本研究测试的三种情况下,尽管伪随机生成器使用了相同的种子来初始化 Q 网络,但由于网络输入维度和初始化策略不同(见表 1),初始激活比率仍然有所 差异。在学习的前半阶段t < 5秒,智能体通过随机发射等离子体来收集经验,并且 由于探索概率降低,激活比率下降。相比之下,在后半阶段,智能体已经获得了足 够的经验,并开始尝到确定性驱动的成果,这导致激活比率快速增长。在评估阶 段,对于情况 1 至 3,的平均值分别为0.72 、0.57 和 0.42,分别对应着等效放电频 率为 3.6 千赫兹、2.9 千赫兹和2.1 千赫兹。
基于在评估阶段(9 秒≤t≤10秒)收集到的速度信号,计算了功率谱,如图 5(c)所示。在所有情况下,都能在f = 7千赫兹处发现一个尖锐的峰值。与基线情 况相比,深度强化学习(DRL)控制能够整体提升功率谱,并且情况1 至 3 中速度 脉动的相对增幅分别为 15.6% 、21.2% 和 14.4%。在最佳情况(情况 2)中,由于我 们只有两个状态变量,所以可以用散点图来直观展示控制策略(见图 5d) 。因此,s1和s2的联合分布呈现出椭圆形。这是合理的,因为在两个相邻时间步测量得 到的无量纲速度是相关的,彼此之间的差异不应太大。 at = 1的激活状态大多出现在 第三象限,而at = 0的非激活状态则倾向于分布在第一象限。这样的控制策略可以进 一步简化为二维阈值驱动策略。从物理角度来看,由于热线测量得到的瞬时速度脉 动与剪切层的摆动运动相关,上述阈值驱动策略表明,当剪切层的瞬时壁面法向位 置高于基线平均位置时(即台阶后方较大的流动分离区域),就应该发射等离子体 合成射流。
4.2. 纹影成像
为了从物理层面理解等离子体合成射流是如何改变超音速后向台阶(BFS)流场的,在训练过程中同时进行了高速纹影成像。采样频率和空间分辨率分别设置为 50 千赫兹和 512 ×384 像素 。关于实验装置的更多信息可参考孔等人(2022 年)的研究。图6(a)至(d)展示了后向台阶(BFS)流场对单次等离子体合成射流 (PSJ)的响应情况,其中t表示相对于放电点火时刻的时间延迟。主要特征,包括 膨胀波、剪切层和再附激波,都可以清晰地识别出来。t = 20微秒到 t= 80微秒之
间,由于腔体内的快速电弧加热,从出口孔发出了两道激波(见黑色箭头)。当与 超音速横流相互作用时,它们演变成弓形,并沿着膨胀波所确定的轨迹传播到右上 角。从理论上讲,在两道弓形激波之间应该存在一股射流。然而,在纹影图像中却 无法观察到这样的射流,可能是被湍流边界层所掩盖了。再附激波的根部似乎被等 离子体射流向下游推移,并且根据再附激波的线性外推法,估计再附长度为 4H。
纹影灰度图像的标准差(记为Istd在一定程度上能够反映流场中的密度脉动情 况。图 6(e)展示了基线条件下的灰度脉动幅值。在来流边界层、剪切层和再附激 波区域可以检测到强烈的密度脉动,这在很大程度上是预料之中的。图6(f- h)进 一步比较了在情况 1 至 3 中由等离子体激励引起的灰度脉动幅值变化。请注意,为 了计算
图 6. (a - d)后向台阶(BFS)流场对单次等离子体合成射流的时间响应。从上到下, t 分别为 20 微 秒、40 微秒、60 微秒和 80 微秒。红色虚线表示再附激波。(e)基线条件下灰度脉动幅值的等值线 图。(f- h)情况 1 至 3 中由等离子体激励引起的灰度脉动幅值的变化情况。
对于有激励作用的情况,在计算标准差时,仅使用了在最后 0.2 秒内(10000 个样本)采集到的纹影图像,这对应于深度强化学习(DRL)所寻求的最终控制律。结 果是,由于弓形激波的形成,在出口孔附近,灰度脉动幅值显著升高。至于剪切层 区域,尽管等离子体激励明显提高了速度脉动,但灰度脉动幅值几乎与基线条件下 的情况相同。
4.3. 策略比较
在先前对亚声速后向台阶(BFS)流场控制的研究中,等离子体致动器普遍以 恒定频率的周期性模式运行(贝纳德等人, 2016a,b)。通过调节等离子体致动器 的占空比和放电频率(记为Fd),在自由流速度U= 15米 / 秒的情况下,通过激励 非定常剪切层,实现了对再附长度的有效缩短。因此,我们很自然地会将这种周 期性控制策略与在超声速后向台阶(BFS)流场中的深度强化学习(DRL)控制进 行比较。在实施恒定频率周期性控制策略时,采用了与第 3 节中所述相同的实验装 置,只是现场可编程门阵列(FPGA)中的径向基函数(RBF)网络被一个脉冲生 成模块所取代,并且
图 7. (a)热线风速仪(HWA)电压的功率谱密度,以及(b)在不同放电频率下热线风速仪(HWA)电压脉动的相对增幅。(b)中的蓝色虚线表示在最优深度强化学习(DRL)控制(情况 2)下电压脉动的相对增幅
并且网络训练被禁用。在一次风洞运行(10 秒)中,总共测试了五种放电频率Fd = 0.5 、1 、3 、5 、8 千赫兹,每种放电频率的采样时长为 1 秒。在两个连续的放电频 率之间,等离子体合成射流致动器(PSJAs)会关闭 1 秒,以使流场恢复到基线状 态。图 7(a)展示了随着放电频率增加时的功率谱密度。可以看出,大多数放电频 率都能够提升功率谱的峰值以及低频脉动的幅值。唯一的例外是Fd = 0.5千赫兹,
此时功率谱峰值明显降低了 13.6%。
为了比较不同情况下的控制效果,由等离子体激励引起的原始电压脉动的相对增 幅计算如下:
其中,σu,AT和σu,BL分别表示基线条件和有激励条件下原始电压信号的标准差。如图 7 (b) 所示,随着放电频率的增加,差值先增大后减小。原始电压脉动的 最大增幅是在Fd = 5千赫兹时实现的,这与深度强化学习(DRL)中使用的控制更 新频率一致。然而,从数量上看,通过周期性控制得到的相对增加峰值(10.5%) 仅为最优深度强化学习控制(21.2%,情况 2)的一半。通过比较图 5 (c) 和图 7 (a) 中的功率谱峰值3.5*10^{-5}对比2.9*10^{-5},也能看出控制效果上的这种差异。直 观地说,深度强化学习(DRL)的卓越控制能力可以从它识别等离子体激励有利时机的能力来解释。
5、总结
在本研究中,提出了一种基于现场可编程门阵列(FPGA)的实验性深度强化 学习(DRL)控制框架,该框架能够实现量级为 1 至 10 千赫兹的控制频率。这种 高控制频率,结合快速响应的等离子体致动器和高带宽的热线风速仪,使我们有能力对马赫数为 2 的超音速后向台阶(BFS)流场进行实时闭环控制。
本研究测试了三种具有不同状态维度和初始化策略的情况,目的是使剪切层中的混合程度最大化。研究发现,深度 Q 网络(DQN)的训练效率远高于广泛采用的基于策略的深度强化学习(DRL)算法。仅经过十秒钟的学习,代表速度脉动相对增幅的过滤奖励就从 0 增加到了0.2 的峰值。与基线情况相比,有激励条件下 的功率谱整体有所提升。情况2中的最终控制律表明,当状态处于第三象限时,应该启动等离子体致动器。从物理角度来看,我们认为剪切层中混合程度的增强与从射流孔发出的两道弓形激波有关。在未来,建议对不同的控制策略进行并列比较,包括经典的比例积分微分控制和深度强化学习控制。
本文翻译自《Journal of Fluid Mechanics》“Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework”