基于DTEmpower的水处理系统参数预测 - 内因篇

2年前浏览1453

一、摘要

污水处理系统的参数预测对于提前识别水处理设备污水净化能力的变化具有重要意义，而受水处理系统非线性、复杂性等因素的影响，其参数预测多采用基于数据驱动的时间序列长窗预测方法。若样本集的输入数据中仅由预测参数的历史数据组成，将其称为基于内因的参数预测方法；如果输入数据除预测参数历史数据外还有其他特征参数，则将其称为基于内因外因的参数预测方法。本文使用DTEmpower数据建模平台进行水处理过程的参数预测，发现基于内因的方法可以实现部分参数较高准确率的预测，R2指标值在0.90左右，但这种基于内因的方法存在一定局限性。

二、概述

污水处理过程不仅涉及一系列复杂的物理和化学过程，还需要多个机械化设备、电子设备和测量仪表等仪器相互配合，是一个复杂的工业系统。而污水处理系统的参数预测对于提前识别水处理系统的运行状态、提前识别水处理设备污水净化能力的变化及其故障诊断具有重要的现实意义。

水处理系统参数预测属于时序数据预测的范畴，预测方法可以分为线性时序统计、非线性时序统计和外因统计回归。线性时序统计方法主要用于拟合时间序列中的线性模型，无法拟合时间序列中的其他复杂模式（非线性/外部特征）；非线性时序统计方法要用于拟合时间序列中的非线性关系。

污水处理过程是一个外界干扰强烈、时变性强、耦合性强、非线性的复杂动态生物化学过程，难以对其建立精确的数学模型。而数据驱动的模型建立在大量测量数据的基础上，这对机理复杂、数据充分的污水处理系统是非常适合的，因此其过程参数预测多采用非线性时序统计方法中的非参数自回归方法（Nonparametric Auto Regressive, NAR）。该方法通过某种非线性回归模型，如SVR、KNN、GBDT等，使用对时刻的观测值进行预测。此外由于水处理过程参数种类繁多，变化规律复杂，需要结合数据清洗、特征选择、数据降维等算法预测模型，以此保证参数预测的精度。

三、DTEmpower简介

基于企业对工业数据分析与建模需求，天洑软件自主研发了一套零编码、算法齐全、通用的智能化数据建模平台DTEmpower 。

在DTEmpower 中，所有的数据及模型操作均以工具箱中模块的形式提供，用户无需具备编码能力，通过简单的控件拖拽即可搭建复杂的数据建模流程。目前DTEmpower围绕数据清理、特征选择、数据降维、模型训练和模型评估等数据建模的各个环节，以控件的形式提供了8类共100 种算法。面向多类的数据分析场景，DTEmpower利用智能调度引擎和超参优化等技术，实现了自动的模型优化功能。

四、基于DTEmpower的水处理系统参数预测实验

1. 数据集介绍

以某电厂水处理系统为例，对系统中三类过滤器（多介质过滤器、超滤装置和反渗透装置）的32个参数如入口流量、压差、浊度电导率进行t 12h的长窗预测（对12h之后的数据进行预测）。本次实验选取2020-01-18 00:00:00 到2020-12-24 00:00:00共48960个连续时间点的数据作为本次实验的数据集，并以10min的采样间隔读取预测参数和特征参数数据。

2. 基于内因的参数预测样本集构造方法

以当前时刻为基准时刻t，取[t-2h,t]（使用前2小时内的历史数据）区间内的预测参数数据为样本输入，t 12h时间点的数据为样本输出以此构造单个完整样本；然后采用滑动时间窗口方法构造算法所需的样本集。样本集的构造方法如图1所示，该方法的输入数据仅含有预测参数的历史数据，为基于内因的样本集构造方法。

图1 样本集构造方法.png