水质预测模型精度评估实例
研究背景
随着水资源管理需求的日益增长,水质预测模型的精准度成为了评估其有效性的关键因素。本文旨在通过实证研究,探讨自建水质预测模型的实际应用效能,通过与真实监测数据的比对,揭示模型预测精度的真实情况。
数据基础情况
数据来源:自研水质模型预测结果
时间范围:2023 年全年
指标:高锰酸盐指数、总磷、氨氮、氟化物
模型简介
本研究采用基于一维水质的机理模型,通过实时监测数据动态调整降解系数与污染物迁移速度,实现了单次对高锰酸盐指数、总磷、氨氮、氟化物长达20天以上的高适应性预测,尤其擅长捕捉水质突变事件。
当前预测界面
曲线图展示当前最新的预测结果。下部展示预测结果是否超标,峰值及超标时间范围,预测月均值与实际累计月均值。
模型评价界面
可以查询历史预测区间的预测结果对比。下部为模型评价,通过多元统计指标(如MAPE、RMSE)深入剖析模型性能,特别是通过准确率区间分布图,多维度验证了模型的稳定性和可靠性。
模型精度评价方法
为了评估模型的准确率,本文采用比较直观的“预测误差率”来表达,用于评估预测值与真实值之间的接近程度。
$$
\text{A} = 1 - \frac{|Y - \hat{Y}|}{Y}
$$
A 表示相对准确性,𝑌 是观测到的真实值(或准确值),而 Y^ 是模型预测的值。这个公式量化了预测误差相对于真实值的比例,其逆值给出了预测相对于实际观察值的接近程度,可以视为一种衡量预测准确性的度量,这种表达通常被称为相对误差的倒数或者归一化绝对误差。
理论情况下,模型每天至少运行一次,预测因子包括高锰酸盐指数、总磷、氨氮、氟化物,每次预测不少于 7 天,模型评价方法是每个因子,每次所有预测结果,依次与监测指标进行比对,单个指标每次每个值得预测准确率计为 A。
$$ \bar = \frac{1}{N} \sum_{i=1}^{N} A_i $$
这段公式表示求所有单次单个因子所有预测值的算术平均,其中 N 是预测值的数量。
用这种方法观察一年每次预测准确率的变化。
Python 代码实现
创建了一个 WaterQualityPredictor
类,该类封装与数据库交互、数据处理、预测数据获取、监测数据获取、准确率计算以及绘图等操作。
1 |
|
实现任意预测时间的单词预测结果对比。
折线图分析准确率变化
循环计算单词预测结果,取 2023 年整个时间段,四个指标准确率变化分别绘图。
注:部分预测异常时段,存在站点运行问题,为展示真实预测情况,未对齐进行剔除。从预测异常的频次看出,异常频率并不高。
饼图分析准确率占比
为了更直观的分析预测准确率的分布,对四个因子准确率的分布划分为(小于40, 4060, 6080, 80~100)四个区间,分别作图如下。
1 |
|
上图表明,高锰酸盐指数准确率超过 60%的比例占比 95.4%,总磷准确率准确率超过 60%的比例 91.7%。详细指标可见下表。
年平均准确率 | 预测天数 | >80% | 80~ 60% | |
---|---|---|---|---|
高锰酸盐指数 | 84.78 | 327 | 83.2 | 14.1 |
总磷 | 79.52 | 327 | 70.6 | 21.1 |
氨氮 | -186 | 321 | 0.9 | 4 |
氟化物 | 81.27 | 119 | 36.1 | 63.95 |
注:受站点运行情况影响,部分时段无数据。 |
直方图分析准确率分布
直方图(Histogram)是一个更好的可视化选择,因为它能清晰地展示每个准确率区间内的数据点数量,非常适合观察数据分布特征,如中心趋势、偏斜程度及异常值等。
1 |
|
直方图能清晰的看出高锰酸盐指数、总磷预测准确率更好,且分布更集中。
本模型氨氮预测准确率低的原因是:该目标站点氨氮指标长期较低。月均值波动在 00.2 之间,小时值可能长期处于 00.1 之间,即使较小的波动,准确率的值波动也很大。同时氨氮指标该站点与上游站点的关系不密切,只有较大的污染传递才能引起轻微升高。
经过长期观察,氨氮并非该站点的重点污染指标。
结论
- 机理模型在某站点高锰酸盐指数、总磷、氟化物等指标 2023 年的预测均有较好的表现。以准确率(归一化绝对误差的逆)评价,累计分别为 84.78%、79.52%、81.27%。
- 由于氨氮值较低,且与上游站点变化较弱,对于氨氮指标的预测准确率不高。也因为氨氮值较低并非重点关注对象,若要考虑提高预测精度,可选择大数据模型,如 LSTM、prophet 等。
- 准确率(归一化绝对误差的逆)并不是水质模型精度评价的必选指标,只是因为其较为通俗易懂,而受用户认可,仍需注意其具有一定的局限性,作为一个模型评价的参考指标即可,不宜过分求高,水质模型是否准确,应考虑其预测水质变化的能力,水质影响(峰值、污染持续时间)等,是否能够知道业务需要,才是水质模型最重要的指标。
综上所述,本研究构建的机理模型在多数水质指标预测上展现了良好的效果,尤其在高锰酸盐指数、总磷和氟化物的预测上取得了显著成绩。然而,氨氮预测的挑战凸显了模型对低浓度污染物处理能力的局限,后续将结合先进的机器学习技术以增强特定条件下的预测能力。水质模型的终极目标不仅是追求高精度数值,更重要的是能否有效指导水环境管理和应对策略,确保模型服务于实际的环境治理需求。