研究摘要
近日,华南理工大学制浆造纸工程国家重点实验室万金泉教授课题组通过机器学习方法,选择废水处理过程中进水水质和工艺控制指标作为输入特征,建立了出水总氮和总能耗预测模型。探讨了不同随机种子下机器学习方法的预测性能,并使用贝叶斯算法进行超参数优化。结果表明,与传统的超参数优化方法相比,经过贝叶斯优化和数据放大后,出水TN预测的判定系数(R2)分别提高了0.092和0.067,达到0.725,均方根误差(RMSE)分别降低了0.262和0.215mg/L,达到1.673mg/L。在TEC预测过程中,R2分别增加了0.068和0.042,达到0.884,均方根误差分别减少了232.444和197.065千瓦时,达到1305.829千瓦时。研究对于提高工业废水处理的出水水质和降低能耗具有重要的指导意义。
图文解读
造纸工业废水处理存在的一个主要问题是如何控制出水中的总氮含量和总能耗。这些问题对提高废水处理厂的出水水质和降低能耗具有重要意义。本研究首先对涉及的三类15个指标的数据特征进行了详细分析,结果表明进水水质指标呈现出一定的季节性特征,夏季这些指标的波动明显高于秋冬季。出水TN具有很强的不稳定性,没有明显的季节性特征(图1),而夏季TEC的值明显高于平均值,且波动较大,秋冬季则相对稳定。此外,使用移动平均法对数据集进行了放大,放大后的数据集更好地保留了原始数据集的数据特征,并且数据分布更加集中,有利于预测建模过程。
Fig. 1. 各特征变量数据分布折线图
Fig. 2. 各特征变量数据分布特征
图3a显示了各特征变量相关分析中变量之间的皮尔逊相关系数。在这些特征变量中,进水中的氮和磷与Finf呈负相关,MLSS与SV30呈正相关。此外Finf与TEC之间的关系非常明显:需要处理的废水越多,所需的能源就越多。然而各变量与TNeff之间的相关性较弱,这给废水TN预测带来了挑战。为了更好地了解各变量之间的相关性,在特征分析中使用了主成分分析法(PCA)(图3b)。在特征变量选择过程中,选择CV值较低的TNinf和MLSS作为模型输入特征变量。在化学消耗指标中,选择了与脱硝过程密切相关的碳源CH3OH的用量。同时,删除了CV值较低且目标输出特征变量之间差异较大的pHinf。确定了用于预测废水TN和TEC的输入特征变量(Finf、CODinf、TPinf、TNinf、SSinf、SSout、MLSS、CH3OH)。
Fig. 3. 各特征变量的相关系数和PCA分析。(a) 相关系数;(b) PCA。
此外,统计分析了在最佳随机种子条件下不同机器学习方法在测试数据集上的最佳性能(图4),结果表明经过贝叶斯优化和数据增强后,不同机器学习模型的预测性能都有所提高。在XGBoost方法中,测试数据集的R2值分别增加了0.103和0.151,达到0.79。在BPNN方法中,测试数据集的R2值分别增加了0.095和0.074,达到了0.647。虽然SVR方法的预测性能较差,但测试数据集的R2值分别提高了0.054和0.135,达到了0.611。
Fig. 4. 不同机器学习模型对出水TN和TEC的测试数据集性能。
不同随机种子的性能评价参数平均值作为各模型的综合评价指标。不同废水TN预测模型在测试数据集上的综合性能评价参数如图5a所示。在XGBoost方法中,与随机搜索方法相比,使用贝叶斯优化超参数的模型的R2增加了0.092,在RMSE/MAE参数方面,与XGBoost模型中的随机搜索法相比,采用贝叶斯优化超参数的模型RMSE/MAE分别下降了0.262/0.377mg/L。经过贝叶斯优化和数据放大后,BPNN和SVR方法的预测性能也得到了体现。对预测性能最好的B0-XGBoost*模型进行了SHAP值分析(图5b),结果显示,最适合该模型的特征变量组合是MLSS、TNinf和Finf。
Fig. 5. TN 模型。(a) 不同模型的平均预测性能指标;(b) BO-XGBoost*模型的SHAP分析。
TEC预测模型的结果如图6b所示,对模型贡献最大的变量组合是Finf、TPinf和MLSS(图6b)。Finf的红点大多集中在右侧,表明它们在模型预测中发挥了积极作用,而TPinf的红点集中在左侧,在模型预测中起负作用。SSout、CODinf和TNinf的SHAP值范围较小,但大部分红点集中在中间,表明该特征对模型的重要性较低。在其他变量中,CH3OH和SSinf的红点大多集中在右侧,对模型预测起到了积极作用。然而,MLSS大多集中在左侧,对模型预测起了负面作用。基于SHAP值的分析不仅可以为废水处理厂的管理过程提供一定的指导和参考,还可以用于特征选择项目,通过删除SHAP值较低的变量来降低模型的构建和运行成本,为我们进一步优化特征变量的选择提供合理的解释。
Fig. 6. TEC模型。(a) 不同模型的平均预测性能指标;(b) BO-XGBoost*模型的SHAP分析。
研究总结
这项工作报道了采用移动平均法进行数据放大和贝叶斯优化法进行超参数优化,可有效提高基于机器学习方法的废水TN和TEC模型的预测性能。采用不同随机种子下模型评价参数的平均值作为综合评价参数,避免了固定测试集对模型泛化性能的影响。该研究的创新点在于利用机器学习方法建立了废水处理厂出水中总氮含量和总能耗的预测模型,并采用贝叶斯优化和数据放大方法提高了预测性能。研究为提高工业废水处理的出水水质和降低能耗提供了新的思路和方法。
该研究成果以“Prediction of effluent total nitrogen and energy consumption in wastewater treatment plants: Bayesian optimization machine learning methods”为题发表于《Bioresource Technology》。论文通讯作者为华南理工大学万金泉教授。
原文链接:https://www.sciencedirect.com/science/article/pii/S0960852424000634?via%3Dihub
作者简介
万金泉博士,华南理工大学制浆造纸工程国家重点实验室特聘教授,环境与能源学院二级教授、博士生导师。国际木材科学院院士(Fellow of IAWS)、享受国务院特殊津贴专家、全国优秀科技工作者、广东“特支计划”杰出人才。获广东省五一劳动奖章、广东杰出专利发明人奖、广东省丁颖科技奖、首届中国造纸蔡伦科技奖、广州市十大优秀留学归国人员等。任广东植物纤维高值化清洁利用技术研究中心主任、教育部工业聚集区污染控制重点实验室副主任、中国造纸学会再生纤维专业委员会副主任、中国造纸协会环境保护专委会副主任、中国环境学会水处理与回用专委会委员、中国环境学会生态修复专委会顾问专家。
主要从事造纸工业清洁生产与污染控制研究,阐明造纸废水中难降解有机污染物(POPs)累积特征及降解规律,研发整套造纸废水高效处理及资源化技术及装备,提出再生植物纤维的高值化绿色循环利用理论与技术。先后主持国家重点研发计划、国家863项目、国家水体污染治理重大专项、国家自然科学基金、教育部博士点基金、教育部留学人员基金、广东省自然科学基金、广东省“节能减排”重大科技专项、广东省高层次人才基金、广东省战略性新兴产业核心技术攻关项目、广东省科技计划重点项目等国家及省部级科研项目五十多项。发表学术论文400余篇,出版专著8部,获授权国家发明专利68件、美国专利3件。以第一完成人获国家科学技术进步二等奖、广东省科学技术一等奖、中国轻工业联合会技术发明一等奖、广东省专利金奖、中国专利优秀奖、教育部自然科学二等奖等省部级以上奖励12项。