学位专题

<
DOI:10.7666/d.y2158804

基于半监督和迁移学习的近红外光谱建模方法研究

贺英
中国海洋大学
引用
在科学与经济飞速发展的当今时代,企业生产过程的自动化和智能化水平日益提高,传统的产品质量监控手段难以满足产品研发和生产控制的需求。近红外光谱分析技术(NIR)作为一种新型、快速高效的检测手段应运而生,大大提升了产品质量监督管理的工作效率,已经在石油、医药、烟草等行业中被广泛应用。通过总结前期在“智能感官评估方法”课题的研究结论得知,当模型的输入是信息不够完备的常规化学成分指标时,难以建立分类性能良好的感官模拟评估模型。传统的实验室化学分析法往往检测的成分数量有限,而近红外光谱中包含了丰富的成分信息。近红外光谱分析通常应用于检测产品的化学成分含量方面,本文以近红外光谱作为研究对象,应用多种机器学习方法,深入分析近红外光谱中反映的卷烟产品质量以及卷烟配方中成分的关系。直接应用高维的光谱数据建立与产品质量之间的关系模型。近年的实践应用表明,传统近红外光谱分析技术在面对成分复杂或背景噪声干扰较大的情况时,遇到了模型稳定性差、预测误差较大、建模样本量大、模型难以移植等许多实际问题,现有的近红外光谱建模技术亟待提升。本文从近红外光谱分析建模的基本原理、国内外研究现状分析入手,在转导推理思想的启发下,将半监督学习、迁移学习方法引入近红外光谱分析建模方法体系,主要围绕近红外高维光谱数据处理、光谱定性分析和定量分析建模、光谱分析模型传递四个关键技术内容展开深入研究。   本研究主要内容包括:⑴当近红外光谱与观测数据为非线性关系时,传统降维方法容易出现原始数据特征信息丢失、流形结构被破坏、数据分类性能下降等问题。本文提出一种半监督核邻域保护嵌入算法(SSKNPE)。该算法基于核变换距离将非线性问题转化为一个特征空间的线性问题,通过充分利用部分有标记样本的先验分类信息约束特征映射,使数据从高维映射到低维后仍能保持数据的全局结构和局部结构。实验验证,SSKNPE算法的降维质量优于LLE等传统流形学习算法,能更好地改善卷烟品牌识别近红外光谱分析模型的分类性能。⑵针对传统分类器的归纳推理机制存在的预测风险问题和大量有标记的训练样本的约束等问题,引入转导推理和半监督学习思想,提出了一种基于近邻传播聚类的半监督支持向量机算法(APS4VM)。算法将近邻传播聚类和混沌优化相结合,快速搜索多个间隔最大平面的低密度区域,确定安全分类的支持决策面。算法在少量标记样本的情况下,针对Iris数据集和卷烟口味评价数据进行实验验证。实验结果表明能够建立了性能良好、稳健的分类模型,半监督支持向量机具有实际工程应用价值,解决了标记样本不足时的卷烟近红外光谱定性分析建模困难的问题。⑶针对复杂非线性问题中传统近红外光谱定量建模方法预测性能较低,要求训练样本足够多等实际工程应用困难,提出一种基于量子粒子群优化的半监督支持向量回归算法(QPSO-LSS3VR)。该算法结合K近邻和置信度选样方法实现半监督学习中未标记样本估计,采用高效的量子粒子群优化算法搜索最佳的半监督支持向量机回归模型参数γ,λ,σ。卷烟总糖预测模型实验表明,该算法基于半监督学习思想,能在少量标记样本的情况下快速达到较低的预测标准误差,优化方法提高了建模的时间效率,同时降低了半监督建模成本,解决了标记样本不足时的卷烟近红外光谱定量分析建模困难的问题。⑷针对近红外光谱分析仪器之间模型通用性差的问题,分析现有模型传递方法的不适用性:建模所需的标准样本准备条件苛刻,实际操作复杂,传统统计方法传递后的模型预测性能偏低。本文创新性地应用迁移学习思想,提出一种新的近红外光谱模型传递算法,即基于相似匹配和迁移学习的模型传递算法(SM-TrBoostEns)。通过非线性降维方法将近红外光谱投影到低维空间,根据距离度量样品的相似性,筛选对目标仪器建模有益的样本进行知识迁移,并采用迁移式Boosting技术和集成学习相结合的方式传递模型。通过两台近红外设备之间的卷烟总糖预测模型传递实验表明,该算法在目标仪器采集较少标准样本光谱的情况下,仍能有效提升目标仪器回归预测精度,具有一定的实用性。实验同时也说明迁移学习方法可以在近红外光谱模型传递方面继续深入探索和改进。⑸总结本文的研究结论和创新工作,提出下一步研究工作重点将围绕半监督学习模型的预测输出置信度、异常光谱凸壳判别、特征波长筛选等方面开展研究,逐步建立起基于近红外光谱分析的产品质量评价等应用的技术框架。

光谱数据;数据处理;机器学习;SSKNPE算法

中国海洋大学

博士

计算机应用技术

丁香乾

2012

中文

TP274.2;TP181

120

2012-12-27(万方平台首次上网日期,不代表论文的发表时间)