摘要
确保食品地理来源的真实性对于质量控制和消费者信任至关重要。以黄芪(AR)为例,本研究提出了一种将合成少数类过采样技术(SMOTE)、深度学习(DL)算法和气相色谱电子鼻(GC e-nose)相结合的新策略,用于黄芪的地理来源识别。研究结果表明,与传统机器学习方法相比,深度学习模型结合气相色谱电子鼻具有明显优势。此外,为解决深度学习对大量数据的需求,引入了SMOTE算法来扩充小样本数据集。结果表明,SMOTE能够提升不同样本量下深度学习模型的性能。另外,还使用特征提取算法优化了基于SMOTE的数据生成过程,进一步提高了模型的准确性。总之,本研究提出了一种资源高效且可扩展的食品地理来源识别策略。

引言
近年来,食品来源追溯的研究已成为食品科学领域的一个前沿方向。随着农业贸易的日益全球化,由于品种掺假、产地追溯困难、不合格产品流通以及标签信息误导等问题频繁出现,食品真伪的鉴定变得愈发复杂。研究表明,农产品的质量与其地理来源密切相关,这主要是因为其化学成分和营养质量受到气候、土壤类型和耕作方式等因素的显著影响。因此,确保食品地理来源的真实性至关重要。
目前,各种与机器学习(ML)算法相结合的分析技术越来越多地被用于追踪食品的地理来源。在技术层面,常用的手段包括近红外(NIR)光谱法、液相色谱 - 质谱法(LC-MS)、气相色谱 - 质谱法(GC-MS)等等。然而,由于存在大量干扰和冗余数据,NIR 光谱通常在建模前需要复杂的光谱预处理和特征提取。同时,LC-MS 和 GC-MS 面临诸如复杂的预处理要求和较长的样品检测时间等挑战,在实际应用中需要大量的人力和物力。气相色谱电子鼻是一种先进的电子传感器技术,它结合了气相色谱和电子鼻系统的功能,以模拟人类嗅觉功能。该工具能快速识别样品中的气味特征,是一种简便、客观且精确的检测仪器。它在食品风味分析、质量监测、新鲜度评估中得到了广泛应用,并且越来越多地被用于食品地理来源追溯的研究。
此外,用于整合不同类型数据的机器学习算法的选择也必须加以考虑,因为这直接影响到追踪食品地理来源的可靠性。随着人工智能的迅速发展,深度学习(DL)算法因其强大的学习能力在食品领域日益受到重视。然而,从理论上讲,开发高性能的深度学习模型需要大量的数据,这会消耗大量的人力和物力资源,从而限制了其实际应用。合成少数类过采样技术(SMOTE)算法通过最近邻之间的随机线性插值生成合成数据,使其成为增强深度学习模型性能的有效数据增强方法。因此,将 SMOTE 与深度学习算法相结合在提升食品来源可追溯性研究方面具有巨大潜力。
黄芪(AR)是一种常见的食品添加剂,因其营养价值而被广泛使用。在日常饮食中,它常与鸡肉、猪肉等食材一起炖煮,在亚洲被普遍视为一种有益健康的食品。此外,根据 1994 年美国《膳食补充剂健康与教育法案》,黄芪已被列为合法的膳食补充剂。现代药理学研究表明,黄芪具有多种生物功能,包括免疫调节、缓解疲劳和延缓衰老。然而,黄芪的化学成分因产地不同而差异显著,这可能会影响其生物活性。因此,建立一种系统的方法来区分不同地区的黄芪,可以为市场标准化和质量保证提供基础。
主要内容
针对现有挑战,本研究以苹果酒为例,采用将气相色谱电子鼻与深度学习和 SMOTE 算法相结合的策略来识别其地理来源。这种方法为确保食品地理来源的真实性提供了创新的解决方案。
1. 不同地理来源的 AR 差异分析

Fig. 1. The visual analysis results of AR from different geographic origins. The 2D plots (A) and 3D plots (B) of PLS-DA, OPLS-DA and LDA.
2. 基于深度学习框架的 AR 地理原产地识别

Fig. 2. The research results on the application of GC e-nose combined with DL algorithms for geographical origin identification of AR. (A) Error histogram for performance comparison between DL and traditional ML algorithms; Error histogram for CNN (B) and LSTM (C) models built using 70% and 40% of raw dataset.
3. 使用 SMOTE 算法合成的虚拟数据
4. 对 SMOTE 算法适用性的研究

Fig. 5. Performance changes in DL models before and after different benchmark data synthesis using SMOTE. (A, B) 20%, (C, D) 30% and (E, F) 40% of the raw dataset serve as baseline data.
5. 特征提取技术与 SMOTE 相结合的应用

Fig. 6. Performance changes in SMOTE-based DL models built on data synthesized from different baseline datasets before and after feature extraction. The feature extraction results of OPLS-DA (A) and RF (B); (C, D) 20%, (E, F) 30% and (G, H) 40% of the raw dataset serve as baseline data.
亮点
• 结合深度学习算法的 GC 电子鼻在食品分析中被证明是有效的。
• SMOTE 能够提升深度学习模型的性能。
• SMOTE 与特征提取算法相结合能够进一步优化模型。
链接https://doi.org/10.1016/j.foodchem.2026.149447
来源:公众号-食品组学加
原文链接:https://mp.weixin.qq.com/s/L2PGicQPNd1Opo6Hz1K3IA

