利用支持向量机和人工神经网络填补缺失数据

合集下载

支持向量机与神经网络算法的对比分析

支持向量机与神经网络算法的对比分析1. 引言1.1 支持向量机与神经网络算法的对比分析支持向量机和神经网络是机器学习领域中两种常见的分类算法。

支持向量机（Support Vector Machine）是一种监督学习算法，其基本原理是找到一个最优的超平面来将不同类别的数据分隔开。

而神经网络（Neural Network）则是模仿人类神经系统构建的一种算法，通过多层神经元之间的连接来实现学习和分类。

在实际应用中，支持向量机通常表现出较好的泛化能力和高效性能。

它能够处理高维数据及非线性数据，并且在处理小样本数据上表现良好。

然而，神经网络在大规模数据集和复杂问题上具有更好的表现，能够学习复杂的模式和特征。

在优缺点对比方面，支持向量机在处理小数据集上表现较好，但对于大数据集可能会面临内存和计算资源消耗问题；而神经网络在大数据集上有优势，但对于小数据集可能会过拟合。

在应用领域上，支持向量机多用于文本分类、图像识别等领域；而神经网络则广泛应用于语音识别、自然语言处理等领域。

综上所述，支持向量机和神经网络在不同领域和问题上有各自的优势和劣势，需要根据具体情况选择合适的算法来解决问题。

在实际应用中，可以根据数据规模、问题复杂度等因素来进行选择，以达到更好的分类和预测效果。

2. 正文2.1 支持向量机算法原理支持向量机（Support Vector Machine，SVM）是一种常用的监督学习算法，主要用于分类和回归问题。

其基本原理是通过找到一个最优的超平面来对数据进行分类。

支持向量机的核心概念是最大化间隔，即在数据中找到最优的超平面，使得不同类别的样本离该超平面的距离最大化。

这个超平面可以用以下公式表示：w^T*x + b = 0，其中w是法向量，b是偏置。

SVM的目标是找到使得间隔最大化的超平面参数w和b。

支持向量机可以处理非线性问题，引入了核函数的概念。

通过将数据映射到高维空间，可以在新的空间中找到一个线性超平面来解决原始空间中的非线性问题。

支持向量机与神经网络集成方法研究

支持向量机与神经网络集成方法研究近年来，机器学习和人工智能技术的快速发展已经深刻地改变了我们的生活和工作方式。

在众多的机器学习算法中，支持向量机（Support Vector Machine，SVM）和神经网络（Neural Network）被广泛应用于各个领域。

然而，这两种算法各自存在一些局限性，因此研究人员开始探索将它们结合起来的方法，以期能够发挥它们各自的优势，提升模型的性能。

支持向量机是一种基于统计学习理论的监督学习算法，其主要思想是通过找到一个最优的超平面来划分不同类别的样本。

它的优点是能够处理高维数据和非线性问题，并且对于训练样本的数量没有过多的要求。

然而，支持向量机的训练时间较长，且对于噪声敏感。

神经网络是一种模拟人脑神经元网络的计算模型，它能够通过训练自动学习特征，并且具有很强的非线性建模能力。

神经网络的优点是能够处理大规模的数据集，并且对于噪声具有一定的鲁棒性。

然而，神经网络的训练过程较为复杂，且容易出现过拟合的问题。

为了克服支持向量机和神经网络各自的局限性，研究人员提出了多种集成方法。

其中一种常见的方法是将支持向量机和神经网络进行堆叠集成。

具体而言，首先使用支持向量机对数据进行预处理和特征选择，然后将预处理后的数据输入到神经网络中进行训练和预测。

这种方法能够充分利用支持向量机的特征选择能力和神经网络的非线性建模能力，提高模型的性能。

另一种集成方法是将支持向量机和神经网络进行串行集成。

具体而言，首先使用支持向量机对数据进行分类，然后将分类结果作为神经网络的输入，继续进行训练和预测。

这种方法能够利用支持向量机的分类能力和神经网络的自适应学习能力，提高模型的鲁棒性和泛化能力。

除了堆叠集成和串行集成，还有一种常见的集成方法是将支持向量机和神经网络进行并行集成。

具体而言，将支持向量机和神经网络分别训练，然后将它们的预测结果进行加权融合。

这种方法能够充分利用支持向量机和神经网络各自的优势，提高模型的准确性和稳定性。

过程自动化中的智能故障检测技术

过程自动化中的智能故障检测技术在当今高度工业化的时代，过程自动化已经成为了生产制造领域的核心要素。

从大型化工厂的连续生产流程到先进制造业的精密加工，过程自动化系统的稳定运行对于保障生产效率、产品质量以及生产安全都具有至关重要的意义。

然而，如同任何复杂的系统一样，过程自动化系统在运行过程中难免会出现各种故障。

这些故障如果不能及时被检测和处理，可能会导致生产中断、设备损坏，甚至造成严重的安全事故和环境污染。

因此，智能故障检测技术的研究和应用成为了过程自动化领域的一个重要课题。

智能故障检测技术是一种基于先进的传感技术、数据分析方法和智能算法的综合性解决方案。

它能够实时监测过程自动化系统的运行状态，对收集到的数据进行深入分析，从而及时发现潜在的故障隐患，并准确地诊断出故障的类型、位置和严重程度。

与传统的故障检测方法相比，智能故障检测技术具有更高的准确性、及时性和可靠性，能够有效地降低生产损失和维护成本。

在智能故障检测技术中，传感技术是获取系统运行状态信息的关键手段。

通过安装各种类型的传感器，如温度传感器、压力传感器、振动传感器、电流传感器等，可以实时采集系统中的物理量和电气参数。

这些传感器所采集到的数据不仅包含了系统正常运行时的特征信息，还能够反映出系统在出现故障时的异常变化。

然而，仅仅依靠传感器采集到的数据是远远不够的。

由于过程自动化系统的复杂性和不确定性，这些数据往往存在着噪声、干扰和缺失值等问题，需要进行有效的预处理和特征提取，才能为后续的故障诊断提供有价值的信息。

数据预处理是智能故障检测技术中的一个重要环节。

它的主要任务是对传感器采集到的数据进行清洗、去噪、归一化和缺失值处理等操作，以提高数据的质量和可用性。

常用的数据清洗方法包括异常值检测和剔除、重复数据删除等。

去噪则可以采用滤波算法，如均值滤波、中值滤波和小波滤波等，来去除数据中的噪声干扰。

归一化可以将不同量纲的数据转换到同一尺度，便于后续的分析和比较。

支持向量机模型对于缺失数据的处理策略

支持向量机模型对于缺失数据的处理策略在机器学习领域，支持向量机（Support Vector Machine，简称SVM）是一种常用的分类和回归算法。

然而，在实际应用中，我们经常会遇到数据缺失的情况。

对于缺失数据的处理，SVM也有一些策略可以采用。

首先，我们需要了解缺失数据的类型。

缺失数据可以分为完全随机缺失、非随机缺失和随机缺失三种类型。

完全随机缺失是指数据缺失与任何其他变量无关，这种情况下，我们可以直接将缺失数据排除。

非随机缺失是指数据缺失与其他变量有关，这种情况下，我们需要采用一些方法来处理缺失数据。

随机缺失是指数据缺失的原因不确定，这种情况下，我们可以通过一些统计方法来估计缺失数据。

对于非随机缺失，SVM可以采用多种策略来处理。

一种常见的方法是使用插补技术，通过已有的数据来预测缺失数据的值。

插补技术可以分为单变量插补和多变量插补两种。

单变量插补是指根据单个变量的信息来估计缺失数据，常用的方法有均值插补和回归插补。

均值插补是指用该变量的均值来代替缺失值，回归插补是指通过回归模型来预测缺失值。

多变量插补是指根据多个变量的信息来估计缺失数据，常用的方法有多重插补和期望最大化算法。

多重插补是指通过生成多个完整数据集来估计缺失值，期望最大化算法是指通过最大化似然函数来估计缺失值。

另一种常见的处理策略是删除含有缺失数据的样本。

这种方法适用于缺失数据比例较小的情况，如果缺失数据比例较大，删除样本可能会导致数据集过小，影响模型的性能。

因此，在使用此策略时需要谨慎权衡。

除了插补和删除样本的方法外，SVM还可以使用特殊的技术来处理缺失数据。

一种常见的方法是使用核函数来处理缺失数据。

核函数是SVM中的一个重要概念，可以将低维空间中的数据映射到高维空间中，从而解决非线性可分问题。

在处理缺失数据时，我们可以利用核函数的映射特性，将缺失数据映射到高维空间中，从而得到更准确的分类结果。

此外，还有一些其他的策略可以用于处理缺失数据。

如何处理神经网络中的缺失数据

如何处理神经网络中的缺失数据神经网络是一种重要的机器学习方法，它通过模仿人脑神经元之间的连接方式来实现复杂的任务。

然而，在实际应用中，神经网络经常面临着数据缺失的问题。

缺失数据可能是由于传感器故障、数据采集错误或者其他原因导致的。

如何处理神经网络中的缺失数据是一个关键的问题，本文将探讨一些常用的方法。

首先，最简单的方法是直接删除缺失数据。

这种方法适用于缺失数据的比例较小的情况，删除缺失数据可以避免对模型的训练产生不良影响。

然而，当缺失数据的比例较大时，直接删除数据可能会导致数据集变小，从而影响模型的泛化能力。

其次，一种常用的处理缺失数据的方法是使用插补技术。

插补技术通过根据已有的数据来预测缺失数据的值。

其中，最简单的插补方法是使用均值插补。

均值插补将缺失数据的值替换为该特征的均值。

这种方法简单直接，但是它忽略了数据之间的相关性，可能会引入额外的噪声。

另一种常用的插补方法是使用回归模型。

回归模型可以通过已有的特征来预测缺失数据的值。

例如，可以使用线性回归模型或者决策树回归模型来进行插补。

这种方法考虑了数据之间的相关性，可以更准确地预测缺失数据的值。

然而，回归模型的性能也取决于特征的选择和模型的参数设置。

除了插补方法，还可以使用多重插补方法来处理缺失数据。

多重插补方法通过多次插补生成多个完整的数据集，然后使用这些数据集来进行模型训练和预测。

多重插补方法可以更好地利用已有的信息，提高模型的性能。

然而，多重插补方法也增加了计算的复杂性和时间开销。

此外，还可以使用深度学习方法来处理缺失数据。

深度学习方法可以通过学习数据的分布来预测缺失数据的值。

例如，可以使用自编码器来进行缺失数据的填充。

自编码器是一种无监督学习方法，它可以通过将输入数据压缩为低维编码，然后再将编码解压缩为重构数据来学习数据的分布。

通过训练自编码器，可以将缺失数据的值预测出来。

深度学习方法可以更好地捕捉数据之间的复杂关系，但是它也需要更多的计算资源和训练时间。

AI技术在故障预测中的应用技巧

AI技术在故障预测中的应用技巧一、引言故障预测是工业生产和设备维护中一个重要的环节，它能够帮助企业及时发现潜在的故障风险，并采取相应的措施进行修复和预防。

近年来，人工智能技术（AI）的快速发展为故障预测领域带来了新的机遇和挑战。

本文将探讨AI技术在故障预测中的应用技巧，并介绍相关算法和方法。

二、AI技术在故障预测中的常用算法1.支持向量机（Support Vector Machine，SVM）支持向量机是一种常见的监督学习算法，在故障预测中具有广泛应用。

该算法通过构建一个高维特征空间，在各个特征之间寻找最优边界，将数据集划分为不同类别。

对于故障预测问题，可以使用SVM对历史数据进行分类，并利用模型对未来可能出现故障的情况进行预测。

2.人工神经网络（Artificial Neural Network，ANN）人工神经网络是一种灵活且适应性强的模型，能够模拟生物神经元之间的相互作用。

在故障预测中，人工神经网络能够通过训练学习，获得数据之间的复杂关系，并进行预测。

通过使用适当的结构和算法优化，人工神经网络可以有效地处理多种类型的故障预测问题。

3.决策树（Decision Tree）决策树是一种基于树状模型的算法，能够对数据进行分类和预测。

在故障预测中，决策树可以通过将数据集分割为不同的子集来确定最佳分类规则，并生成一棵树结构来进行故障分类。

该方法简单易懂，且具有较好的解释性。

4.遗传算法（Genetic Algorithm）遗传算法是一种模拟进化过程的启发式搜索算法，在故障预测领域具有较高的应用价值。

该算法通过模拟自然选择和遗传机制，对问题空间进行搜索和优化。

遗传算法在故障预测中可以用于特征选择、参数优化等方面，提高模型的精度和准确性。

三、AI技术在故障预测中的应用技巧1. 数据采集与处理有效的数据采集与处理是实现准确故障预测的基础。

这包括选择合适的传感器和监测设备，确保数据质量，并进行数据预处理，如去除异常值、填补缺失值等。

人工智能开发技术中遇到的数据缺失和填补方法

人工智能开发技术中遇到的数据缺失和填补方法在人工智能开发技术中，数据缺失是一个常见的问题。

当我们构建和训练机器学习模型时，经常会面临一些数据缺失的情况。

这不仅会影响到模型的准确性，还可能导致错误的预测结果。

因此，填补数据缺失成为一个非常关键的步骤。

数据缺失可以分为两种情况：完全缺失和部分缺失。

完全缺失意味着某个样本的所有特征都缺失，而部分缺失则表示某些特征的值是未知的。

针对这两种情况，我们需要采取不同的填补方法。

首先，对于完全缺失的情况，常用的填补方法之一是删除该样本。

这是因为在完全缺失的情况下，我们无法通过任何手段推测出缺失的值，因此最好的方法就是将这个样本剔除掉。

当然，这种方法只适用于缺失样本比例较低的情况，如果缺失比例较高，则可能会损失大量有用的数据。

另一种常见的填补方法是均值填补。

当某个特征的部分数据缺失时，我们可以计算该特征的均值，并用均值来填补缺失值。

这种方法的主要思想是假设缺失值与其他特征的值无相关性。

均值填补的优点在于简单且不会引入太大的误差，但是它也有一个前提条件，即该特征的分布必须近似于正态分布。

如果特征的分布并不满足正态分布的假设，均值填补可能会引入一定的偏差。

除了均值填补之外，另一种常见的方法是最近邻填补。

该方法通过计算与缺失样本最相似的样本的特征值，并用该值来填补缺失值。

最近邻填补的优点是可以更好地保留数据的整体分布特征，避免了均值填补可能引入的偏差。

另外还有一种常见的填补方法是回归填补。

这种方法适用于特征之间存在相关性的情况。

它通过建立一个回归模型，根据其他特征的值来预测缺失特征的值，并用预测值来填补缺失值。

回归填补的优点在于可以利用其他特征之间的相关性来提高填补的准确性，但是也要注意模型的选择和建立，以及参数的调整。

在实际应用中，我们经常会根据具体情况选择不同的填补方法。

对于某些特征重要性较低的情况，我们可以选择删除或使用均值填补；对于特征之间存在较强相关性的情况，我们可以使用回归填补；而对于其他情况，最近邻填补可能是一个不错的选择。

利用机器学习方法进行时序数据分析与预测

利用机器学习方法进行时序数据分析与预测在数据科学领域中，机器学习是一种重要的工具，可以帮助我们从大量的数据中提取有价值的信息和模式。

时序数据分析与预测是机器学习的一个重要应用场景，它可以帮助我们基于过去的数据来预测未来的趋势和模式。

本文将介绍如何利用机器学习方法进行时序数据分析与预测。

时序数据是按照时间顺序排列的数据，例如股票价格、气温变化、人口数量等。

时序数据通常具有一定的趋势、周期性或季节性，因此需要特殊处理来揭示其中的规律和模式。

时序数据分析的第一步是数据的预处理。

在预处理中，我们需要对数据进行平滑处理、缺失值处理和异常值处理。

平滑处理可以帮助我们去除数据中的噪音，常用的方法包括移动平均和指数平滑。

缺失值处理可以使用插值等方法来填补缺失的数据点。

异常值处理可以通过统计学方法或者人工判断来处理，以保证数据的准确性和一致性。

在进行时序数据分析时，经常会遇到的一个问题是选择适当的模型。

常用的时序数据分析模型包括自回归移动平均模型（ARMA）、自回归积分移动平均模型（ARIMA）和季节性自回归积分移动平均模型（SARIMA）。

这些模型可以帮助我们捕捉数据中的长期趋势、周期性和季节性。

另外，还可以使用更高级的模型，如长短期记忆神经网络（LSTM）和卷积神经网络（CNN），它们可以捕捉更复杂的时序模式。

在选择模型后，我们需要对模型进行训练和评估。

训练模型是指使用已有的时序数据来拟合模型的参数，以使模型能够较好地拟合数据的特征。

评估模型是指使用一些指标来评估模型的性能和预测能力。

常用的评估指标包括均方根误差（RMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）。

通过训练和评估模型，我们可以找到最适合数据的模型，并进行后续的时序数据预测。

时序数据预测是利用已有的时序数据来预测未来的走势和模式。

在进行时序数据预测时，我们需要根据历史数据的特征来预测未来的数据。

常用的方法包括自回归模型（AR）、移动平均模型（MA）和指数平滑模型。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Advances in Applied Mathematics 应用数学进展, 2017, 6(5), 677-684 Published Online August 2017 in Hans. /journal/aam https:///10.12677/aam.2017.65080
*
通讯作者。
文章引用: 张楠, 程理, 王鹏. 利用支持向量机和人工神经网络填补缺失数据[J]. 应用数学进展, 2017, 6(5): 677-684. DOI: 10.12677/aam.2017.65080
张楠等
摘
要
本文从R内置数据集iris中按需要选取样本数据建立学习样本，模拟生物样本属性值缺失和类别缺失两种缺失数据的情况，以MATLAB为工具，利用支持向量机和人工神经网络对缺失值进行填补。对于生物样本数据中存在属性值缺失的情况，可以分别采用支持向量机和人工神经网络进行回归填补，并对BP神经网络和RBF神经网络的适用性进行了对比；对于生物样本数据中存在样本类别缺失的情况，采用支持向量机分类填补。结果显示，用神经网络预测填补缺失的属性值时，RBF网络对隐层神经元数目选取的自适应性使之比BP网络更为稳定；相比人工神经网络，支持向量机对有限的样本更为适用，并且不依赖设计者经验，泛化能力强。
2. 填补缺失的样本属性值
2.1. 支持向量机回归填补
支持向量机 SVM (Support Vector Machines)是由 Vanpik 领导的 AT&TBell 实验室研究小组在 1963 年提出的一种新的分类技术，在解决小样本、非线性、高维模式识别问题中表现出许多特有的优势，并且可以推广应用到函数拟合等问题中去[3]。
The Use of Support Vector Machines and Artificial Neural Networks to Fill Missing Data
Nan Zhang, Li Cheng, Peng Wang*
College of Sciences, Beijing Forestry University, Beijing Received: Jul. 21 , 2017; accepted: Aug. 8 , 2017; published: Aug. 14 , 2017
2.2. 人工神经网络回归填补
人工神经网络(Artificial Neutral Network, ANN)是由神经元相互连接，通过模拟人脑神经处理信息的方式，进行信息并行处理和非线性转换的复杂网络系统，在控制与优化、预测与管理、模式识别与图像处理、通信等方面得到了十分广泛的应用[4]。前向反馈(Back Programming, BP)网络和径向基(Radical Basis Function, RBF)网络是目前应用最广泛的两种网络。
st th th
Abstract
In this paper, we use the built-in data set iris to select the sample data according to the need to establish the learning samples, simulate the missing values of the biological sample attributes and the missing two types of missing data. Using MATLAB as the tool, we use the support vector machine and the artificial neural network to carry out the missing values to fill. For the case of missing attribute values in the biological sample data, the support vector machine and the artificial neural network can be used for the regression filling, and the applicability of the BP neural network and the RBF neural network can be compared. For the sample of the biological sample, missing situation, using support vector machine classification to fill. The results show that the adaptability of the number of hidden neurons in the RBF network is more stable than that of the BP network when the neural network is used to predict the missing attribute values. Compared with the artificial neural network, the support vector machine for the application, do not rely on the designer experience and has generalization ability.
关键词
生物样本，填补缺失数据，支持向量机，人工神经网络
Copyright © 2017 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/
Open Access
1. 引言
一个简单的生命，也包含庞大的数据信息，数据构成十分复杂。随着生物科技的蓬勃发展，与生物有关的统计研究逐步展开，生物学数据的处理与分析成为一个重要的研究领域。有时我们获得的生物学样本数据不完整，导致研究工作困难重重。如何填补缺失的数据，也就成为了一个亟待解决的问题。在生物样本数据中，通常情况下缺失的数据无非两种：属性值和分类值。如果缺失了属性值，可以进行回归填补；如果缺失了类别值，可以进行分类填补。这些都可以用支持向量机实现。就支持向量机而言，分类问题和回归问题都是根据训练样本找到一个实值函数 g(x)：回归问题就是给定一个新的模式，根据训练样本确定一个实值函数 g(x)，使用 y = g(x)推断任一输入 x 所对应的输出 y (实数)；分类问题就是给定一个新的模式，根据训练样本找到一个实值函数 g(x)，使用 y = sign(g(x))推断任一输入 x 所对应的类别(如：+1，−1) [1]。文献[2]使用 RBF 神经网络对上证指数进行预测，类似地，填补缺失的属性值也可以用人工神经网络回归预测进行处理。本文从 R 内置数据集 iris 中按需要选取样本数据建立学习样本，模拟生物样本属性值缺失和类别缺失两种缺失数据的情况，以 MATLAB 为工具，采取支持向量机和人工神经网络的模型，以无缺失值的样本预测有缺失值的样本中的缺失值，从而进行填补。属性值缺失值用支持向量机或人工神经网络进行回归填补，样本类别缺失值用支持向量机分类填补。神经网络推导出的各种算法很难在样本数据有限时取得理想的应用效果，需要设计者有效利用自己的经验。与神经网络相比，支持向量机能够基于有限的样本信息求解，同时避免了神经网络实现中的经验成分。
2.2.1. BP 神经网络填补 BP 神经网络是一种具有三层或者三层以上神经元的神经网络，包括输入层、中间层(隐含层)和输出层，上下层之间全连接，而同一层的神经元之间无连接，两个神经元之间的连接强度为网络的权值。BP 算法称为“误差反向传播算法”，通过误差逆向传播修正的反复进行，逐步修正各连接权值，核心是“负梯度下降”理论，误差调整方向沿着误差下降最快的方向进行[5]。使用表 1 数据为网络学习样本。在本例中将前三个属性作为输入，Petal.Width 作为输出，构成 3 个输入 1 个输出的网络，将前 19 个无缺样本数据作为训练样本集，后 1 个有缺样本作为预测检验样本。
注：20 号样本缺失的 Petal.Width 真实值为 0.3。
DOI: 10.12677/aam.2017.65080
679
应用数学进展
张楠等
Figure 1. Parameter selection results (contour map) 图 1. 参数选择结果图(等高线图)
Figure 2. Regression prediction data and the original data comparison chart 图 2. 回归预测数据与原始数据对比图
Keywords
Biological Sample, Filling Missing Data, Support Vector Machine, Artificial Neural Network
利用支持向量机和人工神经网络填补缺失数据
张楠，程理，王鹏*
北京林业大学理学院，北京
收稿日期：2017年7月21日；录用日期：2017年8月8日；发布日期：2017年8月14日
DOI: 10.12677/aam.2017.65080 678 应用数学进展
张楠等
我们从 R 语言内置的 iris 数据集中的 setosa 类别选取 20 个样本组成一个新的数据集，作为网络学习样本，并删去第二十个样本的最后一个属性值(Petal.Width)，模拟数据缺失的情况，如表 1。其实，无论缺失的是什么位置的数据，只要将没有缺失数据的行列集合到一起，作为训练集，用来预测数据不完全样本的缺失属性的值。选取 1 到 19 个样本的 Sepal.Length、Sepal.Width、Petal.Length、Petal.Width 为自变量，2 到 20 个样本的 Petal.Width 为因变量。 SVM 的实现使用 MATLAB 的 libsvm 工具箱，实现数据归一化预处理，寻找回归的最佳参数，参数选择结果图(等高线图)如图 1。用找到的最佳参数对 SVM 进行训练，再对原始数据进行回归预测，得回归预测数据与原始数据对比图，如图 2。SVM 回归预测的均方误差 MSE = 0.0312355，相关系数 R = 67.5382%，缺失值填补为 0.2969。