诺维信杯

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

“亲近生活，美化生活”2010统计创新大赛

参赛指南

竞赛说明

宝洁公司、中国概率统计学会和北京大学概率统计系，共同邀请中国高校和研究所的统计相关专业研究学者和在校学生，参加“亲近生活，美化生活”2010统计创新大赛。宝洁公司将和中国概率统计学会专家组成竞赛评审委员会，制定评奖规则，评价参赛者提交的技术方案。获奖的技术方案将获得现金奖励。本指南将给出宝洁寻求解决方案的技术课题，并提供参加大赛的确认表模版。

研究课题

宝洁公司根据实际工作中统计建模方面的困难总结提炼出如下两个关于统计建模方法及统计模型评价的课题

课题1：

背景及统计的作用：

洗衣粉是通过其中的化学成分溶于水后改变水溶液的物理化学性质来实现去污的作用的，因此通过测量洗衣产品溶于水后的溶液的一些属性就可以了解产品去污的功效。如果能建立溶液属性和产品功效之间的模型，就可以找出能够最大化产品功效的溶液的属性，根据这些属性和化工技术知识我们就可以找出最优的配方。

试验：

为了研究洗衣粉溶液的物理属性对去污功效的影响，我们分别测量了96个不同产品溶液的物理属性和它们的去污效果的数据

已有的数据：

1.现有96个产品的物理属性及功效数据，从中随机选取了10个产品作为验证模型预测精度的数

据，请用剩下的86组数据来建立模型

2.每一个产品的21个属性作为输入变量 (PP1—PP21)

3.产品在18种污渍上的功效作为输出变量 (O1—O18)

课题1数据.xls

要求：

1.请根据现有数据拟合出一个统计模型，模型能够基于产品的属性数据对产品的功效做出比较可

靠的预测

2.考虑所有输入变量的线性项，根据模型的需要选择它们的平方项及交互作用项；

3.对此数据用多种不同的方法进行分析；

4.选择合适的能够反映模型预测能力的评价准则（可以根据需要提出新的准则），并根据准则选

出最优的建模方法和最优模型；

5.提供数据说明拟合出的模型的预测能力。

注意：某些产品的某些属性有缺失数据，但用来验证模型的10组数据里没有缺失值。

模型评价标准：

比较随机抽取的10个产品的真实数据与模型预测值的区别，计算MSE（Mean Square Error），并根据MSE来计算出每一参赛者的综合得分。具体计算方法如下：

1.参赛者建立的每一种污渍的模型都会根据相应的MSE在所有参赛者中的排名来获得相应的分

数。如果排名第一，得10分，排名第二，得8分，以此类推，排名第五，得2分，第六名及之后不得分；

2.将每一参赛者在所有模型上的得分取平均，作为参赛者的综合得分。

课题2

背景及统计的作用：

一个洗衣粉产品的清洁能力好坏受很多因素的影响，例如：

1.配方中的每一成分的多少

2.洗衣的方法及环境条件（洗衣时间的长短，洗衣用水的情况等）

如果能通过统计建模的方法建立一个用配方及洗衣条件来预测产品功效的模型，就可以1．了解产品中每一成分，及洗衣的方法、条件等因素对产品清洁能力的影响；

2．在给出产品的配方时对产品在一定条件下的清洁能力做出比较可靠的预测；

3．在一定的条件下，优化产品的配方。

试验：

根据目标，我们设计了一个250个不同处理组合（Treatment）的试验：

1.设计时考虑的因素有产品的配方中每一成分的量及洗衣条件，每一因素有三个水平；

2.用设计所得的每一个配方的产品去洗涤一些衣物，根据洗涤后衣物的清洁程度计算出每一配方

的清洁能力（试验中衣物的初始脏度可能会有一些波动，所以拟合模型时需要考虑到它的影响）；

3.每四个配方作为一组来进行试验（这样就产生了一个区组的效应需要在建模时考虑）；

4.250个处理之外我们还测试了16个额外的配方用来验证模型预测的准确性。

已有的数据：

250个不同处理组合（Treatment）的试验数据

输入变量包括：

1.配方中的20种成分 (C1—C20)

2.洗衣方法及洗衣环境参数 4 个 (P1—P4)

3.区组 (block)

4.衣物初始的脏度 (Baseline1—Baseline5，分别对应5种污渍)

输出变量为：产品在5种不同种类污渍上的清洁功效（Cleaning1—Cleaning5）

课题2数据.XLS

要求：

1.对此数据选用不同的统计方法进行分析，建立一个用产品配方来预测产品清洁能力模型；

2.需要考虑的效应为所有变量的线性项，C1—C20、P1—P4的平方项及交互作用项；

3.将对应每一污渍初始的脏度（Baseline1—Baseline5）作为协变量放入模型，例如对Cleaning1建

模时，需将Baseline1作为协变量加入模型，依此类推；

4.试用多种不同的模型选择方法对数据进行分析；

5.选择合适的能够反映模型预测能力的评价准则（可以根据需要提出新的准则），并根据所选准

则找出最优模型；

6.提供数据说明拟合出的模型的预测能力。

注意：

如果同时考虑所有的线性项、平方项和交互作用项的话，所有要估计的参数的个数远大于处理组合的个数(250)。

模型评价标准：

比较16个验证性试验的实际数据与模型预测值的区别，计算MSE（Mean Square Error），并根据MSE来计算出每一参赛者的综合得分。具体计算方法如下：

1.参赛者建立的每一种污渍的模型都会根据相应的MSE在所有参赛者中的排名来获得相应的分

数。如果排名第一，得10分，排名第二，得8分，以此类推，排名第五，得2分，第六名及之后不得分。

2.将每一参赛者在所有模型上的得分取平均，作为参赛者的综合得分。