数据统计分析模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

A
B 低剂量
中剂量
高剂量
低剂量 2.4 2.7 2.3 2.5
低剂量 5.8 5.2 5.5 5.3 低剂量 6.1 5.7 5.9 6.2
4.6 4.9
4.2 4.7
4.8 4.5 4.4 4.6
9.1 9.3 8.7 9.4 13.5 13.0 13.3 13.2
8.9 9.1 8.7 9.0 9.9 10.5 10.6 10.1
1)下面有20个已知类别的人工制造的序列(见 下页),其中序列标号1—10 为A类,11-20为B类。 请从中提取特征,构造分类方法,并用这些已知 类别的序列,衡量你的方法是否足够好。然后用 你认为满意的方法,对另外20个未标明类别的人 工序列(标号21—40)进行分类,把结果用序号 (按从小到大的顺序)标明它们的类别(无法分 类的不写入):
Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggta aaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgg gacaaggaaggcggctggaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggca acggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgtttttta aataaaatttgtattattatggtatcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccac cgtttcggcggaaaggcggagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcgga tatttcggaagtggatattaggagggcggaataaaggaacggcggcaca 7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaat ggaaaaaggactaggaatcggcggcaggaaggatatggaggcg 8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcga caaggaggcggaccataggaggcggattaggaacggttatgagg 9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggc gaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg 10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatcca ggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg
例4:2000年全国大学生数学建模竞赛A题 DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完 成,预计2001年可以完成精确的全序列图,此后人类 将拥有一本记录着自身生老病死及遗传进化的全部信 息的“天书”。这本大自然写成的“天书”是由4个 字符A,T,C,G按一定顺序排成的长约30亿的序列, 其中没有“断句”也没有标点符号,除了这4个字符 表示4种碱基以外,人们对它包含的“内容”知之甚 少,难以读懂。破译这部世界上最巨量信息的“天书” 是二十一世纪最重要的任务之一。在这个目标中,研 究DNA全序列具有什么结构,由这4个字符排成的看似 随机的序列中隐藏着什么规律,又是解读这部天书的 基础,是生物信息学(Bioinformatics)最重要的课 题之一。 虽然人类对这部“天书”知之甚少,但也发现了 DNA序列中的一些规律性和结构。例如,在全序列中
有一些是用于编码蛋白质的序列片段,即由这4个字符 组成的64种不同的3字符串,其中大多数用于编码构成 蛋白质的20种氨基酸。又例如,在不用于编码蛋白质 的序列片段中,A和T的含量特别多些,于是以某些碱 基特别丰富作为特征去研究DNA序列的结构也取得了一 些结果。此外,利用统计的方法还发现序列的某些片 段之间具有相关性,等等。这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构,充分发掘序列 的结构对理解DNA全序列是十分有意义的。目前在这项 研究中最普通的思想是省略序列的某些细节,突出特 征,然后将其表示成适当的数学对象。这种被称为粗 粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列 集合进行分类的问题:
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatcca acgtttttattactttttaaaattaaatatttatt 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggt agttatttaattatcgttaaggaaagttaaa 13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattt tctttaaagacgttacttaatgtcaatgc 14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattc taatctgtctttattaaatcttagagatatta 15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttt tttttttaaaatttataaatttaa 16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgt aaacttattgaatctatagaattacattattgat 17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagt aaaatcaatccctaaacccttaaaaaacggcggcctatccc 18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagaga aattacttacaaaacgttattttacatactt 19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttcttt atataggatctcatttaatatcttaa 20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttcttta aggattttttttacttatcctctgttat
数学建模竞赛培训讲座
数据统计分析方法
参考书
• 施雨,李耀武编,概率论与数理统计应用, 西安交通大学出版社 • 梅长林,范金成编,数据分析方法,高等 教育出版社, • 王学民编,应用多元统计分析,上海财经 大学出版社 • 方开泰编,实用多元统计分析,华东师范 大学出版社
统计软件
• SAS (Statistical Analysis System) • SPSS (Statistical Package for the Social Science) • R
食谱
体重增加量
甲 164 190 203 205 206 214 228 257 乙 185 197 201 231 丙 187 212 215 220 248 265 281
例2:为了研制一种治疗枯草热病的药物,将 两种成分(A和B)各按三种不同剂量(低、 中、高)混合,将36位自愿受试患者随机 分为9组,每组4人服用各种剂量回合下的 药物,记录其病情缓解的时间(单位:小 时)如下表所示,试分析两种成分及交互 作用对病情缓解的时间是否有显著影响。
A类__________ ;B类 _______________ 。
ቤተ መጻሕፍቲ ባይዱ
请详细描述你的方法,给出计算程序。如果 你部分地使用了现成的分类方法,也要将方法名 称准确注明。 这40个序列也放在如下地址的网页上,用数 据文件Art-model-data 标识,供下载:
网易网址:www.163.com 教育频道 在线试题; 教育网: www.cbi.pku.edu.cn New mcm2000 教育网: www.csiam.edu.cn/mcm 2)在同样网址的数据文件Nat-model-data中 给出了182个自然DNA序列,它们都较长。用你 的分类方法对它们进行分类,像1)一样地给出分 类结果。 提示:衡量分类方法优劣的标准是分类的正 确率,构造分类方法有许多途径,例如提取序列 的某些特征,给出它们的数学表示:几何空间或 向量空间的元素等,然后再选择或构造适合这种 数学表示的分类方法;又例如构造概率统计模型, 然后用统计方法分类等。
例3: 费希尔(Fisher)于1936年发表了关 于鸢尾花(Iris)的数据。数据是对3种鸢尾 花:刚毛鸢尾花(第1组)、变色鸢尾花 (第2组)和费吉尼亚鸢尾花(第3组)各 抽取一个容量为50的样本,测量其花萼长 x1,花萼宽x2,花瓣长x3,花瓣宽x4,单位 为mm,数据如下表所示。假定有新样品 (x1,x2,x3,x4)=(62.35,58,18),试判别 该样品属于哪种鸢尾花。
例子
编号 品种 萼长x1 萼宽x2 瓣长x3 瓣宽x4 1 1 50 33 14 2 2 1 46 34 14 3 … … … … … … 51 2 65 28 46 15 52 2 62 22 45 15 … … … … … … 101 3 64 28 56 22 … … … … … … 150 3 63 33 60 25
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatcc gtaccgtaatttagcttagatttggatttaaaggatttagattga 22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgtt accggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaa ggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctattttt agtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgactttta cgatttagttttgaccgt 25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtat taggcaaaagctgacgggcaattgcaatttaggcttaggcca 26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttc gcagctcagttttaacgcgggatctttagcttcaagctttttac 27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagta aatgccaaaggacgctggtttagccagtccgttaaggcttag 28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaattta gacgttagggcttatcagttatggattaatttagcttattttcga 29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggc cggccatttcggtttagggagggccgggacgcgttagggc 30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgt tagctgacgctgaacgctaaacagtattagctgatgactcgta
数据统计分析常用方法
• • • • • • • • • 方差分析 回归分析 判别分析 聚类分析 主成分分析 相关分析(典型相关分析) 因子分析 列联表分析 时间序列分析
例子
例1:为了比较同一类型的三种不同食谱的营 养效果,将19只幼鼠随机地分为三组,每 组分有8只、4只、7只,各组分别采用这三 种食谱喂养。假定其它条件均保持相同, 12周后测得其体重增加量如下表所示,试 比较这三种食谱的营养效果是否有显著差 异。
相关文档
最新文档