卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 材料与方法
1. 1 样品与数据 样品及数据来源 :国内卷烟生产企业实际产品
的批量检测数据 , 共有 7 个 主流烟气指标 :总粒相 物 、水分 、水分含率 、焦油 、烟碱 、CO 、抽吸口数 ;6 个
物理指标 :单支重 、卷烟圆周 、开式吸阻 、闭式吸阻 、
稀释率 、硬度 ;5 个化学成分指标 :总氮 、总糖 、还原
Key words:info rmatio n mi ning and ext raction ;f act or analy sis ;canoni cal correlative analy sis ;mainst ream smoke of ci garet tes
为了降低卷烟烟气对人体的危害 , 国内外烟草 行业不断推出各种措施降低主流烟气中的焦油 、总 粒相物等有害成分[ 1] 。此外 , 卷烟的主流烟气检测 耗时 、繁琐[ 2] , 用于卷烟生产过程质量控制与监测时 存在滞后的问题 。卷烟的相关理化指标的检测相对 主流烟气的检测要简捷迅速得多[ 3] , 有关研究表明 卷烟(烟叶)的物理 、化学指标与其主流烟气指标间 存在不同程度的相关性[ 4 ~ 6] , 主流烟气的指标间 、化 学指标间也存在相关性[ 7] 。 但这些研究中采集的数 据量不多且进行的都是一对一关联 , 难以反映各因 素共同存在和作用时主流烟气 与理化指标间 的关 系 , 且由于实验条件和原料的不同也会产生相互矛 盾的结果 。因此系统地研究影响主流烟气的各类因 素及其相互间的关系 , 对于降低与控制卷烟的危害 、 卷烟的质控和质检十分重要 。
糖 、总植物碱 、总氯 。 1. 2 因子分析[ 13]
设有 n 个卷烟样本共取得了 p 个检测项目的 分析 , 其结果组成了 n ×p 个测量数据矩阵 X , 在经
过“均值-中心化”处理后为矩阵 R(相关矩阵), R =XT X , 将 R 对角化 , P - 1 RP =diag{λk}。 其中 λk 是矩阵 R 的特征值 , 其对应的特征向量
响不大 。有关结果对卷烟的降焦减害 、建立卷烟主流烟气信息与理化信息间定量关系提供了重要
信息和理论依据 。
关键词 :信息挖掘 ;因子分析 ;典型相关分析 ;卷烟主流烟气
中图分类号 :O657 ;T S411
文献标识码 :A
Data Digging and Information Extraction Based on Mainstream Smoke , Physical and Chemical Data of Cigarettes
DO I :牨牥牨牬牨牫牭牤j cnki 牨牥牥牰牠牫牥牳牥牪牥牥牱牥牨牥牨牳
文章编号 :1006-3080(2007)01-0079-05
卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提
倪力军 , 郭 佳 , 张 鑫 , 张立国 (华东理工大学化学与分子工程学院 , 上海 200237)
பைடு நூலகம்
典型相关分析表明 :卷烟主流烟气与物理化学信息间存在显著的整体相关 , 其中反映主流烟气信息
的 U 典型变量主要来自总粒相物 、焦油 、烟碱 、水分 、水分含率及抽吸口数的贡献 ;反映物理 、化学
指标信息的 V 典型变量主要来自稀释率 、闭式吸阻 、单支重及总糖 、氯等化学指标的贡献 , 其中稀
释率的作用最大 。而 CO 、圆周与硬度对卷烟主流烟气与理化性质两类信息间的整体相关性的影
烟草企业在日常质检过程中积累了大量准确而 有代表性的数据 , 需要从中提取有用信息及对信息 进行加工以指导生产 , 也即数据信息的采掘与知识 获取 , 这已是当今信息科学的一个新热点[ 8] 。 因子 分析与典型相关分析是一种先进的统计技术 , 可以 用来分析 、解释变量的数据结构和建立两类变量间 的关系 。 有关方法在气象与环境[ 9 ~ 10] 、食品[ 11] 、分 析化学[ 12] 等领域得到了广泛应用 。 本文对 卷烟生 产企业批量样品实际检测的物理 、化学指标及主流 烟气的测试数据进行因子分析 , 旨在确定对主流烟 气有重要影响的卷烟理化指标 、确定独立的因子数 目及其实际含义 , 为控制烟气烟碱 、焦油等有害物质 提供参考依据 。 对卷烟主流烟气数据和卷烟物理 、 化学数据进行典型相关分析 , 以判断主流烟气与物 理 、化学性质间相关性的强度 , 建立其间定量关系 , 并 分析其可行性与准确程度 , 为进一步建立两类信息 (主流烟气与理化性质)间的定量关系 、实现根据理化 性质快速预测卷烟主流烟气的目标提供理论依据 。
的个数 。对于本文 , n =595 , nz =6 , ny 有 3 个取值 :
当考虑物理性质与主流烟气的整体相关性时ny =7 , 当考虑化学性质与主流烟气的整体相关性时 ny =
5 , 当考虑卷烟物理 、化学性质与主流烟气的整体相
关性时 ny =12 。将 Y 变换为 U 所需的权值可通过 求解下面的本征值问题获得 :
载荷和得分 , 可分析卷烟测试数据中的隐含信息 。
1. 3 典型相关分析
典型相关分析(CCA)[ 13] 是识别并量化两组变
量间整体相关性的统计分析方法 , 该方法提供各因
素共同作用时得到的两类信息间的关系 , 其研究焦
点是寻找一组变量的线性组合与另一组变量的线性
组合间的相关关系 。在各因素间存在交互作用时 ,
摘要 :应用因子分析与典型相关分析方法对卷烟生产企业批量样品实际检测的 18 个检测指标
进行了数据挖掘与信息抽提 。 因子分析表明 :可用 12 个独立的公共因子来描述卷烟质量 , 其中主
流烟气中的总粒相物 、烟碱 、焦油与物理指标稀释率 、闭式吸阻相关性很强 , 且可用第一主因子来体
现其对卷烟质量的影响 ;第二主因子主要体现了总氮的信息 , 前两个主因子占总信息量的 66 %。
Abstract :Facto r analy sis and canonical correlatio n analy sis (CCA) based on 18 test indices of 595 batches ci garet tes manuf act ured in some T obacco co rpo rations are carried out . F act or analysi s sho w s that the quali ty of cig aret tes could be charact eri zed by 12 i ndependent principal f act ors , w here T PM , tar and nicotine in mainst ream sm oke , phy sical indices ventilat ion rat e and close resistance are clo sely co rrelative and their inf luence on quality of cigaret tes i s represent ed in t he first principal facto r. T he second principal facto r mainly represent s t he ef fect of t ot al nit rogen. T he fi rst t w o facto rs represent 66 % of t ot al inf ormat ion. CCA indicates that t here are st ro ng integ ra ted correlatio n bet ween mai nst ream smo ke and t he physical and chemical properties , w here cano nical v ariable U representi ng i nf orm ation of mainst ream sm oke is mainly cont ribut ed by T PM , t ar , nicot ine , vapor , vapor content and puf f t imes ;cano nical variable V repre sent ing physi cal and chemi cal info rmati on of ci garet tes i s mainly cont ributed by venti lation rate , close resistance , cigaret tes w ei ght and to tal sug ar , to tal org anic chlorine etc , w he re ventilatio n rat e plays an i mpo rt ant role. T he cont ributio n o f CO of mainst ream sm oke , circum ference and rigidi ty of cigaret tes t o t he integ ra-
[ (Y TY)- 1 (Y T Z)(ZT Z)-1 (ZTY)- μ2 I] =0 (3) 其中 μ2 表示特征值 , 是典型相关系数的平方 , I 为 单位矩阵 。对应的特征向量矩阵 A 给出 U 与 Y 之
收稿日期 :2005-12-14 作者简介 :倪力军(1963-), 女 , 湖南益阳人 , 副研究员 , 博士 , 主要从事天然产物分析与质量控制 。 通讯联系人 :张立国 , hardt imes @ecust . edu . cn
tion relat ivity betw een the t w o kinds of info rmatio n i s very sm all. T he result s provide an i mpo rt ant info rm ation and ref erence f or reducing harm of cigaret tes and develo ping quanti tative relationship bet w een mai nst ream sm oke inf orm ation and physi cal and chem ical info rmati on of ci garet tes.
假设两组原始变量用 Y 和 Z 表示 , 由Y 和 Z 的
线性组合所表 示的典型 变量分别 用 U 与 V 表示 。 在本文中 ,Y 是卷烟物理(化学或物理 +化学)指标
的数据矩阵而 Z 是卷烟样品的主流烟气数据矩阵 ,
两个数据矩阵的维数分别为 n ×ny 与 n ×nz , n 为卷 烟样本的个数 , ny 与 nz 分别表示矩阵 Y 、Z 中变量
N I L i-j un , GUO J i a , Z H A NG X i n , Z H AN G Li-guo (School of Chem ist ry and Molecular E ngi neering , East Chi na Universi ty o f
Science and Technolog y , Shanghai 200237 , China)
为 pk , 即 RPk =λk pk 。 由于 P 为正交矩阵 ,
P -1 RP =P- 1 XT XP =(XP)T XP
记 XP =T , 即可得 X =TPT 。
(1)
主因子分解结果 , 即得
X = t1 p1 +t2 p2 + … +t k pk
(2)
t k 常称为因子得分 , pk 则称为 因子载荷 , 根据
CCA 提供的结果比简单相关分析更符合实际情况 。
CCA 的思路是先求一对原始变量的线性组合 ,
使它们之间有最大的相关系数 。 然后在剩下的线性
组合中再去寻找有最大相关系数的一对 , 如此继续
下去可找到一系列相关系数依次递减的线性组合 。
这些选出的线性组合称为典型变量 , 每一对典型变
量间的相关系数称为典型相关系数 。
1. 1 样品与数据 样品及数据来源 :国内卷烟生产企业实际产品
的批量检测数据 , 共有 7 个 主流烟气指标 :总粒相 物 、水分 、水分含率 、焦油 、烟碱 、CO 、抽吸口数 ;6 个
物理指标 :单支重 、卷烟圆周 、开式吸阻 、闭式吸阻 、
稀释率 、硬度 ;5 个化学成分指标 :总氮 、总糖 、还原
Key words:info rmatio n mi ning and ext raction ;f act or analy sis ;canoni cal correlative analy sis ;mainst ream smoke of ci garet tes
为了降低卷烟烟气对人体的危害 , 国内外烟草 行业不断推出各种措施降低主流烟气中的焦油 、总 粒相物等有害成分[ 1] 。此外 , 卷烟的主流烟气检测 耗时 、繁琐[ 2] , 用于卷烟生产过程质量控制与监测时 存在滞后的问题 。卷烟的相关理化指标的检测相对 主流烟气的检测要简捷迅速得多[ 3] , 有关研究表明 卷烟(烟叶)的物理 、化学指标与其主流烟气指标间 存在不同程度的相关性[ 4 ~ 6] , 主流烟气的指标间 、化 学指标间也存在相关性[ 7] 。 但这些研究中采集的数 据量不多且进行的都是一对一关联 , 难以反映各因 素共同存在和作用时主流烟气 与理化指标间 的关 系 , 且由于实验条件和原料的不同也会产生相互矛 盾的结果 。因此系统地研究影响主流烟气的各类因 素及其相互间的关系 , 对于降低与控制卷烟的危害 、 卷烟的质控和质检十分重要 。
糖 、总植物碱 、总氯 。 1. 2 因子分析[ 13]
设有 n 个卷烟样本共取得了 p 个检测项目的 分析 , 其结果组成了 n ×p 个测量数据矩阵 X , 在经
过“均值-中心化”处理后为矩阵 R(相关矩阵), R =XT X , 将 R 对角化 , P - 1 RP =diag{λk}。 其中 λk 是矩阵 R 的特征值 , 其对应的特征向量
响不大 。有关结果对卷烟的降焦减害 、建立卷烟主流烟气信息与理化信息间定量关系提供了重要
信息和理论依据 。
关键词 :信息挖掘 ;因子分析 ;典型相关分析 ;卷烟主流烟气
中图分类号 :O657 ;T S411
文献标识码 :A
Data Digging and Information Extraction Based on Mainstream Smoke , Physical and Chemical Data of Cigarettes
DO I :牨牥牨牬牨牫牭牤j cnki 牨牥牥牰牠牫牥牳牥牪牥牥牱牥牨牥牨牳
文章编号 :1006-3080(2007)01-0079-05
卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提
倪力军 , 郭 佳 , 张 鑫 , 张立国 (华东理工大学化学与分子工程学院 , 上海 200237)
பைடு நூலகம்
典型相关分析表明 :卷烟主流烟气与物理化学信息间存在显著的整体相关 , 其中反映主流烟气信息
的 U 典型变量主要来自总粒相物 、焦油 、烟碱 、水分 、水分含率及抽吸口数的贡献 ;反映物理 、化学
指标信息的 V 典型变量主要来自稀释率 、闭式吸阻 、单支重及总糖 、氯等化学指标的贡献 , 其中稀
释率的作用最大 。而 CO 、圆周与硬度对卷烟主流烟气与理化性质两类信息间的整体相关性的影
烟草企业在日常质检过程中积累了大量准确而 有代表性的数据 , 需要从中提取有用信息及对信息 进行加工以指导生产 , 也即数据信息的采掘与知识 获取 , 这已是当今信息科学的一个新热点[ 8] 。 因子 分析与典型相关分析是一种先进的统计技术 , 可以 用来分析 、解释变量的数据结构和建立两类变量间 的关系 。 有关方法在气象与环境[ 9 ~ 10] 、食品[ 11] 、分 析化学[ 12] 等领域得到了广泛应用 。 本文对 卷烟生 产企业批量样品实际检测的物理 、化学指标及主流 烟气的测试数据进行因子分析 , 旨在确定对主流烟 气有重要影响的卷烟理化指标 、确定独立的因子数 目及其实际含义 , 为控制烟气烟碱 、焦油等有害物质 提供参考依据 。 对卷烟主流烟气数据和卷烟物理 、 化学数据进行典型相关分析 , 以判断主流烟气与物 理 、化学性质间相关性的强度 , 建立其间定量关系 , 并 分析其可行性与准确程度 , 为进一步建立两类信息 (主流烟气与理化性质)间的定量关系 、实现根据理化 性质快速预测卷烟主流烟气的目标提供理论依据 。
的个数 。对于本文 , n =595 , nz =6 , ny 有 3 个取值 :
当考虑物理性质与主流烟气的整体相关性时ny =7 , 当考虑化学性质与主流烟气的整体相关性时 ny =
5 , 当考虑卷烟物理 、化学性质与主流烟气的整体相
关性时 ny =12 。将 Y 变换为 U 所需的权值可通过 求解下面的本征值问题获得 :
载荷和得分 , 可分析卷烟测试数据中的隐含信息 。
1. 3 典型相关分析
典型相关分析(CCA)[ 13] 是识别并量化两组变
量间整体相关性的统计分析方法 , 该方法提供各因
素共同作用时得到的两类信息间的关系 , 其研究焦
点是寻找一组变量的线性组合与另一组变量的线性
组合间的相关关系 。在各因素间存在交互作用时 ,
摘要 :应用因子分析与典型相关分析方法对卷烟生产企业批量样品实际检测的 18 个检测指标
进行了数据挖掘与信息抽提 。 因子分析表明 :可用 12 个独立的公共因子来描述卷烟质量 , 其中主
流烟气中的总粒相物 、烟碱 、焦油与物理指标稀释率 、闭式吸阻相关性很强 , 且可用第一主因子来体
现其对卷烟质量的影响 ;第二主因子主要体现了总氮的信息 , 前两个主因子占总信息量的 66 %。
Abstract :Facto r analy sis and canonical correlatio n analy sis (CCA) based on 18 test indices of 595 batches ci garet tes manuf act ured in some T obacco co rpo rations are carried out . F act or analysi s sho w s that the quali ty of cig aret tes could be charact eri zed by 12 i ndependent principal f act ors , w here T PM , tar and nicotine in mainst ream sm oke , phy sical indices ventilat ion rat e and close resistance are clo sely co rrelative and their inf luence on quality of cigaret tes i s represent ed in t he first principal facto r. T he second principal facto r mainly represent s t he ef fect of t ot al nit rogen. T he fi rst t w o facto rs represent 66 % of t ot al inf ormat ion. CCA indicates that t here are st ro ng integ ra ted correlatio n bet ween mai nst ream smo ke and t he physical and chemical properties , w here cano nical v ariable U representi ng i nf orm ation of mainst ream sm oke is mainly cont ribut ed by T PM , t ar , nicot ine , vapor , vapor content and puf f t imes ;cano nical variable V repre sent ing physi cal and chemi cal info rmati on of ci garet tes i s mainly cont ributed by venti lation rate , close resistance , cigaret tes w ei ght and to tal sug ar , to tal org anic chlorine etc , w he re ventilatio n rat e plays an i mpo rt ant role. T he cont ributio n o f CO of mainst ream sm oke , circum ference and rigidi ty of cigaret tes t o t he integ ra-
[ (Y TY)- 1 (Y T Z)(ZT Z)-1 (ZTY)- μ2 I] =0 (3) 其中 μ2 表示特征值 , 是典型相关系数的平方 , I 为 单位矩阵 。对应的特征向量矩阵 A 给出 U 与 Y 之
收稿日期 :2005-12-14 作者简介 :倪力军(1963-), 女 , 湖南益阳人 , 副研究员 , 博士 , 主要从事天然产物分析与质量控制 。 通讯联系人 :张立国 , hardt imes @ecust . edu . cn
tion relat ivity betw een the t w o kinds of info rmatio n i s very sm all. T he result s provide an i mpo rt ant info rm ation and ref erence f or reducing harm of cigaret tes and develo ping quanti tative relationship bet w een mai nst ream sm oke inf orm ation and physi cal and chem ical info rmati on of ci garet tes.
假设两组原始变量用 Y 和 Z 表示 , 由Y 和 Z 的
线性组合所表 示的典型 变量分别 用 U 与 V 表示 。 在本文中 ,Y 是卷烟物理(化学或物理 +化学)指标
的数据矩阵而 Z 是卷烟样品的主流烟气数据矩阵 ,
两个数据矩阵的维数分别为 n ×ny 与 n ×nz , n 为卷 烟样本的个数 , ny 与 nz 分别表示矩阵 Y 、Z 中变量
N I L i-j un , GUO J i a , Z H A NG X i n , Z H AN G Li-guo (School of Chem ist ry and Molecular E ngi neering , East Chi na Universi ty o f
Science and Technolog y , Shanghai 200237 , China)
为 pk , 即 RPk =λk pk 。 由于 P 为正交矩阵 ,
P -1 RP =P- 1 XT XP =(XP)T XP
记 XP =T , 即可得 X =TPT 。
(1)
主因子分解结果 , 即得
X = t1 p1 +t2 p2 + … +t k pk
(2)
t k 常称为因子得分 , pk 则称为 因子载荷 , 根据
CCA 提供的结果比简单相关分析更符合实际情况 。
CCA 的思路是先求一对原始变量的线性组合 ,
使它们之间有最大的相关系数 。 然后在剩下的线性
组合中再去寻找有最大相关系数的一对 , 如此继续
下去可找到一系列相关系数依次递减的线性组合 。
这些选出的线性组合称为典型变量 , 每一对典型变
量间的相关系数称为典型相关系数 。