基于规则和Rocchio分类器的学前综合教育资源分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【Abstract】The paper joints use rule and Rocchio classifier to classify the p reschool integrated education resources. It uses the rules established beforehand to identify the news, then Rocchio classifier is imp lemented to categorize the remai2 ning resources. The experiment results demonstrate that comp rehensive classification based on rules and Rocchio classifier can raise the performance of resources classification effectively. 【Keywords】Rules for classification Rocchio classifier Integrated resource classification
表 1 学前教育资源 4类分类封闭测试结果
类别 学前新闻
召回率 正确率 F1测试值
78. 00% 82. 10% 80. 00%
教学案例
85. 00% 76. 58% 80. 57%
学前研究 婴幼儿保健 平均值
67. 00% 71. 28% 69. 07%
89. 00% 89. 00% 89. 00%
图 1 基于 Rocchio分类器的学前 综合教育资源采集系统
例 ”、“学前研究 ”和“婴幼儿保健 ”各 100 篇作为训练 文档 。首先采用双向最大匹配技术对文档进行分词并
过滤停用词和低频词 ,接着采用 TF ×IDF公式计算特 征项权重 ,然后利用向量空间模型 (Vector Space Mod2 el, VSM )表示文档 ,最后训练 Rocchio分类器 。 实验采用封闭测试 ,得到的数据如表 1所示 :
总第 181 /182期 2009年 第 7 /8期
基于规则和 Rocchio分类器的学前综合教育 资源分类 3
施聪莺 徐朝军 杨晓江 (南京师范大学教育技术系 南京 210097)
【摘要 】以学前综合教育资源分类为例 ,联合使用规则和 Rocchio两种分类方法 ,利用建立的新闻规则库识别新闻 资源并标注 ,然后采用 Rocchio分类器对剩余资源进行分类 。实验结果表明 :基于规则和 Rocchio分类器的综合分 类策略能大大提高综合性资源的分类效果 。 【关键词 】规则分类 Rocchio分类器 综合资源分类 【分类号 】TP393
新闻
15
基因
16
网站
17 民办幼儿园
18
管理
19
教师
20
公办
学前研究
课程 活动 游戏 教学 家庭教育方式 幼儿园课程 学习 策略 同伴交往能力 环境
2. 3 数据分析 为训练分类器 ,笔者从各省市学前教育网站及门 户网站的学前频道手工收集“学前新闻 ”、“教学案
若去除“学前新闻 ”这类资源 ,其余三类资源各自 的特征较为明显 ,在后续的实验中 ,利用 Rocchio 分类 器对已收集的“教学案例 ”、“学前研究 ”、“婴幼儿保
1 前 言
在信息技术飞速发展的知识经济时代 ,网站在推出个性化信息服务的同时 ,还希望为用户提供更多来自互联 网专 、精 、深的同行信息 。鉴于此 ,面向行业的主题资源服务系统应运而生 ,学前综合资源服务系统正是此方面的 应用之一 。 学前综合资源服务系统是服务于学前教学 、研究人员的一个综合性资源服务平台 ,系统在提供“教学案例 ”、 “学前研究 ”及“婴幼儿保健 ”三个类别资源的同时 ,还需从相关业内网站上采集有价值的新闻报道 ,以便为用户 提供学前教育的最新动态 。在资源相对丰富的今天 ,资源分类精度是影响用户满意度的重要因素之一 ,而对于综 合性资源分类则又有其独特的分类策略和要求 [1, 2 ] 。 本系统在建设初期采用经典的 Rocchio分类算法作为单一的资源分类器 ,其分类精度不是很令人满意 ,考虑 到笔者先前的已有工作 [3 ] ,综合运用基于规则和 Rocchio分类器 ,有步骤 、有区别地识别学前新闻 ,再对剩余学前 资源进行分类 ,最终实现了系统目标 。
表 2 “学前新闻 ”与“学前研究 ”特征词库 权重前 20位的词条
序号
1 2 3 4 5 6 7 8 9 10
学前新闻
幼儿园 学前教育
政府 收费 家长 幼儿 教育 暴力 儿童 记者
学前研究
幼儿 教师 学生 教育 发展 评价 儿童 社会 研究 交往
序号 学前新闻
11
国家
12
学生
13
投入
14
76 现代图书情报技术
总第 181 /182期 2009年 第 7 /8期
健 ”三类学前资源进行分类 ,取得了较好的分类效果 , 如表 3所示 :
表 3 “教学案例 ”、“学前研究 ”、“婴幼儿 保健 ”独立分3. 00% 88. 57% 90. 73%
R1 : if url ∈U1 then page is news R2 : if url ∈U2 then weight + = 0. 5 / /权重加上 0. 5
收稿日期 : 2009 - 06 - 10 收修改稿日期 : 2009 - 08 - 06 3 本文系全国教育科学“十一五 ”规划 2009年度教育部青年专项课题“网络课程使用现状自动量化评价系统研究 ”(项目编号 : ECA090441) 的研究成果之一 。
X IANDA I TUSHU Q INGBAO J ISHU 75
学前研究
87. 00% 90. 63% 88. 78%
婴幼儿保健
94. 00% 94. 95% 94. 47%
平均值
91. 33% 91. 38% 91. 33%
因此 ,考虑联合使用规则和 Rocchio分类器对学前 资源进行分类来提高学前综合教育资源的分类效果 。 结合已有的工作 [3 ] ,首先用已建立的学前新闻规则库 从资源库中筛选出学前新闻资源 ,再使用 Rocchio分类 器对剩余的资源进行分类 。 3. 1 新闻网页特征分析 分析学前教育相关网站新闻 ,发现如下特点 [17 ] : ( 1) URL 特征 一些较大型的网站 ,其新闻网页的 URL 能体现新 闻的特征 ,例如新闻网页的 URL 中通常包含“news”、 “new slist”、“shownew s”、“new s Id ”、“new scen te r”、“xin2 wen”、“xinwendongtai”、“xinwenzhongxin”、“xw”等 。 ( 2)导航信息 采用动态技术如 ASP、JSP、PHP等制作的网站 ,其 新闻网 页 的 URL 中 通 常 不 包 含 体 现 新 闻 特 征 的 “news”及“xinwen”。对于这类网站 ,虽然无法从网页 的 URL 中判断该网页是否为新闻 ,但在调研中发现这 类动态网站基本都有一个共同点 ,即网站的结构比较 规范且通常会有导航信息 ,例如 :“您的位置 :首页 >新 闻动态 >教育新闻 ”、“当前位置 : 首页 >幼教新闻 ”; “您所在的位置 :河南幼教网首页 >幼教动态 >正文 ” 等 。因此 可 以 通 过 导 航 信 息 来 判 断 该 网 页 是 否 为 新闻 。 ( 3)内容特征 新闻网页在内容方面有其特殊性 ,其中经常含有 : “来源 3 报 ”、“3 (社 ) 3 日电 ”、“本报讯 ”、“记者 ”、 “相关新闻 ”等词语 ,这些可视为新闻的特征词汇 。 3. 2 新闻规则库设计 规则作为认知建模和人工智能中一种知识表达的 方式具有悠久的历史 ,规则的易制定性 、易解释性以及 有效性吸引着众多的研究者 。在新闻网页特征分析的 基础上 ,制定识别新闻的规则库 ,具体如下 :
且类别间特征存在一定的交叉 ,此时采用单一的分类 器得到的分类效果往往不理想 。
在实验中发现“学前新闻 ”与其他三个类别特征
词库存在一定的交叉 ,特别是“学前新闻 ”与“学前研 究 ”,其特征词库存在较大的交叉 。表 2 是“学前新 闻 ”与“学前研究 ”权重位于前 20 位的特征词条 ,其中 重复的词条为 5个 ,占 20%。
Preschool In tegra ted Educa tion Resources C la ssif ica tion Ba sed on Rule and Rocch io C la ssif ier
Shi Congying Xu Chaojun Yang Xiaojiang (Department of Educational Technology, Nanjing Normal University, Nanjing 210097, China)
79. 75% 79. 74% 79. 66%
表 1的实验数据正确率和召回率均较低 ,平均 F1 测试值不足 80% ,系统无法为用户提供较为精确的分 类资源结果 ,与预期目标差距较大 。
3 结合规则和 Rocch io分类器的资源分类
随着资源服务需求的多样化 ,学前教育资源服务 是综合性的 。在既定的分析体系中 ,“学前新闻 ”、“教 学案例 ”、“学前研究 ”和“婴幼儿保健 ”这 4 个类别不 处于同一分类体系 ,特别是“学前新闻 ”在内容上涉及 到后三者 。这种情况将导致各资源的类别特征不显著
攀瓣耨潮ii鬻翡磋巍jji1幼儿园幼儿11国家课程2学前教育教师12学生活动3政府学生13投入游戏4收费教育14新闻教学5家长发展15基因家庭教育方式6幼儿评价儿童16网站幼儿园课程7教育17民办幼儿园学习8暴力社会18管理策略9儿童研究19教师同伴交往能力10t己者交往20公办环境若去除学前新闻这类资源其余三类资源各自的特征较为明显在后续的实验中利用rocchio分类器对已收集的教学案例学前研究婴幼儿保万方数据总第181182期2009年第78期健三类学前资源进行分类取得了较好的分类效果如表3所示
R i: if x1 is A i1 and … xn is A in then y is B i , i = 1, 2…, m
( 1) URL 规则 U 为 URL 中 包 含 新 闻 特 征 的 集 合 , 其 中 U1 为 URL 中能直接判断该网页为新闻的特征集合 , U2 为 URL 中能体现该网页为新闻但不能直接判为新闻的特 征集合 ,其中 U1 = { news, xinwen} , U2 = { xw}。
知识组织与知识管理
2 基于 Rocch io分类器的资源分类
2. 1 文本分类方法 网页文本资源分类的关键技术主要涉及 :文本预 处理 、特征降维 、文本表示和分类算法等 [4, 5 ] 。其中常 用的文本分类模型有 : 相似度模型 ,如 Rocchio[6 ]和 K 最近邻 ( K - Nearest Neighbor, KNN ) [7, 8 ] ;概率模型 ,如 朴素贝叶斯 (Naive Bayes, NB ) [8 ] ;线性模型 ,如线性最 小二乘方拟合 (L inear Least - Square Fit, LLSF) [8 ]和支 持向量机 ( Support Vector Machines, SVM ) [7, 8 ] ; 非线性 模型 , 如决 策 树 ( Decision Tree) [9 ] 、神 经 网络 ( Neural Network, NNet) [8 ]等 [10 ] 。此外 , 近年来还涌现出基于 群的分 类 方 法 [11, 12 ] 、基 于 RBF 网 络 的 文 本 分 类 模 型 [13 ] 、基于粗糙集的文本分类模型 [14 ]等新方法 。 Rocchio算法是情报检索领域的经典算法 ,它首先 为每一个类别建立一个原型向量 (即训练集中该类别 的所有样本的平均向量 ) ,然后通过计算待测试文本向 量与每一个原型向量的距离来给出最终的分类结果 。 这种分类方法的学习速度非常快 ,而且分类效果也较 令人满意 。 2. 2 学前资源服务系统 在本系统中 ,采用基于规则的主题蜘蛛 [15, 16 ]从互 联网上抓取学前教育相关资源 ,并采用 Rocchio分类器 将资源 (网页 )分为 :“学前新闻 ”、“教学案例 ”、“学前 研究 ”及“婴幼儿保健 ”4个类别 ,最终通过网站将资源 分类别呈现给用户 ,其基本流程如图 1所示 :
表 1 学前教育资源 4类分类封闭测试结果
类别 学前新闻
召回率 正确率 F1测试值
78. 00% 82. 10% 80. 00%
教学案例
85. 00% 76. 58% 80. 57%
学前研究 婴幼儿保健 平均值
67. 00% 71. 28% 69. 07%
89. 00% 89. 00% 89. 00%
图 1 基于 Rocchio分类器的学前 综合教育资源采集系统
例 ”、“学前研究 ”和“婴幼儿保健 ”各 100 篇作为训练 文档 。首先采用双向最大匹配技术对文档进行分词并
过滤停用词和低频词 ,接着采用 TF ×IDF公式计算特 征项权重 ,然后利用向量空间模型 (Vector Space Mod2 el, VSM )表示文档 ,最后训练 Rocchio分类器 。 实验采用封闭测试 ,得到的数据如表 1所示 :
总第 181 /182期 2009年 第 7 /8期
基于规则和 Rocchio分类器的学前综合教育 资源分类 3
施聪莺 徐朝军 杨晓江 (南京师范大学教育技术系 南京 210097)
【摘要 】以学前综合教育资源分类为例 ,联合使用规则和 Rocchio两种分类方法 ,利用建立的新闻规则库识别新闻 资源并标注 ,然后采用 Rocchio分类器对剩余资源进行分类 。实验结果表明 :基于规则和 Rocchio分类器的综合分 类策略能大大提高综合性资源的分类效果 。 【关键词 】规则分类 Rocchio分类器 综合资源分类 【分类号 】TP393
新闻
15
基因
16
网站
17 民办幼儿园
18
管理
19
教师
20
公办
学前研究
课程 活动 游戏 教学 家庭教育方式 幼儿园课程 学习 策略 同伴交往能力 环境
2. 3 数据分析 为训练分类器 ,笔者从各省市学前教育网站及门 户网站的学前频道手工收集“学前新闻 ”、“教学案
若去除“学前新闻 ”这类资源 ,其余三类资源各自 的特征较为明显 ,在后续的实验中 ,利用 Rocchio 分类 器对已收集的“教学案例 ”、“学前研究 ”、“婴幼儿保
1 前 言
在信息技术飞速发展的知识经济时代 ,网站在推出个性化信息服务的同时 ,还希望为用户提供更多来自互联 网专 、精 、深的同行信息 。鉴于此 ,面向行业的主题资源服务系统应运而生 ,学前综合资源服务系统正是此方面的 应用之一 。 学前综合资源服务系统是服务于学前教学 、研究人员的一个综合性资源服务平台 ,系统在提供“教学案例 ”、 “学前研究 ”及“婴幼儿保健 ”三个类别资源的同时 ,还需从相关业内网站上采集有价值的新闻报道 ,以便为用户 提供学前教育的最新动态 。在资源相对丰富的今天 ,资源分类精度是影响用户满意度的重要因素之一 ,而对于综 合性资源分类则又有其独特的分类策略和要求 [1, 2 ] 。 本系统在建设初期采用经典的 Rocchio分类算法作为单一的资源分类器 ,其分类精度不是很令人满意 ,考虑 到笔者先前的已有工作 [3 ] ,综合运用基于规则和 Rocchio分类器 ,有步骤 、有区别地识别学前新闻 ,再对剩余学前 资源进行分类 ,最终实现了系统目标 。
表 2 “学前新闻 ”与“学前研究 ”特征词库 权重前 20位的词条
序号
1 2 3 4 5 6 7 8 9 10
学前新闻
幼儿园 学前教育
政府 收费 家长 幼儿 教育 暴力 儿童 记者
学前研究
幼儿 教师 学生 教育 发展 评价 儿童 社会 研究 交往
序号 学前新闻
11
国家
12
学生
13
投入
14
76 现代图书情报技术
总第 181 /182期 2009年 第 7 /8期
健 ”三类学前资源进行分类 ,取得了较好的分类效果 , 如表 3所示 :
表 3 “教学案例 ”、“学前研究 ”、“婴幼儿 保健 ”独立分3. 00% 88. 57% 90. 73%
R1 : if url ∈U1 then page is news R2 : if url ∈U2 then weight + = 0. 5 / /权重加上 0. 5
收稿日期 : 2009 - 06 - 10 收修改稿日期 : 2009 - 08 - 06 3 本文系全国教育科学“十一五 ”规划 2009年度教育部青年专项课题“网络课程使用现状自动量化评价系统研究 ”(项目编号 : ECA090441) 的研究成果之一 。
X IANDA I TUSHU Q INGBAO J ISHU 75
学前研究
87. 00% 90. 63% 88. 78%
婴幼儿保健
94. 00% 94. 95% 94. 47%
平均值
91. 33% 91. 38% 91. 33%
因此 ,考虑联合使用规则和 Rocchio分类器对学前 资源进行分类来提高学前综合教育资源的分类效果 。 结合已有的工作 [3 ] ,首先用已建立的学前新闻规则库 从资源库中筛选出学前新闻资源 ,再使用 Rocchio分类 器对剩余的资源进行分类 。 3. 1 新闻网页特征分析 分析学前教育相关网站新闻 ,发现如下特点 [17 ] : ( 1) URL 特征 一些较大型的网站 ,其新闻网页的 URL 能体现新 闻的特征 ,例如新闻网页的 URL 中通常包含“news”、 “new slist”、“shownew s”、“new s Id ”、“new scen te r”、“xin2 wen”、“xinwendongtai”、“xinwenzhongxin”、“xw”等 。 ( 2)导航信息 采用动态技术如 ASP、JSP、PHP等制作的网站 ,其 新闻网 页 的 URL 中 通 常 不 包 含 体 现 新 闻 特 征 的 “news”及“xinwen”。对于这类网站 ,虽然无法从网页 的 URL 中判断该网页是否为新闻 ,但在调研中发现这 类动态网站基本都有一个共同点 ,即网站的结构比较 规范且通常会有导航信息 ,例如 :“您的位置 :首页 >新 闻动态 >教育新闻 ”、“当前位置 : 首页 >幼教新闻 ”; “您所在的位置 :河南幼教网首页 >幼教动态 >正文 ” 等 。因此 可 以 通 过 导 航 信 息 来 判 断 该 网 页 是 否 为 新闻 。 ( 3)内容特征 新闻网页在内容方面有其特殊性 ,其中经常含有 : “来源 3 报 ”、“3 (社 ) 3 日电 ”、“本报讯 ”、“记者 ”、 “相关新闻 ”等词语 ,这些可视为新闻的特征词汇 。 3. 2 新闻规则库设计 规则作为认知建模和人工智能中一种知识表达的 方式具有悠久的历史 ,规则的易制定性 、易解释性以及 有效性吸引着众多的研究者 。在新闻网页特征分析的 基础上 ,制定识别新闻的规则库 ,具体如下 :
且类别间特征存在一定的交叉 ,此时采用单一的分类 器得到的分类效果往往不理想 。
在实验中发现“学前新闻 ”与其他三个类别特征
词库存在一定的交叉 ,特别是“学前新闻 ”与“学前研 究 ”,其特征词库存在较大的交叉 。表 2 是“学前新 闻 ”与“学前研究 ”权重位于前 20 位的特征词条 ,其中 重复的词条为 5个 ,占 20%。
Preschool In tegra ted Educa tion Resources C la ssif ica tion Ba sed on Rule and Rocch io C la ssif ier
Shi Congying Xu Chaojun Yang Xiaojiang (Department of Educational Technology, Nanjing Normal University, Nanjing 210097, China)
79. 75% 79. 74% 79. 66%
表 1的实验数据正确率和召回率均较低 ,平均 F1 测试值不足 80% ,系统无法为用户提供较为精确的分 类资源结果 ,与预期目标差距较大 。
3 结合规则和 Rocch io分类器的资源分类
随着资源服务需求的多样化 ,学前教育资源服务 是综合性的 。在既定的分析体系中 ,“学前新闻 ”、“教 学案例 ”、“学前研究 ”和“婴幼儿保健 ”这 4 个类别不 处于同一分类体系 ,特别是“学前新闻 ”在内容上涉及 到后三者 。这种情况将导致各资源的类别特征不显著
攀瓣耨潮ii鬻翡磋巍jji1幼儿园幼儿11国家课程2学前教育教师12学生活动3政府学生13投入游戏4收费教育14新闻教学5家长发展15基因家庭教育方式6幼儿评价儿童16网站幼儿园课程7教育17民办幼儿园学习8暴力社会18管理策略9儿童研究19教师同伴交往能力10t己者交往20公办环境若去除学前新闻这类资源其余三类资源各自的特征较为明显在后续的实验中利用rocchio分类器对已收集的教学案例学前研究婴幼儿保万方数据总第181182期2009年第78期健三类学前资源进行分类取得了较好的分类效果如表3所示
R i: if x1 is A i1 and … xn is A in then y is B i , i = 1, 2…, m
( 1) URL 规则 U 为 URL 中 包 含 新 闻 特 征 的 集 合 , 其 中 U1 为 URL 中能直接判断该网页为新闻的特征集合 , U2 为 URL 中能体现该网页为新闻但不能直接判为新闻的特 征集合 ,其中 U1 = { news, xinwen} , U2 = { xw}。
知识组织与知识管理
2 基于 Rocch io分类器的资源分类
2. 1 文本分类方法 网页文本资源分类的关键技术主要涉及 :文本预 处理 、特征降维 、文本表示和分类算法等 [4, 5 ] 。其中常 用的文本分类模型有 : 相似度模型 ,如 Rocchio[6 ]和 K 最近邻 ( K - Nearest Neighbor, KNN ) [7, 8 ] ;概率模型 ,如 朴素贝叶斯 (Naive Bayes, NB ) [8 ] ;线性模型 ,如线性最 小二乘方拟合 (L inear Least - Square Fit, LLSF) [8 ]和支 持向量机 ( Support Vector Machines, SVM ) [7, 8 ] ; 非线性 模型 , 如决 策 树 ( Decision Tree) [9 ] 、神 经 网络 ( Neural Network, NNet) [8 ]等 [10 ] 。此外 , 近年来还涌现出基于 群的分 类 方 法 [11, 12 ] 、基 于 RBF 网 络 的 文 本 分 类 模 型 [13 ] 、基于粗糙集的文本分类模型 [14 ]等新方法 。 Rocchio算法是情报检索领域的经典算法 ,它首先 为每一个类别建立一个原型向量 (即训练集中该类别 的所有样本的平均向量 ) ,然后通过计算待测试文本向 量与每一个原型向量的距离来给出最终的分类结果 。 这种分类方法的学习速度非常快 ,而且分类效果也较 令人满意 。 2. 2 学前资源服务系统 在本系统中 ,采用基于规则的主题蜘蛛 [15, 16 ]从互 联网上抓取学前教育相关资源 ,并采用 Rocchio分类器 将资源 (网页 )分为 :“学前新闻 ”、“教学案例 ”、“学前 研究 ”及“婴幼儿保健 ”4个类别 ,最终通过网站将资源 分类别呈现给用户 ,其基本流程如图 1所示 :