试题标注结果统计及分析-南京大学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标注样例
03.2014北京市朝 阳区高考文综地理二模试题(附答案)(11
标注结果及分析
• 南大10人参加标注 • 28套北京高考及各区模拟试题 • 共515道选择题,515*4=2060个选项
求解目标标注结果统计
• • • • • 判断Hale Waihona Puke Baidu386 单实体 83 多实体 36 流程 9 其它 1
多实体 流程 单实体 其它 判断
– 数量:29 – 例子:
• 夏季,春,秋冬,春季,冬季,秋冬季
– 特殊:
• 夏至日 • 冬夏之交
时间词分析
• timep
– 规则:
• • • • • 表达式中包含"年"“月”“日”中至少一个,并且有数字(中文或阿拉伯数字) 包含“时”,并且前一个字符为数字 包含“点”,并且前一个字符为数字 包含“:”或":"(时分秒) 包含"/"(年月日)
– 数量:204 – 例子:
– 特殊:
• • • • 与其他洋流交汇的海域 沿海 日本近海 云南山区
地点词分析
• area
– 规则:
• 以“区”结尾
– 数量:61 – 例子:
– 特殊:
• • • • • • 我国两个地区 沿线地区 途经地区 地震重灾区 Ⅰ区 同纬度大陆东岸地区
试题标注结果统计及分析
南京大学-nlp组 2015.06.07
标注体系
• 试题及选项 • 求解目标:以题为单位,answer type
– 多实体、单实体、判断、流程、其他
• 问句模式: 以选项为单位,question type
– 事实、因果、比较、关联、图表计算、其他
• • • • • •
时间 地点 术语 课本知识点 思维导图知识点 图片类型(可选)
求解目标标注结果分析
• 与题面的关联分析(基于lasso特征选择模 型的关键字提取算法)
问句模式标注结果统计
• • • • • • 事实:349 因果:120 比较:100 图表计算:32 关联:19 其他:2
事实 因果 比较 图表计算 关联 其它
问句模式(标注错误)
• 问句模式为“其它”的题:
– 数量:322 – 例子:
• • • •
• • • • • •
海口 北京市 江苏省 荷兰
苏、皖、浙、闽四省 我国 江苏省和陕西省 两省 各省 我国部分城市
– 特殊:
地点词分析
• station
– 规则:
• 以“站”结尾
– 数量:11 – 例子:
地点词分析
• special
– 规则:
• [u"平原",u"高原",u"流域",u"海域",u"山脉",u"山",u"山系",u"盆地",u"河 ",u"江",u"谷地",u"三角洲",u"岛",u"板块",u"山地",u"洲",u"洋",u"湖",u" 海",u"海峡",u"湿地",u"板块",u"草原",u"渔场",u"角",u"岭",u"峰",u"山区 ",u"丘陵",u"瀑布",u"港",u"公园"] • 以上面的词中的某一个结尾
– 按照约定,上述题面不需要单独标问句模式,这里应 该是误标
问句模式标注结果分析
• 与题面的关联分析:
时间词标注
• 数量:251 • 我们将时间词整理为9类,识别优先级如下:
– – – – – – – – – cycle:周期类 period:时间段 season:季节(包括部分节气) timep:不同粒度的时间点 cond:有条件的时间 stage:某期间或某时期 frame:一天中的某时段 ref:虚拟指代的时间 other:其他
地点词分析
• ref
– 规则:
• • • • 包含“甲”“乙”“丙”“丁”中至少一个 或,包含①②③④⑤⑥中至少一个 或,包含字母 或,包含“某”“图示”“该”“此”“图中”“图+<数字>”中至 少一个
– 数量:215 – 例子:
地点词分析
• adregion
– 规则:
• 以“省”“市”“国”“县”“自治区”结尾 • 一个手工编辑的地名过滤列表(仅适用于目前收集的地名)
adregion ref special other direction area lonlat station
地点词分析
• lonlat
– 规则:
• 包含"°"或者“北纬”“南纬”“东经”“西经”
– 数量:36 – 例子:
• • • • • • 90º E 乌鲁木齐(44°N,88°E) (20°, 127°) 北纬35°~40° 西经170°附近 北纬50°
– 特殊:
• 图示时期 • 甲时期 • (上述两个是否应该算入ref虚拟指代时间词中?)
时间词分析
• frame
– 规则:
• 表达式包含这些词中的某一个:
– [u"傍晚",u"早晨",u"昼",u"夜",u"上午",u"中午",u"下午",u"晚 上",u"夜晚",u"黎明",u"深夜",u"午间",u"日出",u"日落"]
– 数量:9 – 例子:
时间词分析
• ref:
– 规则:
• 表达式包含“某”“该”“当”“此”中的一个
– 数量:6 – 例子:
时间词分析
• other
– 没有被分到上述8类的其它时间表达式 – 数量:23 – 例子:
地点词统计
• 数量:1019 • 8类,识别优先级如下:
– lonlat:包含经纬度的地点 – ref:虚拟指代的地点 – adregion:行政区域,国家、省、市、县等等 – station:XX站 – special:XX平原、高原等,包括特例"公园" – area:XX区 – direction:包含方位词 – other:其它
timep period season other cond stage frame ref cycle
时间词分析
• cycle
– 规则:
• 表达式中包含"每"
– 数量:5 – 例子:
时间词分析
• period
– 规则:
– 数量:42 – 例子:
时间词分析
• season
– 规则:
• 表达式中包含"春"“夏”“秋”"冬"中的至少一个
– 数量:116 – 例子: – 特殊:
• • • • • 年复一年 此日后20天 3、4月 近20年来 2300万年前
时间词分析
• cond
– 规则:
• 表达式以“时”或“后”结束
– 数量:11 – 例子:
– 特殊:
• 2小时后 • 此时
时间词分析
• stage
– 规则:
– 数量:10 – 例子: