数字方志集成平台介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字方志集成平台介绍
平台以“全国师范院校图书馆联盟”部分参建馆馆藏方志资源为基础,集成包括纸质、电子和数字资料,力求厘清方志在所有参建馆的收藏情况以及获取资源的途径,通过分期建设,打造统一的方志资源发现、资源数据化、数字人文研究素养教学以及学者研究平台,为用户提供基于平台的学习、研究、交流和教学环境()。
一、平台数据结构
平台底层数据应用关联数据技术,可以将方志资源中的数据、事实和其他知识点进行细粒度描述,利用机器能够理解的编码方法和技术手段,重新组织方志书目数据,使图书馆的数据从封闭、静态、专业性强的MARC格式中解放出来,在Web上提供一致、开放和标准的开放数据服务,这样的书目数据才能被搜索引擎抓取,被第三方程序调用,方便地与互联网上的数据关联、融合。
复用美国国会图书馆的BIBFRAME2.0书目数据模型,即“作品-实例-单件”3层模型结构,设计方志本体模型。
BIBFRAME2.0核心模型
二、平台数据(还在持续加工)
1、平台收录数据机构(还在更新中…):
华东师范大学 (44701)
北京师范大学 (20764)
上海师范大学 (18580)
陕西师范大学 (10284)
沈阳师范大学 (9337)
以下相同数量为仅标注购买电子资源,故各馆数据量相同
东北师范大学 (9141)
内蒙古师范大学 (9141)
安徽师范大学 (9141)
河南师范大学 (9141)
浙江师范大学(4741)
2、平台全文OCR数据
平台通过委托加工(OCR)方志资源1600多种,目前正在上线中,准备开放一部分供参建馆作为训练数据集,提供用于标注和可视化工具展示的基础数据。
一期通过关联版本元数据,提供160种左右OCR全文,供参建馆作为训练集数据,后续还将上线全文资源。
三、一期平台功能(主要基于资源发现)
(说明:平台页面布局可能会随着功能的改进而有所改变)
1、多途径分面细化检索
一般检索时,平台可以从标题关键词、责任者、朝代、地域等分面细化限定检索结果。
分面检索
时空检索功能。
可以为用户提供空间检索方志分布地图和时间动态方志分布图。
时空检索
导航树。
按照省市分区域显示方志和数量,为用户提供简单直观的结果。
导航树检索
2、按相同作品集中不同实例
平台在相同作品下集中展示不同版本、不同载体和不同题名的实例。
以作品“松江府志(上海,崇祯)”为例,5个实例集中在一个相同作品下。
方志中心检索
3、直接链接返回各馆OPAC
每一个实例中都有一个“馆藏列表”,列出了所有拥有该实例的参建馆馆藏信息,并能链接返回到各馆OPAC,为用户提供更详细的馆藏检索、获取信息。
OPAC链接示例
4、直接看电子书原文
无论购买或自建数据库,如能提供原文,参建馆在各自获取全文的IP范围内都能直接在平台中查看阅读。
四、二期平台功能
(说明:平台页面布局可能会随着功能的改进而有所改变)
1、标注训练
基于方志的文本标注程序是经开源授权进行二次开发而成,做为文本解构与分析教学平台,为您上传的中文文档,自动标记人名、地名、年号及职官数据。
您也可以自定义要标记的关键词,手动增加词条,自动进行全文检索标注。
标注后您可以边阅读文献,边参考相关文献内容,也可以使用可视化平台和工具,做进一步的分析。
当前,程序提供四种基础语料库:
基于中国历代人物传记资料库(CBDB)的历代知名人物语料库(全名、字号);
基于中国历代人物传记资料库(CBDB)的历代职官语料库;
基本中国历史地理信息系统(CHGIS)及台湾历史地名(TWGIS)历代地名库基于北京大学CBDB团队的年号和公元纪年转换库。
通过上传自定义词语列表、关键词列表,您可以从指定文本中来阅读、标记、获取列表上相关的信息。
自动标记。
“民國郫縣誌.TXT”文本导入到文本分析工具中,进行自动标记处理。
所选朝代中,因中华民国(1912-1949),所以朝代选择了后两项事件范围内。
标记结束后会自动显示自动标记成果。
按钮说明
网页右上方的按钮姓名别名地名年号官名用来切换在文字档中已经标示不同实体的名称。
按下按钮,会显示或隐藏人名、地名、年号或官名。
按钮的颜色就是关键词语的颜色。
全文修改:点选按钮进入全文修改模式,此时会出现红色外框,表示可以对内文进行文字或标点上的增修,增修的结果会在保存或输出时保存。
当增修完毕,请再按一次按钮离开全文修改模式,就可继续进行标记或阅读。
标记总览:点选标记总览来检视文章中已加入的标记整理信息,标记会按照不同种类作汇总。
同时在标记总览中可以把文中的标记转出成试算表作进一步分析。
存档
线上搜寻( CBDB、汉典或维基百科)。
本文搜寻。
由本文中移除标记。
标记说明
●标识段落序号。
●点选已标记的词语时,图示就会出现(姓名、别名、年号、地名、官职):
●在CBDB中没有符合的姓名或别名,以单行底线标示。
●在CBDB中有符合的姓名或别名,以虚线底线标示,如:
,针对于某一名称,点击后可以看见关联的CBDB 相关数据列表,根据右侧的搜寻可以在CBDB中国历代人物传记库中查找对应的数据详情。
●名称重叠时或名称分属两类名称时,以方括号标示,如:
关键词标记。
用户可以自己定义词语列表或建立自己的关键词列表,定义词夹子,系统自动在上传的文本或者文字中进行检索和标识。
按钮说明
网页右上方的按钮寺庙姓名别名地名年号官名用来切换在文字档中已经标示不同实体的名称。
按下按钮,会显示或隐藏寺庙、人名、地名、年号或官名。
按钮的颜色就是关键词语的颜色。
普通按钮说明同自动标记功能;
【关键词助手】:定义关键词规则,系统自动全文检索分析查找关键词。
通过标记自动进入到正规表达式。
【词夹子】:根据用户提供的种子,利用种子在文件中扫描以产生该类词的词夹子,再利用产生的词夹子在文件中扫描并夹出该此类的候选词供使用者人工筛选,再依据人工帮助扩充种子、重启演算法,如此互动循环直到满意为止。
【载入关键词/正规表达式】根据关键词助手分析/词夹子出来的词汇,进行人工筛选后定义关键词,定义标记名称以及字体颜色,载入正规表达式中参与全文检索标识。
显示全文标记结果,同时可以将结果进行保存或者导出成相关便于分析的数据库文件或者页面。
2、可视化工具
方志可视化工具平台提供直观,交互丰富,可高度个性化定制的数据可视化辅助工具,基于JavaScript实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari 等),提供直观,交互丰富,可高度个性化定制的数据可视化图表。
提供了常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒形图,用于地理数据可视化的地图、漏斗图、饼图等10种可视化开发工具。
1)折线图
适用场景:适合有序的类别,适合二维的大数据集,适合多个二维数据集的比较。
优势:容易反应出数据变化的趋势。
【实例说明】:针对于折线图的实例进行说明。
【上传实例数据】:选择相关的实例数据,自动生成折线图形。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
2)漏斗图
适用场景:适用于多项、多层数据比较及比率对比。
优势:不仅能直观展示每项的比率,还可以展示各项间的数量、比率的对比。
【实例说明】:针对于漏斗图的实例进行说明。
【上传实例数据】:选择相关的实例数据,自动生成漏斗图形。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
3)饼图
适用场景:多层级结构数据的直观分析。
优势:可以表达清晰的层级和归属关系,以父子层次结构来显示数据构成情况,便于细分溯源分析数据,真正了解数据的具体构成。
【实例说明】:针对于饼图的实例进行说明。
【上传实例数据】:选择相关的实例数据,自动生成饼图。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
4)地图
适用场景:展现呈面状但属分散分布的数据,比如人口密度等。
【实例说明】:针对于地图的实例进行说明。
【上传实例数据】:选择相关的实例数据,自动生成地图。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
5)矩形图
适用场景:在矩形树图中,各个小矩形的面积表示每个子节点的大小,矩形面积越大,表示子节点在父节点中的占比越大,整个矩形的面积之和表示整个父
节点。
可以清晰地知道数据的全局层级结构和每个层级的详情。
【实例说明】:针对于矩形图的实例进行说明。
【上传实例数据】:选择相关的实例数据,自动生成矩形图形。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
6)旭日图
适用场景:多层级结构数据的直观分析。
优势:可以表达清晰的层级和归属关系,以父子层次结构来显示数据构成情况,便于细分溯源分析数据,真正了解数据的具体构成。
【实例说明】:针对于旭日图的实例进行说明,点击某一环形模块,可查看对应层级的构成关系。
【上传实例数据】:选择相关的实例数据,自动生成旭日图形。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
7)迁徙图
适用场景:多层级结构数据的直观分析。
优势:可以表达清晰的层级和归属关系,以父子层次结构来显示数据构成情况,便于细分溯源分析数据,真正了解数据的具体构成。
【实例说明】:针对于迁徙图的实例进行说明,点击某一环形模块,可查看对应层级的构成关系。
【上传实例数据】:选择相关的实例数据,自动生成迁徙图形。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
8)关系图
适用场景:多层级结构数据的直观分析。
优势:可以表达清晰的层级和归属关系,以父子层次结构来显示数据构成情况,便于细分溯源分析数据,真正了解数据的具体构成。
【实例说明】:针对于关系图的实例进行说明,点击某一环形模块,可查看对应层级的构成关系。
【上传实例数据】:选择相关的实例数据,自动生成关系图。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
9)树型
适用场景:多层级结构数据的直观分析。
优势:可以表达清晰的层级和归属关系,以父子层次结构来显示数据构成情
况,便于细分溯源分析数据,真正了解数据的具体构成。
【实例说明】:针对于树型的实例进行说明,点击某一环形模块,可查看对应层级的构成关系。
【上传实例数据】:选择相关的实例数据,自动生成树型图。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。
10)桑基型图
适用场景:它是一种特定类型的流程图,始末端的分支宽度总和相等,图中延伸的分支的宽度对应数据流量的大小,比较适用于用户流量等数据的可视化分析。
在人文学科中,适合比较同一总量在多种相关联的维度中的数量分布。
【实例说明】:针对于桑基图的实例进行说明,点击某一环形模块,可查看对应层级的构成关系。
【上传实例数据】:选择相关的实例数据,自动生成桑基图。
:点击【数据视图】按钮,将实例图形转换成数据视图方式展现。
:点击【保存为图片】按钮,将实例图形下载保存为PNG图片格式。