国家图书馆OPAC的MARC页面数据下载的编程思路

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

国家图书馆OPAC的MARC页面数据下载的编程思路
摘要：本文讨论国家图书馆O（简称：国图）PAC检索结果的页面MARC 数据的收集的程序思路，文中的代码使用C#语言，基于.net框架实现。

关键词：下载国图CNMARCC#编程
在日常的编目工作中，笔者经常会使用国图的OPAC，因为国图的CNMARC 数据权威，收藏的图书种类很齐全，更重要的是任何人都可以免费使用它的检索服务。

图书馆采编室很多时候需要为一批数量可观的图书提前准备MARC数据，以为后续的编目工作做好准备，在经费不足而没有购买收费MARC数据源的情况下，充分利用国图OPAC的检索服务进行数据的收集并重新组织成标准MARC 数据也许是最佳的数据准备方式。

笔者在国图OPAC检索结果的CNMARC数据的重新组装一文中详细讨论了CNMARC记录的重新组装的思路，本文将主要讨论从国图检索结果中下载收集MARC数据的思路。

这里主要考虑解决以下三个关键的技术问题。

一是如何实现最简化操作方式，也就是说在实际操作中不必频繁地进行鼠标或键盘操作。

这是因为就算是简单的复制粘贴操作，重复数百甚至上千次将是非常繁琐的事情。

二是通过怎样的逻辑实现直接的结果数据的访问，也就是说从用户的角度来看是怎样才能省略中间的页面以及结果中不重要的内容。

三是对得到的结果数据如何进行处理以及存储。

下面详细讨论。

一、最简化操作
这也许是最容易解决的技术问题。

为了简化程序的设计，可以选择ISBN为唯一的检索关键字，在这个前提下，构思并设计出一个ISBN列表文件的导入功能，实现所有图书ISBN的一次性导入，每次检索前通过点击某个按钮让程序读入并显示下一个ISBN记录，直到所有ISBN都处理完毕。

ISBN列表文件是一个简单的txt文本文件，文件里每一ISBN占据一行。

这样的实现方式可使效率进一步得到提高，因为省去了每次都要的ISBN输入操作。

但是同时，程序也应该提供单个ISBN输入的方式，这样就能保证输入的灵活性。

二、结果数据的访问
通过实际的浏览器操作，比如检索ISBN “9787111338017”，选择“中文文献”，选择ISBN字段，确定后浏览器导航到结果页面。

观察结果页面的URL，可以发现两个关键串：“2R4Q2UBHG9HPDYS2NEL21626DS9AT67SBQ13JGSIFTA3YAMEIE-04983”和“request=9787111338017”。

只需确定这两个串就可以确定整个URL，因为其他都是固定的。

更进一步地说，对于前面的加密串，重要的是要确定“-”字符前面的前缀部分。

因此，只需保证获取的加密串的前缀正确就可以构造出整个结果页面的URL了。

为了获取html页面的特定内容，需要定义GetPageContent和FindOneMatch两个静态方法。

基于篇幅考虑，下面仅列出FindOneMatch的代码：
public static string FindOneMatch(string pageContent, string pat, string groupName){
string res = ““;
Match m = Regex.Match(pageContent, pat, RegexOptions.IgnoreCase);
if (m.Success){
res = m.Groups[groupName].ToString();
}
return res;
}
GetPageContent方法的签名为：string GetPage Content(string url, Encoding e)，该方法接受URL和一个Encoding对象，访问指定的URL，以指定的编码返回页面内容。

FindOneMatch方法接受页面内容，模式和分组名作为参数，对内容执行一次正则查找，返回匹配的捕获内容。

为了获取上述的加密串前缀，只需对“／F／”的页面内容执行一次查找即可。

其代码如下：
string pageContent = GetPageContent(“／F”, Encoding.UTF8);
string pat = “]+)\” onsubmit”;string token = FindOneMatch(pageContent, pat, “Token”);
string resultURL=“／F／” + token +
“?func=find-b&find_code=ISB&request=“ +
isbn + fixedPart;
其中的fixedPart为上述讨论中结果页面URL中的其他的不变的部分。

结果页面访问的思路已经确定，接下来是获取MARC内容，这里指的不是标准MARC数据，而是以HTML格式存在的“字段名和指示符—字段内容”的数据。

观察结果页面的HTML源代码，可以发现MARC格式以及其他格式的数据显示是通过用js函数shiftfmt(obj, name)响应点击事件应用AJAX技术局部更新details2 节点，并且可以在该函数内发现数据内容的url的构造方法如下：
var url=“:80／F
／...?func=full-set-set_body&set_number=“+g(“set_number”).value+”&set_entry=“+ g(“set_entry”).value+”&format=“+name;
var host=location.href.replace(／(\／F\／.*)／I,’／’);
url=url.replace(／http:\／\／.*?\／／,host);
上面代码中的省略号是指前述讨论的加密串，而下面两句代码是用当前url 的主机部分替换构造的url的主机部分。

因此，只需确定set_number和set_entry 以及format的值就可以构造整个url了。

而通过实际观察发现format的值固定为001，只需要找到set_number和set_entry就可以了。

以下是获取MARC内容的代码：
string pageContent = GetPageContent(resultURL, Encoding.UTF8);
string pat = @”“;
string set_number = FindOneMatch(pageContent, pat, “set_number’”);
pat = @”“;
string set_entry = FindOneMat ch(pageContent, pat, “set_entry”);。