中国知网论文批量下载工具
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国知网论文批量下载工具(免费使用)
(2011-10-28 21:05:29)
转载▼
中国知网CNKI并不支持批量下载,但有时却需要此功能。这几天在家,上网不太方便,不能一篇一篇的去下载,想把搜索到的文章批量下载。在网上搜了搜这方面的工具,是有几个,但要收费,还是自力更生吧。想到前段做的新浪博客统计小程序(/s/blog_67532f7c0100yi4l.html),可利用此思路来做个CNKI的批量下载工具。基本思路是分析文献查询后的结果页面,把所有文章的下载地址给分析出来,再将其下载。需要试用该工具的朋友可留下邮箱地址(回复此文即可,不要发博客留言)。
[2012-5-14]淘宝上有人出售此软件,或是使用此软件批量下载的期刊。在此再次声明,本程序只是减少文献下载时的点击之苦,切勿用于商业用途,请慎重使用。本程序也不会提供无帐号下载功能,已暂停对本程序的的更新,如果实在觉得使用太麻烦,那就请卸载了吧。
[2012-5-4]cnkiforpdf已能将分析结果保存到本地,可从数据管理界面进行选择性下载。解决文章标题小于10时被跳过下载的问题。
[2012-3-5]如果只想下载某期刊全年的文章,可参看此:批量下载全年期刊的方法
[2012-3-6]推出特别版,支持下载PDF格式。可参看:中国知网期刊总库PDF下载
知网推出的批量下载工具:
/software/study.htm#1
[使用时,切勿贪“快”,避免下载不完整,或是IP被禁用。时间间隔的设置依据你所处的网速而定,我一般是设置20s。如果下载速度快,间隔就设置长,如果下载速度慢,则间隔可短些。知网是有连续下载的时间限制,为了安全使用,请勿超速。]
[2012-3-26]下载的时候,有时会出现有文件夹的情况,这主要是因为在给文件命名的文件名里头有“/”字符,结果被当做文件夹路径了,比如“面向B/S的。。。”,这个文章就会生成文件夹“面向B”,而后里面的文章是“S 的。。。”。解决办法是在采集文章标题时,把一些特殊符号给去除掉。(未改)。
[2012-3-25]在进行大批量下载时(比如一千条记录以上),就算是已合法登录,也仍然会碰到.5下载失败的情况,这主要是由于连续下载过多,CNKI 会提示诸如“对不起,你的操作太过频繁”的错误,然后需要重新退出登录才能下载。目前已在CNKI批量下载特别版(优硕库)中解决此问题,即当出现错误提示后,自动注销又再自动登录。
[2012-3-24]CNKI博士库特别版实现导入下载列表后下载,这样就不用
每次都分析页面了,直接从URL下载。
[2012-3-7]CNKI-Elearning支持的cnt格式是文本形式的XML文件,里面包含了很多信息,包括下载页面。将来可以从这里获取文章的元数据,省去分析页面所花的时间,效率定会提高不少。
[2012-3-6]有时下载的文章太多,时间长了,就有不少文章下不来了,都成了.5的,那可能是在页面上长时间不操作,帐号自动退出了。
[2012-3-1]对有些完全有权限下载的文章,在连续下载时会有下载不了的情况(下载的文件名后缀如.5),但单独下载是可以的。这可能是因为网络原因下载失败之后,程序不再继续尝试下载该文章了。这要增加个校验的功能,对于搜索到的文章是否是完整下载到硬盘上进行检查。这对于收集成套的期刊之类是用法是需要的。
[2012-3-1]有的网友反映下载到一半之后停电或者系统死机什么的,又得重头开始下载,这个太耗时了。目前的确没有选择下载,或是下载状态保存的功能,下一版本要添加。更多的人希望提供PDF下载,因为从KDH之类的格式转换到PDF后就只是个图片而已,无法进行复制粘贴。嗯,这个很早之前就有人强烈要求了,技术上的思路也早就有,但,,一种所谓“残缺之美”吧,先凑合着用,还是待下一版推出吧,前提是“如果还有下一版”。
[2012-2-27]下其指定期刊的方法。可在查询条件页面的“文献出版来源”输入期刊名,比如“社会学研究”,再在“发表时间”处选择起始日期,比如想下载2012年第一期的,就设置2012-1-1,2012-1-31。如果想下载全年的,就设置2011-1-1到2012-1-1。
[2012-2-27] BUG。有些可下载的文章,下载后显示0KB,但在网页中是可以正常下载的。其原因原来是该文章的标题含有一些特殊字符是WINDOWS文件名不允许的,所以以标题做为文件名生成文件时发生了错误,文件就保存不下来,显示为0KB了。解决方法需要在程序中生成保存路径的时候,把文件名中不被WINDOWS接受的字符先过滤掉。这个在写anSpringer下载器时已处理,可参看。(2012-2-27fixed)
[2011-12-14]希望能支持维普数据库。这个的确可以考虑,反正是同样的方法。UI要改改,毕竟不少用户并不关心分析的过程。现在这个用户界面比较乱的原因主要是为了方便调试而已。如果把这些分析过程,隐藏起来,那用户界面就可以做得更简洁,操作起来就更方便了,而且不用HTML组件,更能提高性能。
[2011-12-12]两个新的建议:1、“无帐号”下载。这个朋友说可提供有效的知网帐号,只要在程序中从远程读取账号及密码在程序后台自动登录,就算是实现了“无帐号”下载。“无帐号”只是相对于用户来说,因为用户不需要登录知网了,而是由程序自动从远端获取可用的帐号来登录。这一过程是不需要用户参与的,而账号密码也是会及时更新,保持总能获取可用的账号。该功能不打算做,毕竟这涉及到知识产权的问题;2、期刊下载。这个功能看似挺实用的。比如说有人想要下载《中国电化教育》的所有电子档,虽说现在可以从查询页面的“文献来源”输入关键词,从时间范围输入要下载哪一期,但下载回来的文章并无组织结构(意指所有文章全放到一个文件夹里),不方便管理。如果提供界面,请界户输入期刊名,选择期号,即可将该期的全部文章下载,或是下载某年度的所有期号,或是某期刊多年来的所有文章,而下载回来的文章按年/期/的组织形式存放好,这样就好收藏了。