基于百度指数的科技期刊影响力大数据分析——以《中华医学杂志》为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中华医学杂志有哪些其搜索的热度最高所占比例也最大预览热度直线最长中华医学杂志是核心期刊吗排名第二其预览热度直线长度次之只有第一名的三分之一从第三到第十名其预览热度直线长度都较短图搜索关键词热度排名图这里的热度词汇提问人群只有一类即学者这类人几乎占了全部这说明关注中华医学杂志的不是普通大众百姓而是医学专业的学者他们搜索的目的是要了解中华医学杂志及系列杂志中华医学杂志是否为核心期刊属于哪个级别是否容易投稿怎么投稿群属性进行聚类分析给出用户所属的省份城市及城市级别的分布及排名其中前十名的排序为北京江苏上海广东浙江河南四川山东湖北天津省市前十名排序反映了搜索人群的三个等级第一级在北京人数最多也最关心该杂志是江苏上海广东和浙江地区的三倍
2.2
可获得相关数据和可视化图形。下面进行“中华医 学杂志”的词汇热度变化分析,搜索热度排名分析, 搜索区域热图及排名分析,词汇热图及相关性分 析,以及关键词热度比较分析。
3.1词汇热度变化分析 表1是2011年1月1日至2015年12月20日
“中华医学杂志”一词每周的搜索次数,共26索次数,以此 类推。图2为该词热度变化的趋势图,它可以由
刊的影响力,特别是在大众百姓中的影响力已成
在“知网”检索“期刊影响力”的文献约1.2万 条,其研究主要有期刊质量与期刊影响力¨2|、期刊 影响力评价指标体系‘131、国际影响力分析¨4|、期刊
影响力调查分析¨到等。
Tong
为众多期刊和学者都比较关心的新问题。各期刊 迫切想了解其影响力有多大?读者人群有哪些 人?人群在全国各地区怎样分布?男女比例多 少?其影响力是上升还是下降?等等。另外,目 前期刊研究工作者也比较关注大数据期刊研究新 方法的探索,以及如何利用大数据计算机平台进
289 399 398 413 454 362 335 240 277 242 239 291 259 275 299 256 251 292 359 402 382 412 463 357 317 286 269 237 249 251 260 195 269 248 259 24l 364 407 397 414 449 312 228 276 236 253 248 251 255 231 265 235 240 237 363 380 373 389 389 347 317 265 268 265 249 252 242 242 269 258 3ll 25l 359 392 388 379 350 346 328 267 259 256 250 262 239 279 244 246 257 254 304 401 389 392 363 375 317 212 272 248 225 240 243 267 219 269 290 356 41l 382 37l 32l 348 307 176 268 249 263 260 246 266 143 266 294 360 438 381 395 332 330 290 250 278 225 237 256 248 268 229 267 252 362 431 397 369 33l 348 281 27l 231 247 242 262 238 285 308 245 205 387 390 385 389 330 326 285 279 254 202 239 254 246 273 295 242 220 364 410 338 368 338 343 287 291 26l 251 217 264 236 263 282 265 248 361 387 418 264 380 332 292 296 244 259 153 252 238 256 300 231 242 368 376 407 416 373 328 272 268 259 267 170 260 245 252 279 245 248 389 402 431 423 373 350 277 252 248 317 242 262 236 275 268 256 263 379 403 404 426 362 339 277 282 248 307 291 250 252 229 258 245 245
图1
研究分析期刊大数据的流程
其大数据统计可从是下一步搜 索的来源词,按相关程度排序。搜索的关键词可反 映用户搜索指数热度,其排序算法通过计算关键词 所有相关词的搜索指数在指定时间窗口内的环比 变化率排序得出。本文利用这一原理,研究网民搜 索“中华医学杂志”关键词的需求,了解其变化 索框内输入关键词,按一下“查看指数”按钮即可。
http://www.ejstp.cn
其次,劳动节和元旦的影响不明显。这说明搜索次
数与节假日相关,且节假日越长,影响越大。每年
元旦、春节、劳动节和国庆节期间搜索次数下降形
成的曲线呈现分形特征,即相似性。
其分形相似性表现在两个方面:一是图形的相
中国科技期刊研究,2016,27(7)781
春节期间曲线段,椭圆标识了国庆节期间曲线段。
比较发现,Y。>),:,且Y。一y2=92.01。这说明 “中华医学杂志”搜索至200点,这意味五年减少了约三分之一。
表1每周搜索次数(2011年1月1 Et至2015年12月20 Et)
指数趋势。
串枷P翰瞎:加ftll.0'1-01至2015-'12-20全墨
图2词汇热度变化趋势图
一 一一”蜓
图3降到每周200多点。这从一个侧面反映了 “大众百姓”对《中华医学杂志》关注的减少,也反映 其社会影响力的下降。 春节期间的休假对搜索次数影响最大,国庆节
表1产生。
为了解“中华医学杂志”一词搜索热度趋势,现 运用“均值灰生成方法”进行数据处理。灰色理论 是小样本数据处理工具,其灰生成方法可以处理曲 线段数据,用于其大致趋势分析。将260个数据分 为2组,分别求出其平均值。在此笔者设计了一个
计算资源,也
的选项之一。学者可利用这一免费资源。 指掘、分析和可视化服务,包括四个模 块:①趋势研究。进行关键词搜索,提供搜索指数。 ②需求图谱。提供中心词搜索分布。③舆情洞察。 提供媒体指数和十条顶级热门新闻。④人群画像。 提供关键词访问人群的各省市分布,性别和年龄
行其研究。

Hey[1引在《第四范式:数据密集型科学发
现》一书中指出,科学研究范式经历了四个阶段:经 验科学、理论科学、计算科学和密集型数据科学。
Jim
Gray【l刊提出:第四范式以数据为基础,结合实 综上,近年期刊读者调查,期刊影响力和期刊
验、理论和计算机模拟为一体的数据密集计算。 大数据方面的研究,均有学者涉足,但大数据期刊 影响力方面调查和分析文献相对少见。从样本量 大小看,大数据网络调查较传统读者调查和分析得 到的结果更有说服力。如果能将第四范式理论框 架用于期刊影响力研究,并结合密集数据处理技术 和计算机数据处理技术,将有可能提出新的方法并
21世纪初的人类基因组计划开创了大数据处 理的先河,其流程包括采集、处理、存储、分析和解 释。密集型数据处理过程¨引包括第一步大数据采 集;第二步原始数据处理;第三步用软件工具进行 数据计算;第四步数据挖掘;第五步数据可视化。
根据以上两个流程,笔者提出一种研究期刊大
数据的流程,见图1。
分布㈣。
其设计原理是:16—以《中华医学杂志》为例
■张 凯
收稿日期:2016-02—22 修回日期:2016—04—17
中南财经政法大学,信息与安全工程学院,武汉南湖大道182号430073
摘要【目的】探索大数据环境下期刊的影响力及索请求,日处理数据超过 100PB,相当于6000多个中国国家图书馆书籍信息 总量。它是一言障碍,符合国情,对外开放和有免费工具。 第二步,寻找和准备大型计算平台。因体量 大,类型多,生产、传输和处理速度快,潜在价值大 等特点,大数据处理起来比较困难,因此,需要合适 的大型硬件平台支持。大型计算平台有两种,一是 网络节点(多台网络设备相连的汇聚点,配刀片服【结论】指数可以作为科技期刊影响力分析的指标。
关键词DOI:10.1指数;期刊影响力;大数据;密集型数据处理;《中华医学杂志》 1946/cjstp.201602220125
大数据是新的技术革命,新的社会现象,也是 新的冲击,它使期刊研究工作面临前所未有的挑 战和机遇…。在这一新的历史条件和背景下,期
其中J=1,2,凡=260/2。利用公式(1)计算
表1可以得到Y】=344.36和Y2=252.35。
观察图3发现,曲线有若干个“最低点”,这段 时问恰好为春节期间。同时还发现国庆节期间也 有类似情况。元旦和劳动节期间有类似的情况,但 不明显。为深入了解这种现象,特选取了有代表性 的2012—2015年时期的图形,见图3。矩形标识了
得到新的结论。
国内外现状及问题
读者的需求、心态和看法对科技期刊质量的提
高有较强的“驱动力”。早年的“读者来信”是编辑
了解读者的重要途径。2 J,读者调查是另外一种方
式h3j,由此可以了解读者的需求。41和心理活动¨J, 并通过调查建立起作者和读者的关系∞J,读者问卷
是读者调查的重要手段、7 J。
与传统期刊影响,以及如何利用计算机网络进行期刊读 者大数据调查的方法,并以有百年历史的、有一定 代表意义的科技期刊《中华医学杂志》为例,借助百
务器,海量存储和万兆交换机等),比如网络节《中华医学杂志》的大数据分析在“指数”中输入关键字“中华医学杂志”,
点;二是大型超级计算机,比如“天河二号”。其使 用有较大难度,需与专业人士合作。 第三步,大数据分析和挖掘,就是助一些其他方法 (如分形理论和灰色理论)和工具(如excel软件)。 第四步,数据可视化,是利用数、热图、辐射图、流线图 等,可满足要求。对其不足,可利用绘画板和 Photoshop进行数字图像处理。 第五步,解释结果和撰写论文。
行大数据研究的方法,以及如何利用计算机网络进行期刊读者大数据调【结果】五年来该杂志的关注度下降了三分之一。关注者以男性为主,主要是医学专业的
学者,他们关注期刊等级和投稿。其关注热度由东南沿海向西北内陆逐步减少。建议该杂志上“知网”,以扩大其影响力。
提供了一种大数据网络调查方法。 网络调查,即通过源不多的情况下,可以将其作为大数据源
780
Yi=(∑Xi)/n
i=nxi+1
中国科技期刊研究,2016,27(7)
http://www.cjstp华医学杂志》为例
度指数¨副平台,通过大数据分析和挖掘,发现其中 的规律和结论。
“期刊大数据”方面的研究主要包括科技期刊 的未来形态旧J、编辑的信息素养一J、期刊出版方 式¨川、期刊评价体系创新…1等。“知网”检索尚未 发现“大数据期刊影响力”的文献。
基金项目:国家社会科学基金“第四范式下数据新闻业务流程集成框架重构研究”(项目编号:15BXW012)
作者简介:张凯(ORCID:0000—0001~7417—9929),博士,教授,E-mail:zhangkai@zn山.edu.cn。
http://www.ejstp.cn
中国科技期刊研究,2016,27(7):779—784
779
万方数据
2016年7月
第27卷第7期
2研究方法构建与设计
2.1研究方法构建
相关文档
最新文档