施磊磊 2014.4.4 研究汇报

合集下载

施磊磊的双周汇报书面版6

施磊磊的双周汇报书面版6

双周汇报Bloom Filter最近看了关于重复文档检测的算法,对此算法有点兴趣,就上网搜了很多相关的资料,看了一些人写的博客,看有的写的还不错就摘抄下来以备后面写论文的不时之需。

这几天白天在和学院的大二大三的搞社会实践,没办法,菁英学校那边需要三个社会实践,只是需要盖个章就行,所以花了进一个礼拜的时间,上午8点出发,下午5点回校,休息一会儿就开始看书。

那本就问刘鹏拿来的hadoop 实战的书已经看过一次,这次又认真地看了一下,感觉很舒服,很多基础的内容,不仅仅是简单的介绍一下基本的原理,更多的是理解与掌握其中的方法。

自己还买了是那本这方面的书籍,有点深度,同时也是初学者很好的入门教材。

我会认认真真的看下去,然后做做实验,争取发表一篇高质量的论文。

和您学到很多的东西,记笔记就是一个很好的方法,有句话说的好,好记性不如烂笔头。

很多的理解与感悟都是当时一瞬间的体会。

过去的就是过去了,很多的好的想法就应该及时的记下来。

这样的话以后看起来就回想起来当时的一些事情。

下面就简单的讲一下该算法的一些理论知识,Bloom filter 是由Howard Bloom 在1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员,这种检测只会对在集合内的数据错判,而不会对不是集合内的数据进行错判,这样每个检测请求返回有―在集合内(可能错误)‖和―不在集合内(绝对不在集合内)‖两种情况,可见Bloom filter 是牺牲了正确率换取时间和空间。

Bloom filter 计算方法如需要判断一个元素是不是在一个集合中,我们通常做法是把所有元素保存下来,然后通过比较知道它是不是在集合内,链表、树都是基于这种思路,当集合内元素个数的变大,我们需要的空间和时间都线性变大,检索速度也越来越慢。

Bloom filter 采用的是哈希函数的方法,将一个元素映射到一个m 长度的阵列上的一个点,当这个点是 1 时,那么这个元素在集合内,反之则不在集合内。

施磊磊的双周汇报书面版13

施磊磊的双周汇报书面版13

双周汇报网络爬虫技术综述及Nutch研究网络爬虫,又称网络蜘蛛,是一种根据用户设定,自动在目标网站上抓取符合要求网页的程序。

作为搜索引擎的底层技术,网络爬虫是搜索引擎的重要组成部分。

它的大致工作流程为:从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

老师您上次和我讲的,网络爬虫的重要性是不言而喻的,网络爬虫是搜索引擎的基础,先要有数据才能进行后续的研究工作,也只有把爬虫这一块弄好,能抓取到我们想要的数据,后面的很多实验才能够继续,现在的数据很多,各种各样的数据,怎么样才能抓取到我们想要的数据,是值得研究的。

网络爬虫又称为Spider程序,用于查找大量的Web页面。

它从一个简单的Web页面上开始执行,然后通过其超链接在访问其他页面,如此反复理论上可以扫描互联网上的所有页面。

基于因特网的搜索引擎是Spider的最早应用。

例如搜索巨头Google公司,就利用网络爬虫程序来遍历Web站点,以创建并维护这些大型数据库。

网络爬虫还可以通过扫描Web站点的主页来得到这个站点的文件清单和层次机构。

还可以扫描出中断的超链接和拼写错误等。

Internet是建立在很多相关协议基础上的,而更复杂的协议又建立在系统层协议之上。

Web就是建立在HTTP ( Hypertext Transfer Protocol ) 协议基础上,而HTTP又是建立在TCP/IP ( Transmission Control Protocol / Internet Protocol ) 协议之上,它同时也是一种Socket 协议。

所以网络爬虫本质上是一种基于Socket的网络程序。

Spider程序结构网络爬虫必须从一个网页迁移到另一个网页,所以必须找到该页面上的超连接。

程序首先解析网页的HTML 代码,查找该页面内的超连接然后通过递归和非递归两种结构来实现Spider 程序。

施磊磊的双周汇报书面版11

施磊磊的双周汇报书面版11

双周汇报这两周一直在考虑海量数据的存储问题,看了很多的小论文和大论文,也看了我自己的研究方向的大论文,从里面总结出了一下值得研究的方面,在nutch 的存储方面还是有待改善的,nutch本身的功能很强大,每个月的爬取信息量相当的巨大。

所以这个开元的搜索引擎很值得我现在去研究,阅读过这个开元搜索引擎的源代码,大体意思没问题,在中文分词的源代码方面进行过相关的修改,改过两种中文分词的效果,感觉改过的肯定比没改的好很多。

但是很多的中文分词器的插件并不是非常的完善,还有很多的地方需要我们去修改,特别是针对某些领域的分词,想我现在的研究是垂直搜索引擎就是针对专门的主题进行的分词。

先讲一下nutch吧,Nutch是一个开源的搜索引擎,它使用Java语言开发,具有跨平台应用的优点,Nutch作为网络爬虫和lucene的结合,功能上极其强悍,每个月数以亿计的网页爬取量,网页搜索的高速,开源的功能剖析都是我们选择它的关键因素。

此外基于 Solr的索引和检索功能、Memcached分布式缓存系统、基于Hadoop的MapReduce编程模型和分布式文件系统HDFS,都可以让我们用户可以快速高效地实现运行在数百台乃至数千数万台计算机上,能够在短时间内完成海量数据的计算与分析。

这个是数据存储的背景知识,感觉现在这个方面很火,海量数据的分析、计算、存储的问题很多,怎样高效的进行存储、分析或是计算。

很多的研究者提出很多的方案出来供大家进行更加深入的研究。

但是,随着科学技术的不断发展,网络上信息的规模正在以指数趋势上升。

整个互联网每天都会产生海量的数据,所以Nutch分布式网络爬虫每天爬取到的数据量日益剧增,怎样高效地对爬取到的海量数据进行存储已经成为人们越来越关注的问题。

传统的基于单机或者集中式的数据管理模式已经不适合海量数据的存储。

这个是云计算的一部分,开元的云计算架构平台也是很重要的方面。

暑假里进行了相关的配置和安装,对于这一部分的原理,我也在图书馆看过很多的书籍,大概的原理是了解了,对于很细节的东西还需要仔细的研究,也有很多的研究者提出了关于这方面的改进的方案,我看了感觉还不错。

施磊磊的个人简历

施磊磊的个人简历

个人简历姓名:施磊磊政治面貌:中共党员性别:男学历:本科年龄:23 系别:计算机科学与技术民族:汉专业:计算机科学与技术藉贯:江苏南通健康状况:良好◆知识结构主修课:C语言,JAVA语言,数据结构,操作系统,计算机组成原理,计算机网络,数据库原理选修课:FLASH,网站制作,公务员,西方经济学◆专业技能:接受过全方位的大学基础教育,受到良好的专业训练和能力的培养,在数据库原理和软件编程等各个领域,有扎实的理论基础和实践经验,有较强的动手能力和研究分析能力。

◆外语水平:2009年通过国家大学英语四级考试, 2010年通过国家大学英语六级考试。

有较强的听说读写能力。

◆主要社会工作:大一,大二参加社会实践活动,做过家教◆兴趣与特长:☆喜爱各项文体活动,尤其是篮球和羽毛球还有跑步◆个人荣誉:在2008—2009学年度综合测评中,他的综合测评专业排名第二,先后获得“校级优秀团员”、“校级三好学生”、“校级优秀团干部”等荣誉称号,获得校级一等奖学金。

2009—2010年度,综合测评专业排名第二。

先后获得“校级优秀学生干部”、“校级优秀团员”等荣誉称号。

2010- -2011年度获“省级优秀学生干部”荣誉称号。

◆主要优点:★有较强的组织能力、活动策划能力和公关能力,在中学就基本形成,大学里又不断全面发展★有较强的语言表达能力,有比较深厚的文学功底和底蕴才气★有较强的团队精神,在同学中,有良好的人际关系;在同学中有较高的威信,人品蛮好◆自我评价活泼开朗、乐观向上、兴趣广泛、适应力强、上手快、勤奋好学、脚踏实地、认真负责、坚毅不拔、吃苦耐劳、勇于迎接新挑战。

◆求职意向可胜任软件设计与测试及相关领域的生产、科研工作。

也可以从事贸易、营销、管理及活动策划等方面工作。

施磊磊 2014.5.14 研究汇报

施磊磊  2014.5.14  研究汇报

研究汇报阅读文献:Feng Li, Timon C. Du.Who is talking? An ontology-based opinion leader identification framework for word-of-mouth marketing in online social blogs.Decision Support Systems.51 (2011) 190–197.主要内容:本文主要的研究点是介绍了一种方法,BARR模型来识别舆论领导者,因为舆论领导者在在线社会博客领域的地位和权威,所以他们在推广一个商品的时候会很受大家的欢迎。

很多关于社会网络的理论被提出来研究,但是很少有人研究舆论领导者的识别问题。

本文采用的方法是先收集来自博客本身的内容、作者的属性、读者的属性以及他们之间的联系。

然后建立一个市场产品的网络结构,从上面的四个属性中收集变量用来识别与产品相关的热点话题这些热点话题一般与信息的传播者或者舆论领导者相关。

市场营销人员可以使用这个BARR 模型区追踪舆论领导者发的博客从而证实他们的想法来制定有效的市场策略。

创新点:本文主要的研究点是介绍了一种方法,BARR模型来识别舆论领导者。

本文采用的方法是先收集来自博客本身的内容、作者的属性、读者的属性以及他们之间的联系。

然后建立一个市场产品的网络结构,从上面的四个属性中收集变量用来识别与产品相关的热点话题这些热点话题一般与信息的传播者或者舆论领导者相关。

本文主要从四个方面进行研究,作者、读者、博客内容、作者和读者的关系(也就是读者回复了作者的博客)具体的模型工作过程:先抽取博客中的信息,找出搜索的关键词,然后根据关键词识别出热门的博客,再根据发热门博客的网络用户识别出舆论领导者,最后市场营销人员根据热门帖子采取相应的市场策略进行指导。

研究价值和目的:市场营销人员可以使用这个BARR模型区追踪舆论领导者发的博客从而证实他们的想法来制定有效的市场策略。

施磊磊的多媒体技术实验报告

施磊磊的多媒体技术实验报告

多媒体技术基础实验报告班级:计082学号:0813022057姓名:施磊磊2011年5月31日实验一一、实验目的1、了解有损压缩和无损压缩的概念2、理解图像压缩的主要原则和目的3、了解常用的压缩算法4、了解静态图像JPEG压缩标准二、实验内容1、利用VC++编程,建立控制台应用程序(Win32 Console Application),输入教材第83页的实力图像块数据,经离散余弦变换、量化和熵编码后,压缩为二进位流。

2、压缩后的二进位流编码,重构图像块三、源代码:#include "stdio.h"#include "math.h"int f_Y0[8][8]={{139,144,149,153,155,155,155,155},{144,151,153,156,159,156,156,156},{150,155,160,163,158,156,156,156},{159,161,162,160,160,159,159,159},{159,160,161,162,162,155,155,155},{161,161,161,161,160,157,157,157},{162,162,161,163,162,157,157,157},{162,162,161,161,163,158,158,158}};int F_Y0[8][8];//DC系数int DA_Y0[64],DA_Y1[64],DA_Y2[64],DA_Y3[64],DA_Cb[64],DA_Cr[64]; //DA系数int quantization_table[8][8]={ //量化表{16, 11, 10, 16, 24, 40, 51, 61},{12, 12, 14, 19, 26, 58, 60, 55},{14, 13, 16, 24, 40, 57, 69, 56},{14, 17, 22, 29, 51, 87, 80, 62},{18, 22, 37, 56, 68, 109, 103, 77},{24, 35, 55, 64, 81, 104, 113, 92},{49, 64, 78, 87, 103, 121, 120, 101},{72, 92, 95, 98, 112, 100, 103, 99}};const int jpeg_natural_order[64] = {0, 1, 8, 16, 9, 2, 3, 10,17, 24, 32, 25, 18, 11, 4, 5,12, 19, 26, 33, 40, 48, 41, 34,27, 20, 13, 6, 7, 14, 21, 28,35, 42, 49, 56, 57, 50, 43, 36,29, 22, 15, 23, 30, 37, 44, 51,58, 59, 52, 45, 38, 31, 39, 46,53, 60, 61, 54, 47, 55, 62, 63,};void DCT(); //进行DCT转换void show(); //用于及时的显示void Quantization(); //量化处理void ZArrange(); //Z字形编排int main(int argc,char **argv){DCT();printf("DCT变换之后:\n");show();Quantization();printf("量化变换之后:\n");show();ZArrange();printf("Z字型变换之后:\n");show();return 0;}void DCT(){int u,v,i,j;double tmpY0;double cu,cv;for(u=0;u<8;u++){for(v=0;v<8;v++){tmpY0=0.0;for(i=0;i<8;i++){for(j=0;j<8;j++){tmpY0=tmpY0+(f_Y0[i][j]-128)*cos((2*i+1)*u*0.19625)*cos((2*j+1)*v*0.19625);}}if(u==0)cu=0.707;elsecu=1.0;if(v==0)cv=0.707;elsecv=1.0;F_Y0[u][v]=(int)((0.25)*cu*cv*tmpY0);}}}void show(){int i,j;printf("f_Y0:\n");for(i=0;i<8;i++){for(j=0;j<8;j++){printf("%5d",f_Y0[i][j]);}printf("\n");}printf("\n");printf("F_Y0:\n");for(i=0;i<8;i++){for(j=0;j<8;j++){printf("%5d",F_Y0[i][j]);}printf("\n");}printf("DA:\n");for(i=0;i<8;i++){for(j=0;j<8;j++){printf("%5d",DA_Y0[i*8+j]);}printf("\n");}}void Quantization() //量化处理{int i,j;for(i=0;i<8;i++){for(j=0;j<8;j++){F_Y0[i][j]=(int)F_Y0[i][j]/quantization_table[i][j];}}}void ZArrange() //Z字形编排{int i;for(i=0;i<64;i++){DA_Y0[i]=(int)F_Y0[jpeg_natural_order[i]/8][jpeg_natural_order[i]%8];}}心得体会:这次设计,刚开始的时候感觉无从下手,因为对算法的不熟悉,总感觉压缩是一个很深奥的东西。

施磊磊 2014.4.12 研究汇报

施磊磊  2014.4.12  研究汇报

研究汇报阅读文献:Erjia Yan , Ying Ding (2011). Discovering author impact: A PageRank perspective . Information Processing and Management,47 ,125–134.主要内容与创新点:本文通过应用PageRank算法到合著网络从而提供了从另一种角度测量作者影响力的一个方法。

本文提出的加权PageRank算法同时考虑到引文和合著网络的拓扑结构,然后利用不同的阻尼因子测试了该算法,在信息计量学研究社区中评估作者影响。

此外,我们也比较了权重PageRank的h指数,引文,和程序委员会(PC)为科学计量学的国际社会成员和信息计量学(ISSI)会议。

结果表明,该加权PageRank算法为测量评估作者影响提供了可靠的结果。

研究思路是:最终的目的:发现作者的影响---首先说明合著网络能够发现作者的影响----然后在合著网络中引入PageRank算法—接着对PageRank算法进行改进变成加权的PageRank算法(改进的算法考虑到引用和合著网络的拓扑结构)--接着就是测试在不同的阻尼因子下该算法的稳定性—最后就是将该改进过的算法与一些经典的测试作者影响的方法进行对比发现改进算法的可靠性。

总结发现:近期看了几篇SCI的论文,包括这篇,发现论文的逻辑思维特别清晰,层次感特别强,每一个理论的提出都有相关的权威期刊做论证,每个概念是怎么来的,接着就是什么人对其进行了改进,是从哪些方面进行的改进,就像这次看的这篇关于发现作者的影响,首先提出了合著网络,它能够测试出作者的影响,接着从PageRank的角度进行分析,考虑了很多的因子,对PageRank进行改进已经不是第一次了,这篇文章中的方法是引入了引用和合著网络的拓扑结构进行了相关的分析。

然后又设置了在不同的阻尼系数下进行的PageRank的测试,为了发现阻尼系数的不同不会对最后的结果产生影响,最后就是针对该改进的PageRank 算法与原来的算法以及提出的几个评价的方法(h指数,引文,PC成员等)进行了对比。

施磊磊 2014.4.26 研究汇报

施磊磊  2014.4.26  研究汇报

研究汇报阅读文献:Byunghak Leem , Heuiju Chun (2014). An impact of online recommendation network on demand. Expert Systems with Applications, 41 ,1723–1729.主要内容:本研究提出从社交网络的角度来看应用于在线图书市场的在线推荐网络的作用,同时本文也为怎样把社会网络分析的方法应用到研究推荐网络对图书销量的影响中去提供了一个新的视角。

本文首先建立了一个基于顾客推荐的图书推荐网络,然后利用NodeXL计算出五个网络中心性系数和一个聚类系数,我们也通过相关分析和多元回归分析对我们的研究模型进行了分析,相关分析的结果表明六个SNA方法(度,贴近,中介,特征向量,PageRank,聚类系数)之间以及和图书的销量之间有着明显的相关性。

多元回归分析的结果显示在推荐网络中六个SNA方法中的五个对图书的销量有明显的影响,同时对图书销量影响最大的是度中心性。

根据我们的结果,推荐网络中图书的排名影响了图书的销量,因此我们的书店经理应该就应该建立更加有效、准确的图书链接推荐网络,其中包括顾客推荐的相关数据,这样的话,在网站中将有很高度中心性图书放在合适的位置就会有很好的销量。

创新点:本文首先建立了一个基于顾客推荐的图书推荐网络,然后利用NodeXL计算出五个网络中心性系数和一个聚类系数,我们也通过相关分析和多元回归分析对我们的研究模型进行了分析,相关分析的结果表明六个SNA方法(度,贴近,中介,特征向量,PageRank,聚类系数)之间以及和图书的销量之间有着明显的相关性。

涉及到的网络模型:基于顾客推荐的图书推荐网络涉及到的分析方法:我们也通过相关分析和多元回归分析对我们的研究模型进行了分析涉及到的社会网络分析方法:六个SNA方法(度,贴近,中介,特征向量,PageRank,聚类系数)引言背景知识介绍:图一图书推荐网络如上图一所示,就是网上图书商店的图书推荐网络,每本图书就是一个节点,每个推荐就是一条边,由每个节点和每条边组成了图书的在线推荐网络。

施磊磊 2014.4.19 研究汇报

施磊磊  2014.4.19  研究汇报

研究汇报阅读文献:L.Chakhmakhchyan, D.Shepelyansky(2013). PageRank model of opinion formation on Ulam networks.Physics Letters A, 377, 3119–3123.主要内容:本文研究了一个在乌兰网络中舆论形成的PageRank模型,该网络通过间断性的映射和典型的奇里科夫映射生成。

通过这些映射生成的乌兰网络和无标度的万维网有某些相似点,表现出一种PageRank概率的代数衰减。

我们发现,乌兰网中网络舆论的形成过程与万维网有一定的相似性但也有其鲜明的不同之处。

我们把这些不同之处归因于乌兰网和万维网他们各自内部网络结构的不同。

我们还分析了用来保护小社区意见的广义Sznajd模型框架中舆论的形成过程。

创新点:利用两个舆论形成过程分析的模型应用于乌兰网络中进行研究涉及到的模型:PROF模型和Sznajd模型PROF模型就是基于PageRank算法的舆论形成模型;Sznajd模型就是通用的广义舆论形成过程分析模型引言背景知识介绍:首先介绍的是对舆论形成机制的理解在现代社会新出现的研究领域中研究的重要性,同时引用了在社会物理学中的一篇论文来证明,光说没用,以此来说研究是有意义的。

接着就提出已经有很多人提出很多的模型对舆论的形成进行了相关的研究,列出文献,简单的介绍前人的工作,同时指出他们研究的不足之处,前人研究出来的这些模型通常考虑的是抽象的规则的网络,对于现在的大规模无规则的社会网络显然是不能通用的,然后就列举出了很多特殊网络,以此证明前人研究出来的模型的不足,不能自己说人家不足就不足,必须有事实的文献列举出来证明自己的说法,让人家觉得可信。

现在的网络变化的很快,用户也很大,以至于网络的结构很大,并且这些用户相互之间会分享很多的新闻,舆论等等,形成了很复杂的社会舆论网络,而这些复杂的舆论网络对我们现在的社会生活和政治都会产生越来越重要的影响。

施磊磊 2014.5.7 研究汇报

施磊磊  2014.5.7  研究汇报

研究汇报阅读文献:Youngsang Cho, Junseok Hwang, Daeho Lee. Identification of effective opinion leaders in the diffusion of technological innovation: A social network approach .Technological Forecasting & Social Change,79(2012): 97-106.论文主题类型:和那篇讲述超级网络理论的类似,这篇论文也是研究舆论领导者的,这篇文章没有利用到PageRank算法,作为社会网络分析的一种。

论文的大环境:在社会网络中进行研究采用的研究方法:A social network approach:一种社会网络的方法研究的主要问题、对象:the diffusion of technological innovation:技术创新的传播过程Identification of effective opinion leaders:有效地舆论领导者的证实主要内容:舆论领导者是社会网络中的一类特殊的人,他们在技术创新传播的过程中对于其他人对产品或者服务的承认和接受有着非常大的影响,也就是说他们影响着其他人对产品或服务的承认和接受。

在本文的研究中,我们就传播速度和累积下来最多的接受者数对那个舆论领导者是最佳的市场选择进行了研究,同时利用社会网络的方法和阈值模型对其进行了调查。

根据仿真结果,我们发现具有高社会性的舆论领导者是传播速度最快的一类人,而那些有着高距离中心性的人则是累计数目最多的接受者。

此外,我们的结论是被选择作为初始接受者的有效舆论领导者的特征根据不同的社会网络的类型和不同的创新特点可以不一样。

最后,我们发现只有当初始接受者的比例达到一定的数量时舆论领导者才会影响传播的过程。

创新点:在社会网络中,利用社会网络分析的方法,对在技术创新的传播过程中有效的舆论领导者的证实。

施磊磊 2014.6.3 研究汇报

施磊磊  2014.6.3 研究汇报

研究汇报阅读文献:[1]Kaisong Song, Daling Wang,Shi Feng and Ge Yu.Detecting Opinion Leader Dynamically in Chinese News Comments.LNCS 7142, pp. 197–209, 2012.主要内容、和其他方法的对比以及各自的创新点:现在的很多研究舆论领袖识别的方法大多数是研究网络用户的外部关系,很少关注他们之间的内部关系,而且很多的文献和研究者没有考虑到舆论领袖的时效性,在这段时间内是领袖的网络用户,过一段时间以后就不一定是舆论领袖,所以时间方面也是需要考虑进去的。

这篇文章就从网络用户的外部联系和内部联系出发,对舆论领袖进行识别,而且这篇文章是先检测出最有影响力的评论或者叫做舆论,这和我之前看过的一篇复杂的识别模型上面提高的方法类似,都不是直接识别出舆论领袖,因为那样的话识别出来的并不准确,很多的情况需要考虑,前面也讲到这篇文章的创新之处有两个地方,第一个就是既考虑到了用户的外部联系还考虑到用户之间的内部联系,然后第二个创新点就是时间,还需要考虑在这段时间内可能是影响力大的评论,在下一个时间段里面就不是影响力最大的评论或者舆论领袖了。

在检测影响力大的评论的时候采用了语义识别的方法,根据用户评论的情感倾向区分出三种类型的用户,在这里本文提出了情感分析的一种方法,然后动态的对评论进行识别然后在基于用户的评论网络检测出最有影响力的网络用户,也就是舆论领袖。

最后利用中国的新浪新闻评论数据来验证我们的方法是可以检测意见领袖以及和它们随时间的变化动态。

总结与分析:现在经过整理和分析很多关于舆论领袖的识别方法,脑子里形成了一个大的框架,现在才发现很多的方法之间是互通的,第一篇我看过的识别舆论领袖的,印象很深,那篇利用超级网络进行识别的方法让我很惊叹,现在通过大量的阅读和分析,总结才发现,原来人家利用的也就是几个影响因子组成的网络,很简单,但是也不得不佩服人家竟然换了一个角度进行分析,能够从那样的一个角度进行识别和分析,可见还是有很多值得学习的地方。

施磊磊 2014.5.11 研究汇报

施磊磊  2014.5.11  研究汇报

研究汇报阅读文献:Kun Liu, Long-jiang Dong. Research on Cloud Data Storage Technology and Its Architecture Implementation.Procedia Engineering .29 (2012)133–137.主要内容:本文介绍了云计算和云存储的概念以及云存储的架构,同时,分析了云数据存储技术GFS (谷歌文件系统)/ HDFS(Hadoop分布式文件系统)在企业中应用的具体例子。

在最后一部分中,本文提出基于eyeOS网络操作系统来改进传统的文件存储方法,本文提出的基于Hadoop的HDFS的存储方法实现了分布式文件存储和容错控制,最后的实验证明本文提出的存储系统达到了比较好的效果。

创新点:首先介绍了云计算的概念,以及云计算涉及到的很多技术,比如:gfs、hadoop、hdfs等,同时分析了云数据存储技术GFS(谷歌文件系统)/ HDFS(Hadoop分布式文件系统)在企业中应用的具体例子,本文的重点是提出基于eyeOS网络操作系统来改进传统的文件存储方法,同时本文提出的基于Hadoop的HDFS的存储方法实现了分布式文件存储和容错控制。

具体的存储架构设计:如下图一所示a是GFS的架构,b是本文的系统架构阅读文献:Chengzhang Peng, Zejun Jiang.Building a Cloud Storage Service System.Procedia Environmental Sciences .10 ( 2011 ) 691 – 696.主要内容:云存储服务因为其低成本和高可靠性越来越受到人们的关注,因为存储容量的动态调整是云存储最重要的特征。

在本文中,我们提出了一个基于开源分布式数据库的一个云存储解决方案,它遵循一个阶层设计,包括Web服务前端,变换处理层和数据存储层。

终端的用户在本系统通过三个Web服务接口访问自己的数据。

施磊磊 2014.5.3 研究汇报

施磊磊  2014.5.3  研究汇报

研究汇报阅读文献:Yanyan Li , Shaoqian Ma, Yonghe Zhang , Ronghuai Huang , Kinshuk (2013). An improved mix framework for opinion leader identification in online learning communities.Knowledge-Based Systems, 43 ,43–51.主要内容:本文主要研究舆论领导者的识别问题,采用什么样的方法进行识别。

摘要部分首先介绍舆论领导者处于怎样的背景中,从论文的题目中就可以看出,在线学习社区是论文的研究大背景,然后基于这个背景,提出了舆论领导者的重要性,在这个背景下研究舆论领导的识别是很有意义的。

因为舆论领导者在社会上的地位、声望都是非常高的。

同时很多理论依据被提出用来解释社会网络的形成、特点和持久性,但是很少有人关注舆论领导者的识别问题,然后本文就提出了一个改进的混合模型的框架用于在线学习社区中舆论领导者的识别。

这个框架通过实验数据的论证,表明是有效的。

通过分析文本背景、用户行为和时间,然后基于四个鲜明的特点进行舆论领导者的排序,这四个特点是专业知识,新颖性,影响力和活动, 此外,从长期供职和中心地位方面对舆论领导者的性能进行了进一步调查,通过真实数据集的实验研究表明,我们的框架能够有效地识别在网上学习社区中的舆论领导者创新点:本文提出了一个改进的混合模型的框架用于在线学习社区中舆论领导者的识别。

这个框架通过实验数据的论证,表明是有效的。

通过分析文本背景、用户行为和时间,然后基于四个鲜明的特点进行舆论领导者的排序,这四个特点是专业知识,新颖性,影响力和活动, 此外,从长期供职和中心地位方面对舆论领导者的性能也进行了进一步调查研究。

涉及到的改进的混合模型:基于在线学习社区的舆论领导者的识别涉及到的分析方法:通过分析文本背景、用户行为和时间,然后基于四个鲜明的特点进行舆论领导者的排序,这四个特点是专业知识,新颖性,影响力和活动, 此外,从长期供职和中心地位方面对舆论领导者的性能也进行了进一步调查研究。

施磊磊 2014.5.18 研究汇报

施磊磊  2014.5.18  研究汇报

研究汇报阅读文献:Sang-Min Choi, Yo-Sub Han.Representative reviewers for Internet social media.Expert Systems with Applications .40 (2013) 1274–1282.主要内容:在一个社会网络中,人们每天都会接受,提供,传播大量的信息。

在这个过程中,我们经常会看到某个人对他人有着特别强烈的影响。

我们称这些高度有影响力的人为舆论领导者。

自二十年代后期以来,互联网用户数量飞快的增长,现在大量的人通过在线社交网络进行交互。

通过这种方式,在线网络社区已经成为类似于真实世界的虚拟社会。

互联网用户收到的信息不仅仅来自大众媒体,也有来自于舆论领导者。

例如,在线网络中有影响力的博客经常被用来作为营销工具或政治广告,因为其巨大的影响里影响着其他用户。

因此,在线社区网络中识别舆论领导者是很有意义和很重要的,为此,本文提出了一个简单而可靠的算法用来识别在线社交网络中的舆论领导者。

在本文中,我们首先在一个网络社会中描述我们的算法以便确定有影响力的用户,然后我们使用电影数据库验证被选出来的用影响力的用户代表的有效性,并进行10倍交叉验证和Z-测试。

创新点:本文提出了一个简单而可靠的算法用来识别在线社交网络中的舆论领导者。

首先在一个网络社会中描述我们的算法以便确定有影响力的用户,然后我们使用电影数据库验证被选出来的用影响力的用户代表的有效性,并进行10倍交叉验证和Z-测试。

识别方法:主要思想:A是评价内容的集合,|A|是A的基数,R S(i)是用户对内容的评价,Ru(i)是用户对内容的平均评价,公式一的结果U S说明每个用户评分的平均评价是如何接近,越接近越好,越多的人对内容评价一样,因为内容有很多种类型,对于每种类型的评价相同的或者相似的越多,那么就越有成为舆论领导者的可能。

图一识别舆论领导者的过程首先从所以用户的音乐数据库中抽取数据,然后将公式一应用到所有的用户数据中去,接着对公式一求得的结果进行排序,最后选取分数低的用户(也就是发表有代表性的评论的网络用户)作为代表性用户,即舆论领导者。

施磊磊的双周汇报书面版2

施磊磊的双周汇报书面版2

双周汇报云计算这是3月份的一篇汇报的总结,现在拿出来继续深入理解一下,很多的知识点需要再次的理解。

其中提到清华大学陈康与郑纬民在《云计算:系统实例与研究现状》一文中指出了云计算所包含的三个基本的特征:第一个是云计算平台由大规模的廉价服务器所构成的集群所支撑,第二是应用程序与底层服务协作开发,最大限度地利用云计算平台各个节点的系统资源,第三个是通过使用廉价服务器进行数据资源的冗余存储,之后通过软件来保证云计算平台的高可用性。

Google云计算平台的实践表明用廉价服务器组成的超大规模集群,在可靠性、稳定性和计算能力上,均能达到大型计算机的标准。

即对于Google每天需要处理的海量数据和复杂计算,在保证系统延展性和良好运行效率的基础上,都可以通过架构在廉价集群之上的云计算平台得以实现。

Hadoop是Apache软件基金会旗下的一个开放源码的分布式计算编程工具和分布式文件系统,它主要包括两方面的内容:HDFS分布式文件系统,MapReduce 一分布式计算模型,它们是Google云计算平台中MapReduce计算模型与和Google文件系统GFS的一个开源实现。

在世界范围内,Hadoop在地震研究、自然语言处理研究、数据挖据等方面也有着广泛的用途,是当前学术界云计算研究的主要平台。

Hadoop云计算平台的关键技术,Hadoop是Apache软件基金会旗下的一个开放源码的分布式计算编程工具和分布式文件系统,它主要包括两方面的内容:HDFS分布式文件系统,MapReduce一分布式计算模型,它们是Google的MapReduce计算模型与和Google文件系统GFS的开源实现,是当前云计算研究的主要开源平台。

在海量数据处理方面,Hadoop有着良好的性能。

HDFS分布式文件系统HDFS是Hadoop Distributed File System的缩写,是Hadoop云计算平台对Google文件系统(GFS)的开源实现。

施磊磊 双周汇报 --云计算

施磊磊 双周汇报 --云计算

今天是11.12号了,开学将近两个月了,从一开始的选导师,到现在的方向都定好了。

感觉研究生生活还是不错的,虽然说是在实验室的时间不是很长,今天和谭延之师哥进行了交流,我们这个方向还不错,不管是就业还是读博士都是不错的选择,现在的我看过好几本关于信息检索方面的和搜索引擎方面的书籍,对于大体上的研究内容了解了一下,也懂得了许多的知识,目前就搜索引擎的代码方面估计看起来有点难度,前几天去图书馆借了两本关于lucene的书籍,看起来代码部分还是蛮难理解的,估计得花很长一段时间研究一下,先把代码读懂了,然后自己改写一下,做出一个基于自己网页排序算法的搜索引擎。

今晚总结了一下这几天看的文献和书籍,看过的书感觉一定要及时总结,这样才会有收获。

现在社会随着互联网的飞速发展,互联网上的文档(网页)的增长速度也非常之快。

互联网上的资源在每一年的时间内就会增加一倍或是几倍之多。

搜索引擎就是在这样的大背景下应运而生的,它有助于用户在大量的信息资源库里获取信息。

因此搜索引擎成为了人们搜集信息资源的一个重要手段或者说是一种重要的方式。

在日常生活中人们已经渐渐离不开搜索引擎,确切的说应该是离不开有搜索引擎的时代,当然我们用户在依靠搜索引擎能够提供丰富的信息资源的同时,也对搜索引擎提供的服务质量有了更高的要求。

返回结果直接影响到一个搜索引擎的效率和受欢迎程度。

返回结果的核心技术之一就是网页排序技术。

关于现在研究的比较火的第三代搜索引擎,现在还在火热的研究之中。

从网上的论文或是期刊上获知搜索引擎技术在最近几年发展很快,最具代表性的就是Google 公司,它的迅猛发展也激起了其他同行们的研究热情,然而利用搜索引擎返回的查询结果的数量有时也相当之大,我们用户不可能把所有摘要都浏览一遍。

一般来说返回结果列表的前三页是用户最常浏览的,当然,浏览第一页的次数是最高的,因此一个搜索引擎的优劣与返回结果的合理与否有着密切的关系。

所以人们对网页排序算法的研究在逐渐的深入。

基于Hadoop和HBase的分布式索引模型的研究

基于Hadoop和HBase的分布式索引模型的研究

基于Hadoop和HBase的分布式索引模型的研究
施磊磊;施化吉;束长波;宋玉平
【期刊名称】《信息技术》
【年(卷),期】2015(39)6
【摘要】随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型.该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集群,以HDFS分布式文件系统、MapReduce分布式并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术来处理、协调管理索引和存储海量数据,最后通过实验测试,该平台模型可以克服现行的海量数据索引时存在的效率低的问题,同时具有良好的扩展性和可靠性.
【总页数】4页(P109-111,114)
【作者】施磊磊;施化吉;束长波;宋玉平
【作者单位】江苏大学计算机科学与通信工程学院,江苏镇江212013;江苏大学计算机科学与通信工程学院,江苏镇江212013;江苏大学计算机科学与通信工程学院,江苏镇江212013;江苏大学计算机科学与通信工程学院,江苏镇江212013
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于Hadoop的分布式搜索引擎研究 [J], 郑亦梁;
2.基于Hadoop的海运业分布式搜索引擎的应用研究 [J], 陈宁;柴向阳;孙勇
3.基于Hadoop的分布式搜索引擎研究 [J], 郑亦梁
4.基于hadoop和hbase的分布式索引集群研究 [J], 万轶;向广利
5.基于Hadoop的分布式搜索引擎的研究 [J], 郑睿颖 ;王芷婷
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

研究汇报
阅读文献:宋聚平,王永成,尹中航,滕伟. 对网页PageRank算法的改进[J].上海交通大学学报,2003,37(3):397-340.
创新点:指出PageRank算法的缺陷:偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当,改进后的算法考虑了网页日期这一重要因素,并重新计算网页中超链接对网页的影响,网页结构中蕴涵着丰富的信息,在href、title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。

总结与下一步研究工作:
(1)在计算网页的PR值时应该充分考虑网页生成日期与Spider访问日期的间隔,需要增加新近放到Internet上网页的重要度;
(2)对于网页来源的站点评价,不能仅仅局限于其URL的表现形式,而是应该根据该站点中所有网页PR值的平均值评测;
(3)对于网页A中指出的超链接应该视不同情况具体分析,如果所指网页与网页A内容相关,则此超链增加网页的重要度,否则减少;
(4)计算网页内容与查询关键词的相关度时,除了从网页文本内容上考虑之外,还需要提高在重要标记中出现的内容的权重,试验结果表明在这些标记中最重要的是出现在超链文本中的关键词。

在下一步的工作中,参考本文的设计思想,更进一步的研究HTML标记中所蕴涵的主题信息。

一下就是抽取出来的标签的赋值情况,可以根据实际情况进行相应的调整(可以增加讨论更多的情况,分更多的种类,可以减少)。

可以根据标签属性设定以下七种情况:
(1)<TITLE>标签,Boostai=10;
(2)<META>标签,Boostai=8;
(3)<H1>标签,Boostai=6;
(4)每段句首,Boostai=5
(5)<H2>标签,Boostai=4.8;
(6)加粗或斜体,Boostai=1。

(7)其他,Boostai=0.5。

1。

相关文档
最新文档