微博内容提取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

微博内容提取

摘要

随着近年来微博等社交软件的使用人数日益增多,微博的隐私发展也成为人们日益关注的问题,然而由于微博没有固定的格式约束使得在微博的研究过程中有一些无意义的“噪音”的干扰,本文主要是为了完成微博的“噪音”过滤问题,实现一个小软件,来将新浪微博等微博中下载到本地的微博来进行过滤,去除其中的噪音,提取出纯净的页面内容,主要工作包括以下几个方面:

(1)字符串的查找函数与分割函数的实现。

(2)多个文件的查找的函数的实现。

(3)固定字符串的即表情“噪音”的过滤实现。

(4)具有一定正则文法的“噪音”的过滤实现。

关键字:中文微博,微博,过滤,噪音,正则

Microblogging content extraction

Author: Liudi

Tutor: Yangkexin

Abstract

With recent years the number of micro-blog using social software is increasing, the development of micro-blog privacy has become a growing concern,However, due to the micro blog there is no fixed format constraint makes the interference of some meaningless "noise" in the research process of micro blog. the purpose of this paper is to complete the "noise" micro-blog filtering problem, the realization of a small software, to be used for filtering the download to the Sina micro-blog micro-blog etc., remove the noise, extract the page content is pure, the main work includes the following aspects:

(1) the search function and the function of the string segmentation.

(2) the implementation of the search function for multiple files

(3) the filter of the expression "noise" of the fixed string.

(4) the filter of a certain regular grammar "noise" of the fixed string.

Keywords: Chinese micro-blog,micro-blog,filtering ,noise ,regular

目录

目录 (1)

第1章绪论 (1)

1.1 研究背景 (1)

1.2 国内外研究现状 (2)

第2章需求分析 (3)

第3章支持平台与开发平台的选择 (4)

3.1 平台环境 (4)

3.2 开发工具的选择 (4)

第4章系统的总体功能分析与结构图 (5)

4.1 系统功能分析 (5)

4.1.1过滤微博功能 (5)

4.1.2读取微博功能 (5)

4.1.3删除微博功能 (5)

4.1.4处理所有功能 (5)

4.1.5退出功能 (6)

4.2 系统的功能特点 (6)

4.3 系统功能结构图 (7)

第5章数据结构的设计与主要全局变量介绍 (8)

第6章系统的详细设计 (9)

6.1 主界面模块 (9)

6.1.1主界面 (9)

6.1.2主界面模块流程图 (10)

6.2 文件选择模块 (11)

6.2.1文件选择界面: (11)

6.2.2流程图 (12)

6.2.3主要程序代码 (13)

6.3 微博过滤模块 (14)

6.3.1微博过滤模块界面: (14)

6.3.2流程图: (15)

6.3.3、主要代码 (17)

6.4 批量处理模块 (19)

6.4.1流程图: (19)

6.4.2、主要代码 (20)

6.5 删除模块: (20)

6.5.1删除模块 (20)

6.5.2删除模块流程图 (21)

第7章系统测试与维护 (22)

7.1 系统测试 (22)

7.2 系统维护 (22)

第8章结论 (23)

致谢 (24)

参考文献 (25)

第1章绪论

1.1 研究背景

微博(Mirco Blog),是用户关系的获取,信息共享,信息传播的平台,用户可以通过多种形式(网页,APP,移动网页,轻应用,第三方客户端等)登录微博,随时随地发布或者分享文字,图片,视频等内容,与好友之间实现信息的即时分享。最早的微博产品是美国的微博网站Twitter,在全球范围内Twitter已经几乎成为微博的代名词,2009年,中文微博社区“新浪微博”公测,从此,微博类产品正式进入了中国互联网市场。

微博的出现,给人们的交流和分享信息提供了一个新的平台,通过微博,用户可以发表观点,记录日常生活,了解时事新闻,与朋友互动等,随着微博技术的发展,可供用户使用的信息发布形式越来越丰富,包括短信,实时通讯软件,电子邮件。网页,声音或视频等,而各种客户端的出现,使得用户发布私人信息的门槛越来越低,而且,这些信息可能包含用户的教育经历,工作信息,好友关系,兴趣爱好,价值取向等隐私信息,随着互联网营销和大数据挖掘技术的日益发展,这些信息中包含的价值愈发被人们意识到,从而带动了数据挖掘技术的新发展,而数据挖掘技术推向了又一个新的阶段

作为web2.0时代的产物,社交网络和网络媒体的结合体,微博已经被广泛领域相关研究人员进行研究,例如社交网络和媒体分析相关领域,再到计算机科学领域,例如信息见多和自然语言处理方向。全球范围最流行的微博产品Twitter,已经被用来作为研究微博这一新型产品类型特性的典型案例[1],人们也喜欢将它拿来与传统社交网络和网络媒体进行对比[2.3]。

在信息检索领域,相关研究人员研究了微博检索,与传统网页检索对比[4.5].很多基于Twitter的新研究课题被挖掘了出来,比如事件检测和追踪

相关文档
最新文档