在线词频、语义、情感分析工具试用心得
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据之前在@数据化管理 微博那里看到的一些在线效率工具,来试用一下。首先就从在线词频、语义、情感分析工具开始吧。
@数据化管理 推荐了三个网站,分别是图悦、大数据搜索与挖掘平台和腾讯文智。
以新浪微博“英国公投决定脱欧 新浪正实时解读”的直播页面为试用对象,地址
为/zt/l/v/news/ygtogt2016/
①图悦:/
初始页面背景是黑色的,看着不舒服,页面换肤后变成白底还可以接受。
左边文本栏可输入待分析的文本,也可以直接复制链接,很人性化。贴入要分析的网页地址,点击分析出图,右边就获得了分析结果。、
结果显示有多种模式,下面截图显示的是默认的热词权重图-标准模式。热词词频图是每个热词后面带括号显示词频,比较乱,不好看。微信模式是圆形的显示框变成扁椭圆式,地图模式是显示框为中国地图的轮廓。
可以导出EXCEL,列明分析出来的关键词、词频和权重。
②大数据搜索与挖掘平台:/nlpir/
看上去功能比较强大,同样可以输入网页URL进行文本抓取。分析结果分为多个板块:
分词标注:可以对词语的词性进行分类分析,发现新词
实体抽取:对文本的实体类型和实体内容进行分析,下图是图表效果,●代表实体类型,●代表实体内容。另外还有文本效果,内容是一样的,效果不如这个好看,就不截图了。
词频统计:按照名词、动词、形容词分类显示词频,有柱状图和折线图两类图表,鼠标停留在某个词上会显示词频数量。
文本分类:似乎是对文本所讨论的问题进行归类,猜哒。
情感分析:不太明确是啥意思 -。-,什么叫正面,什么又叫负面呢,特定人物又是谁?
关键词提取:有两种模式,一是图表,二是文本。图表是个动态图,鼠标放上去的时候会不停的转动,所以看到的文字大小不代表权重。
Word2vec:似乎是分析词的相关性的,有两种模式,一是力导向布局图,二是和弦图
依存文法:看不懂
简繁转换:不解释
自动注音:不解释
摘要提取:所分析的网页本身就有事件简介,所以看不出太多,下文中到“脱欧派取得胜利”是原来的简介,后面两句是根据后续的消息自己补上的??
英国公投决定脱欧新浪正实时解读_直播_新闻中心_新浪网时间:2016年06月22日11:26直播已进行3小时12分简介自1973年加入欧盟前身欧共体后,英国姓“欧”已43年,6月24日,英国全民公投,根据投票结果,脱欧派取得胜利。目前请愿签名已快接近100万。有日本媒体称,日方担心英国离开了欧盟将向中国靠近,这会给日本带来压力。
③腾讯文智:/semantic.cgi
看起来是个试用版,只是提供产品体验的。分为词法类分析、句法类分析、篇章类分析、下载类分析。
词法类分析--分析结果就是把句子拆解成词语进行词性标注。
句法类分析--对句子的词性分析基础上,继续分析主谓宾定状补的句子结构。
篇章类分析--有内容分类、情感分析、关键字分析。下图是对上面那段摘要提取的分析。
最后总结一下3个工具的优缺点吧~~~
优点缺点
图悦简单易用,能够满足关键字提取的需要;
输出图有权重清晰可读;
可导出EXCEL进行其他的加工运用。功能单一;
输出图不够美观;
大数据……功能较多,除了关键词提取还有词性、情感、
相关性等方面的分析;
界面清爽友好;
可提取文章摘要。相关性、情感等对图如何解读需要进行研究;
最简单的关键词提取的输出图不美观,没有权重;不能导出分析数据,不便于理解其分析过程。
腾讯文智有个句法分析,但是中文分析句子结构不知道
有什么用……要是输入个英文句子会不会对英
语学习有帮助?体验版有诸多限制,如文本字数等;后续使用需要注册登录,懒,没弄。