基于主题的情感分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验报告

课程名称:数据挖掘课设

实验名称:基于主题的文本情感分析

实验地点:行远楼

专业班级:软件1533学号:2015005677

学生姓名:高聪江

指导教师:王莉

2017年1月1日

课题代码:

import pandas as pd

import jieba

# from sklearn.feature_extraction.text import CountVectorizer

# from sklearn.feature_extraction.text import TfidfTransformer

from jieba import analyse

# import jieba.posseg as pseg

# from sklearn import feature_extraction

df = pd.read_csv('/home/jiangshen/Downloads/'

'数据挖掘_大数据/数据挖掘程序题/基于主题的文本情感分析/train.csv')

#---------整理情感语料

zongGeShu = len(df.values)

qingGanCi_Train = {}

for i in range(0,zongGeShu):

valueMin001 = str(df.values[i][4])

keyMin001 = str(df.values[i][3])

preValue = valueMin001.split(sep=';')

preKey = keyMin001.split(sep=';')

del preKey[-1]

del preValue[-1]

for k in range(0,len(preKey)):

dictionary = dict(zip(preKey,preValue))

qingGanCi_Train = dict(qingGanCi_Train,**dictionary)

#print(dictionary)

print(qingGanCi_Train)

df = pd.read_csv('/home/jiangshen/Downloads/'

'数据挖掘_大数据/数据挖掘程序题/基于主题的文本情感分析/train.csv')

zongGeShu = len(df.values)

#print(list(df.values[1][4]))

# def quchuqingganci(str1):

# stopWord = ';'

# yuQieCi = list(str1)

# xiangYao = []

# for j in range(0,len(yuQieCi)):

# if yuQieCi[j]!=stopWord:

# xiangYao.append(yuQieCi[j])

# return xiangYao

# def quChuShuXing(str2):

# stopWord = ';'

# yuQie = list(str2)

# print(quchuqingganci(df.values[1][3]))

# for i in range(0,len(df.values)):

# print(ganqingci)

# print(df.values)

# def ciXingPanDuan(word):

# good = list

# bad = list

# if word in good:

# return 1

# if word in bad:

# return -1

# else:

# return 0

#-------------用TF-idf提取关键词

# wordsList = df.values[9998][1]

# vectorizer = CountVectorizer()

# transformer = TfidfTransformer()

# tfidf = transformer.fit_transform(vectorizer.fit_transform(wordsList)) # word = vectorizer.get_feature_names()

# weight = tfidf.toarray()

# print(word)

# yuanzhuti = df.values[1][2]

#data = '我爱你于是标有了光,水果,西瓜,哈哈,我爱水果,和橘都属于芸香科柑橘属的宽皮柑橘类,果实外皮肥厚,内藏瓤瓣

# ,由汁泡和种子构成。李时珍在《本草纲目·果部》中记载:“橘实小,其瓣味微醋(即酸),其皮薄而红,味辛而苦;柑大于橘,其瓣味酢' \

# ',其皮稍厚而黄,叶辛而甘。”一般说来,柑的果形正圆,黄赤色,皮紧纹细不易剥,多汁甘香;橘的果形扁圆,' \

# '红或黄色,皮薄而光滑易剥,味微甘酸。柑和橘虽有区别,但在日常语言中常混用,如广柑也说广橘,蜜橘也说蜜柑' \

# '。橘子中的维生素A还能够增强人体在黑暗环境中的视力和治疗夜盲症。橘子不宜食用过量,吃太多会患有胡萝卜素' \

# '血症,皮肤呈深黄色,如同黄疸一般。若因吃太多橘子造成手掌变黄,只要停吃一段时间,就能让肤色渐渐恢复正常' \

# '。明代张岱季叔张烨芳对橘子情有独钟,据载其“性好啖橘,橘熟,堆砌床案间,无非橘者,自刊不给,'

#---------------关键词提取

#--------------<><><><>-------------

相关文档
最新文档