基于主成分分析模型评价和谐宜居城市建设
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
输入层到输出层的连接边:输出词矩阵 U V×n ; 输出层: V 个节点。第i个节点代表中心词是词的概率 首先, 将中心词wt的上下文ct:wt-m, ..., wt-1, wt+1, ...wt+m 转成输入词向量xt+j:
进而将上下文的输入词向量wt-m, ..., wt-1, wt+1, ...wt+m
【作者简介】 赵艺然(1999—),女,本科,研究方向:应用统计。
发明与创新
101
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.
· 百家论苑 ·
表1 KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
Bartlett 的球形度检验
近似卡方
.915 85461.006
df
946
Sig.
.000
源自文库
求出的 KMO 值为0.915,说明可以采用主成分因子分析
法。同时Bartlett 的球形度检验的显著性值为 0,说明数据的
统计显著性非常强。
将44个特征输入,得到主成分分析的解释总方差,
图1 CBOW模型 图2 TextCNN网络模型 TextCNN 是利用卷积神经网络对文本进行分类的算法[4,5], 2014年由 Yoon Kim在《Convolutional Neural Networks for Sentence Classification》[6]一文中提出。TextCNN的核心点在于可以捕获 信息的局部相关性,具体到文本分类任务中可以利用CNN来 提取句子中类似N-Gram的关键信息,使用不同尺寸的kernel_ size来模拟语言模型中的N-Gram,提取句子中的信息。 三、基于主成分分析模型确定影响居民主观感受的主要 因素 主成分分析法(PCA)是模式识别中的一个线性监督分析 法[7-9],主要是基于变量协方差矩阵对原始信息进行压缩和提 取处理。PCA 是将多元的信息线性变换(降维、简化、重排) 为少数的几个综合信息(主成分),不仅保留了原始数据中的 主要信息,而且可以将降维转换后的特征向量线性分类。 首先,将上文确定出的44类关键词作为指标,由于这44 类指标都具有三个属性,分别为表现为积极情感的概率,表 现为消极情感的概率,情感的极性,为了处理成单属性格 式,本文通过下面公式进行数据聚合,将三列属性合并为单 特征,公式如下: fdm = − negative _ prob + positive _ prob + sentimentemotion * prob(2) 其中 Precision 和 Recall 表示准确率, fdm 表示关键词聚 合特征, negative _ prob 表示评论为消极的概率, positive _ prob 表示评论为积极的概率, sentiment 表示情感极性。 接着使用SPSS进行主成分分析。
一、引言 十八大以来,我国政府高层决策相继把建设和谐宜居 城 市 提 升 到 前 所 未 有 的 战 略 高 度,《国 家 新 型 城 镇 化 规 划 (2014—2020)》、中央城市工作会议、十三五规划纲要等均对 建设和谐宜居城市作出专门论述,明确指出要提高城市发展 宜居性,并把建设和谐宜居城市作为城市发展的主要目标。 本文确定了与和谐宜居城市建设有关的44类关键词,再 从社交网络上收集北京市2015年到2018年带有这些关键词的 评论,构建情感分析模型和主成分分析模型,分析影响居民对 “和谐宜居”主观感受的主要因素,进一步了解在建设中需 要加以改进或修正的方面。 二、基于情感分析模型的居民评价模型构建 (一)数据清洗预处理 中文分词是中文类型的自然语言处理的第一个阶段,也 是必不可少的阶段。中文的句意是由词语组成的,分词的意 义在于将中文词语分成一个个有效的,符合句意的词语,本 文采用pkuseg模块[1]进行分词。由于居民评论中经常含有一 些助词、语气词、表情符号或者“回复”等词,这些词语没 有具体的含义,也没有明确的感情倾向,所以将这些词作为 停用词。如果分词结果中含有停用词,则删除该停用词。同 时为了衡量评论内容与评论目标之间的关联程度,去除无意 义的评论,本文计算了评论内容与关键词之间的余弦相似 度,去除相似度为0的评论。 (二)评论文本情感分析建模 通过预训练TextCNN情感分类模型,对清洗完毕的数据 进行情感分类,同时为了能够表达评论语句的强烈程度,使 用情感词典对文本的情感极度进行标记。本文通过对微博情 感200万条数据集[2]进行情感分类训练模型,使用该模型对 数据预处理后的评论文本进行分类,其数据输入为评论文 本,输出为积极/消极的概率以及情感极度。选择CBOW模型 [3]作为词向量模型,采用FastText工具对该词向量进行复现。 CBOW模型是一个两层结构, CBOW模型没有隐含层, 通过上 下文来预测中心词, 并且抛弃了词序信息。 输入层: n个节点,上下文共2m个词的词向量的平均值;
百家论苑 · 百家论苑 ·
基于主成分分析模型评价和谐宜居城市建设
——以北京市为例
赵艺然
(中央民族大学理学院,北京 100081) 摘 要:《国家新型城镇化规划(2014—2020)》、中央城市工作会议、十三五规划纲要等均明确指出要提高城 市发展宜居性,并把建设和谐宜居城市作为城市发展的主要目标。本文从社交网络上收集到的北京市2015年到2018 年与和谐宜居相关的评论为基础,构建情感分析模型和主成分分析模型,得出影响居民对“和谐宜居”主观感受的 主要因素,进一步了解北京市在建设中需要加以改进或修正的方面。 关键词:情感分析;主成分分析;和谐宜居城市建设
求平 均 值 , 作 为 模 型 输 入 : = Vt 21m ∑j Vt + 1,j {∈ - m, . . . , m} \ {0} (1)
输出层采用softmax作为激活函数, 用logloss作为损失函 数, 利用梯度下降带入训练数据训练词向量, 文本中所有词向 量存在于矩阵VV ×n 中。其训练网络图如下:
进而将上下文的输入词向量wt-m, ..., wt-1, wt+1, ...wt+m
【作者简介】 赵艺然(1999—),女,本科,研究方向:应用统计。
发明与创新
101
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.
· 百家论苑 ·
表1 KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
Bartlett 的球形度检验
近似卡方
.915 85461.006
df
946
Sig.
.000
源自文库
求出的 KMO 值为0.915,说明可以采用主成分因子分析
法。同时Bartlett 的球形度检验的显著性值为 0,说明数据的
统计显著性非常强。
将44个特征输入,得到主成分分析的解释总方差,
图1 CBOW模型 图2 TextCNN网络模型 TextCNN 是利用卷积神经网络对文本进行分类的算法[4,5], 2014年由 Yoon Kim在《Convolutional Neural Networks for Sentence Classification》[6]一文中提出。TextCNN的核心点在于可以捕获 信息的局部相关性,具体到文本分类任务中可以利用CNN来 提取句子中类似N-Gram的关键信息,使用不同尺寸的kernel_ size来模拟语言模型中的N-Gram,提取句子中的信息。 三、基于主成分分析模型确定影响居民主观感受的主要 因素 主成分分析法(PCA)是模式识别中的一个线性监督分析 法[7-9],主要是基于变量协方差矩阵对原始信息进行压缩和提 取处理。PCA 是将多元的信息线性变换(降维、简化、重排) 为少数的几个综合信息(主成分),不仅保留了原始数据中的 主要信息,而且可以将降维转换后的特征向量线性分类。 首先,将上文确定出的44类关键词作为指标,由于这44 类指标都具有三个属性,分别为表现为积极情感的概率,表 现为消极情感的概率,情感的极性,为了处理成单属性格 式,本文通过下面公式进行数据聚合,将三列属性合并为单 特征,公式如下: fdm = − negative _ prob + positive _ prob + sentimentemotion * prob(2) 其中 Precision 和 Recall 表示准确率, fdm 表示关键词聚 合特征, negative _ prob 表示评论为消极的概率, positive _ prob 表示评论为积极的概率, sentiment 表示情感极性。 接着使用SPSS进行主成分分析。
一、引言 十八大以来,我国政府高层决策相继把建设和谐宜居 城 市 提 升 到 前 所 未 有 的 战 略 高 度,《国 家 新 型 城 镇 化 规 划 (2014—2020)》、中央城市工作会议、十三五规划纲要等均对 建设和谐宜居城市作出专门论述,明确指出要提高城市发展 宜居性,并把建设和谐宜居城市作为城市发展的主要目标。 本文确定了与和谐宜居城市建设有关的44类关键词,再 从社交网络上收集北京市2015年到2018年带有这些关键词的 评论,构建情感分析模型和主成分分析模型,分析影响居民对 “和谐宜居”主观感受的主要因素,进一步了解在建设中需 要加以改进或修正的方面。 二、基于情感分析模型的居民评价模型构建 (一)数据清洗预处理 中文分词是中文类型的自然语言处理的第一个阶段,也 是必不可少的阶段。中文的句意是由词语组成的,分词的意 义在于将中文词语分成一个个有效的,符合句意的词语,本 文采用pkuseg模块[1]进行分词。由于居民评论中经常含有一 些助词、语气词、表情符号或者“回复”等词,这些词语没 有具体的含义,也没有明确的感情倾向,所以将这些词作为 停用词。如果分词结果中含有停用词,则删除该停用词。同 时为了衡量评论内容与评论目标之间的关联程度,去除无意 义的评论,本文计算了评论内容与关键词之间的余弦相似 度,去除相似度为0的评论。 (二)评论文本情感分析建模 通过预训练TextCNN情感分类模型,对清洗完毕的数据 进行情感分类,同时为了能够表达评论语句的强烈程度,使 用情感词典对文本的情感极度进行标记。本文通过对微博情 感200万条数据集[2]进行情感分类训练模型,使用该模型对 数据预处理后的评论文本进行分类,其数据输入为评论文 本,输出为积极/消极的概率以及情感极度。选择CBOW模型 [3]作为词向量模型,采用FastText工具对该词向量进行复现。 CBOW模型是一个两层结构, CBOW模型没有隐含层, 通过上 下文来预测中心词, 并且抛弃了词序信息。 输入层: n个节点,上下文共2m个词的词向量的平均值;
百家论苑 · 百家论苑 ·
基于主成分分析模型评价和谐宜居城市建设
——以北京市为例
赵艺然
(中央民族大学理学院,北京 100081) 摘 要:《国家新型城镇化规划(2014—2020)》、中央城市工作会议、十三五规划纲要等均明确指出要提高城 市发展宜居性,并把建设和谐宜居城市作为城市发展的主要目标。本文从社交网络上收集到的北京市2015年到2018 年与和谐宜居相关的评论为基础,构建情感分析模型和主成分分析模型,得出影响居民对“和谐宜居”主观感受的 主要因素,进一步了解北京市在建设中需要加以改进或修正的方面。 关键词:情感分析;主成分分析;和谐宜居城市建设
求平 均 值 , 作 为 模 型 输 入 : = Vt 21m ∑j Vt + 1,j {∈ - m, . . . , m} \ {0} (1)
输出层采用softmax作为激活函数, 用logloss作为损失函 数, 利用梯度下降带入训练数据训练词向量, 文本中所有词向 量存在于矩阵VV ×n 中。其训练网络图如下: