【CN110110013A】一种基于时空属性的实体竞争关系数据挖掘方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910388351.7
(22)申请日 2019.05.10
(71)申请人 成都信息工程大学
地址 610225 四川省成都市双流区西南航
空港经济开发区学府路1段24号
申请人 四川省金科成地理信息技术有限公
司
(72)发明人 乔少杰 李艾鲜 温敏 韩楠
魏军林 丁超 程维杰 叶青
彭京 周凯 徐小玲
(74)专利代理机构 成都正华专利代理事务所
(普通合伙) 51229
代理人 李蕊 陈选中
(51)Int.Cl.
G06F 16/28(2019.01)
G06F 16/951(2019.01)G06F 17/27(2006.01)
(54)发明名称
一种基于时空属性的实体竞争关系数据挖
掘方法
(57)摘要
本发明公开了一种基于时空属性的实体竞
争关系数据挖掘方法,将实体竞争关系探测与前
沿的计算机技术相结合,克服了传统的竞争关系
数据挖掘方法不考虑时空属性影响的缺点,科学
的融合实体用户评论、实体用户评论时间和实体
空间位置三大因素,科学精确的量化了实体间的
竞争关系。本发明最终挖掘得到的实体竞争关系
数据取值范围为[0,1],有效解决了传统的竞争
关系挖掘方法和竞争对手识别方法结果对于非
技术人员无法理解,最终还需要人工处理和筛选
的问题。权利要求书3页 说明书8页 附图3页CN 110110013 A 2019.08.09
C N 110110013
A
1.一种基于时空属性的实体竞争关系数据挖掘方法,其特征在于,包括以下步骤:
S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据;
S2、对实体的用户评论数据进行预处理;
S3、采用LDA对预处理后实体的用户评论数据进行主题提取,得到用户评论主题;
S4、根据用户评论主题构建主题-特征匹配规则,并根据主题-特征匹配规则计算得到实体的主题-特征匹配值;
S5、根据实体的经纬度数据计算得到实体距离量化值;
S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值;
S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值;
S8、根据实体相似度量化值计算得到实体竞争关系量化值;
S9、对实体竞争关系量化值进行归一化处理,得到实体竞争关系数据。
2.根据权利要求1所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S2中对实体的用户评论数据进行预处理包括小写转换、去除标点、去除停用词、词条化、拼写校正、词形还原以及词干提取。
3.根据权利要求1所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S3包括以下分步骤:
S31、针对预处理后实体的用户评论数据,将每个实体对应的所有评论作为一篇文档;S32、从文档的Dirichlet分布α中取样生成文档i的主题分布θi ;
S33、从主题分布θi 中取样生成文档i第j个词的主题z i ,j ;
S34、从文档的Dirichlet分布β中取样生成主题z i ,j 的词语多项式分布Φzi ,j ;
S35、从词语多项式分布Φzi ,j 中采样生成主题z i ,j 的词语w i ,j ;
S36、重复步骤S32~S35,直至生成K个主题及其对应的词语。
4.根据权利要求3所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S36中主题数量K的确定方法为:
计算每个主题分布的困惑度perplexity,
计算公式为:
其中N表示在不排重的情况下统计得到的主题分布中所有词语的数量,p(w)表示主题分布中出现词语w的概率,计算公式为:
p(w)=∑z p(z|d)*p(w|z) (2)
其中p(z|d)表示从文档d中抽到主题z的概率,p(w|z)表示从主题z中抽到词语w的概率;
根据每个主题分布的不同区间范围和步长对困惑度perplexity进行迭代,绘制主题数量-困惑度曲线,并在主题数量-困惑度曲线的局部最小值处取得主题数量K的最佳取值。
5.根据权利要求4所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S4包括以下分步骤:
S41、根据K个主题及其对应的词语,建立K条主题-特征匹配规则,每条主题-特征匹配
权 利 要 求 书1/3页2CN 110110013 A