大数据非结构化数据文本分析
大数据分析中的四大数据类型

大数据分析中的四大数据类型在大数据分析中,数据类型是分析过程中不可忽视的重要因素之一。
不同的数据类型包含着不同的信息,对于分析和挖掘数据具有重要意义。
在这篇文章中,将会介绍大数据分析中的四种主要数据类型,并分析它们在分析过程中的应用和局限性。
一、结构化数据结构化数据是指以表格或数据库形式存在的数据,它们具有明确的结构和规范的格式。
结构化数据常见的形式包括Excel表格数据、SQL数据库中的数据等。
结构化数据通过行和列的方式来组织信息,具有良好的可查询性和处理性能。
在大数据分析中,结构化数据可以被直接导入分析工具中,例如通过SQL查询语言来进行数据的筛选和整合。
不过,结构化数据的缺点是它只能表示具有固定结构的数据,对于非结构化或半结构化的数据难以适应。
二、半结构化数据半结构化数据是相对于结构化数据而言的一种数据形式。
半结构化数据没有明确的表格结构,但具有一定的组织方式和标签信息。
常见的半结构化数据包括HTML网页、XML文档、JSON格式数据等。
半结构化数据在大数据分析中具有一定的灵活性,能够适应不同数据源和数据格式的需求。
它可以通过解析和提取标签信息,将数据转化为结构化数据进行进一步分析。
然而,半结构化数据的处理过程相对复杂,需要借助特定的处理工具和技术来完成。
三、非结构化数据非结构化数据是指不具备明确结构和规范格式的数据,它们以自然语言、图像、音频、视频等形式存在。
非结构化数据的特点是信息量大、多样性高,其中包含了丰富的隐含信息和文本特征。
在大数据分析中,非结构化数据的挖掘和分析是一个具有挑战性的任务。
为了处理和分析非结构化数据,需要依赖于自然语言处理、图像识别、音频处理等专业技术和算法。
非结构化数据的广泛应用包括文本情感分析、图像识别、音频信号处理等领域。
四、半结构化数据半结构化数据是介于结构化数据与非结构化数据之间的一种数据类型。
它既包含了一定的结构信息,又存在一定的不规则性和灵活性。
半结构化数据常见的形式包括日志文件、电子邮件、推特消息等。
无需结构化数据的文本分析技术研究

无需结构化数据的文本分析技术研究第一章:引言近年来随着大数据的兴起,数据挖掘和机器学习等技术也得到了广泛应用。
在这些技术中,结构化数据往往受到了较多的关注,因为结构化数据有良好的格式和规范,方便数据的存储和处理。
然而,大量的数据也是以非结构化形式存在的,比如文本数据、图片数据、音频数据等。
其中,文本数据占据了很大的比例。
因此,文本分析技术成为了数据分析领域中的重要研究领域之一。
在文本分析中,无需结构化数据的文本分析技术是一个比较重要的分支。
这种技术可以帮助人们在处理大量非结构化的文本数据时,实现自动化的分析和处理。
但是,由于文本数据的特点,无需结构化数据的文本分析技术的研究和实现面临着一些挑战。
本文将结合实际应用场景,重点介绍无需结构化数据的文本分析技术的研究现状、技术原理和应用前景。
第二章:无需结构化数据的文本分类技术无需结构化数据的文本分类技术是文本分析中的一个关键技术。
该技术可以将大量的文本数据按照设定的类别进行分类,并为每个类别分配相应的标签。
一般而言,文本分类技术可以分为两类:有监督学习和无监督学习。
2.1 有监督学习有监督学习是指在分类过程中,使用已经标注好的数据作为学习数据,通过机器学习算法来训练分类器,并用分类器对新的文本数据进行分类。
由于有监督学习需要有大量已标注的数据,因此其数据的准确性和标注的质量是影响分类效果的关键因素。
常见的有监督学习算法包括朴素贝叶斯、支持向量机、决策树等等。
对于大规模文本分类问题,朴素贝叶斯算法是目前应用最广泛的一种。
2.2 无监督学习与有监督学习不同,无监督学习是指不使用已经标注好的数据,而是直接对文本数据进行聚类分析或主题建模,来实现文本分类的目的。
相比于有监督学习,无监督学习更加具有灵活性,但其分类精度也更难以保证。
常见的无监督学习算法包括K-means、层次聚类、LDA等等。
其中,K-means算法是最为简单且容易实现的一种。
第三章:无需结构化数据的文本情感分析技术无需结构化数据的文本情感分析技术是文本分析领域的另一个重要技术。
非结构化数据分析与处理技术研究

非结构化数据分析与处理技术研究近年来,随着互联网和电子技术的飞速发展,数据已经成为了企业经营和科学研究的重要资源,其价值不断提高。
数据分析已经成为了企业决策和科学研究的重要手段。
然而,大数据时代的来临,使得数据的性质和规模都发生了很大的变化。
非结构化数据的分析和处理技术成为当前数据处理和分析的重要研究方向。
1. 非结构化数据的概念及类型非结构化数据指的是没有固定格式的数据,例如文本、图片、音频、视频等,因此非结构化数据难以用传统的关系型数据库进行存储和处理。
非结构化数据来源广泛,包括社交媒体、在线新闻、博客文章、视频和音频等。
2. 非结构化数据分析技术研究非结构化数据分析技术研究可以分为两个方向:文本分析和图像分析。
(1)文本分析文本分析技术是将非结构化文本数据中蕴含的信息进行自动提取、索引和语义理解的技术。
文本分析技术主要包括文本分类、文本聚类、情感分析、命名实体识别和知识图谱构建等。
(2)图像分析图像分析技术是将非结构化图像数据中蕴含的信息进行自动识别、分类和理解的技术。
图像分析技术主要包括图像分类、目标检测、图像分割、图像识别和图像语义理解等。
3. 非结构化数据处理技术研究非结构化数据处理技术研究主要包括如下几个方面:(1)文本预处理文本预处理是非结构化数据分析中的一个重要环节,主要包括分词、去停用词、词性标注、词向量化和tf-idf等。
分析方法的准确性和效率与文本预处理环节密不可分。
(2)数据挖掘和机器学习算法非结构化数据处理中,最常用的数据挖掘和机器学习算法包括朴素贝叶斯分类器、支持向量机、贝叶斯网络、决策树和深度学习等。
这些算法可以用于非结构化数据的特征提取、分类、群组化和模式挖掘等。
(3)自然语言处理(NLP)自然语言处理(NLP)是处理自然语言文本和语音的分支学科,主要包括自动语音识别、机器翻译、自然语言生成和问答系统。
NLP可以应用于文本生成、文本语义分析、情感分析和智能问答等。
5.常见的非结构化数据主要是文本类的文章,即自然语言数据。

5.常见的非结构化数据主要是文本类的文章,即自然语言数据。
摘要:1.引言2.非结构化数据的定义3.常见的非结构化数据类型4.非结构化数据的应用5.我国在非结构化数据处理方面的发展6.结语正文:【引言】随着互联网和大数据时代的到来,数据类型日趋多样化,其中非结构化数据作为一种重要的数据类型,越来越受到人们的关注。
非结构化数据主要包括文本、图片、音频、视频等,其特点是数据结构不规则、难以用传统数据库表结构进行存储和管理。
本文将重点介绍常见的非结构化数据类型,并探讨我国在非结构化数据处理方面的发展。
【非结构化数据的定义】非结构化数据是指没有明确格式或结构的数据,其内容和形式多样,不易用传统的数据表结构进行表示和存储。
与结构化数据相比,非结构化数据更加灵活,但同时也增加了数据处理和分析的难度。
【常见的非结构化数据类型】常见的非结构化数据主要包括以下几种类型:1.文本类数据:如新闻、文章、社交媒体信息等,这类数据量庞大,且包含丰富的信息,对于文本挖掘和自然语言处理等领域具有很高的研究价值。
2.图片类数据:如图片、图像等,这类数据通常需要进行图像识别和处理,广泛应用于计算机视觉、遥感等领域。
3.音频类数据:如音乐、语音等,这类数据需要进行音频识别和处理,常用于语音识别、自动翻译等场景。
4.视频类数据:如电影、短视频等,这类数据涉及视频识别、行为分析等技术,广泛应用于安防、广告等领域。
【非结构化数据的应用】随着非结构化数据处理技术的不断发展,非结构化数据在各个领域的应用也越来越广泛,主要包括以下几个方面:1.搜索引擎:通过非结构化数据处理技术,搜索引擎可以更快速地索引和检索网页内容,提高搜索效果。
2.智能客服:通过自然语言处理技术,智能客服可以理解和回答用户的问题,提高客户服务水平。
3.舆情分析:通过对文本类数据的挖掘和分析,可以了解公众对某一事件或话题的态度和看法,为政府和企业决策提供参考。
4.个性化推荐:通过对用户行为的分析,可以为用户提供个性化的推荐服务,提高用户体验。
大数据分析师如何进行数据分析的文本分析

大数据分析师如何进行数据分析的文本分析在当今信息爆炸的时代,大数据分析成为了一种重要的技术手段,帮助企业和组织从浩瀚的数据中提取有价值的信息。
而文本分析作为一种重要的数据分析方法,在这个过程中发挥着重要的作用。
本文将讨论大数据分析师如何运用文本分析进行数据分析的方法和技巧。
一、文本分析的概述文本分析是指将非结构化的文本数据转化为结构化数据,并通过分析和挖掘这些结构化数据来获取有用的信息。
文本分析可以分为三个主要的步骤:文本预处理、特征提取和模型构建。
在文本预处理阶段,分析师将文本数据进行清理、归一化和标准化,以便进一步的分析。
在特征提取阶段,分析师将从文本中提取出关键词、短语、主题等关键信息。
最后,在模型构建阶段,分析师将使用机器学习或者自然语言处理的技术来构建模型,对文本数据进行分类、情感分析等。
二、文本预处理文本预处理是文本分析中的关键步骤,它的目的是将文本数据转化为结构化数据。
首先,分析师需要对文本数据进行清洗,包括去除HTML标签、特殊字符、停用词等。
接下来,分析师可以使用分词工具将文本分割成一个个独立的词汇。
最后,分析师需要对分词后的结果进行去重和归一化处理,以便后续的特征提取和建模。
三、特征提取特征提取是文本分析中的关键步骤,它的目的是从文本中提取出具有重要意义的特征信息。
特征可以包括词频、逆文档频率、主题模型等。
其中,词频是指一个词在文本中出现的频率,逆文档频率是指一个词在整个文本集合中出现的频率。
通过计算词频和逆文档频率,可以得到TF-IDF值,从而衡量一个词对于某个文本的重要性。
除了词频和逆文档频率外,分析师还可以使用主题模型来提取文本中隐藏的主题信息,比如Latent Dirichlet Allocation (LDA)模型。
四、模型构建模型构建是文本分析的最后一步,它的目的是使用机器学习或者自然语言处理的技术对文本数据进行分类、情感分析等。
常用的模型包括朴素贝叶斯、支持向量机、循环神经网络等。
数据挖掘中的非结构化数据分析方法

数据挖掘中的非结构化数据分析方法在当今信息爆炸的时代,各行各业都面临着大量的非结构化数据。
这些数据包括文本、图像、音频、视频等形式,不同于结构化数据的明确格式和规则,非结构化数据的处理和分析一直是数据挖掘领域的难题。
本文将探讨数据挖掘中的非结构化数据分析方法。
一、文本挖掘文本挖掘是非结构化数据分析中的重要领域之一。
在大数据时代,海量的文本数据蕴含着丰富的信息,如何从中提取有用的知识成为了研究的热点。
文本挖掘技术主要包括文本预处理、特征提取和模型建立等步骤。
文本预处理是对文本数据进行清洗和归一化的过程,如去除标点符号、停用词等。
特征提取则是将文本数据转化为可用于分析的数值特征,常用的方法有词袋模型、TF-IDF等。
模型建立阶段则是根据特征进行分类、聚类或关联规则挖掘等任务。
二、图像分析随着数字图像的广泛应用,图像分析成为非结构化数据分析的重要领域之一。
图像分析技术主要包括图像预处理、特征提取和模式识别等步骤。
图像预处理是对图像数据进行去噪、增强和分割等操作,以提高后续分析的准确性。
特征提取则是将图像数据转化为可用于分析的数值特征,常用的方法有颜色直方图、纹理特征等。
模式识别阶段则是根据特征进行目标检测、图像分类等任务。
三、音频处理音频处理是非结构化数据分析中的重要领域之一。
音频数据广泛存在于语音识别、音乐分析等领域,如何从音频数据中提取有用的信息是音频处理的核心任务。
音频处理技术主要包括音频预处理、特征提取和模型建立等步骤。
音频预处理是对音频数据进行去噪、降噪和音频分割等操作,以提高后续分析的准确性。
特征提取则是将音频数据转化为可用于分析的数值特征,常用的方法有MFCC、功率谱等。
模型建立阶段则是根据特征进行语音识别、情感分析等任务。
四、视频分析视频分析是非结构化数据分析中的重要领域之一。
随着视频数据的快速增长,如何从视频数据中提取有用的信息成为了研究的热点。
视频分析技术主要包括视频预处理、特征提取和目标跟踪等步骤。
非结构化数据分析与信息提取

非结构化数据分析与信息提取随着互联网的迅猛发展和大数据时代的到来,数据量呈指数级增长,其中很大一部分是非结构化数据。
非结构化数据是指那些不具有固定格式和组织结构的数据,包括文本、音频、图片、视频等形式的数据。
与结构化数据相比,非结构化数据更复杂、更难处理,但却蕴含着巨大的信息价值。
因此,非结构化数据分析与信息提取成为了当前数据科学领域的重要研究方向。
一、非结构化数据分析的挑战与意义非结构化数据的特点在于数据量庞大、内容复杂且难以直接利用。
这对传统的数据分析方法提出了很大的挑战。
传统的结构化数据分析方法主要基于关系型数据库和SQL查询语言,但这些方法往往不能直接应用于非结构化数据。
非结构化数据分析需要从庞杂的数据中提取有效的信息,这对算法和模型的创新提出了更高的要求。
非结构化数据分析的意义在于:首先,非结构化数据包含了大量的文本信息,如网页、社交媒体、新闻文献等,通过分析这些数据可以获取对人类社会和自然环境的深入理解;其次,非结构化数据中蕴含了各种知识和经验,通过分析这些数据可以挖掘出隐藏的规律和趋势,对决策和创新提供支持;最后,非结构化数据分析还可以应用于舆情监测、垃圾信息过滤、情感分析等领域,提供有关公共舆论和市场需求的实时信息。
二、非结构化数据分析的方法与技术为了有效地分析和提取非结构化数据中的信息,研究者们提出了许多方法和技术。
下面介绍几种常见的非结构化数据分析方法:1. 自然语言处理(NLP):NLP是一种研究如何让计算机能够理解和处理人类自然语言的方法。
通过NLP技术,可以从文本中提取关键词、识别实体、进行情感分析等。
2. 文本挖掘(Text Mining):文本挖掘是一种通过自动或半自动的方式从文本中提取隐含的、先前未知的、有用的信息的技术。
文本挖掘可以识别出文本中的主题、发现文本间的关联等。
3. 信息抽取(Information Extraction):信息抽取是从非结构化文本中提取结构化信息的过程。
非结构化大数据分析

非结构化大数据分析
近年来,随着技术的发展,互联网的普及,及计算机处理能力的提高,信息的生成量和流通量越来越大。
大量信息要求系统能够收集、存储和挖掘,以及提供各种数据统计分析和预测,以期能挖掘和发掘数据中隐含的信息和洞察趋势。
但是,因为这些数据经常是“非结构化”数据,传统的基于关系型数据库的方法就无法满足需求,因此,近几年来,非结构化大数据分析已经成为一个热门的主题,越来越多的公司和组织也在尝试和使用这项技术。
首先,非结构化大数据分析涉及大量数据的收集、存储和分析,通常指的是海量的结构化数据和非结构化数据的混合使用。
结构化数据是表示特定概念的数据,通常可以放在表格中,如账单内容、商品信息等,而非结构化数据则是指如文本、图片、视频等多种不同形式的信息,它们多数无法用表格形式表示。
因此,处理混合的结构化与非结构化数据需要一种能够收集、存储、管理、搜索、分析等一系列技术,这一系列技术被称为非结构化数据分析。
其次,非结构化数据分析的目的是发现大数据中的挖掘和发现信息的趋势。
它需要从海量的数据中找出有价值的细节,以驱动出合适的行动或决策,比如下一步发展策略、产品优化方案等。
与传统结构化数据分析不同,这种分析技术需要解决的问题往往要更深入,而且更加灵活,能够帮助管理者快速识别有意义的信息。
最后,实施非结构化数据分析的关键是技术。
非结构化数据分析的技术涉及收集数据、存储数据、搜索数据、分析数据、建模数据和
可视化等等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18
人口属性分析
更换不同的图形类型
品质
速度
创新
Copyright © ePanel All rights reserved.
19
通过数据指向的文本来理解数据
同样,可以点击图形里的编码点,能看到这些编码的具体发言,编码高亮显示。
品质
速度
创新
Copyright © ePanel All rights reserved.
1.0
1-Cluster 2-Cluster 3-Cluster 4-Cluster 5-Cluster 6-Cluster
LL BIC(LL) AIC(LL) AIC3(LL) CAIC(LL) Npar -338.0 721.9 696.0 706.0 731.9 10 -306.1 708.7 654.2 675.2 729.7 21 -296.2 739.4 656.4 688.4 771.4 32 -286.6 770.7 659.1 702.1 813.7 43 -280.3 808.8 668.7 722.7 862.8 54 -275.8 850.4 681.7 746.7 915.4 65
招
审
转
企业方
募
核
化
调 查 应 用
会 员 管 理
调研公司
益派在线调研社区(Market Research Online Community )是将指符合身份 要求的消费者招募到一个独立的线上社
区,在较长一段时间内参加特定主题的
活动,为企业市场调查研究问题提供整 体解决方案。
品质 速度 创新 Copyright © ePanel All rights reserved.
0.0
A1 手 0-1 Mean
A2 油大才用洗碗布 0-1 Mean
A3 洗碗布 0-1 Mean
A4 抹布 0-1 Mean
A5 小毛巾 0-1 Mean
A6 钢丝球、清洁球 0-1 Mean
A7 海绵 0-1 Mean
A8 丝瓜络 0-1 Mean
A9 洗碗刷、炊厨 0-1 Mean
A10 纸巾 0-1 Mean
9
设定语义编码条件
支持复杂的查询条件:例如“油多”的查询条件是: “油”和“重”“多”“腻”“大”等词出现在同一单元格或邻近的文字中。
品质
速度
创新
Copyright © ePanel All rights reserved.
10
子查询之间条件
性别 男 男 女
年龄 32 35 22
属性x … … …
品质
速度
创新
Copyright © ePanel All rights reserved.
16
人口属性信息
通过与定性文档发言人的姓名可以关联发言人的人口属性。
品质
速度
创新
Copyright © ePanel All rights reserved.
5
数据处理分析步骤
设定语义
编码条件
自动编码
关联分析
人口属性
分析
细分分析
品质
速度
创新
Copyright © ePanel All rights reserved.
6
定性资料分析工具
支持文档、数据库、PDF、视频、图片和网页的分析。
品质
速度
创新
Copyright © ePanel All rights reserved.
7
定性资料分析关键是建立树状结构的语义编码
品质
速度
创新
Copyright © ePanel All rights reserved.
8
通过查询的方式建立编码
通过查询的方式建立编码。
品质
速度
创新
Copyright © ePanel All rights reserved.
L2 151.3 87.6 67.7 48.5 36.1 27.1
df 89 78 67 56 45 34
p-value Class.Err. 0.00 0 0.21 0.0242 0.45 0.0291 0.75 0.0563 0.83 0.0583 0.80 0.0494
0.8
0.6
0.4
0.2
非结构化数据的文本分析
演讲人:陈鸿
品质
速度
创新
Copyright © ePanel All rights reserved.
从大量社会化、碎片化信息中洞察消费者
客服记录
意见信箱
微博 论坛
非结构化数据 数据量大
社交网站 留言
博客 购物网站
口头化行文方式
聊天记录
品质
品质
速度
创新
Copyright © ePanel All rights reserved.
15
编码与人口属性的关联方式
编码素材和人口属性信息单独导入,两者通过用户名关联。
用户名 A B A C
编码1 1 1 0 0
编码2 0 1 1 1
编码x 0 0 0 0
用户名 A B C
17
人口属性分析
话题1编码与发言者的性别属性进行交叉分析,该图统计的是不同性别的发言者提到编码 的次数(注:一个发言者在一个发言里虽然提到多次编码,但仍可以计为一次)。
品质
速度
创新
Copyright © ePanel All rights reserved.
11
子查询条件
点击子查询条件,设置子查询特性:关键词+逻辑关系
12
对后期的资料自动编码
前期建立的语义编码查询,可以看做“知识库”,用于后期资料的自动编码,大 大提高了资料处理效率。
品质
速度
创新
Copyright © ePanel All rights reserved.
很难支持数据量较大的信息 分析工作
优点
软件统计分析
1. 2. 利用软件导入分析素材,可进行 词频分析、词性分析、关联分析 对规范化的行文数据分析速度快 支持数据量较大的分析工作 1. 2.
缺点
对数据形式要求高,对口头 化行文数据分析效果差 无法结合语境对语义进行分 析与快速查询
品质
速度
创新
Copyright © ePanel All rights reserved.
Loadings Clusters R2 A1手 0.44 A2油大才用洗碗布 0.37 A3洗碗布 0.93 A4抹布 0.33 A5小毛巾 0.17 A6钢丝球、清洁球 0.07 A7海绵 0.34 A8丝瓜络 0.18 A9洗碗刷、炊厨 0.17 A10纸巾 0.03
0.19 0.14 0.86 0.11 0.03 0.01 0.12 0.03 0.03 0.00
20
用户细分——潜在类别模型
利用语义编码可以进行用户细分。
品质
速度
创新
Copyright © ePanel All rights reserved.
21
用户细分——分析结果
Model1 Model2 Model3 Model4 Model5 Model6
速度
创新
Copyright © ePanel All rights reserved.
2
当前分析非结构化数据信息的方式
优点
人工编码分析
1. 2. 能根据语境准确分词,进行语义 分析 对数据形式要求低,可对口头化 行文数据分析 1.
缺点
人工分析速度慢
2.
人工逐条阅读分析素材,根据语 义进行编码统计与分析
A9 洗碗刷、炊厨 0-1 Mean
A10 纸巾 0-1 Mean
A8丝瓜络 A9洗碗刷、炊厨 A10纸巾
Clus ter1 Clus ter2品质速度 Nhomakorabea创新
Copyright © ePanel All rights reserved.
23
用户细分——分类结果演示
A1手 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 品质 A2油大才 A6钢丝球、 A9洗碗刷、 A3洗碗布 A4抹布 A5小毛巾 A7海绵 A8丝瓜络 A10纸巾 用洗碗布 清洁球 炊厨 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 创新 Copyright © ePanel All rights reserved. 频率 34 1 1 1 1 12 4 2 1 1 1 3 1 4 1 4 1 1 1 5 1 1 3 4 1 1 1 1 3 2 1 模型分类 Cluster1 Cluster2 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 0.9882 0.9828 0.9988 0.9302 0.9174 0.9916 0.9991 0.9395 0.8737 0.7683 0.584 0.095 0.0164 0.0137 0.0228 0.019 0.0031 0.0004 0 0.0061 0.0042 0.0086 0.0003 0.0041 0.0009 0.0002 0.0003 0.3048 0 0 0 0.0118 0.0172 0.0012 0.0698 0.0826 0.0084 0.0009 0.0605 0.1263 0.2317 0.416 0.905 0.9836 0.9863 0.9772 0.981 0.9969 0.9996 1 0.9939 0.9958 0.9914 0.9997 0.9959 0.9991 0.9998 0.9997 0.6952 1 1 1