文本数据预处理的方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本数据预处理的方法

文本数据分析(一):基本框架

在文本数据分析基本框架中,我们涉及到了六个步骤:

数据收集

数据预处理

数据挖掘和可视化

模型构建

模型评估

虽然框架需要迭代,但是我们先将其看作是一个线性的过程:

修正过的文本数据处理框架(依然很简单……)

很显然,文本数据预处理位于框架的第二步,这一步所包含的详细步骤有以下两个:

在原始文本语料上进行预处理,为文本挖掘或NLP任务做准备

数据预处理分为好几步,其中有些步骤可能适用于给定的任务,也可能不适用。但通常都是标记化、归一化和替代的其中一种(tokenization, normalization, substitution)。

通常,我们会选取一段预先准备好的文本,对其进行基本的分析和变换,遗留下更有用的文本数据,方便之后更深入、更有意义的分析任务。接下来将是文本挖掘或自然语言处理工作的核心工作。

所以再次重复以便,文本预处理的三个主要组成部分:

标记化(tokenization)

归一化(normalization)

替换(substitution)

在下面介绍预处理方法的过程中,我们需要时刻牢记这三个概念。

文本预处理框架

接下来,我们将介绍这个框架的概念,而不涉及工具。在下一篇文章中我们会降到这些步

相关文档
最新文档