分析和预测时序数据的主要方法,如何使用Python处理时序数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析和预测时序数据的主要方法,如何使用Python处理时序数据Zeptolab数据科学家Dmitriy Sergeev介绍了分析和预测时序数据的主要方法。大家好!
这次的开放机器学习课程的内容是时序数据。
我们将查看如何使用Python处理时序数据,哪些方法和模型可以用来预测;什么是双指数平滑和三指数平滑;如果平稳(stationarity)不是你的菜,该怎么办;如何创建SARIMA 并且活下来;如何使用XGBoost做出预测。所有这些都将应用于(严酷的)真实世界例子。
导言
在我的工作中,我几乎每天都会碰到和时序有关的任务。最频繁的问题是——明天/下一周/下个月/等等,我们的指标将是什么样——有多少玩家会安装应用,他们的在线时长会是多少,他们会进行多少次操作,取决于预测所需的质量,预测周期的长度,以及时刻,我们需要选择特征,调整参数,以取得所需结果。
基本定义
时序的简单定义:
时序——一系列以时间顺序为索引(或列出、绘出)的数据点。
因此,数据以相对确定的时刻组织。所以,和随机样本相比,可能包含我们将尝试提取的额外信息。
让我们导入一些库。首先我们需要statsmodels库,它包含了一大堆统计学建模函数,包括时序。对不得不迁移到Python的R粉来说,绝对会感到statsmodels很熟悉,因为它支持类似Wage ~ Age + Education这样的模型定义。
import numpy as np # 向量和矩阵
import pandas as pd # 表格和数据处理
import matplotlib.pyplot as plt # 绘图
import seaborn as sns # 更多绘图功能