阿里云专有云企业版机器学习PAI用户指南说明书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习PAI⽤⼾指南·法律声明法律声明
阿⾥云提醒您在阅读或使⽤本⽂档之前仔细阅读、充分理解本法律声明各条款的内容。
如果您阅读或使⽤本⽂档,您的阅读或使⽤⾏为将被视为对本声明全部内容的认可。
1. 您应当通过阿⾥云⽹站或阿⾥云提供的其他授权通道下载、获取本⽂档,且仅能⽤
于⾃⾝的合法合规的业务活动。
本⽂档的内容视为阿⾥云的保密信息,您应当严格遵守保密义务;未经阿⾥云事先书⾯同意,您不得向任何第三⽅披露本⼿册内容或提供给任何第三⽅使⽤。
2. 未经阿⾥云事先书⾯许可,任何单位、公司或个⼈不得擅⾃摘抄、翻译、复制本⽂
档内容的部分或全部,不得以任何⽅式或途径进⾏传播和宣传。
3. 由于产品版本升级、调整或其他原因,本⽂档内容有可能变更。
阿⾥云保留在没有
任何通知或者提⽰下对本⽂档的内容进⾏修改的权利,并在阿⾥云授权通道中不时发布更新后的⽤⼾⽂档。
您应当实时关注⽤⼾⽂档的版本变更并通过阿⾥云授权渠道下载、获取最新版的⽤⼾⽂档。
4. 本⽂档仅作为⽤⼾使⽤阿⾥云产品及服务的参考性指引,阿⾥云以产品及服务的“现
状”、“有缺陷”和“当前功能”的状态提供本⽂档。
阿⾥云在现有技术的基础上尽最⼤努⼒提供相应的介绍及操作指引,但阿⾥云在此明确声明对本⽂档内容的准确性、完整性、适⽤性、可靠性等不作任何明⽰或暗⽰的保证。
任何单位、公司或个⼈因为下载、使⽤或信赖本⽂档⽽发⽣任何差错或经济损失的,阿⾥云不承担任何法律责任。
在任何情况下,阿⾥云均不对任何间接性、后果性、惩戒性、偶然性、特殊性或刑罚性的损害,包括⽤⼾使⽤或信赖本⽂档⽽遭受的利润损失,承担责任(即使阿⾥云已被告知该等损失的可能性)。
5. 阿⾥云⽹站上所有内容,包括但不限于著作、产品、图⽚、档案、资讯、资料、⽹
站架构、⽹站画⾯的安排、⽹⻚设计,均由阿⾥云和/或其关联公司依法拥有其知识产权,包括但不限于商标权、专利权、著作权、商业秘密等。
⾮经阿⾥云和/或其关联公司书⾯同意,任何⼈不得擅⾃使⽤、修改、复制、公开传播、改变、散布、发⾏或公开发表阿⾥云⽹站、产品程序或内容。
此外,未经阿⾥云事先书⾯同意,任何⼈不得为了任何营销、⼴告、促销或其他⽬的使⽤、公布或复制阿⾥云的名称(包括但不限于单独为或以组合形式包含“阿⾥云”、“Aliyun”、“万⽹”等阿⾥云和/或其关联公司品牌,上述品牌的附属标志及图案或任何类似公司名称、商号、商标、产品或服务名称、域名、图案标⽰、标志、标识或通过特定描述使第三⽅能够识别阿⾥云和/或其关联公司)。
6. 如若发现本⽂档存在任何错误,请与阿⾥云取得直接联系。
通⽤约定
格式说明样例
危险该类警⽰信息将导致系统重⼤变更甚⾄故
障,或者导致⼈⾝伤害等结果。
危险
重置操作将丢失⽤⼾配置数据。
警告该类警⽰信息可能会导致系统重⼤变更甚
⾄故障,或者导致⼈⾝伤害等结果。
警告
重启操作将导致业务中断,恢复业务
时间约⼗分钟。
注意⽤于警⽰信息、补充说明等,是⽤⼾必须
了解的内容。
注意
权重设置为0,该服务器不会再接受新
请求。
说明⽤于补充说明、最佳实践、窍⻔等,不是
⽤⼾必须了解的内容。
说明
您也可以通过按Ctrl+A选中全部⽂
件。
>多级菜单递进。
单击设置> ⽹络> 设置⽹络类型。
粗体表⽰按键、菜单、⻚⾯名称等UI元素。
在结果确认⻚⾯,单击确定。
Courier字体命令或代码。
执⾏cd /d C:/window命令,进⼊Windows
系统⽂件夹。
斜体表⽰参数、变量。
bae log list --instanceid
Instance_ID
[] 或者 [a|b]表⽰可选项,⾄多选择⼀个。
ipconfig [-all|-t]
{} 或者 {a|b}表⽰必选项,⾄多选择⼀个。
switch {active|stand}
⽬录
1.什么是机器学习
2.海光服务器和Intel服务器⽀持的功能列表
3.登录机器学习控制台
4.studio⽤⼾指南
4.1. 快速⼊⻔
4.1.1. 概述
4.1.2. 数据准备
4.1.3. 数据预处理
4.1.4. 数据可视化
4.1.
5. 算法建模
4.1.6. 模型预测评估
4.1.7. 离线调度
4.2. 组件说明
4.2.1. 概述
4.2.2. 源/⽬标
4.2.3. 数据预处理
4.2.3.1. 采样与过滤
4.2.3.1.1. 随机采样
4.2.3.1.2. 加权采样
4.2.3.1.3. 过滤与映射
4.2.3.1.4. 分层采样
4.2.3.2. 数据合并
4.2.3.2.1. JOIN
4.2.3.2.2. 合并列
4.2.3.2.3. 合并⾏(UNION)
4.2.3.3. 其他12 13 14 16 16 16 16 18 19 20 21 22 25 25 26 27 27 27 28 29 31 32 32 33 35 37
4.2.3.3.1. 增加序号列
4.2.3.3.2. 拆分
4.2.3.3.3. 缺失值填充
4.2.3.3.4. 归⼀化
4.2.3.3.
5. 标准化
4.2.3.3.6. KV to Table
4.2.3.3.7. Table to KV
4.2.4. 特征⼯程
4.2.4.1. 特征变换
4.2.4.1.1. 主成分分析PCA 4.2.4.2. 特征重要性评估
4.2.4.2.1. 线性模型特征重要性
4.2.4.2.2. 随机森林特征重要性4.2.
5. 统计分析
4.2.
5.1. 数据视图
4.2.
5.2. 全表统计
4.2.
5.3. 相关系数矩阵
4.2.
5.4. 协⽅差
4.2.
5.5. 经验概率密度图
4.2.
5.
6. 卡⽅拟合性检验
4.2.
5.7. 卡⽅独⽴性检验
4.2.
5.8. 散点图
4.2.
5.9. 双样本T检验
4.2.
5.10. 单样本T检验
4.2.
5.11. 洛伦兹曲线
4.2.
5.12. 正态检验
4.2.
5.13. 百分位
4.2.
5.14. ⽪尔森系数37 38
39
44
46
50
53
56
56
56
57
57
59
59
59
60
62
64
65
69
70
72
78
80
81
84
87
89
⽤⼾指南·⽬录机器学习PAI
4.2.
5.15. 直⽅图
4.2.6. 机器学习
4.2.6.1. ⼆分类
4.2.6.1.1. GBDT⼆分类
4.2.6.1.2. 线性⽀持向量机
4.2.6.1.3. 逻辑回归⼆分类
4.2.6.1.4. PS-SMART⼆分类4.2.6.2. 多分类
4.2.6.2.1. K近邻
4.2.6.2.2. 逻辑回归多分类
4.2.6.2.3. 随机森林
4.2.6.2.4. 朴素⻉叶斯
4.2.6.2.
5. PS-SMART多分类4.2.
6.3. K均值聚类
4.2.6.4. DBSCAN
4.2.6.
5. 回归
4.2.6.
5.1. GBDT回归
4.2.6.
5.2. 线性回归
4.2.6.
5.3. PS线性回归
4.2.6.
5.4. PS-SMART回归4.2.
6.6. 协同过滤etrec
4.2.6.7. 评估
4.2.6.7.1. 回归模型评估
4.2.6.7.2. 聚类模型评估
4.2.6.7.3. ⼆分类评估
4.2.6.7.4. 混淆矩阵
4.2.6.7.
5. 多分类评估
4.2.6.8. 预测
90 90 90 90 94 96 98 109 109 111 113 116 117 128 131 135 135 139 142 149 160 162 162 163 167 168 170 171
机器学习PAI⽤⼾指南·⽬录
4.2.7. 深度学习(需单独开通)4.2.7.1. 开通深度学习服务4.2.7.2. 读OSS Bucket
4.2.7.3. TensorFlow 1.4
4.2.8. 时间序列
4.2.8.1. x13_arima
4.2.8.2. x13_auto_arima
4.2.9. ⽂本分析
4.2.9.1. Split Word
4.2.9.2. 停⽤词过滤
4.2.9.3. 字符串相似度
4.2.9.4. 三元组转kv
4.2.9.
5. 字符串相似度-TopN 4.2.9.
6. ngram-count
4.2.9.7. ⽂本摘要
4.2.9.8. 关键词提取
4.2.9.9. 句⼦拆分
4.2.9.10. 语义向量距离
4.2.9.11. ⽂章相似度
4.2.9.12. PMI
4.2.9.13. 词频统计
4.2.9.14. TF-IDF
4.2.9.1
5. PLDA
4.2.9.16. Word2Vec
4.2.10. ⽹络分析
4.2.10.1. k-Core
4.2.10.2. 单源最短路径
4.2.10.3. PageRank 174
174 174 176 180 180 185 191 191 194 195 197 200 202 203 205 208 209 210 212 215 218 219 222 224 224 226 228
⽤⼾指南·⽬录机器学习PAI
4.2.10.4. 标签传播聚类
4.2.10.
5. 标签传播分类
4.2.10.6. Modularity
4.2.10.7. 最⼤联通⼦图
4.2.10.8. 点聚类系数
4.2.10.9. 边聚类系数
4.2.10.10. 计数三⻆形
4.2.10.11. 树深度
4.2.11. ⼯具
4.2.11.1. SQL脚本
4.2.12. ⾦融版块
4.2.12.1. 分箱
4.2.12.2. 数据转换模块
4.2.12.3. 评分卡训练
4.2.12.4. 评分卡预测
4.2.12.
5. PSI
4.2.13. 视频智能算法VIP(需单独开通)4.2.13.1. 视频预处理
4.2.13.1.1. 数据转tfrecord
4.2.13.1.2. 通⽤视频预处理
4.2.13.2. 离线训练模型
4.2.13.2.1. 图像分割训练
4.2.13.2.2. 图像检测训练
4.2.13.2.3. 图像分类训练
4.2.13.2.4. 视频分类
4.2.13.2.
5. 端到端的⽂字识别训练4.2.13.3. 离线预测模型
4.2.13.3.1. 通⽤图像预测230 234 237 238 240 242 245 247 249 249 251 251 253 254 259 261 263 263 263 272 273 273 277 283 290 293 301 301
机器学习PAI⽤⼾指南·⽬录
4.2.13.3.2. 通⽤视频预测
4.2.13.3.3. ASR预测
4.3. 在线预测服务(需单独开通)
4.3.1. 部署在线预测服务
4.3.2. 新建服务
4.3.3. 增加已有服务版本
4.3.4. 新增蓝绿部署
4.4. 算法市场(需要单独开通)
4.4.1. 订阅和使⽤算法
4.4.2. 开发UDF类型算法
4.4.2.1. 开发UDF类型算法并发布到算法市场
4.4.2.2. 开发UDAF类型算法并发布到算法市场
4.4.2.3. 开发UDTF类型算法并发布到算法市场
4.4.3. 开发Spark类型算法
4.4.3.1. 开发Spark 2.x类型算法并发布到算法市场
4.4.3.2. 开发TensorFlow类型算法并发布到算法市场
4.4.3.3. 开发PyTorch类型算法并发布到算法市场
4.4.4. 开发⽰例程序
5.模型管理
6.AutoML⾃动调参(需要单独开通)
6.1. ⾃动调参使⽤说明
6.2. 调参⽅式
7.OpenAPI
7.1. 查询PMML模型列表
7.2. 查看PMML模型详情
7.3. PMML模型下载
7.3.1. ⽣成模型下载地址
7.3.2. 轮询⽣成状态接⼝319 331 332 332 333 336 337 338 339 339 340 346 349 352 352 354 356 359 360 364 364 370 375 375 378 379 379 380
⽤⼾指南·⽬录机器学习PAI
7.4. SDK
8.SDK参考
8.1. EasyVision
8.1.1. 概述
8.1.2. 快速上⼿
8.1.3. 模型导出及预测
8.1.4. 模型库
8.1.4.1. 图像分类
8.1.4.2. 物体检测
8.1.4.3. 图像分割
8.1.4.4. 实例分割
8.1.4.5. ⽂字检测
8.1.4.6. ⽂字识别
8.1.4.7. 端到端的⽂字识别
8.1.5. 配置⽂件样例
8.1.5.1. 图像分类
8.1.5.2. 物体检测
8.1.5.3. 图像分割
8.1.5.4. 实例分割
8.1.5.5. ⽂字检测
8.1.5.6. ⽂字识别
8.1.5.7. 端到端的⽂字识别
8.1.5.8. SavedModel评估
8.1.6. API
8.1.6.1. easy_vision.python.main
8.1.6.2. easy_vision.python.data_main
8.1.6.3. easy_vision.python.inference
9.术语与缩略语382 385 385 385 387 391 397 397 404 409 413 414 418 424 430 430 437 465 469 478 483 494 500 504 504 506 506 519
机器学习PAI⽤⼾指南·⽬录
9.1. 基本术语9.2. 缩略词519 519
⽤⼾指南·⽬录机器学习PAI
机器学习指通过统计学算法,对⼤量的历史数据进⾏学习从⽽⽣成经验模型,利⽤经验模型指导业务。
阿⾥云机器学习是⼀套基于MaxCompute (原ODPS )的数据挖掘、建模、预测的⼯具。
通过阿⾥云机器学习,您可以:
获得算法开发、分享、模型训练、部署、监控等⼀站式算法服务。
您可以通过可视化的操作界⾯来操作整个实验流程,同时也⽀持通过PAI 命令来操作实验。
主要⾯向数据挖掘⼈员、分析师、算法开发者、数据探索者。
在专有云⽅⾯,阿⾥云机器学习平台的运⾏需要依赖于MaxCompute ,将算法包部署到MaxCompute 集群后,您可以通过阿⾥云机器学习平台调⽤算法,实现算法的应⽤和计算引擎的解耦。
阿⾥云机器学习平台丰富的算法和技术保障⽀持,为您解决⾃⾝业务场景带来了更多的可能性和想象空间。
在DT 时代,通过使⽤阿⾥云机器学习平台可以真正的实现数据驱动业务的⽬的。
机器学习主要在以下⼏⽅⾯发挥作⽤:
营销类场景:商品推荐、⽤⼾群体画像、⼴告精准投放。
⾦融类场景:贷款发放预测、⾦融⻛险控制、股票⾛势预测、⻩⾦价格预测。
SNS 关系挖掘:微博粉丝领袖分析、社交关系链分析。
⽂本类场景:新闻分类、关键词提取、⽂章摘要、⽂本内容分析。
⾮结构化数据处理场景:图⽚分类、图⽚⽂本内容提取OCR 。
其它各类预测场景:降⾬预测、⾜球⽐赛结果预测。
机器学习⼤体上可以分为三类:
有监督学习(supervised learning ):指每个样本都有对应的期望值,通过模型搭建,完成从输⼊的特征向量到⽬标值的映射,典型的例⼦是回归和分类问题。
⽆监督学习(unsupervised learning ):指在所有的样本中没有任何⽬标值,期望从数据本⾝发现⼀些潜在的规律,例如⼀些简单的聚类。
增强学习(Reinforcement learning ):相对来说⽐较复杂,是指⼀个系统和外界环境不断地交互,获得外界反馈,然后决定⾃⾝的⾏为,达到⻓期⽬标的最优化。
其中典型的案例就是阿法狗下围棋,或者⽆⼈驾驶。
1.什么是机器学习
机器学习PAI ⽤⼾指南·什么是机器学习
本⽂介绍海光服务器和Intel 服务器分别⽀持的功能模块。
功能
海光服务器Intel 服务器Studio
常规算法组件⽀持⽀持深度学习组件
不⽀持⽀持视频智能算法VIP 不⽀持⽀持AutoML 不⽀持⽀持算法市场
不⽀持⽀持DSW ⽀持⽀持EAS
⽀持
⽀持
2.海光服务器和Intel 服务器⽀持的功能列表
⽤⼾指南·海光服务器和Intel 服务器⽀持的功能列表
机器学习PAI
本⽂为您介绍如何登录机器学习控制台。
前提条件
登录Apsara Uni-manager 运营控制台前,确认您已从部署⼈员处获取Apsara Uni-manager 运营控制台的IP 地址或服务域名地址。
推荐使⽤Chrome 浏览器。
操作步骤
1. 在浏览器地址栏中,输⼊Apsara Uni-manager 运营控制台的服务域名地址,按回⻋键。
2. 输⼊正确的⽤⼾名及密码。
请向运营管理员获取登录控制台的⽤⼾名和密码。
密码修改。
为提⾼安全性,密码⻓度必须为3. 单击登录。
4. 如果账号已激活MFA 多因素认证,请根据以下两种情况进⾏操作:
管理员强制开启MFA 后的⾸次登录:
a. 在绑定虚拟MFA 设备⻚⾯中,按⻚⾯提⽰步骤绑定MFA 设备。
b. 按照步骤2重新输⼊账号和密码,单击登录。
c. 输⼊6位MFA 码后单击认证。
您已开启并绑定MFA :输⼊6位MFA 码后单击认证。
说明 绑定并开启MFA 的操作请参⻅Apsara Uni-manager 运营控制台⽤⼾指南中的章节绑定并开启虚拟MFA 设备。
5. 在Apsara Uni-manager 运营控制台的顶部菜单栏,选择产品 > ⼤数据 > 机器学习PAI ,进⼊机器学习PAI 控制台⼊⼝。
6. 选择组织和地域,单击管理员权限访问,跳转⾄机器学习控制台。
3.登录机器学习控制台
机器学习PAI ⽤⼾指南·登录机器学习控制台
说明如果您是第⼀次登录机器学习控制台,⾸先需要执⾏以下步骤:
i. 创建组织
创建组织⽤于存放资源集及资源集内的资源。
ii. 创建⽤⼾
管理员可以创建⽤⼾,并为⽤⼾赋予不同的⻆⾊,以满⾜不同⽤⼾对系统的访问控制需求。
iii. 创建资源集
申请资源前,需要先创建资源集。
iv. 为资源集添加成员
将⽤⼾添加到资源集中。
v. 进⼊Apsara Uni-manager运营控制台⾸⻚,在顶部菜单栏,选择产品 > ⼤数据 > ⼤数据计算MaxCompute,然后分别创建任务云账号(新建云账号)和项⽬空间。
a. 新建云账号:选择组织为第⼀步中创建的组织。
b. 创建ODPS项⽬:选择组织为第⼀步中创建的组织,资源集为第三步中创建的资源集,任务云账
号为您新建的云账号。
vi. 创建DataWorks⼯作空间,在⾼级设置中选择MaxCompute项⽬名称为您上⼀步中创建的ODPS项⽬。
⽤⼾指南·登录机器学习控制台机器学习PAI
本⽂介绍了如何快速完成数据准备、数据预处理、数据可视化、算法建模、模型预测与评估、在线服务预
测、离线调度任务,旨在引导您⼀站式完成机器学习实验的搭建。
说明 本⽂档内容包含阿⾥云机器学习平台、在线预测、深度学习,其中在线预测和深度学习不是基础平台功能,需要单独购买部署后才能使⽤。
具体操作步骤请参⻅机器学习实验搭建流程图。
机器学习实验搭建流程图
1. 数据准备。
将待训练的数据导⼊机器学习平台。
2. 数据预处理。
将数据进⾏SQL 变换、归⼀化、标准化等处理,使其具有统⼀的量纲。
3. 数据可视化。
将数据⽤图表展⽰出来,⽤于观察数据的特征和数值的分布,作为选择模型算法的依据。
4. 算法建模。
使⽤机器学习算法对数据进⾏训练,最终得到数据模型。
5. 模型预测评估。
对得到的模型进⾏预测和评估,使⽤其结果来指导您的业务。
6. 在线预测服务。
通过在线预测服务,对已经⽣成的实验模型进⾏预测部署,根据预测结果来实时调整您的业务。
7. 离线调度。
对已经运⾏成功的实验进⾏离线调度,使其能够定时执⾏。
数据是建模的基础,本章节介绍如何将数据导⼊机器学习平台。
前提条件
您已拥有⾃⼰的MaxCompute 项⽬,并将表数据传⼊对应的项⽬中。
数据下载地址:下载数据。
操作步骤
1. 登录机器学习控制台。
2. 在左侧导航栏,选择模型开发和训练 > 可视化建模(studio )。
3. 在PAI 可视化建模⻚⾯,单击⽬标项⽬空间操作列下的进⼊机器学习。
4. 在Studio 项⽬空间的左侧导航栏,单击实验。
5. 在实验⻚⾯,右键单击我的实验,选择新建空⽩实验,在弹出的窗⼝中输⼊实验名称和实验描述,完成后
4.studio ⽤⼾指南
4.1. 快速⼊⻔
4.1.1. 概述
4.1.2. 数据准备
机器学习PAI ⽤⼾指南·studio ⽤⼾指南
单击确定,系统直接进⼊组件⻚⾯。
新建实验
6. 在组件栏,单击源/⽬标,向画布中拖⼊读MaxCompute 表组件。
7. 单击读MaxCompute 表组件,配置组件参数。
在右侧的表名中填⼊对应的MaxCompute 表名。
8. 在控制台右侧的参数配置⾯板,单击字段信息,查看输⼊表的字段名、数据类型和前100⾏数据的数值分布。
如下图所⽰。
数据表字段信息
⽤⼾指南·studio ⽤⼾指南机器学习PAI
本章节介绍如何进⾏数据预处理,包括归⼀化、SQL 脚本、数据拆分等⽅法。
前提条件
在进⾏数据预处理之前,请保证您已经完成了数据准备。
操作步骤
1. 登录机器学习控制台。
2. 在左侧导航栏,选择模型开发和训练 > 可视化建模(studio )。
3. 在PAI 可视化建模⻚⾯,单击⽬标项⽬空间操作列下的进⼊机器学习。
4. 在Studio 项⽬空间的左侧导航栏,单击组件。
5. 在组件栏中,单击⼯具,向画布中拖⼊SQL 脚本组件。
单击数据预处理,向画布中拖⼊归⼀化组件并连
线,如下图所⽰。
6. 单击SQL 脚本组件,在画布右侧参数设置⻚签的SQL 脚本输⼊框中,输⼊如下所⽰的SQL 脚本,将字符类型的特征数值化。
select age,
(case sex when 'male' then 1 else 0 end) as sex,
(case cp when 'angina' then 0 when 'notang' then 1 else 2 end) as cp,trestbps,chol,
(case fbs when 'true' then 1 else 0 end) as fbs,
(case restecg when 'norm' then 0 when 'abn' then 1 else 2 end) as restecg,thalach,
(case exang when 'true' then 1 else 0 end) as exang,oldpeak,
(case slop when 'up' then 0 when 'flat' then 1 else 2 end) as slop,ca,
(case thal when 'norm' then 0 when 'fix' then 1 else 2 end) as thal,(case status when 'sick' then 1 else 0 end) as ifHealth from ${t2};
7. 归⼀化组件选择全部字段,将已经数值化的特征变换到0到1之间。
8. 单击数据预处理,向画布中拖⼊拆分组件,并将切分⽐例设置为0.7。
4.1.3. 数据预处理
机器学习PAI ⽤⼾指南·studio ⽤⼾指南
说明 此步骤的⽬的是将数据拆分成两份,70%作为模型训练集,30%作为模型预测集。
本章节介绍如何通过统计分析类型的组件,可视化地查看数据的特征和数值分布。
前提条件
在进⾏数据可视化之前,请保证您已经完成了数据预处理。
操作步骤
1. 登录机器学习控制台。
2. 在左侧导航栏,选择模型开发和训练 > 可视化建模(studio )。
3. 在PAI 可视化建模⻚⾯,单击⽬标项⽬空间操作列下的进⼊机器学习。
4. 在Studio 项⽬空间的左侧导航栏,单击组件。
5. 在组件栏中,单击统计分析,向画布中拖⼊全表统计组件,连线并单击画布上⽅的运⾏。
拖⼊全表统计组件
6. 待实验运⾏结束后,右键单击全表统计组件,选择查看数据,可看到数据的全表统计信息。
分析报告
4.1.4. 数据可视化
⽤⼾指南·studio ⽤⼾指南机器学习PAI
机器学习PAI⽤⼾指南·studio⽤⼾指南
4.1.
5. 算法建模
本章节介绍如何通过机器学习类型的组件,对数据进⾏特征训练,最终⽣成数据模型。
前提条件
在进⾏算法建模之前,请保证您已经完成了数据预处理,并通过数据可视化了解了数据的特征和数值分布。
操作步骤
1. 登录机器学习控制台。
2. 在左侧导航栏,选择模型开发和训练 > 可视化建模(studio)。
3. 在PAI可视化建模⻚⾯,单击⽬标项⽬空间操作列下的进⼊机器学习。
4. 在Studio项⽬空间的左侧导航栏,单击组件。
5. 选择机器学习 > ⼆分类,向画布中拖⼊逻辑回归⼆分类组件,并连接对应的组件流和数据流。
6. 单击该组件,在画布右侧的字段设置⻚签,训练特征列选择13个feature列,参数设置采⽤系统默认参数。
选择字段
7. 单击运⾏。
8. 单击左侧导航栏的模型,查看⽣成的实验模型。
本章节介绍如何通过预测和评估类型的组件,对实验模型进⾏预测和评估。
前提条件
在进⾏模型预测评估之前,请保证您已经完成了算法建模,并在实验下⽣成了机器学习模型。
操作步骤
1. 登录机器学习控制台。
2. 在左侧导航栏,选择模型开发和训练 > 可视化建模(studio )。
3. 在PAI 可视化建模⻚⾯,单击⽬标项⽬空间操作列下的进⼊机器学习。
4. 在Studio 项⽬空间的左侧导航栏,单击组件。
5. 在组件中,单击机器学习,向画布拖⼊预测组件,并连接对应的组件流和数据流。
拖⼊预测组件
6. 单击机器学习 > 评估,向画布拖⼊⼆分类评估组件,并连接对应的组件流和数据流。
7. 单击画布左上⻆的运⾏。
在运⾏过程中,选择某个组件,单击画布右下⻆的开发者⼯具
(
),可查看组件运⾏状态。
4.1.6. 模型预测评估
8. 右键单击⼆分类评估组件,选择查看评估报告,得到不同参数下训练的LR 模型的ROC 曲线。
ROC
曲线
当实验所有的节点都运⾏成功后,您可以将整个实验流程部署⾄离线调度,定时执⾏。
本⽂档以雾霾天⽓预测案例为例。
前提条件
在进⾏离线调度前,请确保您实验的所有节点已经运⾏成功,并且已经成功部署DataWorks 服务。
操作步骤
1. 进⼊实验。
i. 登录机器学习控制台。
4.1.7. 离线调度
ii. 在左侧导航栏,选择模型开发和训练 > 可视化建模(studio)。
iii. 在PAI可视化建模⻚⾯,单击⽬标项⽬空间操作列下的进⼊机器学习。
iv. 在Studio项⽬空间的左侧导航栏,单击实验。
2. 在我的实验⻚签下,单击您的实验,进⼊实验画布区。
重要请保证所选实验已经运⾏成功,各组件框后⾯出现绿⾊对勾。
3. 在画布栏左上⻆,单击部署 > 实验离线调度,跳转⾄DataWorks数据开发平台(DataStudio)。
4. 在DataStudio控制台中,单击新建 > 算法 > 机器学习(PAI),新建⼀个机器学习调度节点。
5. 在新建节点对话框中,输⼊节点名称,并选择⽬标⽂件夹,完成后单击提交。
重要您需要选择算法类型的⽬标⽂件夹。
实验调度节点创建完成后,在画布中按照以下步骤进⾏操作。
6. 在下拉框选择需要部署的实验。
7. 配置调度参数,主要配置调度周期和节点输⼊输出等参数。
8. 单击提交,任务就会从第⼆天开始执⾏。
9. 单击控制台右上⻆的运维中⼼,跳转⾄运维⻚⾯,可以全⽅位地观察机器学习任务的运⾏情况并查看系统
⽇志。
您也可以直接进⾏补数据、实验试跑等操作。
本章节介绍了机器学习各个组件的使⽤⽅法和参数说明。
帮助您在搭建机器学习实验时,可以根据已有数据的特征选择合适的组件,最终⽣成⾼准确率的模型和预测分析结果来指导您的业务。
4.2. 组件说明
4.2.1. 概述
每个组件都有⼀个或多个输⼊输出⼝,您可将⿏标移⾄输⼊或输出⼝上查看其含义,来指导您完成组件的连
线,如下图中的拆分组件。
本章节介绍源/⽬标类型的机器学习组件,包括读数据表和写数据表组件。
读数据表
读取MaxCompute 的表数据组件,默认读取本⼯程下的数据。
若读取其他⼯程的表数据且拥有该⼯程的操作权限,只需在表名前添加⼯程名,格式为 ⼯程名.表名
,如 tianchi_project.weibo_data 。
当输⼊表后,会⾃动读取表的结构数据,可在字段信息⻚签中查看。
本组件不⽀持视图。
若输⼊表是分区表,后台会⾃动勾选分区框,⽤⼾可选择或输⼊分区参数,⽬前仅⽀持输⼊单个分区。
不勾选分区框或勾选后不输⼊分区参数,均默认为输⼊全表。
若输⼊表是⾮分区表,分区框不可勾选。
读数据表
写数据表
4.2.2. 源/⽬标
写⼊数据表的数据组件,同样⽀持写⼊其他⼯程的表数据。
可以设置分区,如果需要写⼊分区表,需要先在MaxCompute 控制台创建好这个表的分区。
可以设置表的⽣命周期lifecycle ,以天为单位。
写数据表
以随机⽅式⽣成采样数据,每次采样是各⾃独⽴的。
可以按照个数或者⽐例进⾏采样,也可以选择是否放回。
参数设置
PAI 命令
Pai –name sample
–project algo_public
-DinputTableName=wbpc
-DoutputTableName=wpbc_sample
-Dratio=0.3;
算法参数
4.2.3. 数据预处理
4.2.3.1. 采样与过滤
4.2.3.1.1. 随机采样
参数说明
参数名称参数描述取值范围默认值inputTableName必选,输⼊表的表名。
--
inputTablePartitions 可选,输⼊表中指定哪些
分区参与训练,格式
为 partition_name=value。
如果是多级,格式
为 name1=value1/name2=v
alue2 。
如果指定多个分
区,中间⽤英⽂逗号分
开。
-输⼊表的所有partition。
ratio必选,指定采样⽐例。
(0,1)-outputTableName必选,输出结果表。
--
outputTablePartition 可选,输出结果表
partition。
-输出表为⾮partition表。
lifecycle 可选,指定输出表⽣命周期。
正整数,[1,3650]输出表没有⽣命周期。
以加权⽅式⽣成采样数据。
权重列必须为double或int类型,按照该列的value⼤⼩采样。
如col的值是1.2和
1.0,则value=1.2所属样本的被采样的概率就⼤⼀些。
参数设置
参数设置
参数名称参数描述
采样个数可⼿动输⼊采样个数,默认是10000个点。
不放回时采样个数不能多于数据条数。
采样⽐例与采样个数⼆选⼀。
可以选择放回采样或者不放回采样,默认为不放回,勾选后变为放
回。
4.2.3.1.2. 加权采样
权重列下拉框选择加权列,加权列⽀持double型和bigint类型。
随机数种⼦正整数,默认为空。
参数名称参数描述
可以选择放回采样或者不放回采样,默认为不放回,勾选后变为放回。
可⼿动输⼊采样个数,默认是10000
个点。
说明不放回时采样个数不能多于数据条数。
下拉框选择加权列,加权列⽀持double型和bigint类型。
PAI 命令
PAI –name WeightedSample
–project algo_public
-DprobCol="previous"
-DsampleSize="500"
-DoutputTableName="test2"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
参数说明
参数名称参数描述
name组件名字。
project ⼯程名,⽤于指定算法所在空间。
系统默认是algo_public,⽤⼾⾃⼰更改后系统会报错。
replace是否放回。
其中true为放回,false为不放回。
probCol选择的要加权的列,每个值代表所在record出现的权重,不需要归⼀化。
sampleSize采样个数。
不放回时采样个数不能多于数据条数。
outputTableNames输出表的名字,多张表⽤逗号分隔。
inputPartitions可选,训练输⼊表分区。
输⼊表对应的输⼊分区,选中全表则为None。
inputTableNmae输⼊表的名字。
replace可选,是否放回。
其中true为放回,不放回时⽆此参数。
对数据按照过滤表达式进⾏筛选,可以重命名字段名。
参数设置
1. 通过where条件实现数据过滤,与SQL类似。
字段设置
4.2.3.1.3. 过滤与映射
过滤条件:⽬前操作符⽀持等号(=),不等号(!=),⼤于号(>),⼩于号(<),⼤于等于号(>=),⼩于等于号(<=),like,rlike。
2. 重命名字段。
重命名字段
PAI 命令
PAI –name Filter
–project algo_public
-DoutTableName="test_9"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition"
-Dfilter="age>=40";
参数说明
参数名称参数描述name 组件名字。
project ⼯程名,⽤于指定算法所在空间。
系统默认是algo_public ,⽤⼾⾃⼰更改后系统会报错。
outTableName 输出表的名字。
inputPartitions 可选,训练输⼊表分区。
输⼊表对应的输⼊分区,选中全表则为None 。
inputTableName 输⼊表的名字。
filter
where 筛选条件,⽬前操作符⽀持等号(=),不等号(!=),⼤于号(>),⼩于号(<),⼤于等于号(>=),⼩于等于号(<=),like ,rlike 。
先将总体的单位按某种特征分为若⼲次级总体(层),然后再从每⼀层内进⾏单纯随机抽样,组成⼀个样本
的统计学计算⽅法。
参数设置
参数名称参数描述
字段设置
分组列:必选项,按此列划分层次。
参数设置
采样⽐例/样本数:必选项,⼩于1表⽰每层采样的⽐例,⼤于1表⽰每层采样的个数。
特殊采样配置:可选项,提供不同层采集不同数量的功能。
随机种⼦数:可选项,1234567。
PAI 命令
Pai –name sample –project algo_public -DinputTableName=wbpc -DoutputTableName=wpbc_sample -DstrataColName="label"
-DsampleSize="A:200,B:300,C:500" -DrandomSeed=1007 -Dlifecycle=30
算法参数
参数说明
4.2.3.1.4. 分层采样
参数名称参数描述
取值范围默认值inputTableName
必选,输⼊表的表名。
-
-
inputTablePartitions 可选,输⼊表中指定哪些分区参与训练,格式为 partition_name=value 。
如果是多级,格式
为 name1=value1/name2=v alue2 。
如果指定多个分区,中间⽤英⽂逗号分开。
-输⼊表的所有partition 。
strataColName 必选,指定分层列。
--outputTableName
必选,输出结果表。
-
-
sampleSize 可选,整数时表⽰每个stratum 的采样个数。
字符串时,格式
为 strata0:n0,strata1:n1.... 表⽰每个startum 分别配置采样个数。
-
sampleRatio 可选,数字时:范围[0,1]表⽰每个startum 的采样⽐例。
字符串时,格式为 strata0:r0,strata1:r1... 表⽰每个stratum 分别配置采样⽐例。
--
randomSeed 可选,随机种⼦数。
-0
lifecycle
可选,指定输出表⽣命周期。
正整数,[1,3650]。
输出表没有⽣命周期。
coreNum 可选,核⼼数,默认⾃动分配。
--
memSizePerCore 可选,每个核⼼的内存,默认⾃动分配。
--
两张表通过关联信息,合成⼀张表,并决定输出的字段,与SQL 的join 语句功能类似。
参数设置
4.2.3.2. 数据合并4.2.3.2.1. JOIN。