机器学习_Trains Data Set(火车数据集)
train validation test 划分
train validation test 划分
在机器学习和数据科学中,训练集(train)、验证集(validation)和测试集(test)的划分是非常重要的步骤。
这三种数据集在模型训练和评估中起着不同的作用。
1. 训练集(Train Set):用于训练机器学习模型的数据集。
它包含了用于构建模型的特征和标签,通过训练集,我们可以训练出具有一定预测能力的模型。
通常,训练集占总数据集的70%到80%。
2. 验证集(Validation Set):用于验证模型性能的数据集。
在模型训练过程中,我们需要不断地调整模型的参数和结构,以优化模型的性能。
验证集就是用来评估不同参数和结构下的模型性能,帮助我们选择最好的模型。
通常,验证集占总数据集的10%到20%。
3. 测试集(Test Set):用于最终评估模型性能的数据集。
在模型训练和参数调整完成后,我们需要使用测试集来评估模型的最终性能。
测试集的评估结果可以为我们提供对模型泛化能力的参考,即模型对新数据的预测能力。
通常,测试集占总数据集的10%左右。
通过合理地划分训练集、验证集和测试集,我们可以更好地评估模型的性能,并选择出最优的模型进行实际应用。
同时,这种划分也有助于防止过拟合和欠拟合问题,提高模型的泛化能力。
dataset用法python
dataset用法python(实用版)目录1.介绍 Dataset2.Python 中使用 Dataset 的方法3.Dataset 的优点4.结论正文1.介绍 DatasetDataset 是一个用于存储和组织数据的 Python 对象。
它可以让你以一种结构化的方式来处理数据,类似于关系型数据库中的表结构。
Dataset由一系列的列和行组成,每一行表示一个记录,每一列表示一个字段。
使用 Dataset 可以让数据处理变得更加简单和直观。
2.Python 中使用 Dataset 的方法在 Python 中,可以使用 pandas 库来创建和操作 Dataset。
以下是一些常用的方法:- import pandas as pd- df = pd.DataFrame(data) # 创建一个 DataFrame- df.append(data, ignore_index=True) # 添加数据到 DataFrame - df.drop(columns=["column_name"]) # 删除指定的列- df.dropna() # 删除包含缺失值的行- df.groupby("column_name").mean() # 按照指定列进行分组并计算平均值3.Dataset 的优点Dataset 具有以下优点:- 结构化:Dataset 以表格的形式存储数据,使得数据结构更加清晰,易于理解和操作。
- 可扩展性:Dataset 可以轻松地扩展或修改,以适应不断变化的数据需求。
- 数据处理:使用 Dataset 可以方便地进行数据处理,如筛选、排序、计算统计等。
- 代码可读性:使用 Dataset 可以提高代码的可读性,使数据处理过程更加清晰。
4.结论Dataset 是 Python 中处理数据的一种有效方式。
通过使用 pandas 库,可以轻松地创建和操作 Dataset,从而简化数据处理过程。
机器学习经典分类算法——k-近邻算法(附python实现代码及数据集)
机器学习经典分类算法——k-近邻算法(附python实现代码及数据集)⽬录⼯作原理存在⼀个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每⼀数据与所属分类的对应关系。
输⼊没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进⾏⽐较,然后算法提取样本集中特征最相似数据(最近邻)的分类特征。
⼀般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不⼤于20的整数。
最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
举个例⼦,现在我们⽤k-近邻算法来分类⼀部电影,判断它属于爱情⽚还是动作⽚。
现在已知六部电影的打⽃镜头、接吻镜头以及电影评估类型,如下图所⽰。
现在我们有⼀部电影,它有18个打⽃镜头、90个接吻镜头,想知道这部电影属于什么类型。
根据k-近邻算法,我们可以这么算。
⾸先计算未知电影与样本集中其他电影的距离(先不管这个距离如何算,后⾯会提到)。
现在我们得到了样本集中所有电影与未知电影的距离。
按照距离递增排序,可以找到k个距离最近的电影。
现在假定k=3,则三个最靠近的电影依次是He's Not Really into Dudes、Beautiful Woman、California Man。
python实现⾸先编写⼀个⽤于创建数据集和标签的函数,要注意的是该函数在实际⽤途上没有多⼤意义,仅⽤于测试代码。
def createDataSet():group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels = ['A','A','B','B']return group, labels然后是函数classify0(),该函数的功能是使⽤k-近邻算法将每组数据划分到某个类中,其伪代码如下:对未知类别属性的数据集中的每个点依次执⾏以下操作:(1)计算已知类别数据集中的点与当前点之间的距离;(2)按照距离递增次序排序;(3)选取与当前点距离最⼩的k个点;(4)确定前k个点所在类别的出现频率;(5)返回前k个点出现频率最⾼的类别作为当前点的预测分类。
dataset的用法
dataset的用法Dataset(数据集)作为机器学习中最为基础的概念之一,其用途广泛,因此在数据科学领域中扮演着非常重要的角色。
数据科学家在许多任务中需要使用数据集,例如图像分类,情感分析,预测等。
本篇文章将探讨数据集的基本用途和用法,以便提供更深入的了解和更好的使用方法。
1. 数据集的定义简单来说,数据集是指一组相关数据的集合,可以包括一系列文件、图像、视频、文本、数字等。
对于机器学习而言,数据集是用于训练和测试机器学习算法的基本数据资源。
数据集由许多小的数据点组成,每个数据点是有标签的,一般以输入数据和输出数据的形式存在。
在数据集的输入数据中,由于需要进行特征提取,数据集通常是具有高维特征的。
2. 数据集的分类数据集根据其整合方式和目的可以分为以下几类:(1)文本数据集:用于文本分类、情感分析等任务。
(2)图像数据集:主要用于计算机视觉任务,例如图像分类、目标检测和图像分割等任务。
(3)音频数据集:用于语音识别和语音合成等任务。
(4)视频数据集:主要用于视频预测、视频分类和视频分割等任务。
(5)时间序列数据集:由时间序列数据组成,主要用于预测和分析时间序列的趋势。
3. 数据集的用途数据集通常用于训练模型以识别数据中的特征。
在机器学习的训练中,需要使用许多数据点来训练机器学习模型。
这些数据点可能来自不同的数据集,并且通常需要进行特征提取以便进行有效的学习。
在机器学习领域,数据集用于监督式学习和非监督式学习。
在监督式学习中,数据集的输入和输出数值由人工标注注明,在非监督式学习中,数据集的输入和输出数值互相独立。
通过对数据集的分析,机器学习模型可以获得对数据点和数据集内的模式的更深入的了解。
4. 数据集的制作对于数据集的制作需要有一定的专业技能及工具支持。
制作过程通常包括以下几个步骤:(1)数据采集:数据采集是指获取数据的过程。
该过程的精度关系到后续的训练和测试效果。
数据的来源可能是从网上下载,也可以通过手动输入等方式进行数据收集。
[综]训练集(trainset)验证集(validationset)测试集(testset)
[综]训练集(trainset)验证集(validationset)测试集(testset)在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set)。
⼀般需要将样本分成独⽴的三部分训练集(train set),验证集(validation set)和测试集(test set)。
其中训练集⽤来估计模型,验证集⽤来确定⽹络结构或者控制模型复杂程度的参数,⽽测试集则检验最终选择最优的模型的性能如何。
⼀个典型的划分是训练集占总样本的50%,⽽其它各占25%,三部分都是从样本中随机抽取。
样本少的时候,上⾯的划分就不合适了。
常⽤的是留少部分做测试集。
然后对其余N个样本采⽤K折交叉验证法。
就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的⼀份做验证,计算预测误差平⽅和,最后把K次的预测误差平⽅和再做平均作为选择最优模型结构的依据。
特别的K取N,就是留⼀法(leave one out)。
这三个名词在机器学习领域的⽂章中极其常见,但很多⼈对他们的概念并不是特别清楚,尤其是后两个经常被⼈混⽤。
Ripley,B.D(1996)在他的经典专著Pattern Recognition and Neural Networks中给出了这三个词的定义。
Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.显然,training set是⽤来训练模型或确定模型参数的,如ANN中权值等; validation set是⽤来做模型选择(model selection),即做模型的最终优化及确定的,如ANN的结构;⽽ test set则纯粹是为了测试已经训练好的模型的推⼴能⼒。
load_dataset 用法
load_dataset 用法load_dataset 是一个用于加载数据集的函数,通常在数据科学和机器学习领域中使用。
以下是 load_dataset 的一般用法:1. 导入所需的库:```pythonimport datasets```2. 加载数据集:```pythondataset = _dataset(name="数据集名称")```在上面的代码中,你需要将 "数据集名称" 替换为你要加载的实际数据集名称。
load_dataset 函数将自动从默认的数据集存储库中下载并加载指定的数据集。
3. 对数据集进行处理:load_dataset 返回的数据集对象包含多个属性,你可以使用这些属性对数据进行进一步的处理和分析。
以下是一些常用的属性:`data`:包含数据集中的所有样本。
`target`:包含每个样本对应的标签。
`features`:包含数据集的特征名称。
`categories`:包含目标变量的类别名称。
`descriptions`:包含数据集的描述信息。
4. 使用数据集进行训练和测试:一旦你加载了数据集,就可以使用它来训练和测试机器学习模型。
以下是一个简单的示例,演示如何使用加载的数据集训练一个模型:```pythonfrom import RandomForestClassifier创建模型实例model = RandomForestClassifier()使用数据集训练模型(dataset["data"], dataset["target"])```在上面的示例中,我们使用了一个随机森林分类器作为模型实例,并使用数据集中的 "data" 和 "target" 属性来训练模型。
你可以根据自己的需求选择合适的模型和参数进行训练和测试。
机器学习_Trains Data Set(火车数据集)
Trains Data Set(火车数据集)数据摘要:2 data formats (structured, one-instance-per-line)中文关键词:多变量,分类,UCI,火车,英文关键词:Multivariate,Classification,UCI,Trains,数据格式:TEXT数据用途:This data set is used for classification.数据详细介绍:Trains Data Set Abstract: 2 data formats (structured, one-instance-per-line)Source:Original owners:Ryszard S. Michalski (michalski '@' ) and Robert SteppDonor:GMU, Center for AI, Software Librarian, Eric E. Bloedorn (bloedorn '@' )Data Set Information:Notes:- Additional "background" knowledge is supplied that provides a partial ordering on some of the attribute values.- We are providing this dataset both in its original form and in a form similar to the more typical propositional datasets in our repository. Since the trains dataset records relations between attributes, this transformation was somewhat challenging. However, it may shed some insight on this problem for people who are more familiar with the simple one-instance-per-line dataset format.Hierarchy of values:if (cshape is one of {openrect,opentrap,ushaped,dblopnrect}then cshape is opentopif (cshape is one of {hexagon,ellipse,closedrect,jaggedtop,slopetop, engine}then cshape closedtopPrediction task: Determine concise decision rules distinguishing trains traveling east from those traveling west.Attribute Information:The following format was used for the "transformed" dataset representation as found in trains.transformed.data (one instance per line):1. Number_of_cars (integer in [3-5])2. Number_of_different_loads (integer in [1-4])3-22: 5 attributes for each of cars 2 through 5: (20 attributes total)- num_wheels (integer in [2-3])- length (short or long)- shape (closedrect, dblopnrect, ellipse, engine, hexagon, jaggedtop, openrect, opentrap, slopetop, ushaped)- num_loads (integer in [0-3])- load_shape (circlelod, hexagonlod, rectanglod, trianglod)23-32: 10 Boolean attributes describing whether 2 types of loads are on adjacent cars of the train- Rectangle_next_to_rectangle (0 if false, 1 if true)- Rectangle_next_to_triangle (0 if false, 1 if true)- Rectangle_next_to_hexagon (0 if false, 1 if true)- Rectangle_next_to_circle (0 if false, 1 if true)- Triangle_next_to_triangle (0 if false, 1 if true)- Triangle_next_to_hexagon (0 if false, 1 if true)- Triangle_next_to_circle (0 if false, 1 if true)- Hexagon_next_to_hexagon (0 if false, 1 if true)- Hexagon_next_to_circle (0 if false, 1 if true)- Circle_next_to_circle (0 if false, 1 if true)33. Class attribute (east or west)The number of cars vary between 3 and 5. Therefore, attributes referring to properties of cars that do not exist (such as the 5 attriubutes for the "5th" car when the train has fewer than 5 cars) are assigned a value of "-".Relevant Papers:R.S. Michalski and J.B. Larson "Inductive Inference of VL Decision Rules" In Proceedings of the Workshop in Pattern-Directed Inference Systems, Hawaii, May 1977.[Web Link]Stepp, R.E. and Michalski, R.S. "Conceptual Clustering: Inventing Goal-Oriented Classifications of Structured Objects" In R.S. Michalski, J.G. Carbonell, and T.M. Mitchell (Eds.) "Machine Learning: An Artificial Intelligence Approach, Volume II". Los Altos, Ca: Morgan Kaufmann.[Web Link]数据预览:点此下载完整数据集。
UCI数据库使用说明
UCI数据库使用说明机器学习领域的UCI数据集使用说明此目录包含数据集和相关领域知识(后面以简短的列表形式进行的注释),这些数据已经或能用于评价学习算法。
每个数据文件(*.data)包含以“属性-值”对形式描述的很多个体样本的记录。
对应的*.info文件包含的大量的文档资料。
(有些文件_generate_ databases;他们不包含*.data文件。
)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。
地址/~mlearn/MLRepository.html,这里的UCI数据集可以看作是通过web的远程拷贝。
作为选择,这些数据同样可以通过ftp获得,ftp://. 可是使用匿名登陆ftp。
可以在pub/machine-learning-databases 目录中找到。
注意:UCI一直都在寻找可加入的新数据,这些数据将被写入incoming子目录中。
希望您能贡献您的数据,并提供相应的文档。
谢谢——贡献过程可以参考DOC-REQUIREMENTS文件。
目前,多数数据使用下面的格式:一个实例一行,没有空格,属性值之间使用逗号“,”隔开,并且缺少的值使用问号“?”表示。
并请在做出您的贡献后提醒一下站点管理员:ml-repository@下面以UCI中IRIS为例介绍一下数据集:ucidata\iris中有三个文件:Indexiris.datasindex为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:Index of iris18 Mar 1996 105 Index08 Mar 1993 4551 iris.data30 May 1989 2604 siris.data为iris数据文件,内容如下:5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa……7.0,3.2,4.7,1.4,Iris-versicolor6.4,3.2,4.5,1.5,Iris-versicolor6.9,3.1,4.9,1.5,Iris-versicolor……6.3,3.3,6.0,2.5,Iris-virginica5.8,2.7,5.1,1.9,Iris-virginica7.1,3.0,5.9,2.1,Iris-virginica……如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa。
tartanair数据集解读
tartanair数据集解读全文共四篇示例,供读者参考第一篇示例:TartanAir数据集是一个用于机器学习和计算机视觉领域的开放数据集,由卡内基梅隆大学团队创建。
该数据集包含大量的室内和室外场景的图像和激光雷达数据,旨在提供一个多传感器模态的数据集,帮助研究人员在不同环境下进行目标识别、场景理解和导航等任务。
TartanAir数据集的特点之一是其高度真实和丰富的场景信息。
通过激光雷达数据,可以获取到场景的三维结构信息,包括建筑物、道路、车辆等物体的准确位置和形状。
图像数据则提供了更加直观的场景信息,可以帮助研究人员从不同角度理解场景的特征和内容。
除了数据的真实性外,TartanAir数据集还包含了大量的标注信息,为研究人员提供了有力的支持。
数据集中包含了目标检测、语义分割、实例分割等多个任务的标注信息,让研究人员可以直接在该数据集上进行模型的训练和测试。
另一个值得注意的特点是TartanAir数据集的多样性。
数据集中包含了来自不同环境下的场景信息,涵盖了室内、室外、城市、农村等多个场景类型。
这种多样性不仅可以帮助研究人员进行跨场景的模型训练和测试,还可以促进相关领域的研究和发展。
在使用TartanAir数据集时,研究人员需要注意数据处理和特征提取的问题。
由于数据集较大,数据处理的效率和准确性成为影响研究结果的重要因素。
数据集中不同模态的数据需要融合和提取有效的特征表示,才能更好地完成各种任务。
TartanAir数据集是一个极具价值和挑战性的数据集,为机器学习和计算机视觉领域的研究提供了重要支持和平台。
通过对该数据集的深入研究和利用,相信可以取得更多有意义的成果,推动相关领域的发展和进步。
第二篇示例:一、数据集特点3. 精准标注:每张图像都有对应的相机位姿和地面真实深度信息,这使得数据集具有高质量的标注,有助于提高算法的精度和泛化能力。
二、数据集应用第三篇示例:TartanAir数据集是一个新型的多模态遥感数据集,由卡耐基梅隆大学的研究人员创建。
深度学习测试数据集(TestSet)和验证数据集(ValidationSet)之间的区别
深度学习测试数据集(TestSet)和验证数据集(ValidationSet)之间的区别我们在做模型的时候,通常会碰到两个数据集:测试数据集(Test Set) 和验证数据集 (Validation Set) 。
那么他之间有何区别呢?下⾯有个简单的解释:训练数据集(Training Set):是⼀些我们已经知道输⼊和输出的数据集训练机器去学习,通过拟合去寻找模型的初始参数。
例如在神经⽹络(Neural Networks)中,我们⽤训练数据集和反向传播算法(Backpropagation)去每个神经元找到最优的⽐重(Weights)。
验证数据集(Validation Set):也是⼀些我们已经知道输⼊和输出的数据集,通过让机器学习去优化调整模型的参数,在神经⽹络中,我们⽤验证数据集去寻找最优的⽹络深度(number of hidden layers),或者决定反向传播算法的停⽌点;在普通的机器学习中常⽤的交叉验证(Cross Validation) 就是把训练数据集本⾝再细分成不同的验证数据集去训练模型。
测试数据集(Test Set):⽤户测试模型表现的数据集,根据误差(⼀般为预测输出与实际输出的不同)来判断⼀个模型的好坏。
为什么验证数据集和测试数据集两者都需要?因为验证数据集(Validation Set)⽤来调整模型参数从⽽选择最优模型,模型本⾝已经同时知道了输⼊和输出,所以从验证数据集上得出的误差(Error)会有偏差(Bias)。
但是我们只⽤测试数据集(Test Set) 去评估模型的表现,并不会去调整优化模型。
在传统的机器学习中,这三者⼀般的⽐例为training/validation/test = 50/25/25, 但是有些时候如果模型不需要很多调整只要拟合就可时,或者training本⾝就是training+validation (⽐如cross validation)时,也可以training/test =7/3.但是在深度学习中,由于数据量本⾝很⼤,⽽且训练神经⽹络需要的数据很多,可以把更多的数据分给training,⽽相应减少validation和test。
dataset用法python
dataset用法python摘要:1.数据集(dataset)的定义和作用2.Python 中处理数据集的方法和常用库3.使用Python 操作数据集的实例正文:1.数据集(dataset)的定义和作用数据集(dataset)是指一组数据的集合,通常用于机器学习、数据挖掘和统计分析等领域。
数据集可以帮助研究人员和开发者训练模型、测试算法和优化程序。
数据集的质量和多样性对于模型的准确性和泛化能力至关重要。
2.Python 中处理数据集的方法和常用库Python 作为一门广泛应用于数据科学领域的编程语言,提供了丰富的库和方法来处理数据集。
以下是一些常用的Python 库:- Pandas:一个功能强大的数据处理库,可以轻松地处理数据表和混合数据(例如CSV、Excel、SQL 等文件格式)。
- NumPy:一个用于数值计算的库,提供了高效的多维数组对象和相关操作函数。
- Matplotlib:一个用于绘制数据图形的库,可以生成各种图表,如折线图、散点图、直方图等。
- Scikit-learn:一个用于机器学习的库,提供了许多常用的数据处理、特征提取和模型评估方法。
3.使用Python 操作数据集的实例下面是一个使用Python 操作数据集的简单实例,主要涉及数据的读取、处理和可视化。
首先,需要安装相关库:```pip install pandas numpy matplotlib scikit-learn```然后,编写代码:```pythonimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_split# 读取数据集data = pd.read_csv("iris.data", names=["sepal_length","sepal_width", "petal_length", "petal_width", "species"])# 数据预处理data = data.dropna() # 删除缺失值X = data[["sepal_length", "sepal_width", "petal_length","petal_width"]]y = data["species"]# 数据集划分X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 可视化数据plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap="viridis", edgecolors="k", label="训练数据")plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap="viridis", edgecolors="k", label="测试数据")plt.legend()plt.show()# 建立模型from sklearn.svm import SVCmodel = SVC(kernel="linear", C=1)model.fit(X_train, y_train)# 模型评估y_pred = model.predict(X_test)score = model.score(X_test, y_test)print(f"模型准确率:{score:.2f}")```上述代码首先从CSV 文件中读取数据集,然后进行预处理,如删除缺失值。
机器学习_Forest Fires Data Set(森林大火数据集)
Forest Fires Data Set(森林大火数据集)数据摘要:This dataset is public available for research. The details are described in [Cortez and Morais, 2007]: [pdf]. Please include this citation if you plan to use this database:P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimaraes, Portugal, pp. 512-523, 2007. APPIA, ISBN-13978-989-95618-0-9.The data can be used to test regression (difficult task), feature selection or outlier detection methods.中文关键词:多变量,回归,特征选择,异常检测,UCI,英文关键词:MultiVarite,Regression,feature selection,outlier detection,UCI,数据格式:TEXT数据用途:The data can be used to test regression (difficult task), feature selection or outlier detection methods数据详细介绍:Forest Fires Data SetAbstract: This is a difficult regression task, where the aim is to predict the burned area of forest fires, in the northeast region of Portugal, by using meteorological and other data.Source:Paulo Cortez, pcortez '@' dsi.uminho.pt, Department of Information Systems, University of Minho, Portugal.Aníbal Morais, araimorais '@' , Department of Information Systems, University of Minho, Portugal.Data Set Information:In [Cortez and Morais, 2007], the output 'area' was first transformed with a ln(x+1) function.Then, several Data Mining methods were applied. After fitting the models, the outputs were post-processed with the inverse of the ln(x+1) transform. Four different input setups were used. The experiments were conducted using a 10-fold (cross-validation) x 30 runs. Two regression metrics were measured: MAD and RMSE. A Gaussian support vector machine (SVM) fed with only 4 direct weather conditions (temp, RH, wind and rain) obtained the best MAD value: 12.71 +- 0.01 (mean and confidence interval within 95% using a t-student distribution). The best RMSE was attained by the naive mean predictor. An analysis to the regression error curve (REC) shows that the SVM model predicts more examples within a lower admitted error. In effect, the SVM model predicts better small fires, which are the majority.Attribute Information:For more information, read [Cortez and Morais, 2007].1. X - x-axis spatial coordinate within the Montesinho park map: 1 to 92. Y - y-axis spatial coordinate within the Montesinho park map: 2 to 93. month - month of the year: 'jan' to 'dec'4. day - day of the week: 'mon' to 'sun'5. FFMC - FFMC index from the FWI system: 18.7 to 96.206. DMC - DMC index from the FWI system: 1.1 to 291.37. DC - DC index from the FWI system: 7.9 to 860.68. ISI - ISI index from the FWI system: 0.0 to 56.109. temp - temperature in Celsius degrees: 2.2 to 33.3010. RH - relative humidity in %: 15.0 to 10011. wind - wind speed in km/h: 0.40 to 9.4012. rain - outside rain in mm/m2 : 0.0 to 6.413. area - the burned area of the forest (in ha): 0.00 to 1090.84(this output variable is very skewed towards 0.0, thus it may makesense to model with the logarithm transform).Relevant Papers:[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9.数据预览:X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0,07,4,oct,tue,90.6,35.4,669.1,6.7,18,33,0.9,0,07,4,oct,sat,90.6,43.7,686.9,6.7,14.6,33,1.3,0,08,6,mar,fri,91.7,33.3,77.5,9,8.3,97,4,0.2,08,6,mar,sun,89.3,51.3,102.2,9.6,11.4,99,1.8,0,08,6,aug,sun,92.3,85.3,488,14.7,22.2,29,5.4,0,08,6,aug,mon,92.3,88.9,495.6,8.5,24.1,27,3.1,0,08,6,aug,mon,91.5,145.4,608.2,10.7,8,86,2.2,0,08,6,sep,tue,91,129.5,692.6,7,13.1,63,5.4,0,07,5,sep,sat,92.5,88,698.6,7.1,22.8,40,4,0,07,5,sep,sat,92.5,88,698.6,7.1,17.8,51,7.2,0,07,5,sep,sat,92.8,73.2,713,22.6,19.3,38,4,0,06,5,aug,fri,63.5,70.8,665.3,0.8,17,72,6.7,0,06,5,sep,mon,90.9,126.5,686.5,7,21.3,42,2.2,0,06,5,sep,wed,92.9,133.3,699.6,9.2,26.4,21,4.5,0,06,5,sep,fri,93.3,141.2,713.9,13.9,22.9,44,5.4,0,05,5,mar,sat,91.7,35.8,80.8,7.8,15.1,27,5.4,0,08,5,oct,mon,84.9,32.8,664.2,3,16.7,47,4.9,0,06,4,mar,wed,89.2,27.9,70.8,6.3,15.9,35,4,0,06,4,apr,sat,86.3,27.4,97.1,5.1,9.3,44,4.5,0,06,4,sep,tue,91,129.5,692.6,7,18.3,40,2.7,0,05,4,sep,mon,91.8,78.5,724.3,9.2,19.1,38,2.7,0,07,4,jun,sun,94.3,96.3,200,56.1,21,44,4.5,0,07,4,aug,sat,90.2,110.9,537.4,6.2,19.5,43,5.8,0,07,4,aug,sat,93.5,139.4,594.2,20.3,23.7,32,5.8,0,07,4,aug,sun,91.4,142.4,601.4,10.6,16.3,60,5.4,0,07,4,sep,fri,92.4,117.9,668,12.2,19,34,5.8,0,06,3,sep,sat,93.4,145.4,721.4,8.1,30.2,24,2.7,0,0 6,3,sep,sun,93.5,149.3,728.6,8.1,22.8,39,3.6,0,0 6,3,sep,fri,94.3,85.1,692.3,15.9,25.4,24,3.6,0,0 6,3,sep,mon,88.6,91.8,709.9,7.1,11.2,78,7.6,0,0 6,3,sep,fri,88.6,69.7,706.8,5.8,20.6,37,1.8,0,0 6,3,sep,sun,91.7,75.6,718.3,7.8,17.7,39,3.6,0,0 6,3,sep,mon,91.8,78.5,724.3,9.2,21.2,32,2.7,0,0 6,3,sep,tue,90.3,80.7,730.2,6.3,18.2,62,4.5,0,0 6,3,oct,tue,90.6,35.4,669.1,6.7,21.7,24,4.5,0,0 7,4,oct,fri,90,41.5,682.6,8.7,11.3,60,5.4,0,0 7,3,oct,sat,90.6,43.7,686.9,6.7,17.8,27,4,0,0 4,4,mar,tue,88.1,25.7,67.6,3.8,14.1,43,2.7,0,0 4,4,jul,tue,79.5,60.6,366.7,1.5,23.3,37,3.1,0,0 4,4,aug,sat,90.2,96.9,624.2,8.9,18.4,42,6.7,0,0 4,4,aug,tue,94.8,108.3,647.1,17,16.6,54,5.4,0,0 4,4,sep,sat,92.5,88,698.6,7.1,19.6,48,2.7,0,0 4,4,sep,wed,90.1,82.9,735.7,6.2,12.9,74,4.9,0,0 5,6,sep,wed,94.3,85.1,692.3,15.9,25.9,24,4,0,0 5,6,sep,mon,90.9,126.5,686.5,7,14.7,70,3.6,0,0 6,6,jul,mon,94.2,62.3,442.9,11,23,36,3.1,0,04,4,mar,mon,87.2,23.9,64.7,4.1,11.8,35,1.8,0,0 4,4,mar,mon,87.6,52.2,103.8,5,11,46,5.8,0,04,4,sep,thu,92.9,137,706.4,9.2,20.8,17,1.3,0,0 4,3,aug,sun,90.2,99.6,631.2,6.3,21.5,34,2.2,0,0 4,3,aug,wed,92.1,111.2,654.1,9.6,20.4,42,4.9,0,0 4,3,aug,wed,92.1,111.2,654.1,9.6,20.4,42,4.9,0,0 4,3,aug,thu,91.7,114.3,661.3,6.3,17.6,45,3.6,0,0 4,3,sep,thu,92.9,137,706.4,9.2,27.7,24,2.2,0,0 4,3,sep,tue,90.3,80.7,730.2,6.3,17.8,63,4.9,0,0 4,3,oct,sun,92.6,46.5,691.8,8.8,13.8,50,2.7,0,0 2,2,feb,mon,84,9.3,34,2.1,13.9,40,5.4,0,02,2,feb,fri,86.6,13.2,43,5.3,12.3,51,0.9,0,02,2,mar,sun,89.3,51.3,102.2,9.6,11.5,39,5.8,0,0 2,2,mar,sun,89.3,51.3,102.2,9.6,5.5,59,6.3,0,0 2,2,aug,thu,93,75.3,466.6,7.7,18.8,35,4.9,0,0 2,2,aug,sun,90.2,99.6,631.2,6.3,20.8,33,2.7,0,0 2,2,aug,mon,91.1,103.2,638.8,5.8,23.1,31,3.1,0,0 2,2,aug,thu,91.7,114.3,661.3,6.3,18.6,44,4.5,0,0 2,2,sep,fri,92.4,117.9,668,12.2,23,37,4.5,0,0 2,2,sep,fri,92.4,117.9,668,12.2,19.6,33,5.4,0,0 2,2,sep,fri,92.4,117.9,668,12.2,19.6,33,6.3,0,0 4,5,mar,fri,91.7,33.3,77.5,9,17.2,26,4.5,0,04,5,mar,fri,91.2,48.3,97.8,12.5,15.8,27,7.6,0,05,4,mar,fri,91.7,33.3,77.5,9,15.6,25,6.3,0,05,4,aug,tue,88.8,147.3,614.5,9,17.3,43,4.5,0,0 5,4,sep,fri,93.3,141.2,713.9,13.9,27.6,30,1.3,0,0 9,9,feb,thu,84.2,6.8,26.6,7.7,6.7,79,3.1,0,09,9,feb,fri,86.6,13.2,43,5.3,15.7,43,3.1,0,01,3,mar,mon,87.6,52.2,103.8,5,8.3,72,3.1,0,01,2,aug,fri,90.1,108,529.8,12.5,14.7,66,2.7,0,0 1,2,aug,tue,91,121.2,561.6,7,21.6,19,6.7,0,01,2,aug,sun,91.4,142.4,601.4,10.6,19.5,39,6.3,0,0 1,2,aug,sun,90.2,99.6,631.2,6.3,17.9,44,2.2,0,0 1,2,aug,tue,94.8,108.3,647.1,17,18.6,51,4.5,0,0 1,2,aug,wed,92.1,111.2,654.1,9.6,16.6,47,0.9,0,0 1,2,aug,thu,91.7,114.3,661.3,6.3,20.2,45,3.6,0,0 1,2,sep,thu,92.9,137,706.4,9.2,21.5,15,0.9,0,0 1,2,sep,thu,92.9,137,706.4,9.2,25.4,27,2.2,0,0 1,2,sep,thu,92.9,137,706.4,9.2,22.4,34,2.2,0,0 1,2,sep,sun,93.5,149.3,728.6,8.1,25.3,36,3.6,0,0 6,5,mar,sat,91.7,35.8,80.8,7.8,17.4,25,4.9,0,0 6,5,aug,sat,90.2,96.9,624.2,8.9,14.7,59,5.8,0,0 8,6,mar,fri,91.7,35.8,80.8,7.8,17.4,24,5.4,0,0 8,6,aug,sun,92.3,85.3,488,14.7,20.8,32,6.3,0,0 8,6,aug,sun,91.4,142.4,601.4,10.6,18.2,43,4.9,0,0 8,6,aug,mon,91.1,103.2,638.8,5.8,23.4,22,2.7,0,0 4,4,sep,sun,89.7,90,704.4,4.8,17.8,64,1.3,0,03,4,feb,sat,83.9,8,30.2,2.6,12.7,48,1.8,0,03,4,mar,sat,69,2.4,15.5,0.7,17.4,24,5.4,0,03,4,aug,sun,91.4,142.4,601.4,10.6,11.6,87,4.5,0,0 3,4,aug,sun,91.4,142.4,601.4,10.6,19.8,39,5.4,0,0 3,4,aug,sun,91.4,142.4,601.4,10.6,19.8,39,5.4,0,0 3,4,aug,tue,88.8,147.3,614.5,9,14.4,66,5.4,0,0 2,4,aug,tue,94.8,108.3,647.1,17,20.1,40,4,0,02,4,sep,sat,92.5,121.1,674.4,8.6,24.1,29,4.5,0,0 2,4,jan,sat,82.1,3.7,9.3,2.9,5.3,78,3.1,0,04,5,mar,fri,85.9,19.5,57.3,2.8,12.7,52,6.3,0,0 4,5,mar,thu,91.4,30.7,74.3,7.5,18.2,29,3.1,0,0 4,5,aug,sun,90.2,99.6,631.2,6.3,21.4,33,3.1,0,0 4,5,sep,sat,92.5,88,698.6,7.1,20.3,45,3.1,0,04,5,sep,mon,88.6,91.8,709.9,7.1,17.4,56,5.4,0,0 4,4,mar,fri,85.9,19.5,57.3,2.8,13.7,43,5.8,0,0 3,4,mar,fri,91.7,33.3,77.5,9,18.8,18,4.5,0,03,4,sep,sun,89.7,90,704.4,4.8,22.8,39,3.6,0,03,4,sep,mon,91.8,78.5,724.3,9.2,18.9,35,2.7,0,0 3,4,mar,tue,88.1,25.7,67.6,3.8,15.8,27,7.6,0,03,4,mar,sat,91.7,35.8,80.8,7.8,11.6,30,6.3,0,0 3,4,mar,sat,91.7,35.8,80.8,7.8,15.2,27,4.9,0,0 3,4,mar,mon,90.1,39.7,86.6,6.2,10.6,30,4,0,03,4,aug,thu,93,75.3,466.6,7.7,19.6,36,3.1,0,03,4,aug,mon,91.5,145.4,608.2,10.7,10.3,74,2.2,0,0 3,4,aug,mon,91.5,145.4,608.2,10.7,17.1,43,5.4,0,0 3,4,sep,sun,92.4,124.1,680.7,8.5,22.5,42,5.4,0,0 3,4,sep,tue,84.4,73.4,671.9,3.2,17.9,45,3.1,0,0 3,4,sep,fri,94.3,85.1,692.3,15.9,19.8,50,5.4,0,0 3,4,oct,sun,92.6,46.5,691.8,8.8,20.6,24,5.4,0,0 3,5,mar,mon,87.6,52.2,103.8,5,9,49,2.2,0,03,5,sep,fri,93.5,149.3,728.6,8.1,17.2,43,3.1,0,0 3,5,oct,wed,91.4,37.9,673.8,5.2,15.9,46,3.6,0,0 2,5,oct,sun,92.6,46.5,691.8,8.8,15.4,35,0.9,0,0 4,6,feb,sat,68.2,21.5,87.2,0.8,15.4,40,2.7,0,0点此下载完整数据集。
机器学习的数据集概念
机器学习的数据集概念
机器学习的数据集指的是用于训练和评估机器学习模型的数据集合。
数据集由一组样本组成,每个样本包含一个或多个特征和一个或多个标签(也称为目标变量)。
特征是描述样本的属性或特性,标签是要预测或分类的值。
数据集分为训练集和测试集。
训练集用于训练机器学习模型,而测试集用于评估模型的性能。
通常,训练集占据数据集的大部分,测试集用于检验模型的泛化能力。
数据集可以是结构化的,其中每个样本的特征和标签都是数值或离散的类别。
数据集也可以是非结构化的,例如文本、图像或音频数据。
一个好的数据集应该具有以下特点:
1. 丰富的样本:包含足够的样本数量,以便模型可以从中学习特征和模式。
2. 代表性的样本:样本应该来自真实世界,并且能够准确地反映出要解决的问题。
3. 准确的标签:标签应该准确地表示样本的真实值或类别。
4. 均衡的类别:对于分类问题,每个类别的样本数量应该比较均衡,以避免模型对少数类别的过度偏好。
5. 适当的特征:选择具有预测能力的特征,并进行适当的特征工程处理。
数据集的质量和特点对于机器学习模型的性能和泛化能力具有重要影响,因此在
使用数据集时需要仔细选择和处理。
python中train的用法
在Python中,"train"通常与机器学习、深度学习和其他类型的模型训练相关。
下面是一些常见的用法示例:1. 机器学习库Scikit-learn中的训练:```pythonfrom sklearn.linear_model import LogisticRegression# 创建模型model = LogisticRegression()# 准备数据X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练模型model.fit(X_train, y_train)```2. 深度学习库TensorFlow中的训练:```pythonimport tensorflow as tf# 创建模型model = tf.keras.Sequential([yers.Dense(64, activation='relu', input_shape=(784,)),yers.Dense(10, activation='softmax')])# 编译模型pile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics=['accuracy'])# 准备数据train_data = tf.data.Dataset.from_tensor_slices((train_images.reshape(-1, 784), train_labels)).batch(32)# 训练模型model.fit(train_data, epochs=5)```3. 自然语言处理库NLTK中的训练:```pythonfrom nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsfrom nltk.stem import WordNetLemmatizerfrom nltk.tokenize import word_tokenize, sent_tokenize from nltk.stem import WordNetLemmatizerfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import wordnet as wnimport stringimport pandas as pdimport numpy as npimport reimport nltknltk.download('punkt')nltk.download('stopwords')nltk.download('wordnet')nltk.download('averaged_perceptron_tagger')nltk.download('vader_lexicon')from nltk.sentiment import SentimentIntensityAnalyzer as sda # for sentiment analysisimport os # for file operationsfrom collections import Counter # for collections of word counts & finding unique words etc.,.. etc...from collections import defaultdict # for creating default dict.,... etc...from sklearn.feature_extraction.text import CountVectorizer # for text classification tasks using TF-IDF etc.,.. etc... and also for TF and IDF values.,.. etc... & TFIDF values.,.. etc... and also for TfidfVectorizer().fit_transform() function which returns TF-IDF matrix.,.. etc... & also for .get_feature_names() function which returns features names.,.. etc... & also for .get_feature_names_out() function which returns features names.,.. etc... ...for text classification tasks using TF-IDF etc.,.. etc... and also for TF and IDF values.,.. etc... & TFIDF values.,.. etc... and also for TfidfVectorizer().fit_transform() function which returns TF-IDF matrix.,.. etc... & also for .get_feature_names() function which returns features names.,.. etc... & also for .get_feature_names_out() function which returnsfeatures names.,.. etc... ...for text classification tasks using TF-IDF etc.,.. etc... and also for TF and IDF values.,.. etc... & TFIDF values.,.. etc... and also for TfidfVectorizer().fit_transform() function which returns TF-IDF matrix.,.. etc... & also for .get_feature_names() function which returns features names.,.. etc... & also for .get_feature_names_out() function which returns features names.,.. etc... ...for text classification tasks using TF-IDF etc.,.. etc... and also for TF and IDF values.,.. etc... & TFIDF values.,.. etc... and also for TfidfVectorizer().fit_transform() function which returns TF-IDF matrix.,.. etc... & also for .get_feature_names() function which returns features names.,.. etc... & also for .get_feature_names_out()。
SAS学习系列09. 用SET语句创建,修改数据集
09. 用SET语句创建,修改数据集(一)用SET语句创建/修改数据集用SET语句,可以从已有数据集创建新数据集、增加新变量、修改数据集。
注意:SET语句是一次一个观测值地,对已有数据集循环执行数据步创建新数据集。
一、基本语法data 新数据集名< (可选项) >;set 已有数据集名< (可选项) >;示例(从数据集sales创建子数据集Friday,增加变量Total):data friday;set sales;if Day = 'F';Total = Popcorn + Peanuts;run;例1 关于火车运汽车的数据(C:\MyRawData\Train.dat),包括发车时间、火车上的汽车数、火车中的人数:数据被读入一个永久数据集trains.sas7bdat中,储存在“D:\我的文档\My SAS Files\9.3”目录下。
代码:data'c:\MySASLib\trains';infile'c:\MyRawData\Train.dat';input Time TIME5. Cars People;run;由于每辆车的最大乘客数为6人,现在想知道一列火车上,平均每辆汽车的乘客数是多少,在一个新数据集中插入一列计算。
代码:set'D:\我的文档\My SAS Files\9.3\trains';PeoplePerCar = People / Cars;run;proc print data = averagetrain;title'Average Number of People per Train Car';format Time TIME5.;run;运行结果:二、用“drop(舍弃)和keep(保留)选项”选择变量(列)在data步中该选项以及SET语句,可以控制从原数集中读出的变量是否被写入要创建的数据集。
traindata函数
traindata函数
TrainData是OpenCV中的一个重要类,用于训练机器学习模型。
该类提供了一种简单而快速的方式,可以从样本图形中提取特征,以便机器学习算法能够更好地对图像进行分类或检测。
在使用TrainData之前,需要首先定义一个空的TrainData对象,并使用addSample方法向其中添加训练数据。
训练数据通常由一组输入和输出向量组成,并用于训练机器学习模型。
在添加完所有训练数据后,需要调用TrainData对象的方法来提取特征以及训练机器学习算法。
在完成训练后,可以使用TrainData
对象的predict方法来对新的图像进行分类或检测。
值得注意的是,TrainData的使用需要一定的机器学习知识和经验,并且不同的数据集可能需要不同的TrainData配置参数。
因此用户在使用TrainData时需要深入了解机器学习算法和其应用场景。
总之,TrainData是OpenCV中一个非常重要而实用的类,对于需要对图像进行分类或检测等应用场景的开发者来说,掌握其使用方法将会对应用的性能和准确度产生重要影响。
数据挖掘机器学习中的一些数学方法教材
FROM:/机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)版权声明:本文由LeftNotEasy所有,发布于。
如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。
前言:上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning 公开课,在verycd可下载,可惜没有翻译。
不过还是可以看。
另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书,而且是2008年的,算是比较新的一本书了。
前几天还准备写一个分布式计算的系列,只写了个开头,又换到写这个系列了。
以后看哪边的心得更多,就写哪一个系列吧。
最近干的事情比较杂,有跟机器学习相关的,有跟数学相关的,也有跟分布式相关的。
这个系列主要想能够用数学去描述机器学习,想要学好机器学习,首先得去理解其中的数学意义,不一定要到能够轻松自如的推导中间的公式,不过至少得认识这些式子吧,不然看一些相关的论文可就看不懂了,这个系列主要将会着重于去机器学习的数学描述这个部分,将会覆盖但不一定局限于回归、聚类、分类等算法。
回归与梯度下降:回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。
用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。
大概就是,做一个房屋价值的评估系统,一个房屋的价值来自很多地方,比如说面积、房间的数量(几室几厅)、地段、朝向等等,这些影响房屋价值的变量被称为特征(feature),feature在机器学习中是一个很重要的概念,有很多的论文专门探讨这个东西。
pytorch train_dataset用法
在PyTorch中,train_dataset是一个用于训练模型的Dataset对象。
Dataset 是PyTorch提供的一个用于存储数据的数据结构,它可以通过__len__方法返回数据集的大小,并通过__getitem__方法返回第i个数据。
通常,我们会创建一个继承自torch.utils.data.Dataset的类,并重写__len__和__getitem__方法来创建自己的Dataset。
下面是一个简单的例子:from torch.utils.data import Datasetclass MyDataset(Dataset):def __init__(self, data, target):self.data = dataself.target = targetdef __getitem__(self, index):return self.data[index], self.target[index]def __len__(self):return len(self.data)在这个例子中,MyDataset的__getitem__方法返回一个元组,第一个元素是数据,第二个元素是目标。
__len__方法返回数据集的大小。
然后,你可以创建一个MyDataset的实例,并用它来训练你的模型:data = ... # 输入你的数据target = ... # 输入你的目标dataset = MyDataset(data, target)然后你可以使用数据加载器(DataLoader)来加载数据:pythonfrom torch.utils.data import DataLoaderloader = DataLoader(dataset, batch_size=32, shuffle=True)在训练循环中,你可以使用数据加载器来获取数据和目标:for epoch in range(num_epochs):for batch_data, batch_target in loader:# 在这里输入你的训练代码...这就是如何使用PyTorch的train_dataset的基本用法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Trains Data Set(火车数据集)
数据摘要:
2 data formats (structured, one-instance-per-line)
中文关键词:
多变量,分类,UCI,火车,
英文关键词:
Multivariate,Classification,UCI,Trains,
数据格式:
TEXT
数据用途:
This data set is used for classification.
数据详细介绍:
Trains Data Set Abstract: 2 data formats (structured, one-instance-per-line)
Source:
Original owners:
Ryszard S. Michalski (michalski '@' ) and Robert Stepp
Donor:
GMU, Center for AI, Software Librarian, Eric E. Bloedorn (bloedorn '@' )
Data Set Information:
Notes:
- Additional "background" knowledge is supplied that provides a partial ordering on some of the attribute values.
- We are providing this dataset both in its original form and in a form similar to the more typical propositional datasets in our repository. Since the trains dataset records relations between attributes, this transformation was somewhat challenging. However, it may shed some insight on this problem for people who are more familiar with the simple one-instance-per-line dataset format.
Hierarchy of values:
if (cshape is one of {openrect,opentrap,ushaped,dblopnrect}
then cshape is opentop
if (cshape is one of {hexagon,ellipse,closedrect,jaggedtop,slopetop, engine}
then cshape closedtop
Prediction task: Determine concise decision rules distinguishing trains traveling east from those traveling west.
Attribute Information:
The following format was used for the "transformed" dataset representation as found in trains.transformed.data (one instance per line):
1. Number_of_cars (integer in [3-5])
2. Number_of_different_loads (integer in [1-4])
3-22: 5 attributes for each of cars 2 through 5: (20 attributes total)
- num_wheels (integer in [2-3])
- length (short or long)
- shape (closedrect, dblopnrect, ellipse, engine, hexagon, jaggedtop, openrect, opentrap, slopetop, ushaped)
- num_loads (integer in [0-3])
- load_shape (circlelod, hexagonlod, rectanglod, trianglod)
23-32: 10 Boolean attributes describing whether 2 types of loads are on adjacent cars of the train
- Rectangle_next_to_rectangle (0 if false, 1 if true)
- Rectangle_next_to_triangle (0 if false, 1 if true)
- Rectangle_next_to_hexagon (0 if false, 1 if true)
- Rectangle_next_to_circle (0 if false, 1 if true)
- Triangle_next_to_triangle (0 if false, 1 if true)
- Triangle_next_to_hexagon (0 if false, 1 if true)
- Triangle_next_to_circle (0 if false, 1 if true)
- Hexagon_next_to_hexagon (0 if false, 1 if true)
- Hexagon_next_to_circle (0 if false, 1 if true)
- Circle_next_to_circle (0 if false, 1 if true)
33. Class attribute (east or west)
The number of cars vary between 3 and 5. Therefore, attributes referring to properties of cars that do not exist (such as the 5 attriubutes for the "5th" car when the train has fewer than 5 cars) are assigned a value of "-".
Relevant Papers:
R.S. Michalski and J.B. Larson "Inductive Inference of VL Decision Rules" In Proceedings of the Workshop in Pattern-Directed Inference Systems, Hawaii, May 1977.
[Web Link]
Stepp, R.E. and Michalski, R.S. "Conceptual Clustering: Inventing Goal-Oriented Classifications of Structured Objects" In R.S. Michalski, J.G. Carbonell, and T.M. Mitchell (Eds.) "Machine Learning: An Artificial Intelligence Approach, Volume II". Los Altos, Ca: Morgan Kaufmann.
[Web Link]
数据预览:
点此下载完整数据集。