昆明理工大学天气决策树
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
昆明理工大学信息工程与自动化学院学生实验报告
(—学年第1学期)
一、上机目的及内容
1.上机内容
根据下列给定的14个数据,运用Information Gain构造一个天气决策树。
12多云中大有P
13多云热正常无P
14雨中大有N
2.上机目的
(1)学习用Information Gain构造决策树的方法;
(2)在给定的例子上,构造出正确的决策树;
(3)理解并掌握构造决策树的技术要点。
二、实验原理及基本技术路线图(方框原理图或程序流程图)
(1)设计并实现程序,构造出正确的决策树;
(2)对所设计的算法采用大O符号进行时间复杂性和空间复杂性分析;
实验考虑到几个属性:天况——晴、雨、多云;温度——热、中、冷;湿度——大、正常;风况——有、无;然后根据每个属性来算出信息增益,接下来我们根据信息增益最大的来进行划分。根据问题设计算法,建立数据结构,设计需要用的类,然后通过编程实现问题求解。了解和求解最大信息增益和最小熵选择平均熵最小的属性作为根节点,用同样的方法选择其他节点直至形成整个决策树。dataset 就是具体的划分过程,首先找到可用的划分项目,再第一次划分之后再相关的数据来计算熵。
Main函数流程图Dataset函数主要流程图Basefun函数流程图
Attributevalue函数流程图
Datapiont函数流程图
三、所用仪器、材料(设备名称、型号、规格等或使用软件)
1台PC及VISUAL C++6.0软件
四、实验方法、步骤(或:程序代码或操作过程)
源代码:
main函数:
#include
#include
#include
#include
#include
#include
#include "AttributeValue.h"
#include "DataPoint.h"
#include "DataSet.h"
DataPoint processLine(std::string const& sLine)
{
std::istringstream isLine(sLine, std::istringstream::in);
std::vector
// TODO: need to handle beginning and ending empty spaces.
while( isLine.good() )
{
std::string rawfield;
isLine >> rawfield;
attributes.push_back( AttributeValue( rawfield ) );
}
AttributeValue v = attributes.back();
attributes.pop_back();
bool type = v.GetType();
return DataPoint(attributes, type);
}
void main()
{
std::ifstream ifs("tree.txt", std::ifstream::in);
DataSet initDataset;
while( ifs.good() )
{
// TODO: need to handle empty lines.
std::string sLine;
std::getline(ifs, sLine);
initDataset.addDataPoint( processLine(sLine) );
}
std::list
std::vector
processQ.push_back(initDataset);
while ( processQ.size() > 0 )
{
std::vector
DataSet dataset = processQ.front();
dataset.splitDataSet(splittedDataSets);
processQ.pop_front();
for (int i=0; i { float prob = splittedDataSets[i].getPositiveProb(); if (prob == 0.0 || prob == 1.0) { finishedDataSet.push_back(splittedDataSets[i]); } else { processQ.push_back(splittedDataSets[i]); } } } std::cout << "The dicision tree is:" << std::endl; for (int i = 0; i < finishedDataSet.size(); ++i) { finishedDataSet[i].display(); } } DataSet函数: #include #include #include "base.h" #include "DataSet.h" void SplitAttributeValue::display() { std::cout << "\tSplit attribute ID(" << m_attributeIndex << ")\t"; std::cout << "Split attribute value(" << m_v.getValue() << ")" << std::endl; } void DataSet::addDataPoint(DataPoint const& datapoint) { m_data.push_back(datapoint); } float DataSet::getPositiveProb() { float nPositive = 0; for(int i=0; i { if ( m_data[i].isPositive() ) { nPositive++; } } return nPositive / m_data.size();