基于数据挖掘技术的建筑企业信用评价
基于数据挖掘技术的信用评级模型研究
基于数据挖掘技术的信用评级模型研究近年来,随着金融市场的快速发展,信贷市场的竞争也日趋激烈,要素资源的合理利用与资产负债控制越来越重要。
这时候,信用评级就成为了银行、投资公司和各种融资机构中必不可少的一环。
而现在,基于数据挖掘技术的信用评级模型在市场上逐渐崭露头角,因为它能够更准确地预测借款人还款能力,降低风险和提高收益。
一、什么是基于数据挖掘技术的信用评级模型基于数据挖掘技术的信用评级模型是指通过收集、处理信贷复合数据,应用数据挖掘算法,对借款人信贷偿还能力及资信状况进行预测和评估的模型。
该模型的建立需要全面、准确地了解借款人的各种信用方面信息,如个人基本信息、职业信息、经济财务信息、社会网络信息等,并运用数据挖掘算法,构建合理、可靠的信用评估模型。
基于数据挖掘技术的信用评级模型主要由数据预处理、特征选择、模型构建、模型评价四部分组成。
其中,数据预处理主要是对原始数据进行处理、去噪、缺失值填充和数据清洗等,以确保数据质量和减小建模误差;特征选择是指通过对原始的借款人信用信息进行分析和处理,选取最有代表性的若干特征来建立信用评级模型;模型构建是指依据选定的特征、算法和样本数据,通过训练建模技术,建立可信、健壮和高效的信用评级模型;模型评价则是对建立的模型进行测试和验证,从而评估模型预测准确性和可用性。
二、地位与作用基于数据挖掘技术的信用评级模型在金融业中的地位不容小觑。
它不仅可以帮助银行等金融机构更好地评估各类借款人的信贷能力和风险水平,减少贷款风险,提高资产负债率的稳定性和可控性;而且还可以促进金融市场的健康发展,为经济的持续增长提供有力支撑。
同时,基于数据挖掘技术的信用评级模型也有一定的风险。
如果所选特征不够充分、模型构建不够合理或数据预处理出现误差等,都有可能使得信用评级模型的预测能力出现偏差和不准确。
因此,金融机构在建立和使用该模型时,必须进行全面评估和审核,确保评估结果的真实性和可靠性。
一种基于大数据挖掘技术的企业信用评价方法[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201610118033.5(22)申请日 2016.03.02(71)申请人 上海源庐加佳信息科技有限公司地址 201208 上海市浦东新区双桥路1255号2006室(72)发明人 杨炜祖 李从恺 (74)专利代理机构 上海科盛知识产权代理有限公司 31225代理人 宣慧兰(51)Int.Cl.G06F 17/30(2006.01)G06Q 30/00(2012.01)G06Q 10/06(2012.01)(54)发明名称一种基于大数据挖掘技术的企业信用评价方法(57)摘要本发明涉及一种基于大数据挖掘技术的企业信用评价方法,包括以下步骤:1)将待评价企业的信用信息分为基本评价、人力资源、产品、售后服务和拖欠款项五个角度,并且在每个角度中设置多个评价关键词;2)通过爬虫方法从多个搜索引擎上获取待评价企业的所有评价关键词,并采用模糊字符串匹配方法进行去重,获取各个角度中所有评价关键词出现的次数;3)根据各个角度中所有评价关键词出现的次数分别对每个角度进行加权评分,并进行归一化处理;4)采用五位雷达图显示待评价企业的五个角度归一化处理后的评分。
与现有技术相比,本发明具有节约时间、数据全面、考虑全面、显示直观等优点。
权利要求书1页 说明书4页 附图1页CN 105787073 A 2016.07.20C N 105787073A1.一种基于大数据挖掘技术的企业信用评价方法,其特征在于,包括以下步骤:1)将待评价企业的信用信息分为基本评价、人力资源、产品、售后服务和拖欠款项五个角度,并且在每个角度中设置多个评价关键词;2)通过爬虫方法从多个搜索引擎上获取待评价企业的所有评价关键词,并采用模糊字符串匹配方法进行去重,获取各个角度中所有评价关键词出现的次数;3)根据各个角度中所有评价关键词出现的次数分别对每个角度进行加权评分,并进行归一化处理;4)采用五位雷达图显示待评价企业的五个角度归一化处理后的评分。
基于数据挖掘的信用评估技术
基于数据挖掘的信用评估技术在经济全球化的时代,信用评估是不可或缺的一个重要环节。
在众多的评估技术中,基于数据挖掘技术的信用评估越来越受到关注。
本文就基于数据挖掘的信用评估技术进行探讨。
一、数据挖掘技术在信用评估中的应用随着大数据时代的到来,信用评估的信息量也越来越大。
在这个背景下,数据挖掘技术的应用变得越来越重要。
数据挖掘技术是从大量数据中提取知识的方法,其可以自动化地发掘和分析数据中的模式和规律,辅助决策者进行判断和决策。
数据挖掘技术在信用评估中的应用主要集中在以下几个方面:1.数据预处理:数据预处理是数据挖掘的必要步骤之一。
在信用评估中,数据预处理包括数据清洗、数据变换、数据规约等。
这些工作主要是为了提高数据的质量和准确性,使数据更加适合应用于信用评估。
2.特征选择:在信用评估中,选择合适的特征是非常重要的。
特征选择的目标是选出最相关、最具代表性的特征,使得数据集合的区别在特征上表现更加明显。
数据挖掘技术可以自动地选择最优的特征,提高信用评估的准确性。
3.模型构建:在信用评估中,通过数据挖掘技术构建模型是一个重要的步骤。
模型构建需要考虑不同类型的模型,比如决策树、神经网络、支持向量机等等。
通过构建模型,可以识别出客户的信用等级,并为信用评估提供有效的决策依据。
二、基于数据挖掘的信用评估技术的优点相比传统的信用评估技术,基于数据挖掘的信用评估技术具有以下几个优点:1.更准确的评估:传统的信用评估技术通常是基于统计模型进行评估的。
而基于数据挖掘的信用评估技术可以利用大量的数据进行建模和预测,从而提高评估的准确性。
2.更快速的评估:基于数据挖掘的信用评估技术可以快速地分析大量的数据,通过挖掘数据中的规律和模式,可以快速地从复杂的数据中提取有效的信息,从而加速评估的过程。
3.更全面的评估:传统的信用评估技术通常只考虑少量的因素,如客户的收入、负债等。
而基于数据挖掘的信用评估技术可以考虑更多的因素,如客户的行为习惯、社交圈子等,从而更全面地评估客户的信用。
数据挖掘算法在信用评估中的应用
数据挖掘算法在信用评估中的应用一、引言随着互联网的普及和发展,人们愈发依赖于数字化的世界。
而在这个数字化的时代,数据积累的速度与日俱增,正因如此,数据挖掘算法应运而生。
近年来,数据挖掘在各个领域受到了广泛的关注和应用。
本文将讨论数据挖掘算法在信用评估中的应用。
二、信用评估简介信用评估通常用于确定一个人、组织或实体是否能够及时、完全地履行其金融义务。
在对贷款申请进行评估时,银行需要了解申请人当前的财务状况、历史还款能力、就业状况等等,从而作出贷款的决策。
传统的信用评估通常依赖于属性键值对的统计分析,但是这种方法并不能充分利用闲散的数据信息,因此需要更加高效的信用评估方法来提高贷款审批的质量和速度。
三、数据挖掘算法在信用评估中的应用1、分类算法分类是一种将实例与预定义的类标签联系起来的过程。
在信用评估中,我们将用户的信用分数分类为好、坏、中等等级,分类算法可以根据用户的信息和历史记录等数据,自动分类确定每个用户所属的等级。
在分类算法中,最常用的算法是决策树。
决策树是一种基于树形结构进行决策的算法,它的好处是能够非常直观地呈现出数据的分类过程。
在信用评估中,我们可以利用决策树算法来分类用户的信用评级。
决策树可以将不同属性进行比较,根据不同属性进行判断,在最后确定用户的信用评分。
2、关联规则算法关联规则算法通常用于挖掘数据集不同属性之间的关联关系。
在信用评估中,我们可以利用关联规则算法来发现用户特征之间的关联关系,据此可以根据数据挖掘算法建立用户画像,更好地了解用户需求。
在关联规则算法中,Apriori算法是其中较为经典的算法。
Apriori算法能够利用频繁项集的性质,快速地发现候选规则,进而挖掘出数据集中隐藏的模式。
在信用评估中,我们可以利用Apriori算法找到信用评分与用户各项属性之间存在的关联,有助于更加准确地评估用户的信用分数。
3、聚类算法聚类算法通常用于将数据根据相似性进行分组,寻找不同组之间的区别。
数据挖掘算法在信用评分中的应用方法研究
数据挖掘算法在信用评分中的应用方法研究信用评分是现代金融领域中非常重要的工具之一,它用于衡量个人或机构的信用风险,为贷款、信用卡和其他信用交易提供决策依据。
随着金融行业的发展和数据的爆炸增长,传统的信用评分模型已经无法满足日益复杂的金融环境中的需求。
因此,数据挖掘算法成为提高信用评分准确性和效率的重要工具之一。
本文将介绍数据挖掘算法在信用评分中的应用方法研究,并探讨其优势和挑战。
一、数据挖掘算法在信用评分中的应用方法1. 逻辑回归模型逻辑回归模型是一种广泛应用于分类问题的数据挖掘算法。
在信用评分中,逻辑回归模型可以通过分析变量之间的关系,建立一个可以预测个体信用违约概率的数学模型。
模型的输入包括各种客户信息,如年龄、收入、负债比率等,而输出为客户的信用评分。
逻辑回归模型可以根据历史数据训练得出,然后用于预测新客户的信用评分。
2. 决策树算法决策树算法是通过构建一个树状的决策模型,根据不同的特征值进行分类或预测的算法。
在信用评分中,决策树算法可以用于判断客户是否属于信用违约或者允许发放贷款的类别。
通过对客户的特征进行分析,决策树算法能够帮助金融机构更准确地评估客户信用,降低信用风险。
3. 随机森林算法随机森林算法是一种基于决策树的集成学习方法,通过生成多个决策树模型,并将它们集成起来进行分类或预测。
在信用评分中,随机森林算法可以通过对多个决策树的综合判断,提高信用评分的准确率和鲁棒性。
随机森林算法的特点是能够处理大量的特征变量,且能够解决变量之间的复杂关系,因此在信用评分中应用广泛。
4. 支持向量机算法支持向量机算法是一种监督学习的方法,适用于二分类和多分类问题。
在信用评分中,支持向量机算法能够通过将客户划分为不同的类别,并通过最大化类别间的间隔来提高模型的泛化能力。
该算法具有较好的适应性和可解释性,能够处理非线性关系和高维数据,因此在信用评分中被广泛应用。
二、数据挖掘算法在信用评分中的优势1. 提高评分准确性传统的信用评分模型往往基于经验规则和简单统计方法建立,准确性有限。
基于数据挖掘技术的信用评估模型构建及优化
基于数据挖掘技术的信用评估模型构建及优化随着经济的不断发展,信用评估逐渐成为了金融领域中重要的一环。
而近年来,数据挖掘技术迅速发展,为信用评估提供了更加可靠和高效的解决方案。
本文将详细探讨基于数据挖掘技术的信用评估模型构建及优化。
一、数据挖掘技术在信用评估中的应用数据挖掘技术是通过计算机算法和程序,对大规模数据集进行的自动化分析的过程。
在信用评估中,数据挖掘技术可以对客户的历史数据、银行流水、社交网络等多方面数据进行全面的分析,以提高评估的精度和可靠性。
1.数据选取在数据挖掘中,数据是最基础的要素。
因此,为了构建出高质量的信用评估模型,应该通过大量的数据选取,来获取具有代表性的样本数据。
同时,数据的质量和准确性也是非常重要的。
选用质量较高且相关性强的数据,可以在信用评估中发挥更好的作用。
2.数据清洗为了获得准确的数据,清洗数据是不可或缺的一步。
传统的数据清洗是通过人工对数据进行处理,不仅费时费力,而且效果有限。
而数据挖掘技术能够通过算法自动识别并清洗无效数据,提高数据的准确性和可靠性。
3.特征选择在建立信用评估模型的过程中,选取相关性高、重要性强的特征变量是非常重要的。
数据挖掘技术可以通过算法识别出相关性不强的变量并进行筛选,提高了模型的准确性。
4.模型训练构建好信用评估模型后,就需要通过大量真实数据进行模型训练,从而增强模型的智能化水平。
模型训练可以通过监督学习和无监督学习实现。
二、信用评估模型的优化1.算法优化在数据挖掘中,算法是核心要素。
因此,通过优化算法,可以提高模型的准确性和效率。
例如,采用集成学习方法,将多个算法结合起来进行评估,可以提高评估的可靠性。
2.特征优化特征优化指的是对模型中选择的特征变量进行调整和优化,以提高模型的准确性。
例如可以通过深度学习算法对特征进行分析,识别出更为细微、有价值的特征,从而提高模型的准确度。
3.经验优化优化信用评估模型不能脱离实际业务需求和实践经验。
基于数据挖掘技术的企业信用评估研究
基于数据挖掘技术的企业信用评估研究随着经济的发展,企业信用评估越来越受到人们的关注。
在传统的信用评估方式中,往往依靠人工赋值,存在着时间成本高、评估标准不明确等问题。
随着数据挖掘技术的发展,越来越多的企业将其应用于信用评估领域,以便更准确、更高效地评估企业信用。
数据挖掘是一种通过对数据进行分析、处理、识别模式和建立模型来获取知识的过程。
其具体实现的过程是,通过对不同维度、不同类型、不同来源的数据进行收集、清洗和预处理,提取数据中的有效信息,进行特征分析和建模,进而得出结论。
在进行企业信用评估时,数据挖掘技术可以从以下几个方面入手:一、企业背景分析包括企业的行业类型、企业规模、所在地区、企业历史发展状况等因素。
这些因素不仅反映了企业的经营状况,还可以帮助评估其经营风险。
二、财务指标分析通常包括财务数据中的利润、资产、负债、现金流等指标。
这些指标可以反映企业的盈利能力、资产状况、偿债能力和现金流量状况等,从而评估其财务状况。
三、经营管理分析企业的经营管理状况直接影响着企业的发展。
数据挖掘技术可以从企业的管理层、组织架构、营销策略、产品研发等方面进行分析,以评估企业的经营管理水平。
四、市场竞争分析市场的竞争性对于企业的发展至关重要。
数据挖掘技术可以从市场份额、市场渗透率、价格竞争力等方面来评估企业在市场中的竞争力和地位。
基于以上四个方面的数据,可以通过模型分析、关联规则挖掘、分类算法等方法来建立企业信用评估模型,从而预测企业未来的发展趋势。
当然,数据挖掘技术本身也存在一些局限性和不足。
比如,一些因素可能受到外部环境影响较大,如政策、自然灾害等因素,不能完全用数据来描述。
再者,数据的质量不仅取决于采集方式、存储方式和处理方式等因素,还可能受到人为因素的影响。
因此,当企业使用数据挖掘技术进行信用评估时,需要同时考虑数据的质量和数据的普适性,才能更准确地评估企业的信用状况。
总之,数据挖掘技术的应用让信用评估变得更加客观、准确和高效。
数据挖掘技术在信用评分中的应用
数据挖掘技术在信用评分中的应用随着互联网的快速发展和信息技术的日新月异,大数据时代已经来临。
在这样一个充满海量数据的时代,如何高效地从大数据中提取有价值的信息,成为了各行业的迫切需求。
信用评分作为金融行业中的关键性环节,数据挖掘技术的应用正逐渐展现出巨大潜力。
本文将介绍数据挖掘技术在信用评分中的应用,探讨其优势和挑战。
首先,数据挖掘技术可以帮助信用评分机构更有效地分析借款人的信用状况。
传统的信用评分方式通常依赖于人工判断和统计数据,这种方法存在主观性强和信息有限等问题。
而数据挖掘技术可以通过分析大量的非结构化数据,挖掘出与信用评分相关的特征,帮助评分机构更准确地判断借款人的信用状况。
例如,通过分析借款人在社交媒体上的行为和言论,评分机构可以了解借款人的社交网络和口碑,进而判断其信用风险。
其次,数据挖掘技术可以帮助银行和金融机构优化信贷决策流程。
传统的信贷决策模型通常基于历史数据和专家经验,这种模型的建立需要大量的时间和成本,并且容易受到人为主观因素的干扰。
而数据挖掘技术可以通过挖掘历史数据中的规律和模式,自动构建信贷决策模型,提高决策的准确性和效率。
例如,通过建立机器学习模型,银行可以根据借款人的个人信息、历史交易记录等数据,自动评估其还款能力和风险等级,从而更好地进行信贷决策。
另外,数据挖掘技术还可以帮助银行和金融机构发现隐藏在数据中的欺诈行为。
欺诈行为对于金融机构来说是一项重要的挑战,因为欺诈活动可能导致巨大的经济损失。
传统的欺诈检测方法通常依赖于静态的规则和模型,很难适应欺诈行为的变化和复杂性。
而数据挖掘技术可以通过分析大量的交易数据,挖掘出欺诈行为的模式和规律,帮助金融机构实时监测和预测潜在的欺诈活动。
例如,通过建立基于异常检测的模型,银行可以实时监测交易数据中的异常行为,并及时采取措施防止欺诈发生。
然而,数据挖掘技术在信用评分中的应用面临着一些挑战。
首先,数据的质量和完整性是影响挖掘结果的关键因素。
数据挖掘技术在信用评估中的应用
数据挖掘技术在信用评估中的应用在现代社会中,信用评估成为了各个领域中重要的考量因素之一。
无论是金融行业还是电商平台,信用评估都具有重要的意义。
随着数据挖掘技术的不断发展,其在信用评估中的应用也逐渐展现出了巨大的潜力。
本文将讨论数据挖掘技术在信用评估中的应用,并深入探讨其对于信用评估的价值和影响。
一、数据挖掘技术介绍数据挖掘是一种从大规模数据中提取出有价值的信息和知识的技术。
它通过运用统计学、模式识别、机器学习等多领域的知识和技术,挖掘数据中存在的隐藏模式、关联规则、趋势等,并根据这些信息进行预测和决策。
数据挖掘技术具有高效性、准确性和自动化等优势,因此在信用评估领域中有着广泛的应用前景。
二、数据挖掘技术在信用评估中的应用1. 个人信用评估针对个人信用评估,数据挖掘技术可以通过分析个人的银行账户、借贷记录、消费行为等数据,构建个人信用评分模型。
通过对大量历史数据的分析,数据挖掘技术可以发现个人的信用行为模式,进而预测其未来的信用状况。
这为金融机构和贷款机构提供了更准确、更全面的信用评估手段,降低了信用风险。
2. 企业信用评估对于企业信用评估,数据挖掘技术同样发挥着重要作用。
通过分析企业的财务报表、交易记录、供应链信息等数据,数据挖掘技术可以评估企业的偿债能力、经营状况和风险水平。
基于数据挖掘技术,金融机构可以更准确地判断企业的信用状况,从而提供更有针对性的融资服务和信用额度。
3. 欺诈检测数据挖掘技术在信用评估中还可以应用于欺诈检测。
通过分析大量的交易数据和用户行为,数据挖掘技术可以发现异常模式和异常规则,识别潜在的欺诈行为。
这对于金融机构、电商平台等需要进行信用评估的机构来说,具有重要的参考价值,可以有效地防止欺诈行为的发生。
三、数据挖掘技术对信用评估的影响数据挖掘技术在信用评估中的应用,对于提高评估准确性和效率具有明显的影响。
首先,数据挖掘技术可以挖掘出隐藏的规律和关联,从而提供更全面、更准确的评估结果。
基于数据挖掘的企业信用评级模型研究
基于数据挖掘的企业信用评级模型研究企业信用评级是金融领域中非常重要的一项工作。
通过对企业的信用状况进行评估,金融机构和投资者可以更好地了解企业的风险和信用状况,从而做出更明智的金融决策。
随着大数据时代的到来,利用数据挖掘技术进行企业信用评级的方法正在得到广泛关注和应用。
本文将探讨基于数据挖掘的企业信用评级模型的研究。
首先,数据挖掘是从海量数据中发现隐藏的、有价值的知识或信息的过程。
在企业信用评级中,数据挖掘技术可以帮助识别和提取关键的特征变量,从而构建准确的评级模型。
数据挖掘的过程主要包括数据清洗、特征选择、模型构建和模型评估等环节。
在数据清洗方面,企业信用评级所使用的数据通常来自于各种不同的信息源,如财务报表、信用记录、经济指标等。
这些数据通常存在着异常值、缺失值和噪声等问题,因此需要进行数据清洗的工作。
清洗后的数据能够更好地反映企业的真实情况,提高评级模型的准确性。
特征选择是数据挖掘过程中的关键环节。
在构建企业信用评级模型时,我们需要从大量的特征变量中挑选出与信用评级相关的变量。
常用的特征选择方法包括相关系数分析、主成分分析和信息增益等。
这些方法能够帮助我们找到最具影响力的特征变量,减少模型的维度,提高评级模型的精确度和预测能力。
模型构建是企业信用评级的核心任务。
在构建评级模型时,常用的方法包括传统的统计分析方法和机器学习方法。
传统的统计分析方法如逻辑回归和判别分析等,依靠统计学理论和假设来建立模型。
机器学习方法则通过训练一组数据来发现数据之间的模式和规律,从而构建评级模型。
常用的机器学习方法有人工神经网络、决策树和支持向量机等。
在模型评估方面,我们需要使用一些评价指标来衡量模型的质量和性能。
常用的评价指标包括准确率、召回率、F1值和ROC曲线等。
这些指标能够帮助我们评估模型的准确性、稳定性和鲁棒性,进而选择最佳的评级模型。
此外,为了提高评级模型的准确性和预测能力,还可以考虑使用集成学习和深度学习等先进的技术。
基于数据挖掘技术的建筑企业信用评价
文章编号:1000-1964(2005)04-0494-06 基于数据挖掘技术的建筑企业信用评价 刘高军,朱 嬿 (清华大学土木水利学院,北京 100084)摘要:针对传统方法的不足。
分析了应用数据挖掘技术的建筑企业信用评价方法.采用Logistic,决策树和神经网络算法,从250个建筑企业组成的学习样本中挖掘信用好或差的分类规则,从而建立了3个相应的信用评价模型.将所建立的模型用于评价检验样本中的46个建筑企业,采用混淆矩阵比较了各模型的评价表现.结果显示,Logistic,决策树和神经网络模型的评价准确率分别为87.0%,82.6%和82.6%,一致性结果的准确率达到91.7%,并且各模型在稳定性、敏感度等方面具有不同特点.研究表明,数据挖掘技术是一种有效而准确的建筑企业信用评价方法,此外,不同特点的数据挖掘模型为建筑业的信用评价提供了多种选择.关键词:数据挖掘;建筑企业;信用评价;模型中图分类号:TU 723 文献标识码:ACredit Evaluation of Construction Companies Based on Data Mining LIU Gao-jun, ZHU Yan (School of Civil Engineering, Tsinghua University, Beijing 100084, China) Abstract: Because of the shortage of traditional methods, data mining was used to evaluate the credit of construction companies. Logistic, decision tree and neural network algorithms were employed in the learning sample with 250 construction companies to find the rules of classifying a construction company to good or bad credit, so three credit evaluating models were established with the i'ules. These models were used to evaluate 46 construction companies in the testing sample, and the performances of these models were compared by means of confusion matrix. The comparison indicates that the accuracy of Logistic, decision tree and neural network is 87.0%, 82.6 % and 82. 6% respectively, and the accuracy of consistent judgment of the three models reaches 91. 7%. Furthermore, the characteristics such as stability and sensitivity of each model were discussed. The results show that data mining is an effective and accurate method to evaluate the credit of construction companies, and the models with different characteristics provide alternative choices for the credit evaluation of construction companies. Key words:data mining; construction companies; credit evaluation ; model。
基于数据挖掘的企业诚信度评价模型
基于数据挖掘的企业诚信度评价模型王颖【期刊名称】《现代电子技术》【年(卷),期】2018(041)009【摘要】In order to improve the evaluation precision of the current enterprise credibility,the characteristics of enterprise credibility is combined to put forward a data mining based evaluation model of enterprise credibility. The evaluation index of en?terprise credibility is established,according to which the evaluation data is collected. The principal component analysis is used to screen the evaluation index of enterprise credibility to obtain the more important evaluation index of the enterprise credibility. The entropy method is adopted to determine the weight of the enterprise credibility evaluation index. The data mining is used to realize the evaluation of enterprise credibility. The specific evaluation of enterprise credibility was tested. The experimental re?sults show that the method can mine the change characteristics of enterprise credibility effectively,and obtain the high?precision evaluation result of enterprise credibility.%针对当前企业诚信度评价精度低的难题,结合企业诚信度的特点,提出基于数据挖掘的企业诚信度评价模型.建立企业诚信度评价指标,并根据指标收集评价数据,采用主成分分析法对企业诚信度评价指标进行筛选,得到比较重要的企业诚信度评价指标,采用熵值法确定企业诚信度评价指标权值,并通过数据挖掘实现企业诚信度评价,进行具体企业诚信度评价测试.实验结果表明,所提方法能够有效挖掘企业诚信度的变化特点,获得了较高精度的企业诚信度评价结果.【总页数】4页(P161-164)【作者】王颖【作者单位】贵州商学院计算机与信息工程学院,贵州贵阳550014【正文语种】中文【中图分类】TN911-34【相关文献】1.经济人诚信度评价模型 [J], 陈丽萍;李丽华;宋和平2.信息咨询业诚信度评价模型研究 [J], 刘子熙3.基于SVM算法的客户诚信度评价模型的研究 [J], 周自斌4.基于数据挖掘的政府采购方案评价模型 [J], 李雨田;宋昊澄;陈卫卫;杜金丽5.基于贝叶斯网络的食品生产企业诚信度评估 [J], 谭中明;江红莉;张静因版权原因,仅展示原文概要,查看原文内容请购买。
数据挖掘技术在信用评估中的应用
数据挖掘技术在信用评估中的应用随着互联网金融的快速发展,信用评估成为了金融领域不可或缺的一环。
传统的信用评估方法主要是通过客户提交的银行流水、固定资产、社会关系等信息来进行评估,但这种方法存在着难以依据客户真实情况评估、客户信息缺失等问题。
而数据挖掘技术的出现,为信用评估提供了新思路和方法。
数据挖掘技术是从大量数据中提取知识和价值的一种技术。
在信用评估中,数据挖掘技术可以通过对客户的历史交易数据进行分析、挖掘和处理,来实现对客户信用值的精准评估。
下面,本文将结合实际案例,介绍数据挖掘技术在信用评估中的应用。
首先是数据预处理。
数据预处理是数据挖掘中非常关键的一步,其目的是清洗、筛选和转换原始数据,使数据达到适合进行数据挖掘的状态。
在信用评估中,数据预处理的目的是将客户历史交易数据转化为可用的评估指标。
比如,银行可以通过将客户历史信用卡使用数据进行处理,从中提取出客户的消费水平、消费领域、信用卡逾期情况等指标,用来评估客户信用值。
接着是特征选择。
特征选择是指从大量的原始特征中选出对信用评估有用的特征。
在信用评估中,银行可以通过采用卡方检验、信息增益、互信息等算法,从预处理后的特征中选出具有较高区分度的特征作为评估指标。
然后是数据建模。
数据建模是通过对数据进行训练,建立模型来实现信用评估。
在信用评估中,银行可以采用决策树、神经网络、KNN (k邻近算法)等机器学习算法,对客户历史交易数据进行建模,从而实现对客户信用值的预测。
最后是评估结果的应用。
评估结果可以为银行提供信用授信时的决策支持。
比如,银行可以将客户信用值分为优、良、中、差四个等级,从而确定客户的信用额度和放贷利率。
同时,评估结果还可以用于检验评估模型的准确性和效果,对评估模型进行优化和改进。
综上所述,数据挖掘技术在信用评估中的应用已经逐步成为金融行业的趋势。
通过引入数据挖掘技术,银行可以实现对客户信用值的快速、精准评估,提升客户体验和银行服务的效率。
基于数据挖掘技术的信用评估系统设计与实现
基于数据挖掘技术的信用评估系统设计与实现随着互联网的不断发展和普及,越来越多的金融机构开始关注信用评估的重要性。
这就使得数据挖掘技术在信用评估领域的应用越来越受到重视。
本文将介绍一个基于数据挖掘技术的信用评估系统的设计与实现。
1. 信用评估的背景和意义在金融行业中,信用评估是一个非常重要的环节。
通过对客户的信用状况进行评估,以此决定是否贷款,以及贷款的利率和额度等。
然而,传统的信用评估方法往往存在着风险较高、效率较低等问题。
因此,如何提高信用评估的准确性和效率,成为了金融机构所面临的一个重要问题。
2. 数据挖掘技术的应用数据挖掘技术可以有效地解决金融行业面临的问题。
数据挖掘技术可以使用机器学习算法,帮助判断一个客户是否值得投资或者是否会按时还款。
通过分析客户的个人信息、收入状况、职业情况、家庭背景等相关因素,可以得出一个客户的信用评分。
因此,在信用评估领域的数据挖掘技术的应用非常具有前景。
3. 信用评估系统的设计与实现一个基于数据挖掘技术的信用评估系统需要以下几个模块:(1)数据采集模块:该模块负责采集各类客户信息,包括个人信息、职业状况、银行流水等,以此为基础进行信用评估。
(2)数据预处理模块:该模块负责将采集来的数据进行清洗和处理,提高后续处理的效率和准确性。
(3)特征提取模块:该模块负责从数据中提取特征,如客户的收入状况、贷款历史等等,以此为基础进行信用评估。
(4)模型构建模块:该模块负责构建机器学习模型,如逻辑回归、决策树等,以此将提取出来的特征与客户信用进行比对,得出信用评分。
(5)评估输出模块:该模块负责将评估的结果输出给业务人员查看,以此进行后续的贷款处理。
4. 总结通过以上分析,我们可以发现,基于数据挖掘技术的信用评估系统是一种非常有效的评估手段,可以提高信用评估的准确性和效率。
同时,信用评估系统的构建需要多个模块的协同配合,以此实现数据的采集、预处理、特征提取、模型构建等工作。
大数据分析师如何应用数据挖掘技术进行信用评估
大数据分析师如何应用数据挖掘技术进行信用评估在当今的数字化时代,大数据分析师扮演着至关重要的角色。
他们利用数据挖掘技术和算法,通过对海量数据的分析和挖掘,为各类企业和机构提供准确、可靠的信用评估。
本文将探讨大数据分析师如何应用数据挖掘技术进行信用评估,为读者提供相关的知识和实用的方法。
1. 数据挖掘技术在信用评估中的应用大数据分析师借助数据挖掘技术,可以从庞大的数据集中发现隐藏的模式和规律,为信用评估提供有力的支持。
以下是数据挖掘技术在信用评估中的几个典型应用:1.1 数据清洗和预处理在进行信用评估之前,数据分析师首先需要进行数据的清洗和预处理。
这包括去除重复数据、处理缺失值和异常值,以保证数据的准确性和完整性。
同时,他们还需要对数据进行转换和标准化,以便后续的建模和分析。
1.2 特征选择和提取在信用评估中,选择合适的特征对于模型的准确性至关重要。
数据分析师通过数据挖掘技术,可以从大量的特征中选择出最具预测能力的特征,或者通过特征提取技术将原始数据转化为更有意义的特征。
这样可以提高信用评估模型的准确性和鲁棒性。
1.3 模型构建和评估在信用评估中,数据分析师需要构建合适的模型来预测借款人的信用状况。
数据挖掘技术提供了各种建模方法,包括决策树、支持向量机、神经网络等。
通过对不同算法的比较和评估,数据分析师可以选择最合适的模型,并对其进行优化和调参,以提高模型的准确性和稳定性。
1.4 异常检测和反欺诈分析信用评估中,防止欺诈行为是至关重要的。
数据分析师使用数据挖掘技术,可以识别出异常数据和潜在的欺诈行为,提供及时的预警和反欺诈策略。
例如,通过对借款人的历史交易数据进行分析,可以发现异常的交易行为和模式,从而及时阻止潜在的欺诈行为。
2. 大数据分析师应用数据挖掘技术进行信用评估的实践方法大数据分析师在应用数据挖掘技术进行信用评估时,需要掌握一定的实践方法和技巧。
以下是几个实践方法的简要介绍:2.1 基于机器学习的信用评估模型机器学习是大数据分析师进行信用评估的重要工具。
基于大数据的企业信用评级方法
基于大数据的企业信用评级方法随着互联网技术的不断发展和数据存储与处理能力的不断提升,大数据分析已经成为了当今社会的一种重要趋势。
众所周知,企业信用评级是银行、证券等金融机构重要的风险管理工具之一,是企业融资、债券发行、IPO等业务的必要前提。
而基于大数据的企业信用评级方法,可以充分利用金融机构、政府、媒体、社交网络等大量的、多维度的信息,提供更为准确、全面的评级结果,为金融机构和投资者提供更为客观的评估参考。
一、基于大数据的企业信用评级方法的定义基于大数据的企业信用评级方法,是通过收集、整合企业在金融市场、行业、社会等各方面的数据,进行全面、综合的分析、挖掘和预测,以评估企业的信用状况、财务状况、经营状况等指标,从而给出相应的信用评级结果。
二、基于大数据的企业信用评级方法的优势(一)全面性和准确性基于大数据的企业信用评级方法可以涵盖多方面的信息,如企业的经营状况、财务状况、行业状况等,可以充分反映企业的实际情况,提供更为全面、准确的评估结果。
这对于金融机构和投资者而言,具有很高的参考价值。
(二)自动化和实时性基于大数据的企业信用评级方法可以实现信息的自动化收集,数据的实时更新和分析,使得评级结果能够及时反映企业的最新情况。
这有助于金融机构和投资者快速响应市场变化,做出更为明智的决策。
(三)可视化和互动性基于大数据的企业信用评级方法可以将评级结果以图表、报表等形式呈现,使得金融机构和投资者可以直观地了解企业的信用状况和趋势,方便操作和决策。
此外,基于大数据的企业信用评级方法还具有互动性,可以实现金融机构和投资者之间的信息共享、交流和合作。
三、基于大数据的企业信用评级方法的实现(一)数据采集基于大数据的企业信用评级方法需要收集大量的、多维度的企业信息数据,包括但不限于以下几个方面:1、财务数据:如财务报表、会计准则、财务比率等。
2、行业数据:如市场规模、竞争环境、政策法规等。
3、信用数据:如信用报告、信用评级结果等。
基于数据挖掘的信用评估研究
基于数据挖掘的信用评估研究一、引言信用评估本身就是一个需要大量数据支持的过程,因此,数据挖掘技术在信用评估中的应用,可以充分发挥其特点,提高信用评估的准确性和效率。
在这篇文章中,我们将介绍基于数据挖掘的信用评估研究,包括信用评估的概念、数据挖掘在信用评估中的应用、以及未来的发展方向。
二、信用评估的概念信用评估是指对个人或企业的信用情况进行评估和预测的过程。
通过评估信用情况,可以帮助银行、信用卡公司等金融机构、企业等机构,更准确地了解客户的信用状况,从而更好地控制风险。
同时,个人和企业也可以根据信用评估结果,更好地管理自己的信用,提高自己的信用状况。
三、数据挖掘在信用评估中的应用在信用评估中,数据挖掘技术可以发挥多种作用,包括以下几个方面:1.数据预处理数据预处理是数据挖掘中非常重要的一步,它可以帮助数据挖掘算法更好地处理数据。
在信用评估中,数据预处理的主要任务是清洗数据、去除噪声、处理缺失值等。
例如,对于信用评估中的个人信用数据,我们需要去除噪声和缺失值,以保证数据的准确性和完整性。
同时,我们还需要对数据进行标准化处理,以便于不同特征间的比较。
2.特征选择特征选择是选择最有用的特征,并将其作为信用评估的预测变量的过程。
在信用评估中,特征选择的主要目标是选择那些最能够影响客户信用评估的特征。
例如,对于个人信用评估,我们可能选择年龄、性别、婚姻状况、收入、职业等特征进行评估。
3.分类分类是指将数据集中的数据分为不同的类别,从而更好地进行信用评估。
在信用评估中,分类的主要目的是将客户分为不同的信用等级。
例如,我们可以将客户分为良好信用、一般信用、差信用等不同等级,在给出相应评估结果的同时也帮助判断客户是否具有违约风险。
4.模型选择与评估在信用评估中,一般采用的数据挖掘方法包括神经网络、决策树、朴素贝叶斯等。
这些方法可以根据具体的应用需求,选择最合适的模型进行分析和评估。
同时,也需要对模型进行评估,以保证模型的准确性和可靠性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:20040928作者简介:刘高军(19782),男,四川省达州市人,博士研究生,从事建筑管理方面的研究1第34卷第4期 中国矿业大学学报 V o l .34N o .42005年7月 Journal of Ch ina U n iversity of M in ing &T echno l ogy Jul .2005文章编号:100021964(2005)0420494206基于数据挖掘技术的建筑企业信用评价刘高军,朱 女燕(清华大学土木水利学院,北京 100084)摘要:针对传统方法的不足,分析了应用数据挖掘技术的建筑企业信用评价方法.采用L ogistic ,决策树和神经网络算法,从250个建筑企业组成的学习样本中挖掘信用好或差的分类规则,从而建立了3个相应的信用评价模型.将所建立的模型用于评价检验样本中的46个建筑企业,采用混淆矩阵比较了各模型的评价表现.结果显示,L ogistic ,决策树和神经网络模型的评价准确率分别为87.0%,82.6%和82.6%,一致性结果的准确率达到91.7%,并且各模型在稳定性、敏感度等方面具有不同特点.研究表明,数据挖掘技术是一种有效而准确的建筑企业信用评价方法,此外,不同特点的数据挖掘模型为建筑业的信用评价提供了多种选择.关键词:数据挖掘;建筑企业;信用评价;模型中图分类号:TU 723 文献标识码:AC redit Evaluati on of Constructi on Companies Based onD ata M iningL I U Gao 2jun ,ZHU Yan(Schoo l of C ivil Engineering ,T singhua U n iversity ,Beijing 100084,Ch ina )Abstract :Because of the sho rtage of traditi onal m ethods ,data m in ing w as used to evaluate the credit of con structi on compan ies.L ogistic ,decisi on tree and neural net w o rk algo rithm s w ere e m 2p l oyed in the learn ing sa mp le w ith 250con structi on compan ies to find the rules of classifying a con 2structi on company to good o r bad credit ,s o th ree credit evaluating modelsw ere established w ith therules.T hese modelsw ere used to evaluate 46con structi on compan ies in the testing sa mp le ,and the perfo r m ances of these models w ere compared by m ean s of confusi on m atrix .T he comparis on indi 2cates that the accuracy of L ogistic ,decisi on tree and neural net w o rk is 87.0%,82.6%and 82.6%res pectively ,and the accuracy of con sisten t judgm en t of the th ree models reaches 91.7%.Further 2mo re ,the characteristics such as stability and sen sitivity of each modelw ere discussed .T he results show that data m in ing is an effective and accurate m ethod to evaluate the credit of con structi on compan ies ,and the modelsw ith differen t characteristics p rovide alternative cho ices fo r the credit e 2valuati on of con structi on compan ies.Key words :data m in ing ;con structi on compan ies ;credit evaluati on ;model 我国建筑业近几年出现了严重的信用危机,表现为合同履约率低、质量安全状况差、违法违纪现象突出、层层拖欠工程款等现象.政府已经启动了全社会和建筑行业信用体系建设,试图通过多种途径提高市场信用水平.对承包商的信用评价是建筑行业信用体系的核心机制,不仅在微观层次上是项目业主、担保、金融机构等市场主体选择承包商的重要手段,而且在宏观上为政府部门进行市场整顿和行业管理提供决策基础[1].1 建筑企业信用评价1.1 传统评价方法的不足建筑企业的信用是反映企业履行工程合同的能力和主观意愿,以及遵守建筑市场相关法律、法规、行业制度的一项综合性指标.信用评价是一个多指标的判别和分类问题,即用企业内部和外部的各种属性变量去解释、分类、预测企业的信用水平[2].传统的评价思路是根据“5C”等信用要素人为设定指标体系,然后运用主观或客观方法综合评价.指标方法存在3个主要问题:1)指标和权值设定具有先验性,实际情况中某项指标对信用的影响作用可能与此并不一致;2)扭曲了信用指标与信用水平之间的真实关系,指标方法大多是基于线性方法,而实际上信用要素与信用水平更多的是非线性以及关联关系,如资产负债率为60%的企业包括了信用好坏的两类企业,只有将这项指标与其他指标结合才能有效评判信用;3)评价结果绝对化,从实际数据中发现许多指标类似的企业信用水平大相径庭,这说明只能在一定支持度和置信度上去评价信用.1.2 数据挖掘的优势数据挖掘是20世纪90年代后期人工智能和数据库领域兴起的一种数据处理和知识发现(KDD)理论,是从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中,提取隐含在其中的信息和知识的过程,对样本进行分类和预测是数据挖掘的主要功能[3].数据挖掘用于信用评价的优势主要在于:1)能处理和修正实际数据问题,算法模型具有自检验能力,能更准确描述信用要素和信用水平之间的关系特征;2)不先验地建立信用规则,而是从实例数据中通过有监督学习去发现信用规则,然后用这些规则去预测新交易的信用风险,更符合解决问题的科学步骤.在信用评价应用方面,数据挖掘技术主要用于零售业、银行信贷、银行信用卡等领域的信用计分模型中.以前由信用分析师根据某些规则进行主观评价的方式已无法满足交易数据大量增加的要求,数据挖掘模型能自动预测大部分交易的违约概率,专业人员主要处理特殊的风险情况[2].在模型算法方面,数据挖掘将传统的多重判别分析、回归统计方法,以及决策树、神经网络、遗传算法、案例推理等人工智能和模式识别技术单独或综合应用到信用计分中[4].不同算法的评价准确性有所不同,从文献[5]中的统计显示:统计模型和信用风险理论模型的平均预测准确率为84%和85%,而人工智能专家系统型的平均准确率为88%.由于数据挖掘技术需要大量的历史交易数据支持,因此较少用于企业之间(2)的商业信用评价.建筑业信用问题是我国当前一个社会热点,但在国外并不突出,因此对建筑企业的相关评价也一般采用常见的指标方法[6].本文将数据挖掘技术运用于建筑企业的信用评价中,挖掘建筑企业信用知识,并建立相应的评价模型.2 实证研究2.1 跨行业数据挖掘过程标准(CRI S P2DM)数据挖掘是一个多次反复处理过程,学术界和产业界提出了多种过程参考模型,目前逐步由关注数据处理转向以用户为中心,日趋重视目标问题的解决而非技术实现.跨行业数据挖掘过程标准(CR ISP2DM)是由多家国际机构联合开发的一个数据挖掘过程模型,已在D ai m ler2Benz A G和OHRA的项目中进行了实际实践和验证,取得良好的实际效果.它采用分层方法将一个数据挖掘项目的生存周期定义为6个阶段和4个层次,其中6个阶段包括商业目标理解、数据理解、数据准备、建模、模型评价和发布实施[7].本文采用CR ISP2DM过程标准进行建筑企业信用数据挖掘.目标是发现有效区分不同信用水平的隐含知识,转换为数据挖掘问题,即:发现企业信用属性(自变量)对信用水平(因变量)的分类规则,然后建立评价模型用于新的预测.挖掘过程的重点是数据的理解、预处理和模型的建立与评价.2.2 实验数据和数据预处理数据主要来自于建设部的“建筑市场监督管理信息系统”数据库,分为企业状况、资质情况、机构主要人员、代表工程业绩等12个子系统,每个子系统包含几十上百个不等的信息记录(如企业基本情况包括108个记录变量).还有部分数据来自于郑州、青岛、天津等地的质量、安全监督部门和建筑业协会的最新动态记录.数据理解主要包括3个方面:1)数据的质量观察.由于建设部和各地的信息系统建设刚刚起步,因此数据质量较差.数据库覆盖企业的各方面信息,但是有的信息与信用相关性极小,而一般用于信用评价的财务指标比较缺乏;另外,有遗漏、错误和不完备信息的样本比例很高.尽管数据挖掘的某些算法理论上可以处理噪声和不完备的信息,但是还是将有明显错误记录和遗漏信息比例超过10%以上的样本予以删除.这样虽然减少了样本总数,但保证了数据质量.2)属性子集的选择.主要选取企业状况数据库里的108个指标,以及资质子数据库的主项资质594第4期 刘高军等:基于数据挖掘技术的建筑企业信用评价和增项资质、获奖和处罚子数据库情况里的记录信息作为最初的特征属性.3)样本子集的选择.数据库包括某地区所有规模、类型的建筑施工企业,统一处理有失偏颇.因此,将选择其中主项资质为总承包和民用建筑工程的企业.最后从3000余个样本中选取296个实验样本.数据预处理是整个数据挖掘项目的重要组成部分,约占50%~90%的时间和精力,它实际上与后面的模型计算和评价是一个反复进行的过程.这个阶段首先利用最新动态信息补充一些样本的缺失值,然后对其余样本的数据采用条件平均值法(Conditi oned M ean Comp leter )予以补齐.对于属性指标的选取采用2种方法:1)反复进行模型运算观察属性的重要性,并结合对挖掘目标的理解决定属性的取舍,这样不断去掉数据库中绝大部分变量,得到20个以下特征属性;2)利用可视化工具建立数值型属性的散点图、分布图和分类型属性的关联网络结点图,进行冗余属性的删除、属性转换和新属性创建等预处理.如根据建筑业总产值和工程结算收入之间的强相关性只保留了后者;对企业主项资质等级、增项资质、获奖和处罚记录等既可以设定为数值型属性也可以设定为分类型属性的变量,根据可视化观察和模型输出效果进行不同的设置;从建筑业总产值与总资产的散点图看出,信用好的企业相对信用差的企业整体偏向左上角,这预示着两者之比更能描述信用水平的差异,因此创建一个新的属性:产值资产比=建筑业总产值 总资产.新属性的直方图能更好地阐释这项指标与信用水平的关系,当产值资产比小于1.2,则企业信用较差,产值资产比大于3.8的企业信用较好,介于其间的则好坏信用并存,这说明信用评价是一个多指标问题,精确分类只有依靠后面的模型计算.最后得到16个信用输入属性,其中14个数值型属性和2个类别型属性.2.3 实证研究设计为了比较得到最佳模型,将296个样本中250个作为学习样本,其余的46个作为检验样本,建立了L ogistic 回归、C 5.0决策树和神经网络3种有监督学习模型.信用输出值一般由银行专业人员根据违约记录,或某些评判原则主观分类[4],这里由熟悉样本企业的行业主管部门人员和专家评定分为两类,其中1表示信用好(153家,51.69%),0表示信用差(143家,48.31%).实验采用C lem en tine 数据挖掘软件,挖掘过程及数据流如图1所示.图1 数据挖掘过程数据流图F ig .1 D ata stream in data m in ing p rocess2.4 模型算法L ogistic 是目前信用计分领域应用最普遍成熟的一种模型,许多信用计分模型提供商的产品就采用这种算法.它将某二分事件(违约)与自变量表示为L ogistic 曲线关系,假定违约对数发生比与信用属性x i (i =1,2,…,n )服从线性关系l og [p(1-p )]=Β0+Β1x 1+Β2x 2+…+Βn x n ,(1)式中:Βi (i =1,2,…,n )为信用属性的回归系数;信用水平的违约率,则694 中国矿业大学学报 第34卷p=1 [1+exp[-(Β0+Β1x1+Β2x2+…+Βn x n)]].(2)决策树是一种利用先验信息处理数据间非同质关系的树型结构分类方法.它从树的根结点处开始不断选取新的属性来区分样本,对每个属性的每个值产生新的分支,直到一个结点上所有样本都区分到某个类上.决策树算法的关键是选择节点的分裂属性,一般采用使节点所含的信息熵最小的信息增益度度量.实验采用C5.0算法,它是I D3和C4.5算法的改进,能处理数值型和分类型变量.神经网络在信用评价领域发展较快,并且具有多种形式的网络结构和改进算法.神经网络模型的隐层结构构造是其中关键而复杂的问题,相关文献大多是多次试算取最佳方案,本文实验采用动态自适应BP网络模型的快速算法,能够使BP网络自动调节隐节点数,保证网络能将R n空间的一个连续子集连续映射到R m空间的前提下,尽量压缩中间层隐节点单元,以达到提高学习效率的目的.3 模型结果与评价3.1 模型结果分析3.1.1 L ogistic模型L ogistic回归方程求解参数采用最大似然估计法,因此通过似然函数值检验回归方程,由于似然函数值是个极小的小数,一般取其自然对数再乘以-2检验,即-2倍对数似然值(-2LL)值.由表1的各项检验指标,可以看出模型整体和自变量因素的解释作用都是十分显著的.表1 L og isti c模型检验值Table1 Va l i da ti n g cr iter i a of L og isti c regressi on m odel模型自由度-2倍对数似然值卡方检验值显著性水平截距模型346.173整体模型20162.678183.4960L ogistic模型可以直接得到违约对数发生比的回归方程∑Βi x i=-0.42213增项资质-0.000018443总资产-0.52343产值资产比-0.0000045053结算收入-0.0025483收入增长率-0.047153职称人员比-0.040173生产率+0.051293税前利润率-0.082273净资产收益率-0.0034063资本增值率+0.030813资产负债率-0.011253负债流动比-0.32543奖项+1.8813处罚+0.068543[类型= gy]-0.062033[类型=jt]-0.051113[类型=qt] -10.423[主项资质=0]+1.0463[主项资质=1] +0.30293[主项资质=2]+2.612,式中:数值型属性按照原数据库中单位取值,类别型属性真值取1,反之取0.如0.068543[类型=gy]中,国有企业(gy)的[类型=gy]取1,集体企业(jt)及其他类型企业(qt)的[类型=gy]取0.然后利用式(2)可以建立建筑企业违约预测模型,或者多级别信用评价.3.1.2 决策树模型C5.0算法生成一个六层的决策树模型,也可转换成简洁明了的信用判别“if…then…”规则(表4),这正体现了决策树模型的独特优势.样本数占学习样本的比例大小说明了每条规则的支持度,而准确率说明了规则的可信度.表2中的规则都具有较高的准确率,其中那些支持样本较多的规则可以作为信用评价的强规则.表2 决策树模型的信用评价规则Table2 Cred it eva lua ti on rules of dec isi on tree m odel规则内容样本数准确率若处罚≤0且净资产收益率≤0且奖项≤2且资产负债率≤40且资本增值率≤115且税前利润率≤1,信用=0130.846若处罚≤0且净资产收益率≤0且奖项≤2且资产负债率>40,信用=0371.0若处罚≤0且净资产收益率>0且资本增值率≤72,信用=070.857若处罚≤0且净资产收益率>0且资本增值率>72且资产负债率>64且职称人员比≤18且总资产≤4800,信用=071.0若处罚>0且产值资产比≤1.23,信用=321.0若处罚>0且产值资产比>1.23且奖项≤2且负债流动比≤158,信用=0121.0若处罚>0且产值资产比>1.23且奖项≤2且负债流动比>158且增项资质>0,信用=031.0若处罚>0且产值资产比>1.23且奖项>2且收入增长率≤-19,信用=021.0若处罚≤0且净资产收益率≤0且奖项≤2且资产负债率≤40且资本增值率≤115且税前利润率>1,信用=121.0若处罚≤0且净资产收益率≤0且奖项≤2且资产负债率≤40且资本增值率>115,信用=151.0若处罚≤0且净资产收益率≤0且奖项>2,信用=160.833若处罚≤0且净资产收益率>0且资本增值率>72且资产负债率≤64,信用=11070.925若处罚≤0且净资产收益率>0且资本增值率>72且资产负债率>64且职称人员比≤18且总资产>4800,信用=140.75若处罚≤0且净资产收益率>0且资本增值率>72且资产负债率>64且职称人员比>18,信用=151.0若处罚>0且产值资产比>1.23且奖项≤2且负债流动比>158且增项资质≤0,信用=131.0若处罚>0且产值资产比>1.23且奖项>2且收入增长率>-19,信用=151.0794第4期 刘高军等:基于数据挖掘技术的建筑企业信用评价3.1.3 神经网络模型最终的神经网络模型结构为22个输入节点、1个3结点的隐层和1个输出结点.虽然神经网络的计算过程是一个迭代、不可视的“黑箱”,最后生成的模型也有一定随机性,但输入值权重解释了各属性对信用的贡献作用.从各属性的相关重要性系数(表3)可以看出,资产负债率、产值资产比、劳动生产率以及奖惩情况对信用水平影响较大,而总资产、职称人员比、结算收入、资质等级和企业类型影响较小.表3 神经网络模型的属性重要性系数Table3 Con tr i butes i m portance factorsof neura l network属性系数资产负债率0.651135产值资产比0.509154生产率0.477996处罚0.477317奖项0.451121资本增值率0.388479税前利润率0.347996净资产收益率0.315769属性系数负债流动比0.287163收入增长率0.235448增项资质0.212134类型0.173434主项资质0.138489结算收入0.137795职称人员比0.0442509总资产0.01607283.2 模型对比评价3.2.1 准确性评价准确性评价采用混淆矩阵进行对比(表4),可以看出,对学习样本的检验,决策树模型的准确性最高,达94.8%,其次是L ogistic模型和神经网络模型.但预测检验样本时,决策树的准确率大幅降低,其它两种模型比较稳定.各模型对实际信用好、差样本的敏感度不同,其中L ogistic预测差信用的准确率很高,但对实际差信用的敏感度略低,预测好信用的准确率和对实际好信用判别的敏感度都很高,决策树模型具有类似的特征.而神经网络模型对信用好、差样本的预测准确率和实际敏感度都较高,而且比较稳定.所有模型的总体准确率都在80%以上,能有效用于实际的信用评价中.此外,通过3个模型的一致性判断建立一致性模型能获得更高的准确率.学习样本中一致性结果为200个(80%一致率),准确率高达97.5%,验证样本一致性结果为36个(78.26%一致率),准确率也达到91.7%.表4 模型的评价准确率比较Table4 Eva lua ti on accurac i es of DM m odels实际值预 测 值Logistic01敏感度%决策树01敏感度%神经网络01敏感度%一致性模型01敏感度%学习样本01011984.21101091.71101091.795496.0 11511588.5312797.72810278.5110099.0准确率 %87.185.886.497.392.794.879.791.184.899.096.297.5检验样本018578.318578.319482.615288.2 112295.732087.041982.611894.7准确率 %94.781.587.085.780.082.682.682.682.693.890.091.73.2.2 应用评价除了总体准确率,模型运算速度、稳定性、可理解性等也是评价模型优劣的重要指标.本文的测试数据较少,各模型运算速度几乎没有差别.但神经网络模型的稳定性、可理解性明显差于决策树和L ogistic模型.在实际应用中,ROC,RO I,Gain,R e2 s pon se等曲线提供了不同目标的动态评价方法[9].假设建设业主在资格预审中运用上述信用评价模型甄选出信用好的企业进入招标阶段,可以用3个模型准确评价“信用=1”的响应率比较模型(响应率=分位数内准确评价样本数目 分位数内样本总数).从图2看出,神经网络和L ogistic模型能较快挑出信用好的企业,但随着考察样本的增加,L o2 gistic和神经网络模型的准确性先后下降,而决策树模型响应率逐渐上升.图2 3个模型的响应曲线F ig.2 R es pon se chart of th ree models4 结 论实证研究表明:数据挖掘模型能有效评价建筑企业信用,而且准确率达到80%以上水平.在分析样本中,L ogistic模型的检验准确率最高,其次为神经网络和决策树模型,进一步的深入比较与实际应894 中国矿业大学学报 第34卷用目的和学习样本数目有关,而采用3个模型的一致性结果能取得更高的评价准确率.此外,本文研究得到的L ogistic 回归函数、决策树信用规则和神经网络属性重要性系数等信用知识,为建筑企业违约率预测、多等级信用评价、以及信用管理提供了基础.参考文献:[1] L eea T S ,Ch iub C C ,L uc C J .C redit sco ring usingthe hybrid neural discri m inan t techn ique [J ].Expert Syste m s w ith A pp licati on s ,2002(23):2452254.[2] Ro iger R J ,Geatz M W .数据挖掘教程[M ].翁敬农,译.北京:清华大学出版社,2003.[3] Chye K H ,Ch in T W ,Peng G C .C redit sco ring us 2ing data m in ing techn iques [J ].Singapo re M anage 2m en t R evie w ,2004,26(2):26247.[4] A zizM A ,D ar H A .P redicting co rpo rate bank ru 2p t 2cy :W h ither do w e stand [DB CD ].h ttp : www .lbo ro .ac .uk departm en ts ec R easearchpapers 2004 D epartm en tal %20Paper %20A ziz %20and %20D ar .pdf ,2004212202.[5] T hom as L C .A survey of credit and behavi o ral sco r 2ing :Fo recasting financial risk s of lending to custom ers [J ].In ternati onal Journal of Fo recasting ,2000(16):1492172.[6] M ahdi IM ,R iley M J ,Fereig S M ,et al.A m ulti 2criteria app roach to con tracto r selecti on [J ].Engineer 2ing ,Con structi on and A rch itectural M anage 2m en t ,2002(9):29237.[7] L iu Y .T he evaluati on of classificati on models fo r cre 2dit sco ring [DB CD ].h ttp : www .w i 2.w is o .un i -goettingen .de getfile ?D ateiI D =395,2004212202.(责任编辑 邓 群)《中国矿业大学学报》2005年第2期被Ei 收录论文( ) 论文题目第一作者应用神经网络对精煤灰分含量进行实时预报孙 伟…………………………………………………………平面应变含缺陷岩样变形破坏全过程数值模拟王学滨………………………………………………………基于满意域和禁忌域的交互式遗传算法郝国生………………………………………………………………隧道联络通道冻结位移场模型试验研究岳丰田………………………………………………………………绝热氧化法研究煤的自燃特性陆 伟…………………………………………………………………………燃煤烟尘和机动车尾气中PA H s 分子化合物的稳定碳同位素研究彭 林…………………………………粉煤灰在结缕草草坪建植期杂草防除的试验研究方玉东……………………………………………………基于遥感和G IS 的煤田火灾监测研究——以宁夏汝箕沟煤田为例陈云浩…………………………………基于V RM L 2G IS 的三维小区构建杨永国………………………………………………………………………生物质与不同变质程度煤混合燃烧特性的研究闵凡飞………………………………………………………小波零树编码算法的改进与实现陈 豫………………………………………………………………………回转窑运行轴线动态测量方法及系统黄 民…………………………………………………………………重介工艺悬浮液密度和液位的多变量模糊控制方法研究孟凡芹……………………………………………m 次积分C 2半群和相应抽象Cauchy 问题的强解胡 敏……………………………………………………《摘自Engineering V illage 2》994第4期 刘高军等:基于数据挖掘技术的建筑企业信用评价。