基于六度空间理论的通信社会关系网络研究

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于六度空间理论的通信社会关系网络研究.txt52每个人都一条抛物线，天赋决定其开口，而最高点则需后天的努力。没有秋日落叶的飘零，何来新春绿芽的饿明丽？只有懂得失去，才会重新拥有。本文由eclipsky贡献
pdf文档可能在WAP端浏览体验不佳。建议您优先选择TXT，或下载源文件到本机查看。
中山大学硕士学位论文基于六度空间理论的通信社会关系网络研究姓名：蓝泳铄申请学位级别：硕士专业：概率论与数理统计指导教师：宋世斌 20090526
基于六度空间理论的通信社会关系网络研究
专业：概率论与数理统计硕士生：蓝泳铄指导教师：宋世斌副教授
摘要
为了改进以往以孤立的观点对待通信用户进行研究的不足，本研究借鉴互联
网行业的社会化网络服务（ＳＮＳ）经验，首次在通信领域中引入六度空间的概念，
并以此作为理论基础，对通信领域的社会关系网络进行了研究。首先，以某地区
２００８年７月份的通信行为数据为基础，结合数据挖掘技术，使用Ｌｏｇｉｓｔｉｃ回归算
法和改进的模糊层次分析法建立用户营销活动响应度模型以及“关键联系人＂检索模型，实现了通信社会关系网络中高活跃社群的挖掘；其次，通过关联路径和最短路径检索算法的设汁，构建了这些“关键联系人”的通信社会关系网络，包
括用户的通信网络以及用户间的最短通信路径，并使用Ｆｌｅｘ技术进行前端界面开发；最后，从商业应用角度出发，转变传统的“撒网式”营销模式，建立了以 “关键联系人”为核心的精确营销模式，并举营销案例进行说明。本文突破以往
孤立的研究方式，从通信用户的关系网络入手进行研究，充分体现了人际关系的
价值，同时也丰富了国内电信业在该领域的研究。
关键词：六度空间、社会关系网络、Ｌｏｇｉｓｔｉｃ回归、模糊层次分析法、
关键联系人
ｍｏｄｅｉｎｔｏｂｕｉｌｄｉｎｇｔｈｅｐｒｅｃｉｓｅｍａｒｋｅｔｉｎｇｍｏｄｅｏｆ‘ｋｅｙｅｘａｍｐｌｅｓ
ｔｏｉｌｌｕｓｔｒａｔｅ
ｃｏｎｔａｃｔｐｅｒｓｏｎｓ’，ａｎｄｇａｖｅ
ａ
ｉｔｓａｐｐｌｉｃａｔｉｏｎ．Ｔｈｉｓｐａｐｅｒｍａｄｅ
ｂｒｅａｋｔｈｒｏｕｇｈｉｎｔｈｅｐａｓｔ
ｉｓｏｌａｔｅｄｒｅｓｅａｒｃｈｓｔｙｌｅ，ｆｕｌｌｙｅｍｂｏｄｉｅｄ
ｔｈｅ
ｖａｌｕｅｏｆｉｎｔｅｒｐｅｒｓｏｎａｌｒｅｌａｔｉｏｎｓｈｉｐ，ａｎｄ
ｅｎｒｉｃｈｅｄｔｈｅｒｅｓｅａｒｃｈｉｎｔｈｅ

ｆｉｅｌｄｏｆＣｈｉｎｅｓｅｔｅｌｅｃｏｍｉｎｄｕｓｔｒｙ．
Ｋｅｙ
Ｗｏｒｄｓ：Ｓｉｘ
ｄｅｇｒｅｅｓｏｆｓｅｐａｒａｔｉｏｎ，ｓｏｃｉａｌｒｅｌａｔｉｏｎｎｅｔｗｏｒｋ，ｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ，
ｆｕｚｚｙａｎａｌｙｔｉｃｈｉｅｒａｒｃｈｙｐｒｏｃｅｓｓ，ｋｅｙｃｏｎｔａｃｔｐｅｒｓｏｎｓ
ＨＩ
论文原创性声明内容：
本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名：堇Ｉ聪ｇ，
日期：加。ｃ７年乡月２ｆ日
学位论文使用授权声明
本人完全了解中山大学有关保留、使用学位论文的规定，即：学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版，有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅，有权将学位论文的内容编入有关数据库进行检索，可以采用复印、缩印或其他方法保存学位论文。
学位论文作者签名：耋海铷导师签名：
日期：．珈７年ｇ月二石日
日期：川
第一章引言
１．１选题的目的和意义
１９６７年，哈佛大学的社会心理学家米尔格兰姆（ＳｔａｎｌｅｙＭｉｌｇｒａ】呻就设计了一个连锁信件实验。他将一套连锁信件随机发送给居住在内布拉斯加州奥马哈的１６０个人，信中放了一个波士顿股票经纪人的名字，信中要求每个收信人将这套
信寄给自己认为是比较接近那个股票经纪人的朋友，朋友收信后照此办理。最终，
大部分信在经过五、六个步骤后都抵达了该股票经纪人，六度空间的概念由此而
来【ｌ】。六度空间理论（Ｓｉ）【ＤｅｇｒｅｅｓｏｆＳｅｐａｒａｔｉｏｎ），也称为六度分割理论、小世界理
论等，指你和任何一个陌生人之间所间隔的人不会超过六个，也就是说，最多通过六个人你就能够认识任何一个陌生人。但是这并不是说任何人与人之问的联系都必须要通过六个层次才会产生联系，而是表达了这样一个重要的概念：任何两
位素不相识的人之间，通过一定的联系方式，总能够产生必然联系或关系。显然，
随着联系方式和联系能力的不同，实现个人期望的机遇将产生明显的区别。

图１．Ｉ六度空闻理论示意圈
者，他们是各大互联网事件的参与者，或者说他们是创造者，可能这类人只有
２０％，但他们确能创造８０％的内容。同时也有更多的一批人，他们虽然也是互联
网的使用者，但是确是一种比较被动的方式参与，他们不制造内容，或者说制造的内容也没有影响力，他们更多的还是受众。我们指望在ＷＥＢ２．Ｏ时代，人人成
为内容制造者实际上不可能的，大多数人还是习惯于成为内容的消费者。所以作为网站来说，最重要的还是抓住那批２０％的人【５】。在移动通信领域同样存在这种
强弱节点的现象，这些人一般对于营销活动响应度较高，综合使用语音、数据业
务比较活跃，用户的社交圈较广，ｐ时Ｕ值适当。因此，本文第一部分以２００８
年７月份某地区的通信行为数据为基础，使用数据挖掘技术建立用户营销活动响应度模型以及“关键联系人＂检索模型，从而挖掘出这些辐射力、影响力较强的高活跃社群。其次，本文第二部分通过关联路径检索算法和最短路径搜索算法的设计，构建了这些“关键联系人”的通信社会关系网络，该网络主要包括通信用户的“六度空间’’，即其朋友圈，以及用户和用户之间的通信路径等，并采用ＦＬＥＸ开发技术将该网络以Ｆｌａｓｈ的界面形式展现出来，以求直观的了解。最后，本文第三部分提出该通信社会关系网络的应用方向，建立以“关键联系人’’为核心的精确营销，并以移动飞信产品的营销策划作为例子进行说明，充分体现人传媒的价值，发挥其影响力、辐射力，有效占领市场并且降低营销成本。，
１。４本文的创新点
（１）社会关系网络在通信行业的应用丰富了国内电信业在该领域的研究成果，改进了以往以孤立的观点对待通信用户进行研究的不足，建立通信社会关系网络体系，用以描述通信网络用户及他们之间的联系，并且利用该关系网络对用
户特征进行研究。
（２）以统计理论为基础，结合数据挖掘技术，在该地区某电信运营商的所有用户中，挖掘出一批通信活跃，具有辐射力、影响力的巧关键联系人＂，并建立以“关键联系人”为中心的口碑式营销模型，从而突破传统的营销模式，利用 “关键联系人’’的影响力去推广业务，而不是运营商直接去对客户推广，既节省
４
了成本，又取得了效果。（３）本研究实现了通信社会关系网络中关联路径和最短路径的查找算法，
借助该算法构造了六度空间的数据存储表，并结合ＳＡＳ软件运筹（ＯＲ）模块的
ＮＥＴＦＬ

ＯＷ运算过程，实现了包括ＤｉｊｋＳｔｒａ【６】，Ｐｒｉｎｌａｌ．Ｄｕａｌ内点算法【７１等图论计算算法，从而为六度空间原理的证明提供了有力的理论依据。
５
（１）结合商业需求，我们将“关键联系人＂定义为那些对于营销活动响应度较高，综合使用语音、数据业务比较活跃，用户的社交圈较广，并且ＡＲＰＵ值（每用户平均收入）适当的用户，由此确定以下６个指标作为定义“关键联系人” 的核心指标，包括①营销活动响应度；②一度社交圈人数；③语音通话次数；④ 短信收发次数；⑤彩信收发次数：⑥ＡＲＰｕ值。
（２）使用用户通信清单、数据业务数据以及营销活动数据，建立用户营销活动响应度模型，然后使用该模型对２００８年７月份所有通信用户的营销活动响
应概率进行预测，并将此作为“关键联系人”指标之一——营销活动响应度。
（３）结合商业需求，定义“关键联系人”的“活跃度”为以上６个指标的线性组合，使用改进的层次分析法，即模糊层次分析法来计算这６个指标的权重，确定“活跃度”的计算表达式，生成“关键联系人＂名单。
２．２营销活动响应度模型
用户对营销活动的响应情况是运营商开展活动的重要条件，因此本文基于用
户通信清单、数据业务数据以及营销活动数据，结合数据挖掘技术，使用ＳＡＳ
软件的ＥｎｔｅｒｐｒｉｓｅＭｉＩｌｅｒ工具建立Ｌｏｇｉｓｔｉｃ回归模型，即用户营销活动响应度模型，
然后使用该模型来计算２００８年７月份所有通信用户的营销活动响应概率，并将
此作为“关键联系人”的指标之一。
２．２．１
Ｌｏｇｉｓｔｉｃ回归算法
随着信息技术迅速发展，数据库的规模不断扩大，产生了大量的数据。但大
量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息，而传统的查询、
报表工具无法满足挖掘这些信息的需求。因此，需要一种新的数据分析技术处理大量数据，并从中抽取有价值的潜在知识，数据挖掘（ＤａｔａＭｉｌｌｉｎｇ）技术由此应运而生。从２０世纪９０年代以来，数据挖掘技术的发展速度很快，在当今世界的海量数据中隐藏着人们所需要的具有决策意义的信息，数据挖掘技术的产生和发展使得人们可以利用这些数据中挖掘出有用的、隐藏的商业和科学信息。由于
７
数据挖掘是多学科综合的产物，它从多个学科汲取营养，包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、信息检索和数据库可视化等，

因此目前还没有一个完整的定义。通常普遍认同的一个十分广泛的数据挖掘定义是：从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模
型或规则等有用知识的复杂过程，是一类深层次的数据分析方法【８１。
数据挖掘是以全球广泛认可的Ｓ卧嗄ＭＡ数据挖掘进程作为方法论的，
ＳＥＭＭＡ是抽样（Ｓａ叫）ｌｅ），探索（Ｅｘｐｌｏｒｅ），调整（Ｍｏｄｉｆ３，），建模（Ｍｏｄｅｌ），
评估（Ａｓｓｅｓｓ）的缩写，对应数据挖掘的５个步骤，即数据取样、数据特征探索、分析和预处理、数据调整和技术选择、模型的研发和知识发现、模型和知识的综合解释和评价。具体如下：
（１）Ｓａｍｐｌｒ数据取样
当进行数据挖掘时，首先要从企业大量数据中取出一个与企业要探索问题相
关的样板数据子集，而不是动用全部企业数据。通过数据取样，要把好数据的质量关，一定要保证取样数据的代表性、真实性、完整性和有效性，这样才能通过此后的分析研究得出反映本质规律性的结果。根据具体的需求，可以创建训练集、
测试集和效验集。
（２）ＥＸｐｌｏｒｅ一数据特征探索、分析和预处理
当用户拿到了一个样本数据集后，它是否达到用户原来设想的要求，有没有
什么明显的规律和趋势，有没有出现用户所从未设想过的数据状态，各因素之间有什么相关性，可区分成怎样～些类别，这些都是首先要探索的内容。在进行数据特征的探索和分析时，应用可视化数据操作的工具，对样本数据进行可视化的预分析，发现数据的异常趋势和规律性。
（３）Ｍｏｄｉ分一数据调整和技术选择
通过Ｓａｍｐｌｅ和Ｅｘｐｌｏｒｅ两步之后，用户进～步明确了原来要解决的问题，
这时要尽可能对问题解决的要求作进一步的量化。在问题进一步明确化的基础上，用户可以按照问题的具体要求来审视数据集，看它是否适应企业问题的需要。针对问题的需要，可能要对数据进行增删，也可能按照用户对整个数据挖掘过程的新认识，组合或者生成一些新的变量，以体现对状态的有效描述。
（４）Ｍｏｄｅ卜一模型的研发和知识的发现
８
羹；蓁耄囊鎏囊耄羹塞囊奏雾菱霪萎；ｉ霉ｉ嚣鎏ｉ囊善耋！≤妻器鍪茎羹蠹霎垂蠢羹篓雾ｊ一妻薹霉羹鎏
趸——囊羹鍪薹塞羹。羹藿薹霎耄薹璧；誊錾蠢錾耋薹萋蕈毫；霎蚕篓羹璺薹蠹——耋荔蚕曼萋薹ｊ萋囊饕蓁：奏篓羹萎囊萎。薹霪霎饕萋薹；囊薹薹萋蓁霎翼塑——囊薹霉羹冀雾蕙
鋈蚕二奏薹鬟囊薹蚕；薹羹｜｜

囊薹：垂薹鍪耋釜耋薹囊囊萋要姜霎蓁塞ｉ鋈羹萎；摹囊薹霾妻囊囊冀霉主ｉ茎薹嚣ｉ。霞薹璧蠹羹羹鎏萎薹；茎薹鬟ｉ；奏萎；砉ｉ耋薹ｉ蓬蓬耋ｉ薹霎羹薹羹篓雾奏霪辇；塞霉姜；ｉ薹霪霎篓砉ｌ耋囊秦霉ｊ冀霉萎｜薹｜ｌ茎枣囊ｉｊ蓁冀羹蠹萤薹誓委垂÷ｉ箩霎ｉ萋薹薹蠹薹攀霎茎羹羹ｌ；詈羹；。耋霎妻蠢羹羹萋孳妻鬟霎霎羹委喾甲Ｉ童攀＊萋羹薹笺茎囊，ｌ襄ｉ篓委薹萎摹｜
一
翟惑爹掌≤羹雾霎奏霉奏霎娄囊，蓁薹喜薹冀鎏雾囊鋈篓薹耋萋妻羹鬲ｉ些萋奏霎．；ｉｉ搴妻蠢冀耋崮薹霎鍪冀篓耋鍪ｍ蒌薹÷雩蓁蓁，鬟霎霪霎妻霪鎏｜髦窭薹冀萝耋薹羹羹雾囊霎薹薹妻蠢羹鎏日薹霎砷；奏蓁錾鋈蠢鋈囊羹霎霉萋鍪耋篓妻霎鍪囊錾墓篓霪翼囊薹薹羹篓襄薹薹蠹囊鋈，蚕霎耋妻妻萋冀萎薹茎雾篓耋羹！囊窭蓁鍪菱篓霎篓。羹萋蓍蠹雾妻薹墓落荔雾蓁训磊骚蜘鐾掘蠹酋基羹鍪，囊霪篓蚕墼霎霎霎雾量薹至囊薹羹羹垂＝辇誓霪主羹善薹篓蠢妻錾霪。薹雾囊耋毒蠹囊ｌ薹鎏蚕纂霪耋羹ｊ羹雾雾篓；薹甍塑塞，雾鬟篓藿：薹薹蓥囊羹羹篓霎囊霉姜萋蒌孤萎薹；蒌鬟妻萋霉ｐ【羹霎謇薹耋篓襄羹。薹荔一妻
析范畴，是社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析
的常用方法。Ｌｏｇｉｓｔｉｃ模型是对数线性模型（Ｌｏｇ－ｌｍａｒｍｏｄｅｌ）的～种特殊形式，
当对数线性模型中的一个二分类变量当作因变量并定义为一系列的自变量的函数时，对数线性模型就变成了Ｌｏｇｉｓｔｉｃ回归模型。本章中，考虑到通信用户的响应是营销活动中的一个实际问题，因此多元统计模型比较合适，其中Ｌｏｇｉｓｔｉｃ回归模型比Ｆｉｓｈｅｒ或Ｂａｙｅｓ等判别分析模型具有更大的应用优势，主要体现在【ｌｏ】：（１）Ｌｏｇｉｓｔｉｃ回归模型不需要像判别分析模型那样，要求变量满足多元正态性假设。（２）Ｌｏｇｉｓｔｉｃ回归模型由于有直接的统计检验，能包含非线性效果和大范围诊断，因此适用性强。（３）ＬｏｇｉＳｔｉｃ回归模型对自变量无要求，可以是定性的或定量的，输出可为二分类或多分类变量。标准１０９ｉｓｔｉｃ分布的均值为０，方差为７ｒ２／３，其累积分布函数如下：
．
Ｐ（Ｊ，２
１
ｌ工）＝雌≤心＋肛）】２寿
１
图２－３Ｌｏｇｉｓｔｉｃ回归图
该函数称为Ｌｏｇｉｓｔｉｃ函数，具有Ｓ型的分布。Ｌｏｇｉｓｔｉｃ回归模型假设事件发生的概率ｐ与自变量＿之间的关系服从标准的Ｌ０９ｉｓｔｉｃ累积概率分

布函数，当有
ｍ个自变量时通常表示为：
ｐ＝ｅｘｐ卜心＋∑＿ｐ叫
』＝ｌ
式中因变量ｐ的取值限制在ｏ～１之间，并随＠＋∑ｘ』ｐ』）的变化而连续变
ｌＯ
化，其中口和ｐ』为系数。对上式进行线性变换可得：
南２ｅＸｐ（ａ＋嘉矽，）
按照ＬｏｇｉＳｔｉｃ回归模型的定义，事件发生（即研究对象的反映结果为１时）的
概率为ｐ，事件不发生的概率为１一ｐ，ｐ／（１一ｐ）通常叫做胜算比，或者优势比（ｏｄｄｓｒａｔｉｏ），它具有很好的物理解释意义，表示事件发生的概率相对于不发生的概率的强度。对上式两边取对数可得：
１１１圭＝ａ＋羔＿卢，卜ｐ笥∥’
上式通常被称为观测值少的Ｌｏｇｉｓｔｉｃ形式。与线性回归不同，由于Ｌｏｇｉｓｔｉｃ回归是一类非线性模型，估计参数口、ｐ，需要利用已知多组观测样本（即每组自
变量ｘｎ，ｔ：，…，‰）以对应事件发生的观测值ｙ，（少，＝Ｏ或１），并采用最大似然估计
法来求解。建立刀个观测值的似然函数：
Ｌ＝兀ｎ∥（１一只）１一少
，＝１
三是用观测数据的概率来表示的，取三为最大来估计参数，其含义表示估计出来的参数能够通过模型以最大概率再现样本观测数据。对上式取对数得到对数似然函数为：
ｌｎ三＝∑陟血ｐ，＋（１一只）ｌｎ（１一ｐ，）】
对仅和卢』求偏导得：
型些：ｏ
ａａ
掣：ｏ（＇，：１，２，．．埘）
８ｐ。
、
一
＋‘
上式通常被称为对数似然方程组，从中求得的最大值即为三的最大似然估计
值Ⅲ－】２】。采用Ｎｅ、咖ｎ．１泖１１Ｓ。ｎ迭代法求解上式可得到待估的参数＆和房，代入
Ｌｏｇｉｓｔｉｃ回归模型求得的ｐ。称为条件概率只的最大似然估计，表示在ｘ条件下
儿＝１的条件估计。Ｌｏｇｉｓｔｉｃ回归模型的估计包括参数检验和模型检验两部分。卢，的估计值采用标准正态分布统计量
ｚ：旦
ＳＥ（、ｐｔ、
或者自由度为１的ｗ口胁２＝ｚ２来检验，其中舾（卢／）为卢』的渐进标准误差，
通过将迭代过程中的信息矩阵逆矩阵的对角元素开方即可得到。整个模型的拟合
程度可通过拟合优度来检验，经常采用的是ｐｅａｒＳｏｎｚ２和Ｈｏｓｍ￡ｒ＿Ｌｅｍｅｓｈｏｗ检
验等，具体计算方法可参看文献【１３Ⅲ】。
２．２．２Ｅｎｔｅｒｐｒｉｓｅ
Ｍｉｎｅｒ介绍
ＳＡＳＥｎｔｅｒｐｒｉＳｅ
Ｍｉｎｅｒ（简称ＥＭ）是基于全球广泛

认可的ＳＥＭＭＡ数据挖掘
进程。ＳＥＭＭＡ为执行数据挖掘的核心任务提供了一个灵活的框架，所以不管是富有经验的统计人员，还是经验稍微欠缺的商业分析师，都可以在该框架的指导下开发出更多更好的模型。ＳＡＳ独特的ＳＥＭＭＡ方法采用了结构化的进程，以合理的方式对每一步所需的工具进行组织，借助可以修改，保存和共享的流程图，ＳＥ＾心压Ａ能够更方便地使用研究统计技术和视图技术，选择和变换最重要的变量，通过这些变量来创建模型，以便预测结果，对模型的精确度进行确认，并进
行模型部署的准备工作。
１２
田２ｑｓ＾ｓＥｍｅ邝由ｅＭｉｍｒ操作界面
ｓＡｓ／ＥＭ是一个图形化界面，菜单驱动的，拖拉式操作，对用户非常友好且
功能强大的数据挖掘集成环境。主要集成以下几个方面㈣：
（１）数据获取工具在ｓＡｓ，ＥＭ的这个数据获取工具中．可以通过对话框指定要使用的数据集的名称，并指定要在数据挖掘中使用的数据变量。变量分为两类：区间变量
（ＩｍｅｒｖａｌⅦ谊ｂｌｅ）和分类变量（ｃｌａｓｓⅧｉａｂｌｅ）。区间变量是指那些要进行统计
处理的变量。对于这样一些变量，在数据输入阶段可以指定它们是否要作最大值、晟小值、平均值、标准差等的处理，还可给出该变量是否有值的缺漏，缺漏的百分比是多少等。区问变量以外的变量称之为分类变量，在数据输入阶段将会提供每个分类变量共有多少种值可供分类之用。（２）数据抽样工具对获取的数据，可再从中作抽样操作。抽样的方式是多种多样的，包括随机抽样、等距抽样、分层抽样、从起始顺序抽样和分类抽样等方式。随机抽样：在采用随机抽样方式时，数据集中的每一组观测值都有相同的被抽样的概率。如接１０％的比例对一个数据集进行随机抽样，则每一组观测值都有
ＩＯ％的机会被取到。
等距抽样：如按５％的比例对一个有ｌｏｏ组观测值的数据集进行等距抽样，则有：１００，５＝２０，等距抽样方式是取第２０、４０、６０、８０和第１００等五组观测
值。
分层抽样：在这种抽样操作时，首先将样本总体分成若干层次（或者说分成若干个子集）。在每个层次中的观测值都具有相同的被选用的概率，但对不同的层次可设定不同的概率。这样的抽样结果可能具有更好的代表性，进而使模型具有更好的拟合精度。从起始顺序抽样：这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比，或者就直接给定选取观测值的组数

。分类抽样：在前述几种抽样方式中，抽样的单位都是一组观测值。分类抽样
的单位是一类观测值，这里的分类是按观测值的某种属性进行区分，如按客户名
称分类、按地址区域分类等。显然在同一类中可能会有多组观测值，分类抽样的
选取方式就是前面所述的几种方式，只是抽样以类为单位。
设置多种形式的抽样方式不仅给了您抽样的灵活性，更重要的是从抽样阶段您就能主动的考虑数据挖掘的目的性，强化了最后结论的效果。（３）数据筛选工具
通过数据筛选工具可从观测值样本中筛选掉不希望包括进来的观测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于抽样范围之外的，对于区间变量可指定其值大于或小于某值时的这些组观测值是要排除于抽样范围之
外的，通过数据筛选使样本数据更适合要数据挖掘的目标。（４）数据变量转换工具
利用此工具可将某一个数据进行某种转换操作，然后将转换后的值作为新的
变量存放在样本数据中。转换的目的是为了使数据和将来要建立的模型拟合的更
好。例如，原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、
开方等转换，当然，也可给定一个公式进行转换。（５）建立数据挖掘用的数据库在进行数据挖掘分析模型的操作之前，要建立一个数据挖掘的数据库（ＤＭＤＢ），其中就放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算，在这里建立一个专门的数据集将使工作更加有效率。在处理之前，
可对选进数据挖掘数据库的各个变量预先进行诸如最大、最小、平均、标准差等
处理，对一些要按其分类的变量的等级也先放入ＭｅｔａＤａｔａ之中，以利接下来的
１４
操作，总之在这个数据库中为数据挖掘建立一个良好的工作环境。（６）数据挖掘过程在数据挖掘的过程中可以使用ＳＡＳ广泛的数学方法，以及实现最新数学方法的环境。ＳＡＳ／ＥＭ提供丰富的数据挖掘模型和灵活算法，包括如下模型算法：聚类分析、多元回归模型／ＬｏｇｉＳｔｉｃ回归、决策树模型、神经网络模型、关联模式
／序列模式分析、时间序列分析、链路分析模型、记忆基础推理、ＳＯＭ依ＯＨＯＮＥＮ神经网络分类算法、主成分分析、二阶模型等。同时，ＳＡＳ／ＥＭ提供Ｅｎｓｅｍｂｌｅ
节点进行多个模型的整合。ＥＩｌｓｅｍｂｌｅ节点可以创建一个新的模型以平均来自多个前置模型的分类目标的后验概率或间隔目标的预测值，由此可以使得生成的模型更加稳定和

高效。（７）数据挖掘的评价工具在ＳＡＳ／ＥＭ的评价工具中，提供了一个通用的数据挖掘评价的架构，可以比较不同的模型效果，预报各种不同类型分析工具的结果。ＳＡＳ／ＥＭ提供
Ａｓｓｅｓｓｍｅｍ节点进行模型评估。在舡ｓｅｓｓｍｅｎｔ节点中，可以使用ＬＩＦＴ图、
ＰＲＯＦｌｌ亿ＯＳＳ图、ＲＯＩ图、诊断分类图、Ｉ的Ｃ图、Ｔｈｒｅｓｈ０１ｄ－ｂａｓｅｄ图等一系列标准的图表，进行模型比较与评估。在ＳＡＳ／ＥＭ的评价工具中，还可以进行客
户化的工作，对那些标准的评价图表按具体要求进行更改。（８）结果输出
ＳＡＳ／ＥＭ的Ｓｃｏｒｅ节点提供以ＳＡＳ数据步代码的方式产生模型打分的公式。
ＳＡＳ／ＥＭ提供ＳｃｏｒｅＣｏｎｖｅｒｔｅｒ节点，可以把Ｅｎｔｅ印ｒｉｓｅＭｉｆｌｅｒ的挖掘流程图由Ｓｃｏｒｅ
节点产生的ＳＡＳ数据步打分代码转换成Ｃ或ＪＡ、，Ａ语言，并且可以把这些Ｃ或
ＪＡ、，Ａ语言的数据挖掘打分代码集成到标准的Ｃ或ＪＡＶＡ应用中去。
２．２．３用户营销活动响应度计算
基于用户通信清单、数据业务数据以及营销活动数据，通过Ｌｏｇｉｓｔｉｃ回归模
型，使用ＳＡＳ／ＥＭ工具建立用户营销活动响应度模型，计算２００８年７月份该地区某电信运营商所有通信用户对营销活动的响应概率，并作为“关键联系入”的
指标之一。具体步骤如下：
１５
集团内被叫通话时长短消息条数彩信条数梦网消息条数彩铃开通情况ＧＰＲＳ开通情况ｗＡＰ使用时长１３９邮箱开通情况是否无线音乐高级会员手机报纸歼通情况数据业务变量移动飞信开通情况天气预报开通情况来电提醒开通情况国际一卡多号香港数码通副号国际一卡多号香港万众副号手机投注开通情况套餐资费提醒开通情况语音信箱开通情况
ＸＩＯ
实际值（分钟）实际值实际值实际值开通＝１，未开通＝０开通＝１，未开通＝０实际值（分钟）开通＝１，未开通＝０是＝１，否＝０开通＝１，未开通＝０开通＝１，未开通＝０开通＝１，未开通＝０开通＝１，未开通＝０是＝１，否＝０是＝１，否＝０开通＝１，未开通＝０开通＝１，未开通＝Ｏ开通＝１，未开通＝０
工ｌｌ
ｘ１２
Ｘ１３
工１４
Ｘ１５
工１６
Ｘ１７
工１０
Ｘ１９
Ｚ２０
工２ｌ
Ｘ２２
Ｘ２３
Ｘ２４
Ｘ２Ｓ
Ｚ２６
Ｘ２７
（３）模型构建使用ＳＡＳ数据挖掘工具Ｅｎｔｅｒ

ｐｒｉｓｅＭｍｅｒ，以指标“是否响应＂作为因变量，
其它２７个指标作为自变量，分别对三个品牌Ａ、Ｂ、Ｃ建立Ｌｏｇｉｓｔｉｃ回归模型，
整个模型如图所示：
１７
ｌ｜ｌ
ｉ
ｉ
圆
国
ｆ
。
鱼
ｌ
越奎ｉｊ
‘
ｌ
ｉ
＿｝
ｉ。｝
限
：｜
７。｜蓄
ｌ
｜Ｉ｜｜ｉ
睢
ｊ
因
言“副‘
圈２－５数据挖掘模型圈
ｌ
ｌ
结点Ａ＿ＭＯＤＥＬ是Ａ品牌模型的输入数据集，在此之前已经对缺失值、边界值、不规则分布等进行处理，并按照上述的样本选取标准建立的．包括２１９５个样本，２８个变量，将营销活动响应的概率作为日标变量，取响应为１，未响应
，’一１．５０ｌ—１．６４１５?勺一ｏ．ｔ＇ｕＺ，ＪＩｏ＋Ｕ．ｕ２ｕ，’２＋ｕ?ｕ厶，而３＋ｕ?ｌ，ｙｌ丑ｓ
屹２丁‘币石函面知而瓦丽面瓦瓦函面而；面ｌ＋Ｐ—ｌ?５０ｌ一１－“１５却一ｏ?００２５札＋０?０２０缸１２＋ｏ?０２３＾３＋ｏ?１５９
１
ｃ
ｈ１５
结点得分根据相应模型的规则对打分数据集进行打分，本文将２００８年７月
份所有通信用户作为打分数据集，根据上述的表达式分品牌计算用户在２００８年７月份的营销活动响应概率，并将此作为“关键联系人＂的指标之一。
２．３搿关键联系人弦检索模型
根据定义，前文确定了“关键联系人＂的６个判定指标，为了计算这些指标
的权重，本文使用定性和定量结合的方法——层次分析法【１６１，但层次分析法具
有判断矩阵构造主观性强和一致性不易检验等缺点，因此本文在层次分析法中引入非结构性决策模糊集分析单元系统理论，这种理论可改进层次分析法的缺点，
同时将两种方法结合起来又避免了非结构性决策模糊集分析单元系统理论中计
算总相对优属度时利用模糊识别或模糊优选模型的复杂运算，这种改进的方法称
为模糊层次分析法【１７】。本文使用这种方法来计算指标权重，确定“活跃度＂的计算表达式，并生成“关键联系人＂名单。
２．３．１层次分析法
决策是人们在生活、生产与科学实践中常需要做出选择或判断的一种思维活
动。非结构性决策变量无法量化，只能作定性分析，因而在决策时存在一系列的技术难题。在处理这类问题时常采用层次分析法（ＡＨＰ）。层次分析法是美国运
筹学家，匹兹堡大学的Ａ．Ｌ．Ｓａａｔｙ教授于２０世纪７０年代提出的一种定性分析和
定量分析

相结合的系统分析方法。层次分析法通过明确问题，建立层次分析结构模型，构造判断矩阵，层次单排序和层次总排序五个步骤计算各层次构成要素对于总目标的组合权重，从而得出不同可行方案的综合评价值，为选择最优方案提
供依据。
（１）建立层次结构模型。在深入分析实际问题的基础上，将有关的各个因
素按照不同属性自上而下地分解成若干层次，同一层的诸因素从属于上一层的因
２Ｉ
童薹篓菱萋？主薹萋薹耋誊霎妻薹霉囊囊吲曩冀萋薹薹；
鋈：耋耄霎薹霎鬟薹蓁蒌窭薹囊５霎≤８襄霎霎耋萎霪羹薹羹。羹雩萋蓍霎塞薹霎羹善蓁囊薹萋｜！耄耋薹囊薹鬟薹羹囊藿妻萋囊鍪錾雾羹蠢譬耋耋鬟囊
篓冀；薹萎圳建耄霎以塞季垂一囊蓁薹奏茎蒌８鸯茎藿
蒌。ｊ霎薹萎磊霎荔鍪羹２羹攀２藿妻薹攀蓁鎏，婺薹；薹萋ｊ囊篓霾萋羹！霎差’薹薹霉窆囊蚕薹羹薹妻囊磐鲢摹；囊霎霾
’攀薹１茎羹冀萎薹鍪萋ｊ篓薹羹霪；薹鍪囊蠢；霎霎囊鋈辇
萎薹璧蠹，霎委耄萋萋薹囊囊薹篓藿薹蓁蚕ｉｌ一？｝薹囊霪荔晓囊。辇堂；蓦嚣薹鬓善囊囊薹雾豪鬟蓍耋霎蓁孽鍪墓琴萎萎鬟，囊薹墓冀塑蓁妻霎薹篓茎囊；羹薹冀墓羹藿薹？冀蓁嘉些盏窭羹耋！冀羹薹冀羹霪鬻薹妻．荔萋蓁霎圣垂嘉蓁羹萋？萋嬖薹：薹篓蓁雾塑磊耋羹雾萋：妻藿要霎萎耋霹霉霎冀
囊鬟霎薹辇蕃奏羹薹需垒霉ｊ雾霎耋羹雾鬈ｉ薹～雩霉再薹羹霎囊薹羹和霉雾ｎ喜譬蓁攀墓璧：萎薹蓬蠢蠹薹垂雾。臼Ｅ羹鬟蓁囊萋薹，霎萋藿囊矍薹！萋
翼翦ｉ暖掣篡爹各；；醚隧∞鞠蠛滏焉雾季崩酗吲亨挚ｊ邑蓥嚆篓＝喜蒌蓁差
翰融圳李睡＝≯鲢剐雨囊夼谤焉鼋性鎏孽霉粕看茸辅
馨羁稀。燮痿鬈全两示表塞嵩签；瓤弱引妻景替饵薄霞臣４；融答雾薹８篓妻霞一誓丞旨鼎羹鐾嚏坦蠢蒴萜醴疆ｊ蠼翼毳墓爵萎篓謦益茬霎磊羹謇｜雾墼羹鼋。爹薯镧辱；雾羹薹囊薹萋耋冀薹蓁型：季奏奏冀薹鍪戮雾乏唾撑靼＝豳
薹囊萎萋蓁奏：妻霪茎篓羹蠹。薹錾萋辇３霎囊蔓蠢羹鋈摹。鬟薹鍪萋妻簦委
羹囊羹薹羹萋址耄；霎鬟羹薹萋薹耄卅囊霎蓁薹ｉ蓁霎薹囊墓耋蓁；囊篓？萋妻墓菱篓萋鍪羹妻；薹羹冀冀耋妻霎蠹；篓一季薹璧茎蓁鋈薹霎篓薹鋈耋薹一墓。耋蓬萋霎÷鍪薹蠢要螽薹妻缝雾薹雾望霪萋一蓁囊篓藿妻薹冀＝妻雾萋萋羹鬟羹堑冀；冀霎茎霎ｊ蚕雾餮一垂：囊茎蓁薹萎二薹薹茎耋蠢一薹攀奏奏蓁霎襄萎：雾一篓羹
耋霾霪羹薛曼薹：薹奏囊鐾囊霎薹窭囊娄菱雾墓一。蓁ｆ
越多，Ａ的非一致性程度也就越严重，ｋ对应

的标准化特征向量也就越不能真
实地反映出Ｘ＝扛．，ｘ：，…，ｘ。｝在对因素ｚ的影响中所占的比重。因此，对决策者
提供的判断矩阵有必要作一次一致性检验，以决定是否能接受它。对判断矩阵的
一致性检验的步骤如下：
①计算一致性指标ａ：
Ｃ／：兰型二！
刀一ｌ
②查找相应的平均随机一致性指标肼。对疗＝Ｉ，．－－，９，Ｓａａｔｙ给出了尉的值，
如下表所示：
表２－７平均随机一致性指标Ｒ／
，ｚ
ｌ
２
３
４
５
６
７
８
９
Ｒ／
０
Ｏ
Ｏ．５８
０．９０
１．１２
１．２４
１．３２
１．４１
１．４５
础的值是这样得到的，用随机方法构造５００个样本矩阵：随机地从１，－－．９及其倒数中抽取数字构造正互反矩阵，求得最大特征根的平均值旯二舣，并定义：
盯：查釜二竺
刀一１
③计算一致性比例ＣＲ：
衄：垡
Ｒｉ
当ＣＲ＜Ｏ．１０时，认为判断矩阵的一致性是可以接受的，否则应对判断矩阵作适当修正。（４）层次总排序及一致性检验。上面我们得到的是一组元素对其上一层中
某元素的权重向量。我们最终要得到各元素，特别是最低层中各方案对于目标的排序权重，从而进行方案选择，总排序权重要自上而下地将单准则下的权重进行
合成。对层次总排序也需作一致性检验，检验仍象层次总排序那样由高层到低层逐层进行。这是因为虽然各层次均已经过层次单排序的一致性检验，各成对比较判断矩阵都已具有较为满意的一致性。但当综合考察时，各层次的非一致性仍有可能积累起来，引起最终分析结果较严重的非一致性。设曰层中与彳，相关的因素的成对比较判断矩阵在单排序中经一致性检验，
（２）求行和‘２善乃，并利用转换公式勺２等＋０．５将模糊判断矩阵
，＝（兀）砌改造为模糊一致性判断矩阵Ｒ＝（勺）～，模糊一致性矩阵满足一致性
条件，无需再进行一致性检验。
（３）利用行和归一法得到排序向量∥（。）：（川，…，％）ｒ＝（＿｝，…，｛Ｌ）ｒ。
∑‘
，＝ｌ
∑‘
ｆ＝ｌ
（４）利用转换公式Ｐ；，：皇将互补型判断矩阵Ｒ：（０）蝴变为互反型矩阵
ｒｉｉ
Ｅ＝Ｑ打）～。
（５）以排序向量形‘ｏ’作为特征值法的迭代初值％，进一步求精度较高的排序向量形（ｎ，即： ①以％＝％（１，…ｖ∽…，’，。。）ｒ为迭代初值，利用迭代公式圪＋。＝Ｅ圪求特征向量圪＋，，

并求圪＋。的无穷范数ｌｌ％＋。忆。
②判断：若…圪＋，忆一ＩＩ圪叫＜ｓ，则ｌ｜圪＋。忆即为最大特征值旯一，将圪＋－进
行归一化处理后，圪＋。＝
１－．一，■■一，…，●■一
１，七＋ｌ，Ｉ
１，盘＋ｌ，２１，七＋ｌ，＂
所得向量∥‘七’＝圪＋ｌ即为
∑‰小∑ＶＭ，，
ｆ＝１ｆ＝ｌ
∑Ｖ川，，
ｉ＝ｌ
方案排序向量，迭代结束。
…峨盘＝船，最，…，揣卜…，
再次迭代。
‘
下面举一计算实例说明：
Ｏ．５０１０．５００ｌｌ０．５０ｌ１ｌ０．５
．
优先判断矩阵Ｆ＝
００
，行和１＝３．５，吃＝２．５，吩＝１．５，■＝Ｏ．５，
０．５００Ｏ．３７５
０．６２５０．５００Ｏ．３７５０．２５０
Ｏ．７５００．６２５Ｏ．５０００．３７５
０．８７５Ｏ．７５０Ｏ．６２５Ｏ．５００
则模糊一致性判断矩阵为Ｒ＝（％）～＝
０．２５００．１２５
，利用行和
归一法求得排序向量为矿‘ｏ’＝（Ｏ．４３７５，Ｏ．３１２５，０。１８７５，Ｏ．０６２５）ｒ，互反型判断矩阵
１．ＯＯＯＯＯ．６０００１．６６６７１．０００００．６００００３３３３３．００００１．６６６７１．００００Ｏ．６０００７．ＯＯＯＯ３．００００１．６６６７１．００００
Ｅ＝（Ｐｌ，）脚＝
０．３３３３０．１４２９
，以行和归一法求得的排序向量
形（ｏ’作为特征值法的迭代初值，
迭代３次求得排序向量
∥（５）＝（Ｏ．４９５２，０．２６７０，Ｏ．１５４１，Ｏ．０８３７）ｒ计算精度在Ｏ．ＯＯＯｌ，可以验证计算结果与实际情况较相吻合。改进的模糊层次分析法其优点在于：三标度法属互补型标度，符合人们的思维逻辑，其形式简单，由其度量各元素之间的比较关系；就其质而言，不存在度量不准确的可能性，建立的优先判断矩阵虽然粗糙，但极易建立；由优先判断矩
阵改造而成的模糊一致性矩阵满足一致性条件，无需再进行一致性检验。若把由方根法或行和归一法求得的目标权重∥‘ｏ’＝（Ⅵ，…，％），作为特征值法的迭代初值虼＝％（％。，‰，…，％。）７’，则可大大减少迭代次数，提高收敛速度，同时又可以
满足计算精度要求【１９】。
２．３．３搿活跃度刀计算
“关键联系人’’是指那些高活跃人群，这些人群在其网络中的短信使用频繁、
联系人较多、具有高响应概率、通话频繁

、以及具有一定—６时Ｕ值。根据上述
商业定义，我们将“关键联系人”６个指标的线性组合从数学上定义为“活跃度＂，即“活跃度＂＝厂（营销活动响应度，～度社交圈人数，语音通话次数，短信收发次数，彩信收发次数，触心Ｕ值），厂函数是这６个指标的一个线性组合。由于现有营销数据中没有代表活跃度的指标，因此难以进行建模来确定指标的权
重，这里采用改进的模糊层次分析法ＣＦＡｔ－ＩＰ）来确定各指标的权重。
对“关键联系人’’的６个指标，设语音通话次数为五，短信收发次数为彳：，
彩信收发次数为也，一度社交圈人数为丘，营销活动响应度为Ｘ，，剐姆Ｕ值为瓦。结合商业需求，我们确定了三个品牌在模糊层次分析法上的比较矩阵，
分别为：
表２－８Ａ品牌的比较矩阵
？Ａ品牌五
五
Ｏ．５１１
置
Ｏ０．５ｌ
置
０
Ｘ‘
ｌ１
五
ｌ
托
ｌ
五
墨
Ｘｔ
ＯＯ．５
ｌｌＯ
ｌｌＯ．５
ｌ
ＯＯ
ＯＯ
ＯＯ
０，５Ｉ
Ｘｓ
Ｏ．５
ｌ
Ｘ６
Ｏ
Ｏ
Ｏ
Ｏ．５
０
Ｏ．５
表２＿９Ｂ品牌的比较矩阵
；ｉ
Ｂ品膊
五
Ｏ．５０
五
ｌＯ．５
五
ｌＯ
ｘ‘
Ｏ
ｘｓ
０
Ｘｂｌ
墨
五
墨
ｘｌ
０
ＯＯ
Ｏ１
Ｏｌ
１Ｉ
Ｏ．５ｌ
ＯＯ，５
ＯＯ。５
ｌｌ
Ｘｓ
ｌ０
ｌｌ
ｌＯ
ｌＯ
五
０
Ｏ．５
表２－１０Ｃ品牌的比较矩阵
ｉ
ｃ晶牌，。
ＸＩ
Ｏ．５０
置
ｌ０．５
Ｘ，
Ｉｌ
ｘ
Ｏ０
Ｌ
Ｘｓ
Ｏ
五
ｌ
五
ｔ
Ｘ３
ＸＡ
０Ｏ
ｌＯ
Ｏｌ
Ｏｌ
Ｏ．５ｌ
ＯＯ．５
Ｏ＆５
ｌｌ
Ｘｓ
ｌＯ
ｌＯ
ｌｌ
ｌ０
ｘｂ
０
Ｏ．５
根据模糊层次分析法的计算原理，可以求出三个品牌对应的６个指标的权重，结果如下：
表２＿１１三个品牌的指标权重
≯
ｏｉ
≥，权重。
置
Ａ品牌
Ｏ．１６ｌ０．２３５
Ｂ品牌
Ｏ．１５９０．０４８
Ｃ晶牌
０．１５９
五
五
ＸＡ
Ｏ．１１０
０３６９０．０６２
Ｏ．１１００．２３４
Ｏ．０４８０．２３４
五
ｘ６
Ｏ．“２
Ｏ．３７３
Ｏ．３７３
０．０７５

Ｏ．０６２
０．０７５
由于６个指标的量纲不一致，因此对其进行标准化，标准化公式＝１０００×（指标值．指标最小值）／（指标最大值等旨标最小值）。设６个指标标准化后的变量分
别为膏ｌ、叉：、牙，、又。、牙，、ｊ。，由此可以分模型、分品牌构建“活跃度＂的得分表达式，然后将得分按品牌进行排序，再根据商业上的需要选取一定比例的高活跃度用户作为“关键联系人＂进行精确营销，得分表达式如下：
ＳｃｏｒｅＡ＝０．１６１Ｘｌ＋０．２３５Ｘ２＋０．３６９Ｘ３＋０．０６２Ｘ４＋Ｏ．１
１２墨－Ｉ－０．０６２Ｘ６
ＳｃｏｒｅＢ＝０．１５９Ｘｌ＋０．０４８Ｘ２＋０．１ＩＯＸ３＋０．２３４Ｘ４＋０．３７３Ｘ５＋０．０７５Ｘ６
ＳｃｏｒｅＣ＝Ｏ．１５９Ｘｌ－Ｉ－０．１１
Ｏｊ，２＋０．０４８Ｘ３＋０．２３４Ｘ４＋Ｏ．３７３Ｘ５－ｔ－０．０７５Ｘ６
第三章通信社会关系网络的构建
３．１构建流程
六度空间理论是指社会关系网络中的任意两个节点，他们之间至少存在着一
条度小于等于６的关联路径。该理论已经得到众多实验的验证，包括微软最近进
行的一项调查研究，通过对２００６年６月间１．８亿人的３００多亿次即时对话进行
了深入分析，这些信息占当时全部即时消息流量的一半左右，得出了这个星球上
任意两个人互相联系的桥梁平均需要通过６．６个人的结论，也再次验证了六度空间理论的正确性。由于通信社会关系网络拥有完整社会关系网络的几乎所有性质，并且其数据规模的适中性，通信用户之间的通信关系的可靠性以及通信数据
的完整性，使得通信社会关系网络更加适合于挖掘。因此，本章通过设计关联路
径和最短路径检索算法，来构建前一章“关键联系人＂的通信社会关系网络，该网络主要包括通信用户的“六度空间’’，即其朋友圈，以及用户和用户之间的通信路径等，并通过界面开发将其通信社会关系网络以Ｆｌａｓｈ的界面形式展现出来，从而为该地区电信运营商的社会网络分析提供数据基础。本章通信社会关系网络的构建流程主要包括：（１）汇总上述“关键联系人”在２００８年７月份的通信记录清单数据，构建这些人群的ｌ度空间数据，即１度朋友圈。（２）使用关联路径检索算法，逐级构建２度至６度的通信路径汇总数据，构建过程中，对于已经存在于低度空间中的路径进行递归去重运算。（３）将以上１至６度的空间数据存储于六度空间的数据存储表中，并

对该表中的通信主体字段加索引。（４）搜索两个用户（如Ａ，Ｂ用户）之间的最短路径，以Ａ（或者Ｂ）用户作为通信主体，从六度空间的数据存储表中过滤出该用户的６度通信路径数据，生成临时数据表，然后使用最短路径搜索算法，即ＳＡＳ软件运筹（ＯＲ）模块的最短路径计算过程（ＮＥＴＦＬＯＷ过程），计算出Ａ，Ｂ用户间的最短距离和
２９
（４）当所＝门时，以＝４一。并上满足＆。，＝＆－ｌ＇：的４号码集合，然后递归
去除么。＝峨＇ｉ’ｓ。，２】胀２中可能存在于么等，（厶一２圆彳辨＿Ｉ）删，
……，
（４固…以一：＠以一。）唧的路径组合。令Ｄ砌（度）＝刀，将４存入六度空间的数
据存储表。通过以上的关联路径递归检索可以得到一张用以存储用户通信关联路径的六度空间数据存储表，如下所示：
表３－ｌ六度空间数据存储表
；手机号
ＡＡ
度
ｌｌ
起始号码
ＡＡ
结束号码
ＣＤ
总通话时长
２０００９００
通话频数
３０２０
短信频数
５０４０
彩信频数”
３０１０
Ａ
２２
ＣＤ
Ｂ
８００７００
２０２０
４０４０
２０２０
ＡＡＡ
ＨＸＹ
３３
ＢＨ
９００６００
３０５０
２０５０
１０３０
Ｂ
ｌ
Ｂ
Ｘ
９００８００
３０２０
２０４０
１０２０
Ｂ
ｌ
Ｂ
Ｃ
３．２．２最短路径搜索算法
最短路径是最优化重要问题之一，它不仅直接应用于解决生产实践中的许多问题，如管道的铺设、线路的安排、厂区的选址和布局、设备的更新等，而且也经常被作为一种基本工具，用于解决其他的最优化问题和预测、决策问题。这种制约网络问题都能够使用ＳＡＳ软件运筹（ＯＲ）模块的ＮＥＴＦＬＯＷ过程解决，该过程可以接受某种指定的网络规格，也可以解决大部分线性规划问题；单纯形法
算法虽然是求解线性规划问题的有效方法，但是Ⅺｅｅ和Ｍｎｙ构造的例子证实
了单纯形算法不是多项式算法，因此ＮＥＴＦＬＯＷ过程使用了内点算法来解决网
络问题和线性规划问题。本文在研究用户之间的通信关系时设计的最短路径搜索算法正是基于ＳＡＳ软件运筹（ＯＲ）模块的ＮＥＴＦＬＯＷ运算过程，实现了包括ＤｉｉｋＳｔｒａ，Ｐｒ硫ａ１．Ｄｕａｌ内点算法等图论计算算法，具有精确，高效，适于处理大
型数据矩阵的特性。在大量的求解最短路径算法

中，Ｄｉｊｋｓｔｒａ算法是一种最经典的算法，传统的算法时间复杂度为０（Ⅳ２），许多算法都是在此算法的基础上改进发展而来的。
Ｄ弘ｓｔｒａ算法的基本思想是：以屹为起点，从图中找出与其距离最短的顶点。假
设该点为Ｋ，然后再以杉作为参照点，从余下的顶点中找出与其距离最短的顶点，依次类推，直到所有的顶点都对比完为止，至此，以到各顶点的最短距离就已经求出来了。至于具体的最短路径，常用的方法是“反向追踪法”。即从终点出发，
“顺藤摸瓜”找到最短距离上的各个点，按照有向图的方向，就可以得到最短路
径【２１１。
近十几年来内点算法已经成为数学规划中非常活跃的研究方向，其收敛性和计算速度均优于单纯形算法，并已形成势函数投影、仿射尺度和路径跟踪法三大
类内点算法。其中仿射尺度算法使用简单的仿射变换替代了勋１１１ａ咄ａｒ原来的投
影变换，从而使人们可以直接解一般形式的线性规划问题，Ｋ踟ｎａｒｋａｒ算法对单
纯形结构的特殊要求被放松了。仿射尺度算法的的基本思想是：每步迭代先作仿
射尺度变换，然后使用最速下降步骤。它分为原仿射尺度算法，对偶仿射尺度算法和原始．对偶仿射尺度算法三类。其中原始．对偶仿射尺度算法在初始点和迭代步长选取适当时，可证明为多项式算法。在原仿射尺度算法中尺度矩阵为Ｘ，
而在对偶仿射尺度算法中尺度矩阵为Ｚ，在此算法中尺度矩阵既不取ｘ也不取Ｚ，而是取Ｄ＝（Ｚ－１设ｘ‘，
Ｘ）ｍ。原始一对偶仿射尺度算法的基本框架如下【２２】：
（ｙ。，ｚ‘）分别为原问题和对偶问题的内点可行解，令ｘ）¨２，对线性规划（三Ｐ）
ｘ＝旃昭＠？，…，ｘ：），ｚ＝西昭＠？，…，ｘ：），Ｄ＝（ｚ＿１
作Ｄ．仿射尺度变换，变为ｍｉｎｐｒｉＩ盈＝６，ｉ≥ｏ｝，其中万＝眈，彳＝么Ｄ，
ｉ＝Ｄ－１ｘ。仿照原仿射尺度算法取下降方向：血＝Ｄ【，一删ｒ（４Ｄ２４７’）＿１彳Ｄ】眈，
仿照对偶仿射尺度算法取下降方向：缈＝一（彳Ｄ２４ｒ）－１６，止＝么ｒ（么Ｄ２么ｒ）－１６，令ｘ七＋１＝ｘ‘一ａ血，Ｊ，Ｍ＝ｙ七一ａ妙，ｚ¨＝ｚ‘一ａ△Ｚ，其中Ｏ＜ａ＜１。完成一次
迭代，此算法由于在每次迭代中始终保持ｘ‘的原可行性，（ｙ。，ｚ七）的对偶可行性，
３２
并通过适当选取步长口使对偶问隙有固定比例的缩减，从而导致一个多项式算
法。基于以上图论算法，结合ＮＥＴＦＬＯＷ过程，我们设计如下算

法：（１）设Ⅳ表示该地区某电信运营商的电话号码总数，Ａ，＝（ａ（ｉ，Ｊ，１））Ⅳｘ＾ｒ为１
次关联矩阵，当号码Ｓ。与Ｓｊ有通讯联系时，ａ（ｉ，Ｊ，１）＝１，否则该元素取为＋００。
令Ａ。＝（口（，，Ｊ，ｍ））ⅣｘⅣ 是
ｍ
次
联
系
矩
阵
，
其
元
素
口（ｆ，／，聊）＝ｍｉｎ｛ａ（ｉ，ｋ，１）＋口（后，Ｊ，ｍ一１Ｉ１≤ｋ≤Ｎ，ｋ≠ｆ，ｋ≠／））。该元素的意义为：若
号码Ｓ，能够通过扰次联系与Ｓ』关联，则元素的取值为ｍ，否则取值为＋ｏｏ。设
，ｚ（ｆ，／）＝．ｍ，ｉｎａ（ｉ，Ｊ，ｍ）表示Ｓ，到Ｓ，的最小关联次数，即Ｓ，最少要通过多少次联系ｌＳ埘Ｓ∞
。
关联到Ｓ／。我们将问题描述为，对任意两个号码Ｓ，与Ｓ／，若
咒（ｆ，Ｊ）＝．ｍ…ｉｎａ（ｉ，Ｊ，掰）＜佃，则给出由Ｓ，到达Ｓ，的最短路径。
ＩＳｍＳＯ
。
（２）对号码Ｓ。，给出其～度关联集合，即与Ｓ，有直接联系的号码集合Ｂ。（ｆ），若Ｊ∈Ｂ。（ｆ），贝０，ｚ（ｆ，Ｊ）＝１，否贝０，若日（ｆ）ｎ骂（／）≠驴，贝Ｕ，ｚ（ｉ，Ｊ）＝２。（３）对艿ｌ（ｆ）中的元素，再分别求一度关联集合，可以记成Ｂ：（ｆ），若Ｂ１（ｉ）ｎＢｌ（／）＝妒，Ｂ２（ｆ）ｎ且（／）≠妒，则，ｚ（ｆ，Ｊ）＝３，否则，若Ｂ２（ｆ）ｒ、Ｂｌ（／）＝妒，Ｂ２（ｆ）厂、吃（／）≠驴，贝．１Ｊｎ（ｉ，／）＝４。
（４）类似可以给出色（ｆ），若芝（ｆ）ｎ吃（／）＝≯，Ｂ３（ｆ）广、Ｂ２（歹）≠≯，则
，ｚ（ｆ，Ｊ）＝５，否则，若色（ｆ）ｒ、Ｂ：（／）＝妒，Ｂ３（ｆ）ｎ马（／）≠驴，则，ｚ（ｆ√）＝６，若Ｂ（ｆ）ｎ色（／）＝≯，贝，ｌＪｎ（ｉ，Ｊ）≥６，关联失败。
（５）最后将六度空间数据存储表及其生成的临时数据表作为源数据输入
ＳＡＳ软件运筹模块的ＮＥＴＦＬＯＷ过程，将需要查询的起始号码，结束号码作为
参数输入以上ＮＥＴＦＬＯＷ计算过程，并设置ＮＥＴＦＬＯＷ计算过程的输出结果。
运行以上计算过程，输出结果中即包含起始号码与结束号码之间的最短路径长度，以及最短路径上经过的节点号码（如果两个号码存在联系）。由于对所有的
号码Ｓ。，给出集合局（ｆ），其存贮量可能非常巨大，总的可ｚＨ匕１．－，达到１０００Ｇ到１００００Ｇ
级别，因此存贮资源的限制使得我们只能统计三度以内的关联。
３．３
Ｆｌｅｘ

技术开发
为求将构建的通信社会关系网络直观地展现出来，本文考虑到Ｆｌｅｘ技术具
有更好的网络交互能力，更加绚丽的表现效果，同时在企业级的扩展上也游刃有
余，并且对软件开发人员的要求并不苛刻，用相对简单的代码就可以完成绚丽高
效的Ｆｌｅｘ应用程序等特点，因此本文基于多层模式的体系结构，采用Ｆｌｅｘ技术
来构建通信社会关系网络的前端展现。Ｉｎｔｅｍｅｔ已经是我们生活的一部分，而“看网页＂可以说是网络浏览者与
Ｉｎｔｅｍｅｔ最简单的沟通方式。打开浏览器，进入～个网站浏览，这就是浏览者们看到的最直观的Ｉｍｅｎｌｅｔ的外表。尽管页面上不是单一的文字，但也仅仅是“页＂。
然而如今这些传统的呆板的“页”已经不再能满足网络浏览者的要求了。多媒体、
多元化的信息表现在一个页面上，的确很是单薄。
另一方面，开发人员也一直在为过分依赖于页面刷新、请求响应等诸多传统网页开发技术固有的问题而烦恼。当然我们不能忽略Ｂ／ｓ架构能够取代Ｃ／Ｓ长期
大行其道有一个重要的因素，就是网络带宽问题。传统网页内容简单，节省网络带宽的优势是与生俱来的，而如今网络技术在
不断地发展，软硬件发展又达到了一个并驾齐驱的时期，软件系统已经不需要等待硬件的发展而发展。有了强烈的需求，又有了充足的硬件基础，新技术应运而
生，对Ａ的出现给网络浏览者和开发人员都带来了全新的体验【２３】。砒Ａ是Ｒｉｃｈ
Ｉｎｔｅｍｅｔ
Ａｐｐｌｉｃａｔｉｏｎｓ的缩写，翻译成中文为丰富互联网应用程
序，丰富互联网应用程序是将桌面应用程序的交互的用户体验与传统的Ｗｒｅｂ应用的部署灵活性结合起来的网络应用程序。ⅪＡ是集桌面应用程序的最佳用户界面功能与Ｗ曲应用程序的普遍采用和快速、低成本布署以及互动多媒体通信的实时快捷于一体的新一代网络应用程序。ⅪＡ中的础ｃｈＣＩｉｅｎｔ（丰富客户端）提供可承载己编译客户端应用程序（以文件形式，用ＨＴＴＰ传递）的运行环境，客户端应用程序使用异步客户／服务器架构连接现有的后端应用服务器，这是一种安全、可升级、具有良好适应性的新的面向服务模型，这种模型由采用的Ｗｒｅｂ服
３４
第四章通信社会关系网络的应用
过通并，掘挖行进点节键关的高较度跃活中络网对术技据数用使文前关联路径和最短路径算法构建了这些关键节点的通信社会关系网络。利用这些关
键节点在其网络中的影响力，并结合其网络