计算机zigbee网络全部展开分别填写
Zigbee操作说明
一.Android软件安装配置,导入项目安装pad驱动测试对应源码是否成功使用无线路由器组建局域网,并将摄像头配置进来ZIGBEE用万用表测出2,3,5口:具体使用:将万用表的开关拨到箭头的地方,然后测线路是否通,如果有响声,即是联通的。
串口线和ZIGBEE连接时对应的点:2口:tx; 3口:rx 5口:GND继电器Vin1连接12伏电源GND2连接地D+5连接智能终端的RS485的左边D-6连接智能终端的RS485的右边使用智能终端的使用:1) 连接电源:PWR:左黑右红,红为5伏电源,黑为底线2)串口线连接PC,进行配置查询: AT+AA_BASE_ADDRESS=1返回结果,0,硬件地址设置地址: AT+AA_BASE_ADDRESS=0,A1108 注意:1108为自己设定的硬件地址(0——F)查询:AT+R_AA_Z_NODE返回结果AT+AA_Z_NODE=C 注:C为协调器设置信道:AT+AA_Z_CHANNEL=11 注:11为自行设定的信道(值为11-26)设组网地址:AT+AA_Z_PAN_ID=1105 注:1105为自行设定的组网地址自此,智能终端设置完成设置ZIGBEE连接电源连接串口线,设置235,黑的是5,黄的是2,绿的是3通过串口线连接PC,进行设置:查询硬件地址:AT+AZ_BASE_ADDRESS=1返回结果0,Z硬件地址设置硬件地址:AT+AZ_BASE_ADDRESS=0,Z1109 注:1109为自行设定的硬件地址(这个地址必须区别于智能终端的硬件地址)设置工作模式:AT+AZ_BASE_WORKMODE=0,2设置为路由器:AT+AZ_Z_NODE=R设置信道:AT+AZ_Z_CHANNEL=11 注:11为上述设置的信道AT+AZ_Z_PAN_ID=1105 注:1105为上述设置的组网地址设置工作模式:AT+AZ_BASE_WORKMODE=0,2将门磁连上:门磁的两头分别连接ZIGBEE的GND和IN两口关于继电器1)继电器就是一个开关2)一个继电器有四对:第一队:AG,A1,A2,;第二队:10,11,12;第三队:13,14,15;第四对:16,17,18。
zigbee组网方案
zigbee组网方案Zigbee是一种基于IEEE 802.15.4标准的低功耗、低速率、短距离无线通信技术。
Zigbee通信协议通常被应用于物联网领域,而Zigbee组网方案则是实现这一点的关键。
一、Zigbee技术的优势Zigbee组网方案之所以受到广泛的关注和应用,是因为它具有以下的优势:1.低功耗:Zigbee是一种低功耗的无线通信技术,通过使用短时间的周期性传输来降低功耗,同时在通信过程中会控制射频功率,以达到更低的能耗。
2.价格低廉:Zigbee组网所需要的硬件和软件的成本都非常低廉,这使得它在普通家庭生活中得到了广泛的应用。
3.简单的网络拓扑:Zigbee的组网拓扑结构非常简单,由于其支持多种不同的拓扑结构,因此适用于各种不同的应用场景。
4.安全可靠:Zigbee具有高度的安全性和可靠性,支持多种不同的加密方式,能够保证网络传输的安全性和数据的完整性。
二、Zigbee组网方案的组成部分Zigbee的组网方案由三个不同的组成部分组成:1.协调器(Coordinator):负责管理整个Zigbee网络,具有最高的权限和范围。
在Zigbee网络中只有一个协调器。
2.路由器(Router):负责转发和路由信息,具有一定的范围和权限。
在Zigbee网络中可有多个路由器。
3.端节点(End Device):具有最低的范围和权限。
在Zigbee 网络中可以有多个端节点。
三、Zigbee组网方案的拓扑结构Zigbee支持多种不同的拓扑结构,包括:1.星型拓扑结构(Star Topology):所有设备都连接到一个中心节点(协调器)。
2.网状拓扑结构(Mesh Topology):所有设备都连接到其他设备,形成一个复杂的网络结构。
3.混合拓扑结构(Hybrid Topology):网状拓扑结构和星型拓扑结构的混合。
四、Zigbee组网方案的应用场景Zigbee组网方案通常应用于以下场景:1.智能家居系统:Zigbee组网技术可以使设备之间更方便地进行连接和通信,从而实现安全、便捷、节能等目标。
构建zigbee网络总结
构建 ZigBee 网络总结概述ZigBee 是一种基于 IEEE 802.15.4 标准的无线通信协议,旨在提供低功耗、低数据率的短距离无线通信解决方案。
ZigBee 网络由一个或多个 ZigBee 设备组成,这些设备通过 ZigBee 协调器进行协调和管理。
本文将探讨构建 ZigBee 网络的关键步骤和注意事项。
步骤一:选择合适的硬件设备构建 ZigBee 网络的第一步是选择合适的硬件设备。
ZigBee 网络的设备分为三类:协调器(Coordinator)、路由器(Router)和终端设备(End Device)。
协调器是网络的主节点,负责组织和管理整个网络。
路由器允许设备之间进行中继和转发数据。
终端设备是网络中的最终节点,负责与其他设备进行通信。
在选择硬件设备时,需要考虑以下因素: - 功耗:如果是低功耗应用,选择低功耗的设备非常重要。
- 通信范围:根据项目需求选择合适的通信范围。
- 可靠性:确保设备的稳定性和可靠性。
- 成本:根据项目预算选择合适的硬件设备。
步骤二:设计网络拓扑结构在ZigBee 网络中,网络拓扑结构的设计非常重要。
常见的拓扑结构包括星型、网状和链状。
不同的拓扑结构适用于不同的应用场景。
星型拓扑结构星型拓扑结构是最简单和最常见的ZigBee 网络拓扑结构。
在星型拓扑结构中,所有设备都通过协调器进行通信。
该拓扑结构适用于需要集中管理的应用,例如家庭自动化系统。
网状拓扑结构网状拓扑结构允许设备之间进行多跳通信,提供了更强大的网络覆盖能力。
在网状拓扑结构中,路由器负责转发数据,并确保数据能够可靠地从源设备传输到目标设备。
该拓扑结构适用于需要大范围通信的应用,例如智能城市和工业自动化系统。
链状拓扑结构链状拓扑结构是一种特殊的网状拓扑结构,它只允许设备之间进行单向通信。
链状拓扑结构适用于需要按序传输数据的应用,例如传感器网络。
在设计网络拓扑结构时,需要考虑以下因素: - 设备位置:根据设备的位置选择合适的拓扑结构。
ZigBee树型网络地址分配及结构
ZigBee树型网络地址分配及结构
树型路由机制包括配置树型地址和树型地址的路由。
当协调器建立一个新的网络,它将给自己分配网络地址0,网络深度d=0。
网络深度表示仅仅采用父子关系的网络中,一个传送帧传送到ZigBee协调器所传递的最小跳数。
如“节点A”加入网络并与协调器连接,那么“节点A”的网络深度是1;“节点B”加入网络并与“节点A”连接,那么“节点B”的网络深度是2,依此类推。
在树簇型网络中,协调器和路由器都可以连接N个路由节点和终端节点做为自己的子节点,形成一个个“簇”。
但是协调器和路由器能连接的子节点的数量是不是无限的呢?
协议栈中,有以下几个参数影响网络拓扑的形态:
Cm(nwkMaxChildren):每个父节点可以连接的子节点的总个数;
Rm(nwkMaxRouters):在Cm中,可以是路由节点的个数,Rm<=Cm;
Lm:网络最大深度,协调器的深度为0。
这三个参数的值在Z-stack中分别由变量CskipChldrn、CskipRtrs、MAX_NODE_DEPTH决定。
这三个变量可以在NWK中的nwk_globals.c 和 nwk_globals.h 两个文件中查找。
地址的分配:
每一个节点加入网络时,都会被分配16位
(未完待续)。
zigbee组网方案
zigbee组网方案Zigbee组网方案简介Zigbee是一种低功耗、近距离的无线通信技术,主要应用于物联网领域。
它基于IEEE 802.15.4标准,通过无线信号传输数据,可以实现设备之间的互联和通信。
本文将介绍Zigbee组网的原理以及常见的组网方案。
Zigbee组网原理Zigbee组网主要由三个组成部分组成:协调器(Coordinator),路由器(Router)和终端设备(End Device)。
协调器是整个网络的中心,负责管理和控制整个网络,并在必要时与外部网络通信。
路由器可以通过多跳方式将数据传输到不同的节点,终端设备是网络中的终端节点,主要用于数据的采集和传输。
Zigbee网络采用星状拓扑结构,协调器位于网络的中心,路由器和终端设备通过与协调器的连接来建立网状拓扑结构。
这种结构可以保证网络的稳定性和可靠性。
组网过程中,首先需要进行网络的初始化和配置。
协调器将会发出一个网络启动信号,其他设备在接收到信号后可以加入已有网络或创建一个新的网络。
随后,设备会通过Zigbee的网络协议进行数据的传输和交换。
协议包括了设备之间的通信规则、数据的格式和传输的方式。
Zigbee组网方案Zigbee组网方案有两种常见的方式:单主结构和多主结构。
单主结构在单主结构中,只有一个协调器作为网络的中心,其他设备通过与协调器的连接来进行通信。
这种结构的优点是简单和易于部署,适用于规模较小的网络。
然而,由于只有一个协调器,整个网络的稳定性和可靠性会受到限制。
多主结构多主结构中,可以有多个协调器作为网络的中心。
这种结构的优点是能够提供更高的灵活性和可扩展性,并且可以实现区域之间的连接和通信。
每个协调器都可以管理一部分设备和节点,通过多跳方式实现数据的传输。
然而,多主结构的部署和管理相对复杂,需要更多的设备和资源。
Zigbee网络拓扑结构除了单主结构和多主结构之外,Zigbee还支持多种拓扑结构,包括星状、网状、树状和混合结构。
zigbee网络建立过程简介
星形网络和树型网络可以看成是网状网络的一个特殊子集,所以接下来分析如何组建一个Zigbee网状网络。
组建一个完整的Zigbee网络分为两步:第一步是协调器初始化一个网络;第二步是路由器或终端加入网络。
加入网络又有两种方法,一种是子设备通过使用MAC层的连接进程加入网络,另一种是子设备通过与一个先前指定的父设备直接加入网络。
一、协调器初始化网络协调器建立一个新网络的流程如图1所示。
图1 协调器建立一个新网络1、检测协调器建立一个新的网络是通过原语发起的,但发起原语的节点必须具备两个条件,一是这个节点具有ZigBee协调器功能,二是这个节点没有加入到其它网络中。
任何不满足这两个条件的节点发起建立一个新网络的进程都会被网络层管理实体终止,网络层管理实体将通过参数值为INVALID_REQUEST的的原语来通知上层这是一个非法请求。
2、信道扫描协调器发起建立一个新网络的进程后,网络层管理实体将请求MAC子层对信道进行扫描。
信道扫描包括能量扫描和主动扫描两个过程。
首先对用户指定的信道或物理层所有默认的信道进行一个能量扫描,以排除干扰。
网络层管理实体将根据信道能量测量值对信道进行一个递增排序,并且抛弃能量值超过了可允许能量值的信道,保留可允许能量值内的信道等待进一步处理。
接着在可允许能量值内的信道执行主动扫描,网络层管理实体通过审查返回的PAN描述符列表,确定一个用于建立新网络的信道,该信道中现有的网络数目是最少的,网络层管理实体将优先选择没有网络的信道。
如果没有扫描到一个合适的信道,进程将被终止,网络层管理实体通过参数仠为STARTUP_FAILURE的的原语来通知上层初始化启动网络失败。
3、配置网络参数如果扫描到一个合适的信道,网络层管理实体将为新网络选择一个PAN描述符,该PAN描述符可以是由设备随机选择的,也可以是在里指定的,但必须满足PAN描述符小于或等于0x3fff,不等于0xffff,并且在所选信道内是唯一的PAN描述符,没有任何其它PAN描述符与之是重复的。
zigbee网络体系结构
z i g b e e网络体系结构本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.MarchZigbee体系Zigbee的体系结构由称为层的各模块组成。
每一层为其上一层提供特定的服务:即由于数据服务实体提供数据传输服务;管理实体提供所有的其他管理服务。
每个服务实体通过相应的服务接入点(SAP)为其上层提供一个接口,每个服务接入点通过服务原语来完成所对应的功能。
Zigbee网络体系结构IEEE仅处理低级MAC层和物理层协议,因此zigbee联盟对其网络层协议和API进行了标注化,zigbee联盟还开发了安全层。
Zigbee物理层物理层定义了物理无线信道和MAC子层之间的接口,提供物理层数据服务和物理层管理服务物理层数据服务从无线物理信道上收发数据。
物理管理服务维护一个由物理层相关数据组成的数据库。
物理层内容:(1)zigbee的激活(2)当前信道的能量检测(3)接收链路服务质量信息(4)Zigbee信道接入方式(5)信道频率选择(6)数据传输和接收MAC层:MAC层负责处理所有的物理无线信道访问,并产生网络信号、同步信号;支持PAN连接和分离,提供两个对等MAC实体之间可靠的链路。
MAC层数据服务:保证MAC协议数据单元在物理层数据服务中正确收发MAC层管理服务:维护一个存储MAC子层协议状态相关信息的数据库。
MAC层功能“(1)网络协调器产生信标;(2)与信标同步(3)支持PAN链路的建立和断开(4)为设备的安全性提供支持(5)信道接入方式采用免冲突载波检测多址接入(CSMA-CA)机制(6)处理和维护保护时隙(GTS)机制(7)在两个对等的MAC实体之间提供一个可靠的通信链路网络层Zigbee协议栈的核心部分在网络层,网络层主要实现节电加入或离开网络、接收或抛弃其他节点、路由查找及传送数据等功能,支持Cluster-Tree等多种路由算法,支持星行、树形、网络拓扑结构。
zigbee网络拓扑结构及节点设计
zigbee网络拓扑结构及节点设计作者:叶子2 1 引言基于zigbee技术的无线传感器网络适用于网点多、体积小、数据量小,传输可靠、低功耗等场合,在环境监测、无线抄表、智能小区、工业控制等领域已取得一席之地[1]。
同时,zigbee规范与协议日臻完善[2]。
从zigbee1.0、zigbee1.1到目前最新的zigbee2007/pro,zigbee协议规范的演进对硬件系统提出了更高的要求[3]。
2 设计要求2.1 zigbee网络结构从网络结构上看,zigbee网络有星形,树形,网状3种模式,按照网络节点功能划分可分为终端节点(ep)、路由器节点(rp)和协调器节点(cp)3种[2]。
其组织结构如图1示。
图1 zigbee网络拓扑结构其中,协调器节点负责发起并维护一个无线网络,识别网络中的设备加入网络;路由器节点支撑网络链路结构,完成数据包的转发;终端节点是网络的感知者和执行者,负责数据采集和可执行的网络动作[2]。
这就要求zigbee网络节点需扮演终端感知者、网络支持者、网络协调者3种角色。
从功能上,zigbee节点应由微控制器模块、存储器、无线收发模块、电源模块和其它外设功能模块组成。
其结构如图2所示。
图2 zigbee网络节点模块图其中,包括dma、usart模块、定时器模块、a/d模块在内的丰富的外设功能来满足网络对硬件资源的需求,存储器模块完成协议栈的存储与执行,cpu实现数据的运算与处理,mac定时器用于实现网络同步,使用aes技术对信息进行加密,无线模块完成收据的收发与信息帧控制。
2.2 zigbee网络节点设计要求(1)可供选择的无线频段。
无线频段的选择要兼具较高的传输速率和较好的绕射性能,同时要具备一定的抗干扰力。
2.4ghz频段是ieee 502.15.4定义的工作在ism频段的两个工作频段之一,有16个速率为250kb/s的信道。
(2)体积小,成本低,易于大规模布建。
zigbee技术较其它无线技术的优势在于自组网,这就需要布建大规模的网络节点,因此成本问题凸显出来,有资料显示:10$左右的zigbee网络节点有较高的性价比。
设备点检ZigBee网络系统方案
设备点检ZigBee网络系统方案本方案采用ZigBee无线网络加无线低功耗模块实现数据的传送。
整个方案由三大部分组成:无线低功耗模块、无线网络ZigBee桥接器、无线网络ZigBee。
一、无线低功耗模块具有低功耗、无线唤醒、功率可调等功能。
射频频率433M。
此模块采用电池供电,平时处于低功耗状态,当使用桥接器发出唤醒信号时,模块在2~3秒内能从睡眠中醒来,然后处理或采集需要的数据传送给桥接器。
二、无线网络ZigBee桥接器采用双层电路板结构:板上部件有:1)无线低功耗模块2)无线龙长距离ZigBee控制单元(全功能,支持网状网络、距离可达600M (CHIP天线) 1KM (鞭状天线) 均为开阔距离)。
3)无线龙微控制器 (MCU)桥接器MCU 运行无线龙控制软件。
并提供一个3V标准的串口和其他设备进行通讯,模块可集成在一个35mmX45mmX7.5mm(厚)的小板上,桥接器与无线网络采用ZigBee网络通信,可随时加入ZIGBEE网络传送数据。
三、无线ZigBee网络ZigBee网络采用无线网络ZigBee通信标准,模块采用长距离的全功能ZigBee模块(支持网状)组成,网络覆盖范围3公里以上。
此模块工作在2.4G频段上,当模块设定其性质后,可以自动组网。
网络正常运行后,可以在网络中任意传送数据。
三部分都采用无线数据通信,其中:1. 无线低功耗模块与无线网络ZigBee桥接器采用433MHz无线射频数据通信。
ZigBee桥接器作为一个移动节点采集无线低功耗模块数据。
2.无线网络ZigBee桥接器与无线网络ZigBee采用无线ZigBee网络标准进行通信。
ZigBee桥接器能随时加入ZigBee无线网络,在ZigBee 无线网络把它当作一个普通ZigBee无线网络节点。
3.其它无线低功耗模块之间不进行通信;无线低功耗模块与无线网络ZigBee之间不进行通信。
四、与应用公司设备的接口1)无线低功耗模块节点和设备接口(如果需要)无线低功耗模块有一个3V串行接口,可以连接应用公司的设备,进行数据通讯。
ZigBee网络
ZigBee网络技术及其应用。
随着物联网的不断发展,越来越多的智能设备开始进入人们的生活中,这些设备需要实现相互之间的联网,实现智能化的功能。
而一个联网的基础,就是搭建一个可靠的网络。
ZigBee网络技术,就是一种针对物联网设备而设计的网络技术。
它采用低功耗、短距离的无线通信方式,可以支持数百个设备的连接。
在无线传输距离、能耗和传输容量方面都有着非常出色的表现。
ZigBee网络技术与传统无线技术不同,它采用短距离无线通信,和蓝牙有一些相似的地方。
但是与蓝牙技术基本不同的是,ZigBee采用了自组织的网络结构,属于一种无中心式网络结构,可以自动地对成员节点进行管理和控制,从而降低了各个节点之间的耦合性。
在组网方面,ZigBee网络通常采用网格型的结构,每个节点可以和周围的其他节点进行连接,形成一个自组织的网状网络。
这种网状结构,大大增强了网络的容错性、可扩展性和灵活性,在数据传输和设备控制方面也有着较好的表现。
在使用方面,ZigBee网络具备极低的功耗和较长的续航时间,对于需要长时间运行的设备来说,这种低功耗的特性非常重要。
它可以采用内置电池,不需要定期更换电池,同时也可以采用一些无源能源来为设备供电,如太阳能、风能、压电能等。
在物联网的应用中,ZigBee网络技术得到了广泛的应用,如智能家居、能源管理、医疗监控、智能交通等领域,在各个领域都具备着不同的特点和应用场景,下面我们详细介绍几个典型的应用场景。
1. 智能家居智能家居是物联网应用中的一个重要领域,解决了人们生活中繁琐的家务问题,ZigBee网络技术在智能家居中的应用也得到了广泛的探讨和应用。
智能家居主要包括家庭能源管理、智能安防、智能家居控制等功能,通过ZigBee网络技术可以实现家电、灯光、窗户、门锁等知名设备的远程控制,使得家居智能化程度得到了极大的提升。
2. 能源管理能源管理主要解决的问题是如何对能源进行高效的管理和利用,降低能源的浪费。
ZigBee网络配置
ZigBee⽹络配置低数据速率的WPAN中包括两种⽆线设备:全功能设备(FFD)和精简功能设备(RFD)。
其中,FFD可以和FFD、RFD通信,⽽RFD只能和FFD通信,RFD之间是⽆法通信的。
RFD的应⽤相对简单,例如在传感器⽹络中,它们只负责将采集的数据信息发送给它的协调点,并不具备数据转发、路由发现和路由维护等功能。
RFD占⽤资源少,需要的存储容量也⼩,成本⽐较低。
在⼀个ZigBee⽹络中,⾄少存在⼀个FFD充当整个⽹络的协调器,即PAN协调器,ZigBee中也称作ZigBee协调器。
⼀个ZigBee⽹络只有⼀个PAN协调器。
通常,PAN协调器是⼀个特殊的FFD,它具有较强⼤的功能,是整个⽹络的主要控制者,它负责建⽴新的⽹络、发送⽹络信标、管理⽹络中的节点以及存储⽹络信息等。
FFD和RFD都可以作为终端节点加⼊ZigBee⽹络。
此外,普通FFD也可以在它的个⼈操作空间(POS)中充当协调器(路由),但它仍然受PAN协调点的控制。
ZigBee中每个协调点最多可连接255个节点,⼀个ZigBee⽹络最多可容纳65535个节点。
ZigBee⽹络的拓扑结构ZigBee⽹络的拓扑结构主要有三种,星型⽹、⽹状(mesh)⽹和混合⽹。
星型⽹是由⼀个PAN协调点和⼀个或多个终端节点组成的。
PAN协调点必须是FFD,它负责发起建⽴和管理整个⽹络,其它的节点(终端节点)⼀般为RFD,分布在PAN协调点的覆盖范围内,直接与PAN协调点进⾏通信。
星型⽹通常⽤于节点数量较少的场合。
Mesh⽹⼀般是由若⼲个FFD连接在⼀起形成,它们之间是完全的对等通信,每个节点都可以与它的⽆线通信范围内的其它节点通信。
Mesh⽹中,⼀般将发起建⽴⽹络的FFD节点作为PAN协调点。
Mesh⽹是⼀种⾼可靠性⽹络,具有“⾃恢复”能⼒,它可为传输的数据包提供多条路径,⼀旦⼀条路径出现故障,则存在另⼀条或多条路径可供选择。
Mesh⽹可以通过FFD扩展⽹络,组成Mesh⽹与星型⽹构成的混合⽹。
Zigbee设备入网过程
Zigbee设备加入网络过程---关联加入在一个zigbee协调器设备建立网络后,路由器设备或者终端设备(end device),可以加入协调器建立的网络,具体加入网络有两种方式,一种是通过关联(association)方式,就是待加入的设备发起加入网络,具体实现方式后面讨论,另一中是直接(direct)方式,就是待加入的设备具体加入到那个设备下,作为该设备的子节点,由以前网络中的设备,想待加入的设备作为其子设备决定。
下面重点讨论第一种方式,也是实际中用的最多的方式通过关联方式加入一个网络:加入一个设备,是两个设备的事,即子设备和待定父设备对于子设备,首先子设备调用NLME-NETWORK-DISCOVERY.request 原语,设定待扫描的信道,以及每个信道扫描的时间,网络层收到这个原语,将要求MAC层执行被动或主动扫描。
具体发送到设备外的是一个becon request 帧,当在这个信道中的设备收到该帧,将会发送becon帧,这是子设备通过BEACON-NOTIFY.indication 原语,告知该设备的MAC 层,该becon帧包含了发送该帧的地址信息,以及是否允许其他设备以其子节点的方式加入。
待加入的设备,在网络层,将检查该becon帧协议 ID是否是zigbee ID 。
如果不是,将忽略;如果是,该设备将复制收到每个becon帧的相关信息到其关联表中(neighbor tabl e)。
一旦MAC层完成了扫描,将发送 MLME-SCAN.confirm 原语,告知网络层,网络层将发送NLME-NETWORK-DISCOVERY.confirm 原语,告知应用层。
应用层收到该原语,应用层将根据情况,要么重新要求扫描,或者从关联表中选择所发现的网络加入。
调用NLME-JOIN.request 原语,原语中各个参数的设置参看协议(可以在本站下载栏找到)非常容易。
如果在关联表中找不到合适的准父节点,将调用原语告知应用层,如果由多个设备可以满足要求,将选择到协调器节点深度最低的设备,如果有几个设备的深度相同,且都是最小深度,将从中随机选择一个。
Zigbee网络
Zigbee网络优点:1)低功耗:在非工作状态下,ZigBee 节点会处于休眠模式,耗能很低,两节五号干电池可以支持一个节点工作 6-24 个月,甚至更久;在工作模式下,由于ZigBee 技术的数据传输速率低,传输的数据量很小,因此信号作用的时间很短。
再加上设备的休眠激活、搜索和信道接入时延都比较短,这使得 ZigBee 节点更加省电[1]。
2)延时短:ZigBee 的响应速度很快,通信时从休眠状态转换到激活的时延都非常短,一般只需 15ms,节点连接进入网络所需要的时间仅为 30ms,进一步减少了能源消耗[2]。
3)低成本:因为ZigBee网络的数据传输速率低,协议简单,所以大大降低了硬件开发成本,并且 ZigBee 协议免收专利费用和免执照频段[2]。
4)安全性高:ZigBee 提供了数据完整性检查和鉴权功能,在数据传输中提供了三级安全性。
第一级实际是无安全方式,对于某种应用,如果安全并不重要或者上层已经提供足够的安全保护,器件就可以选择这种方式来转移数据。
对于第二级安全级别,器件可以使用接入控制清单(ACL)来防止非法器件获取数据,在这一级不采取加密措施。
第三级安全级别在数据转移中采用属于高级加密标准(AES)的对称密码。
AES可以用来保护数据净荷(一帧中传输的用户数据部分)和防止攻击者冒充合法器件[3]。
5)网络容量大:一个星型结构的 ZigBee 网络最多可以容纳 254 个从设备和一个主设备,网络构成灵活,在一个单独的 ZigBee 网络内可以支持超过 65000 个ZigBee网络节点[2]。
6)免执照频率:ZigBee 技术有三种传输频率段,分别为 868MHz(欧洲1个信道,数据传输速率为20kb/s),915MHz(美国10个信道,数据传输速率为40kb/s)和2.4GHz(16个信道,全球统一无需申请的ISM频段,有助于ZigBee设备的推广和生产成本的降低)频率段为全球免费使用频段,传输速率达到250KB/s。
ZigBee路由网络及其通信路由协议
ZigBee路由网络及其通信路由协议ZigBee是一种专为低功耗、低数据传输速率、低成本的自组织无线网络设计的通信协议。
它被广泛应用于物联网(Internet of Things)中的各种智能设备,如传感器、智能电表、安防系统等。
ZigBee路由网络是由多个设备组成的网络,这些设备可以相互通信和协调工作,实现数据的传输和控制。
在ZigBee路由网络中,设备分为三种角色:协调器(Coordinator)、路由器(Router)和终端设备(End Device)。
协调器是整个网络的核心,负责网络的创建和管理。
路由器是网络中的中间节点,负责转发数据包和帮助终端设备建立路由路径。
终端设备是网络中最低级别的设备,它们只能与路由器通信,不能直接与其他终端设备通信。
ZigBee通信路由协议是实现ZigBee路由网络中数据传输的关键。
该协议通过一种层次化的路由机制,将数据从源节点传输到目标节点。
在ZigBee通信路由协议中,路由表是一个重要的概念。
每个路由器都会维护一个路由表,其中包含了网络中所有节点的信息,如节点的地址、邻居节点等。
通过路由表,路由器可以选择最佳的路径来传输数据。
ZigBee通信路由协议使用了一种基于跳数的路由选择算法。
当一个终端设备要发送数据时,它首先将数据包发送给与之直接相连的路由器。
路由器接收到数据包后,根据自身的路由表选择最佳的下一跳路由器,并将数据包转发给下一跳路由器。
这个过程一直持续到数据包达到目标节点。
在路由选择过程中,ZigBee通信路由协议考虑了多个因素,如路径质量、网络拓扑结构、设备能耗等。
它会选择具有较好路径质量的路由,以确保数据的可靠传输。
同时,它还会根据网络的拓扑结构和设备能耗来优化路由,实现能耗均衡和网络负载均衡。
ZigBee路由网络还支持路由的重组和修复。
当某个节点出现故障或离线时,ZigBee通信路由协议会根据网络的拓扑结构重新选择路由,以保证数据传输的连通性和可靠性。
zigbee数传电台快速建立zigbee网络的入门教程
zigbee数传电台快速建立zigbee网络的入门教程
为了让用户能快速熟悉基于zigbee3.0技术的zigbee数传电台,本文将引导用户结合上位机进行经过简单配置搭建一个ZigBee网络,包括节点类型配置、PANID设置、信道设置、发射功率设置。
1、快速入门建立一个ZigBee网络
结合上位机软件快速简单的建立一个ZigBee网络,具体步骤如下:
(1)将电台连接电脑,打开上位机软件“亿佰特ZigBee3.0上位机”,选择设备类型,选择串口号,选择串口波特率(默认115200kbps),点击打开串口。
(2)模组出厂为HEX指令配置模式,E180-DTU如果处于AT指令模式,需要切换至HEX指令模式,点击“读取参数”,消息框提示“读取参数成功”,主要的网络参数包括:长地址,电台类型默认为协调器(如果不是请设置成协调器),网络状态是"not have"(如果不是需要退出网络或恢复出厂)。
如果读取参数无效,有可能模组当前为传输模式,需要点击“进入配置模式”,消息框提示“进入配置状态成功”。
(3)点击“开始配网”,协调建立一个开放网络,协调器新建网络后会持续180秒开放网络,LINK灯1Hz闪烁,路由器和终端可以在这个时间内加入网络。
zigbee网络建立过程简介(G1)知识讲解
zi gbee 网络建立过程简介( G1)星形网络和树型网络可以看成是网状网络的一个特殊子集,所以接下来分析如何组建一个Zigbee网状网络。
组建一个完整的Zigbee网络分为两步:第一步是协调器初始化一个网络;第二步是路由器或终端加入网络。
加入网络又有两种方法,一种是子设备通过使用MAC层的连接进程加入网络,另一种是子设备通过与一个先前指定的父设备直接加入网络。
一、协调器初始化网络协调器建立一个新网络的流程如图1所示。
WliE-N ETWORK-FORW MION 啲TMJ^E-SCAN requestMLWE-SDAK confamMLME-SCAN.requestMLWE-SCAN contfni畝外站it PM ID.MUML-5C.1「eqestHL ME ShT cenfinnMLK1E-5TAr(T requestmiE-STARTanfirmNLM:'. NETWCftK-rORMMlON infirmAPL NWK MAC图1协调器建立一个新网络1、检测协调器建立一个新的网络是通过原语NLME_NETWORK_FORMATION.reqi发起的,但发起NLME_NETWORK_FORMATION.reqi原语的节点必须具备两个条件,一是这个节点具有ZigBee协调器功能,二是这个节点没有加入到其它网络中。
任何不满足这两个条件的节点发起建立一个新网络的进程都会被网络层管理实体终止,网络层管理实体将通过参数值为INVALID_REQUES的NLME_NETWORK_FORMATION.con的原语来通知上层这是一个非法请求。
2、信道扫描协调器发起建立一个新网络的进程后,网络层管理实体将请求MAC子层对信道进行扫描。
信道扫描包括能量扫描和主动扫描两个过程。
首先对用户指定的信道或物理层所有默认的信道进行一个能量扫描,以排除干扰。
网络层管理实体将根据信道能量测量值对信道进行一个递增排序,并且抛弃能量值超过了可允许能量值的信道,保留可允许能量值内的信道等待进一步处理。
ZigBee网络的构成
路由通告报文RA 字节:1 134 比特:8 Type 4 32 Retrans Timer
与 6LoWPAN 相关的 IETF 工作组的主要研究内容
工作组 研究内容和现存标准文档
6LoWPAN工作 组
为了解决将IPv6技术应用到低速率无线个域网而成立;目前已经提出了三个RFC标准文档(RFC4919、RFC4944、RFC6282);并针对低 功耗有损耗网络提出了一些改进的draft文档。
字节:1 比特:8 Type
未定 未定 邻居发现报文
重庆邮电大学
IPv6邻居发现ICMP报文格式
路由恳求报文RS 字节:1 133 比特:8 Type 1 8 Code 1 8 Code 1 8 Code 1 8 Code 2 16 Checksum 2 16 Checksum 4 32 Res 1 8 1 未定 未定 options 1 1 O 16 128 Target Address 6 Res 2 16 4 32 未定 未定 options
DstAddr
00 01 10 11
11 000xxx
第一个分片头 2 16 Datagram_tag
字节:2 11 比特: 5 Datagram_size 11000 11 100xxx 字节:2 比特:5 11100 11 Datagram_size 后续分片头
2 16 Datagram_tag
01 000001
4 比特: Version
LoWPAN_HC1压缩头 1 字节 : 8 比特 : 01 000010 HC1 Encoding
1 8 Hop Limit
8 64 SrcAddr
8 64 DstAddr
没有后续头部压缩编码 HC2编码 不压缩的Next Headr Next Header为UDP Next Header为ICMP Next Header为TCP 不压缩的V.T.F T.F=0 PI, II 前缀和接口标识都不压缩 PI, IC 前缀不压缩,接口标识压缩 PC, II 前缀压缩,接口标识不压缩 PC, IC 前缀和接口标识都压缩
ZigBee协议网络层
3.1网络层状态值网络层确认原语通常都包括一个参数,这个参数记录回答请求原语的状态。
网络层状态参数值如表3.1所示。
表3.13.2概况描述3.2.1网络层概述ZigBee网络层的主要功能就是提供一些必要的函数,确保ZIgBee的MAC层(IEEE 802.15.4-2003)正常工作,并且为应用层提供合适的服务接口。
为了向应用层提供其接口,网络层提供了两个必须的功能服务实体,它们分别为数据服务实体和管理服务实体。
网络层数据实体(NLDE)通过网络层数据服务实体服务接入点(NLDE-SAP)提供数据传输服务,网络层管理实体(NLME)通过网络层管理实体服务接入点(NLME-SAP)提供网络管理服务。
网络层管理实体利用网络层数据实体完成一些网络的管理工作,并且,网络层管理实体完成对网络信息库(NIB)的维护和管理,下面分别对它们的功能进行介绍。
3.2.1.1网络层数据实体(NLDE)网络层数据实体为数据提供服务,在连个或者更多的设备之间传送数据时,将按照应用协议数据单元(APDU)的格式进行传送,并且这些设备必须在同一个网络中,即在同一个内部个域网中。
网络层数据实体提供如下服务:(1)生成网络层协议数据单元(NPDU):网络层数据实体通过增加一个适当的协议头,从应用支持层协议数据单元中生成网络层的协议数据单元。
(2)指定拓扑传输路由,网络层数据实体能够发送一个网络层的协议数据单元到一个合适的设备,该设备可能是最终目的通信设备,也可能是在通信链路中的一个中间通信设备。
(3)安全:确保通信的真实性和机密性。
3.2.1.2网络层管理实体(NLME)网络层管理实体提供网络管理服务,允许应用与堆栈相互作用。
网络层管理实体应该提供如下服务:(1)配置一个新的设备:为保证设备正常工作的需要,设备应具有足够的堆栈,以满足配置的需要。
配置选项包括对一个ZigBee协调器或者连接一个现有网络设备的初始化的操作。
(2)初始化一个网络:使之具有建立一个新网络的能力。
Zigbee设置
ZigBee模块设置1.ZigBee模块F8913D插入配置基板F8913-EVB(注:基板排针接口与模块插针序号正确对应,不可反插。
否则,模块可能烧坏。
)2.用USB连接线,连接配置基板与电脑。
配置基板通过USB口供电。
电脑端打开ZigBeeConfig.exe3.查看端口号,,,(如何查看端口号,详见备注2)4.参数设置,配置步骤如图。
串口波特率:9600校验:无校验停止位:1个停止位是否启用硬件控制流:不勾选调试等级:0AT命令是否回显:不勾选网络号:自行设置(同一网络内模块和网关的网络号必须相同)节点类型:路由 分节点网络地址:自行设置(同一网络内的设备不能有相同网络地址) 透传地址:0 重新自52A8加入网络:勾选 物理信道:26 应用模式: 透传模块设置关键参数说明:网络号:网络号是ZigBee 判断是否在同一个网络的标志,只有网络号相同的设备才会互相组网,互相通信。
节点类型:同一网络,有且仅有一个协调器。
路由具备转发其他模块数据功能,终端不具有该功能。
1 92 34 5 67 8分节点网络地址:即ZigBee 设备本机在网络内的地址标志,协调器不能修改,默认固定为0,路由或终端可设置为非0 的其它数值,一个ZigBee 设备设置完网络地址后这个地址在本网络内就是唯一的,不可再重复加入这个地址的设备。
透传地址:即本ZigBee 设备串口收到的数据要发送的目标ZigBee 设备的分节点网络地址,在透传模式下,只要指定了透传地址,那么本设备发出的数据都会发送给那个分节点网络地址的zibgee 设备。
例如:ZigBee1(分节点网络地址为10)---ZigBee2(分节点网络地址为13)ZigBee1 要把串口收到的数据发给ZigBee2,ZigBee1 的透传地址就要指定为13,ZigBee2 把串口收到的数据发给ZigBee1,那ZigBee2 的透传地址就要设置为10。
物理信道:要互相通信的设备必须设置为一样的信道,推荐使用15,20,25,26 信道,可减少WIFI的干扰。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.17, No.9, September 2006, pp.1848−1859 DOI: 10.1360/jos171848 Tel/Fax: +86-10-62562563© 2006 by Journal of Softwar e. All rights reserved.∗基于机器学习的文本分类技术研究进展苏金树1, 张博锋1+, 徐昕1,21(国防科学技术大学计算机学院,湖南长沙 410073)2(国防科学技术大学机电工程与自动化学院,湖南长沙 410073)Advances in Machine Learning Based Text CategorizationSU Jin-Shu1, ZHANG Bo-Feng1+, XU Xin1,21(School of Computer, National University of Defense Technology, Changsha 410073, China)2(School of Mechantronics Engineering and Automation, National University of Defense Technology, Changsha 410073, China)+ Corresponding author: Phn: +86-731-4513504, E-mail: bfzhang@Su JS, Zhang BF, Xu X. Advances in machine learning based text categorization. Journal of Software,2006,17(9):1848−1859. /1000-9825/17/1848.htmAbstract: In recent years, there have been extensive studies and rapid progresses in automatic text categorization,which is one of the hotspots and key techniques in the information retrieval and data mining field. Highlighting thestate-of-art challenging issues and research trends for content information processing of Internet and other complexapplications, this paper presents a survey on the up-to-date development in text categorization based on machinelearning, including model, algorithm and evaluation. It is pointed out that problems such as nonlinearity, skeweddata distribution, labeling bottleneck, hierarchical categorization, scalability of algorithms and categorization ofWeb pages are the key problems to the study of text categorization. Possible solutions to these problems are alsodiscussed respectively. Finally, some future directions of research are given.Key words: automatic text categorization; machine learning; dimensionality reduction; kernel method; unlabeleddata set; skewed data set; hierarchical categorization; large-scale text categorization; Web pagecategorization摘 要: 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.关键词: 自动文本分类;机器学习;降维;核方法;未标注集;偏斜数据集;分级分类;大规模文本分类;Web页分类中图法分类号: TP181文献标识码: A∗ Supported by the National Natural Science Foundation of China under Grant Nos.90604006, 60303012 (国家自然科学基金); theNational Research Foundation for the Doctoral Program of Higher Education of China under Grant No.20049998027 (国家教育部高校博士点基金)Received 2005-12-15; Accepted 2006-04-03苏金树等:基于机器学习的文本分类技术研究进展1849随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别.文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用.20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例[1].基于机器学习文本分类的基础技术由文本的表示(representation)、分类方法及效果(effectiveness)评估3部分组成.Sebastiani在文献[1]中对文本分类发展历程及当时的技术进行了总结,主要内容包括:(1) 文本关于项(term)或特征的向量空间表示模型(VSM)及特征选择(selection)与特征提取(extraction)两种表示空间降维(dimensionality reduction)策略,讨论了χ2,IG,MI,OR等用于特征过滤的显著性统计量及项聚类和隐含语义索引(LSI)等特征提取方法;(2) 当时较成熟的分类模型方法,即分类器的归纳构造(inductive construction)或模型的挖掘学习过程;(3) 分类效果评估指标,如正确率(precision)、召回率(recall)、均衡点(BEP)、Fβ(常用F1)和精度(accuracy)等,以及之前报道的在Reuters等基准语料上的效果参考比较.然而,互联网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、更新频繁及标注困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战.文献[1]对分类技术用于解决上述问题时在不同程度上遇到的扩展性差、语料缺乏及精度降低等困难和问题的论述不够,也无法涉及近几年技术的发展以及信息检索、机器学习和数据挖掘等领域权威学术会议及刊物上讨论的重要问题和成果.本文介绍基于机器学习文本分类技术的最新研究,重点讨论文本分类在互联网信息处理等实际应用中所面临的问题及进展,从相关问题、现状和趋势等方面进行归纳和评论.第1节介绍基础技术的研究动态.第2节讨论现阶段文本分类面向实际应用挑战的主要研究问题及最新进展.最后给出全文的总结和相关技术的展望.1 文本分类基础技术研究动态近年来,将文本简化为所谓的BOW(bag of words),在特征处理和统计学习算法的基础上获得对文本语义内容及类别信息的估计与预测,已经成为文本分类的标准模式.通过统计理论和语言学(linguistics)两种途径进行的文本表示和分类模型的研究也得到进一步拓宽或发展,相关领域的技术也在文本分类中得到新的应用.1.1 文本表示VSM仍是文本表示的主要方法,相关研究仍然集中在以什么语义单元作为项及计算项的权重两个问题上.大部分工作仍以词(或n-gram)作为项,以项的频率为基础计算权重,如tf×idf等[1].值得注意的是,Debole提出了有监督的权重STW,利用项的显著性统计量(如用χ2等)来平衡其权重[2];文献[3,4]等也使用类似的方法.相对使用tf×idf权重,某些统计量的引入使得SVM及线性分类等方法的分类效果有了不同程度的提高.除VSM以外,还有人提出基于项概率分布、基于二维视图等模型.Bigi认为,任意文本d和类别c均可视为所有项的一个概率分布P(t i,d)和P(t i,c),i=1,…,|T|( T为所有项或特征的集合),称为项分布概率表示.通过度量分布间的Kullback-Leibler距离(KLD)相似性的分类方法,获得优于VSM表示下线性方法的效果[5].项分布概率模型本质上仅是在项的权重计算和规格化(normalization)上与VSM不同.Nunzio使用可视的二维表示方法,将所有项的信息压缩到由局部能量和全局能量构成的二维平面上,采用启发式算法进一步计算后,在某些测试集上得到了很高的准确性[6];然而,方法仅是在小数据集上进行了测试,实际应用效果还需要进一步加以验证.还有一些工作希望通过借鉴自然语言处理的技术考虑被BOW忽略的语义单元间的联系,因此,词义及短语等复杂的项被应用到分类方法的文本表示中.但到目前为止,这些表示方法在分类效果上还没有明显的优势,而且往往需要比较复杂的语言预处理,在分类时影响了分类器的吞吐速度[7,8].到目前为止,非VSM的表示在理论上的合理性及面对实际应用的可扩展性还需要深入验证,适合它们的分类方法比较单一,而且未得到广泛的应用.1850 Journal of Software软件学报 V ol.17, No.9, September 20061.2 表示空间降维相关研究主要集中在降维的模型算法与比较,特征集与分类效果的关系,以及降维的幅度3个方面.关于降维的模型和算法,很多研究仍按照传统的思路:(1) 用概率统计方法度量并比较项关于类别分布的显著性,如BNS(bi-normal separation)[9]等;(2) 从信息熵角度研究项分布相似性的项聚类方法,如基于全局信息(GI)[10]等;(3) 隐含语义分析途径,即通过矩阵的不同分解和化简来获取将向量语义或统计信息向低维空间压缩的线性映射,如差量(differential)LSI[11,12]等.一些新颖的研究思路包括:(1) 多步骤或组合的选择方法,即首先用基本的特征选择方法确定初始的特征集,然后以某种标准(如考虑其他项与初始集特征的同现(co-occurrence)等[13])进行特征的补充,或者综合其他因素(如依第2种显著性选择标准[13,14]或考虑线性分类器系数值大小[15]等)进行冗余特征的删减;(2) 尝试借鉴语言学技术进行的研究有从手工输入的特征中学习特征信息[16]及基于WordNet[17]的特征提取等方法,但方法所产生的效果都不理想.必须考虑降维对分类的影响,即关注分类器效果指标随特征数目增加的变化趋势.很多文献中[9−14,18,19]比较一致的现象是:合理的降维方法会使多数分类器都呈现出随特征数量增加,效果快速提高并能迅速接近平稳;但若特征数目过大,性能反而可能出现缓慢降低.这表明:降维不仅能大量降低处理开销,而且在很多情况下可以改善分类器的效果.Forman及Yang等人分别从有效性、区分能力及获得最好效果的机会等方面对不同的特征选择方法进行了广泛比较.从结果来看:BNS,χ2,IG等统计量及组合方法具有一定的优势;另外,不同分类器倾向于接受不同的特定降维方法[9,13,18,19].常用的特征提取与特征选择算法的效果在不同情况下互有高低或相当[1,10,20].虽然选择方法因为复杂度较低而应用更为广泛,但提取得到的特征更接近文本的语义描述,因此有很大的研究价值.降维尺度的确定常用经验估算方法,如给定特征数的经验值(PFC)或比例(THR);或者考虑统计量阈值(MVS)或向量空间稀疏性(SPA)等因素.Soucy给出特征数与文本数成比例(PCS)的方法,并在精度标准下与其他4种方法做了比较,得出了MVS>PCS>SPA>PFC>THR的结论[21],传统的标准值得重新审视.1.3 机器学习分类方法分类方法研究的主要目标是提高分类效果,实用的系统还必须兼顾存储和计算能力受限等条件下,学习过程的可扩展性和分类过程的吞吐率(速度)[22−24].近年来,采用多(multiple)分类器集成学习(ensemble learning)的方法被普遍接受;而支持向量机(SVM)仍然代表了单重(single)方法的发展水平.SVM的应用是文本分类近年来最重要的进展之一.虽然SVM在大数据集上的训练收敛速度较慢,需要大量的存储资源和很高的计算能力[24−28],但它的分隔面模式有效地克服了样本分布、冗余特征以及过拟合(over-fitting)等因素的影响,具有很好的泛化(generalization)能力.有关文献的比较均显示:相对于其他所有方法,SVM占有效果和稳定性上的优势[28−32].近年来又有很多文献[1]中未涉及的一些模型或方法被提出或应用,有的还获得了较好效果,如最大熵模型[33,34]、模糊理论[35,36]、项概率分布的KLD相似性[5]、二维文本模型[6]以及基于等效半径的方法(SECTILE)[26]等(见表1),但它们仍局限于惯用的相似性度量的分类模式.Bayes、线性分类、决策树及k-NN等方法的能力相对较弱,但它们的模型简单,效率较高,这些方法的修正和改进引起了人们持续的关注.Wu指出分类器关于数据分布的假设是影响分类效果的重要因素,当模型不适合数据集特点时,性能就可能变得很糟糕.这种模型偏差在弱分类方法中尤为突出,他给出了一种灵活的基于错误矫正的启发式改进策略[25];GIS方法将样本聚集成不同的实例集(instance set),每个实例集的质心称为推广实例(GI),以GI的集合代替样本集合后减少了实例,使得k-NN方法的在线速度大为改善,分类效果也有所提高[37];Tsay利用与GIS相反的思路,他增加类别的数目,实质上为原类别选择多个质心,部分地克服了单个质心难以适应样本稀疏的弱点[38];Tan使用推拉(drag-pushing)策略对Bayes和基于质心的方法进行了改进[39];Chakrabarti的SIMPL方法利用Fisher线性判别分析将文本表示投影到低维空间后,再进行决策树的构造[24].可以看出,多数分类模型和方法的研究,更侧重在特定测试集上效果基本相当的情况下,获得计算开销上相对SVM的优势.苏金树 等:基于机器学习的文本分类技术研究进展1851集成学习,也称为多重学习或分类器组合,主要通过决策优化(decision optimization)或覆盖优化(coverage optimization)两种手段将若干弱分类器的能力进行综合,以优化分类系统的总体性能.决策优化对于不同的分类器均采用完整的样本集进行训练,测试时,通过对所有分类器的决策进行投票或评价(如MV(majority voting),W (weighted)MV 及WLC (weighted linear combination)等[1,40]),确定整个系统输出的类别;Bennett 将特定分类器看作可靠性的指示(reliability indicator);系统利用概率方法综合不同分类器的输出确定最后的决策[41];Xu 和Zhang 提出一种将SVM 与Rocchio 算法进行串行集成方法的思想,即在Rocchio 算法快速处理全部文本向量后, SVM 对部分感兴趣的类别进行误差校正,用较低的计算代价换取重要类别的精度[42];覆盖优化对同一种学习采用不同的训练子集,形成参数不同的单分类器,这些单分类器决策的某种综合(如WMV 等)决定每测试样本的分类,如Bagging 和Boosting 等方法[43];在Boosting 方法的迭代过程中,每一轮都关注上一轮的分类错误,用于提升较弱的分类方法并获得了优于SVM 的结果,AdaBoost.MH 和AdaBoost.MR 等具体算法都有着广泛的应用[44].Table 1 Properties and effectiveness for most of the categorization models or methods表1 主要分类模型或方法的性质和效果 Model or method ① Examples of algorithm orImplementation ②CR ③HD ④Bi ⑤Best rept eff.⑥Remark ⑦ Probabilistic Naïve Bayes (NB)√ 0.773 Easy, highly depend on data distribution Decision tree (DT) ID3, C4.5, CART √√0.794 Decision rule DL-ESC, SCAR, Ripper, Swap-1 √√0.823 Often used as base-lines, relatively weak Regression LLSF, LR, RR [45] √0.849 Effective but computing costly On-Line Winnow, Windrow-Hoff, etc. √0.822 Linear Centroid-Based Rocchio (and it’s enhancements)√ 0.799 Weaker but simple and efficient Neural networks Perceptron, Classi, Nnet √0.838 Not widely used TC Instance-Based k -NN √0.856 Inefficient in online classification SVM SVM light , LibSVM [46,47] √√0.920 State of arts effectiveness MV, Bagging √N/A Not widely used and tested yet Ensemble learning WLC, DCS, ACC, adaboost √0.878 Boosting methods effective and popular STRIVE [41]√ 0.875 Complex in classifier construction Ensemble learning SVM with Rocchio ensemble [42]√+0.019* *Improvement in a small Chinese corpus Maximum entropy Li. KAZAMA [33,34]√ 0.845 Effective but not widely used Fuzzy Liu, Widyantoro [35,36]√ 0.892* *Only accuracy reported Term prob. distri. KLD based [5]√ 0.671* *Better than Rocchio in the same test Bidimensional Heuristic approach [6]√√0.871 Not extensively confirmed MD and ER based SECTILE [26]√ >0.950* *Only tested in a Chinese corpus,estimated Wu’s Refinement Rocchio/NB refined [25]√ 0.9/0.926 A little complex in training Tsay’s refinement Rocchio refined [38]√ +0.018* *Improvement, a Chinese corpus Gener. instance set GIS-R GIE-W [37]√ 0.860 More efficient than k -NN in testing Dragpushing RCC, RNB [27,39]√ 0.859 Easy and computationally efficient Linear discri. proj. SIMPL [24]√√>0.880* *Estimated form reported data LS kernel [48] With SVM√√0.903 Need expensive matrix processing Word seq. kernel [49] With SVM√√0.915 Complex and time spending in training String kernel [50,51] With SVM √√0.861* *Estimated form reported data 表1中数字角标表示的是:① 模型方法;② 算法实例或实现;③ 是否class ranking 方法(输出测试文本关于每个类的相对形似性参考值或排序);④ 是否hard-decision 方法(输出测试文本的类别标记);⑤ 是否是二值(binary)方法(方法接受或拒绝当前类,输出±1);⑥ (reuters-21578子集上)报道的最好分类效果(平均的BEP,F 1或精度值,测试条件不同,结果仅供参考);⑦ 评注.表1的前两部分给出了上述以及文献[1]中涉及的部分方法的主要特征及其在Reuters-21578某些子集上(或个别其他语料)上所报道的最好效果指标(平均的BEP,F 1或精度值).由于测试集合和测试条件的差异,指标的数值仅作为方法效果的参考,不能完全作为方法效果间比较的 依据.1852 Journal of Software软件学报 V ol.17, No.9, September 20061.4 评估方法信号检测领域中的ROC(receiver operating characteristics)曲线,近年来介入到对分类器的效果评估和优化[41,52−54]中.对类别c,表2是其测试结果的邻接表.设TPR=TP/(TP+FN),FRP=FP/(FP+TN),随着分类器阈值参数的调整,ROC空间(TPR,FPR)中的曲线不但能直观地反映分类器的性能,曲线下面积AUC(area under curve)更可以量化分类器接受正例的倾向性.另外,ROC空间对样本在类别间的分布不敏感,可以反映错误代价(error cost)等指标的变化,具有特别的优势[52].有效地将ROC曲线用于分类器的评价、比较及优化,成为近期的一个热点.Table 2The contingency table for category c表2 类别c测试结果邻接表Expert judgmentsCategory cTrue FalsePositive TP FPClassifier judgmentsNegative FN TN在理论方面,Li和Yang认为关于训练数据的误差及复杂性惩罚使分类器能力间的比较明朗化.通过对常见分类方法进行形式化分析,他们将与分类器获得最优效果条件和标准等价的损失函数(loss function)分为训练损失(training loss)和模型复杂度两部分,从优化的角度给出了一种分类器之间相互比较的方法[45].方法间的实验比较常在基准语料上进行.Reuters是重要的基准语料,其中在Reuters-21578[55]版本上进行了最多的测试.常见的语料还包括OHSUMED,20 Newsgroups,WebKB及AP等[1,39].文献[28]给出了Reuters-21578子集的相对难度分析和参考.RCV1(reuters corpus volume I)是最新整理和发布的较完全的“官方”语料,它改进了之前语料的一些缺点,以适应多层分类、数据偏斜及分类方法扩展性等研究的需要.语料的构建对文本分类研究有着非常重要的促进和参考作用,文献[31]给出了RCV1的语料加工技术及部分方法的参考性能.中文分类的公开语料大多处于建设中,特别是经过加工的基准语料相对缺乏,Tan公开了一个较新的加工中文分类语料TanCorp及一些分类方法的参考性能[39].2 主要挑战和研究进展基于机器学习的文本分类技术经过20多年的不断发展,特别是直接从机器学习等领域借鉴最新的研究成果,已能较好地解决大部分具有数据量相对较小、标注比较完整及数据分布相对均匀等特点的问题和应用.但是,自动文本分类技术的大规模应用仍受到很多问题的困扰,如:单是刻画文本间(非线性的)语义联系的问题,都被认为没有很好地得以解决.近年来面临的主要挑战来自于互联网上Web等海量信息的处理,其主要特征是:(1) 大规模的类别体系给分类器训练带来扩展性的困难;(2) 建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带来过拟合(overfitting)及数据偏斜的问题;(3) 文本和类别的更新频繁,在力求对每个类别获得更多的样本时,存在标注瓶颈的问题;(4) 类别间的关系也更加复杂,需要有更好的类别组织方法;(5) Web文本是一种半结构化(semi-structured)的数据,其结构信息(如链接关系、主题等)可能对分类提供某些帮助.综合来看,我们认为文本分类技术现阶段主要面临非线性、数据集偏斜、标注瓶颈、多层分类、算法的规模扩展性及Web页面分类等几个关键的问题.下面主要论述解决这些关键问题可能采取的方法.2.1 非线性问题及核方法多数文本分类问题的线性可分性[29]并未得到理论上的证明,用线性的模型表达复杂的语义内容必然会带来许多误差,非线性的方法仍是处理复杂问题的重要手段.SVM方法用二元核函数K(x,y)计算高维空间H中的内积(x,y是文本表示向量)[29],以应对(降维后的)项空间上不可分的文本分类问题,表达了模型中的非线性变换.SVM是使用核方法(kernel method)或者核技术(kernel trick)的典型代表,核方法也是SVM取得成功的主要因素之一.苏金树 等:基于机器学习的文本分类技术研究进展1853在核方法中,通过较复杂的非线性映射φ将项空间的非线性问题变换到高维特征空间H ,就有可能在H 中运用线性方法,使问题便于处理和建模;事实上,φ的显式构造可能未知或很复杂,但求解过程中却只需利用显式的核函数K 简单计算H 中的内积,使得复杂的非线性变换在计算上可行[56].目前,核方法在机器学习领域炙手可热,成为在已有线性算法基础上研究非线性问题的重要途径,如Zaragoza 将核技巧运用到线性文本分类方法中,此时,仅需将线性决策函数中的内积用核函数K 进行替换,得到∑∑====||1~||1~~)(),(),()(Tr Tr i i i i i i K f x x x x x φφαα, 其中:Tr 是训练样本集合;x i 是训练样本的表示(i =1,…,|Tr |);x 是待测样本的表示[57].进一步的研究表明:核方法的效果与核函数的选择密切相关,总是希望它能反映样本相似性的本质.常见的核函数有RBF,Gauss 及sigmoid 核等[29].在文本分类中,由于文本空间的特殊性,采用数值核函数获得的分类性能还不能令人满意.因此,新的基于文本语义的核函数成为一个研究重点.文献[48]讨论了基于矩阵分解的隐含语义(LS)核函数;文献[49−51]中使用语法驱动的字符串核及词序列(word sequence)核,直接将文本作为字或词的有序串来计算核;文献[58]讨论了核函数的合成对分类的影响,给出了能够提高分类效果的某些合成条件.核方法的本质是通过核函数引入文本语义相似性的度量,常具有很高的分类准确性(见表1),但计算开销也较高.2.2 数据集偏斜通过对机器学习领域的很多研究,发现数据集关于类别的分布往往是偏斜(skewed)或称不均衡的,即类别间样本的数量可能存在数量级的差距,这是导致分类效果很不理想的一个重要因素.在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类.在文本分类特别是互联网信息的分类中,大量存在数据偏斜的情况.尤其是在采用二值分类策略时,对某一类,正例的样本可能只占所有样本比例很小的一部分[59].Yang 进行了SVM,NB 及k -NN 等方法在样本分布受控情况下的健壮性及分类效果与数据分布之间关系的对比[30],结果表明:SVM 和k -NN 对样本分布的健壮性要好于NB 等方法,这印证了SVM 的泛化性能及NB 对类别先验概率的依赖性,但所有方法在稀有类别上的准确性均很低.解决数据偏斜问题的主要对策有:(1) 重取样(re-sampling),可以适当屏蔽大类的信息量或提高小类的分类错误代价[60];(2) 采用新的分类策略,如单类(one-class)SVM 以原点作为未知类别的中心,构造包围训练样本的分隔面,从而将问题转化为等价的不受类别分布影响的两类问题[61];文献[62]讨论了在仅有少量正例情况下SVM 的训练;文献[63]中提出的NKNN 方法改进了k -NN 在偏斜数据集上的效果;(3) 采用更好的效果评估方法,如ROC 曲线或代价曲线等在数据偏斜情况下能够更准确地评估分类器的整体性能[52,59];(4) 在数据偏斜的情况下,特征也很重要,可以分别通过优化特征选择框架或改进特征选择方法获得分类器对小类别特征的重 视[9,64−66].目前,所有的方法都还不能将对稀有类别的识别水平(约0.5左右或更低的BEP)整体提高到实际可以接受的程度,相关的研究仍需要进一步的深入.2.3 标注瓶颈学习算法需要大量的标注样本,但已标注的样本所能提供的信息有限;另一方面,容易获得(如通过互联网)的未标注样本数量相对于标注样本较多,且更接近整个样本空间上的数据分布.提供尽可能多的标注样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题.因此,如何用少量的已标注样本和大量的未标注样本训练出一个好分类器,逐渐引起人们的关注.Nigam 首先利用基于期望最大化(EM)的方法从未标注样本中学习,利用测试样本改进了Bayes 分类器的分类效果[67];另一种用于未标注文本学习的方法是直推(transductive inference),使得分类器首先通过对已标注样本的学习仅对当前的少量未知样本进行误差最小的预测,而暂不考虑对未来所有实例预期性能的最优性.之后,将这些样本加入到学习过程中来,以改进分类器的效果;Jaochims 使用了直推式支持向量机TSVM 进行文本分类[68],文献[69]中进行了改进;文献[70]中讨论了直推式Boosting 文本分类;文献[71,72]采用合作训练(co-training)的方法,使用未标注的样本进行e-mail 与文本的分类,其思想是从两个视角将样本的特征划分为两个信息充足的子集,分别在两个子集上建立分类器,利用标注样本进行合作学习.另外,文献[73]仅使用正例样本和未标注样本进行学习;文献[74]中利用了SVM 主动。