基于群聊天记录的人类行为动力学分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[ 2 ]
1 数据来源和分析
由于群聊天相对具有公开性, 给我们采集数据带来了相当 的便利性。因为 Q Q群是一个聊天集体, 所以个人聊天的异质 性, 如打字速度、 上网频率、 发消息的积极性等都可以得到很大 程度的降低, 从而获取的数据比较有代表性, 更能反映群里聊天 的人类动力学特征。 如表 1所示, 我们选取了六组聊天记录, 聊天群来源于不同 调查对象的 Q Q账号, Q Q群的性质包括班级群、 朋友群、 企业群 以及行业群等, 时间跨度均为一年以上, 聊天记录均取自长期使 用一台电脑登录 Q Q的用户, 因此不存在异地登录造成的时间 间隔过长带来的不准确。 Q Q群的活跃度均比较高, 因此可以
G R O U PC H A TR E C O R D SB A S E DH U MA NB E H A V I O RD Y N A MI C SA N A L Y S I S
1 1 2 Wa n gH o n g c h u a n G u oJ i n l i F a nC h a o
1
3 聊天记录字符数的人类动力学特征
Q Q群作为一个即时聊天工具, 交互具有即时性, 其中每条 消息的长度一般不会过长。以下对上述六个群的聊天记录每一 次发言的字符数进行统计, 得到概率分布如图 2所示。
2 Q Q 群聊天记录的时间间隔分布规律
研究群聊天记录时不区分发送者, 把整个 Q Q群作为一个 整体进行研究。间隔时间 t 是连续两条聊天记录的间隔时间, 以秒为单位。双对数坐标下, 各个群的聊天记录间隔时间的概 率分布如图 1所示( 注: 横坐标为间隔时间, 纵坐标为相对应的 的概率) 。
第2 9卷第 7期 2 0 1 2年 7月
计算机应用与软件 C o m p u t e r A p p l i c a t i o n s a n dS o f t w a r e
V o l 2 9N o . 7 1 2 J u l . 2 0
基于群聊天记录的人类行为动力学分析
王洪川1 郭进利1 樊 超2
0 引 言
人类行为千差万别, 在形式不同的行为中是否存在共有的 规律呢?早期对人类行为的研究一般用泊松过程来描述, 即相 对随机和稳态。2 0 0 5年, B a r a b a s i 在N a t u r e 上发表了人类动力
1 ] 学中阵发和胖尾的起源 [ , 提出人类活动驱动的系统具有明显
的发送间隔时间进行研究, 证明群体间即时沟通也符合人类动 力学特征。 是否群体之间的沟通存在共通性?本文将从群体角度出 发, 针对 Q Q群聊天记录, 选取不同背景的人群组成的 Q Q群进 行统计分析, 从而进一步考察群体间即时通讯的人类社会系统 的标度特征。
偏离泊松分布的性质: 人类行为的发起具有短时间内爆发和长 时间内静默并存的特征, 从而开创了“ 人类动力学” 的新研究方 向。随后, 在这一领域, 学术界做了大量的实证研究
4 结论和讨论
对于即时通讯( I M) 的研究, 相关学者已经从个体的角度出 发做了不少研究, 但对于群体性即时通讯的研究则相对较少。 本文以此为出发点, 对即时通讯中两个主要的特征— — —消息间 隔时间和消息长度进行实证分析。结果表明, Q Q群的消息间 隔时间中间部分符合幂律分布, 幂律大小分布于 1 . 5- 2 . 5之 间; 聊天记录字符长度也符合幂律分布特征, 幂律大小分布于 ( 下转第 2 1页)
第 7期
孙增国: S A R图像的 M M S E降斑算法研究
2 1
[ 1 0 ]F r o s t VS , S t i l e s J A , S h a n m u g a nKS , e t a l . Am o d e l f o r r a d a r i m a g e s a n di t sa p p l i c a t i o nt oa d a p t i v ed i g i t a l f i l t e r i n go f m u l t i p l i c a t i v en o i s e [ J ] . I E E ET r a n s a c t i o n s o nP a t t e r nA n a l y s i s a n dM a c h i n e I n t e l l i g e n c e , 1 9 8 2 , P A M I 4 ( 2 ) : 1 5 7 1 6 5 .
2
( C o l l e g e o f A r t s a n dS c i e n c e s , S h a n x i A g r i c u l t u r a l U n i v e r s i t y , T a i g u 0 3 0 8 0 1 , S h a n x i , C h i n a )
A b s t r a c t T h ep a p e r a n a l y z e s t h e a c t u a l d a t a f r o mc h a t r e c o r d s o f 6Q Qg r o u p s . F r o mt h e g r o u pv i e w , i t m a k e s s t a t i s t i c s a n da n a l y s i s o f t h e i n t e r m e d i a t et i m eb e t w e e nt w os u c c e s s i v em e s s a g e s a n dt h el e n g t ho f e a c hm e s s a g ei nc h a r a c t e r s . R e s u l t s t u r no u t t h a t b o t ht h ei n t e r m e d i a t e t i m ea n dt h el e n g t ho b v i o u s l y f o l l o wt h e p o w e r l o wd i s t r i b u t i o n ,w h i l e t h e i r e x p o n e n t s a r e v e r y c l o s e .R e s e a r c ho u t p u t s h o w s t h a t t h e g r o u p e d c o m m u n i c a t i o nb e h a v i o r w i t hI Ma b i d e s b yt h eg e n e r a l r u l eo f h u m a nd y n a m i c s . K e y w o r d s H u m a nd y n a m i c s I M ( i n s t a n t m e s s a g e ) G r o u pc h a t G r o u pa c t i v i t y 群体间即时通讯, 文献[ 1 4 ] 对总体发言间隔和群内的单个用户
收稿日期: 2 0 1 1- 0 9- 2 0 。国家自然科学基金项目( 7 0 8 7 1 0 8 2 ) ; 上 海市重点学科建设项目( S 3 0 5 0 4 ) 。 王洪川, 硕士生, 主研领域: 人类动 力学。郭进利, 教授。樊超, 硕士。
, 包括市
3 ] 4 - 6 ] 7 ] 8 ] 场交易活动 [ 、 网站浏览 [ 、 电影点播 [ 、 在线游戏 [ 、 手机 9 ] 1 0 ] 1 1 ] 1 2 ] 1 3 ] 短信 [ 、 图书借阅 [ 、 邮件通信 [ 、 博客 [ 、 以及即时通讯 [
导致间隔时间较短的占较大的部分。但总体来看各个图形的幂 指数是相当接近的, 说明 Q Q群的组成群体不同, 但群内的用户 发送消息的时间间隔分布规律是相近的, 具有明显的规律性。 这样的结果与现有的人类动力学实证结合, 如幂律分布一致, 说 明千差万 别 的 人 类 行 为 之 下 暗 藏 着 一 种 具 有 普 适 性 的 客 观 规律。
图1 双对数坐标下 Q Q群聊天间隔时间概率分布
此聊天的内容有所区分。朋友群如 Q Q群 B , 其中消息往往比 较简短, 字符少的消息占总消息数的较大比重, 因此斜率较大。 而企业群 A则因为有事务性的内容, 往往消息中较长的相对更 多, 从而导致斜率上的差异。
观察图 1中的六幅图, 可以明显看到相似性。尽管各个聊 天群记录数不同, 群的组成人员不同, 但是其双对数坐标下的概 率分布却呈现一致性, 都呈现明显的胖尾分布, 即大多数聊天记 录间隔时间较短, 而少量间隔时间很长, 去掉下垂的头部和长长 的尾部, 该概率分布的主体部分可由幂律分布近似刻划, 且幂指 数集中在约 1 . 4 8- 2 . 1 1的范围内。这样的分布特征可由群体 性互动行为的潜在规律来解释: 群体性聊天往往由一个话题引 发, 一个人发起话题而引起群内成员的共同参与, 导致往往当话 题发生时, 消息多且间隔时间短, 而在话题结束后又会有长时间 的静默。 从拟合结果可以看到, 图形中间部分的斜率基本处于 1 . 4 8 - 2 . 1 1之间, 其中的差距可能原因在于 Q Q群成员关系的紧密 程度不同, 而且如朋友群、 班级群中的聊天相对比较踊跃, 从而
1 0
计算机Biblioteka Baidu用与软件
2 0 1 2年
保证足够的数据量。但因群的组成人员、 群性质等差异, 聊天记 录条数有所差异。
表1 群聊天记录汇总 数据集( 群) A B C D E F 消息数 3 6 0 8 4 7 5 4 6 8 3 8 3 8 3 0 1 7 3 4 1 3 0 1 9 时间跨度( 月) 1 2 1 7 1 6 1 5 1 4 1 5
图2 双对数坐标下 Q Q群聊天纪录长度概率分布
由于字符数的取值种类比较少, 我们计算如下形式的累积 分布: C - - 1 ) α x( α-1 从图 2可以看到, 字符数的累积分布尽管具有一定的波动
- α P ( X≥ x ) =C x ′ d x ′= x
∫
∞
性, 主体部分仍可用直线近似拟合, 因此可以认为字符数的累积 分布服从幂律, 幂指数在 1 . 4 0- 2 . 6 4之间。相对于间隔时间而 言跨度范围较大。其原因可能在于每个群的组成主题不同, 因
等等。这些实证研究得到的时间间隔分布都服从幂律分布, 且 幂指数大多分布在 1至 3之间。 我们现在身处信息时代中, 信息的交流量程爆发式地增长, 各种新的通信方式与日俱增, 特别是对于新一代年轻人而言, E m a i l 、 即时通讯、 微博、 S N S交友平台等等新的通信方式已经在 某种程度上取代甚至淘汰了旧的交流方式。因此, 研究新的通 信方式下的人类动力学特征对于进一步了解人类的行为模式有 重要意义。针对即时通讯, 文献[ 1 3 ] 在多层次上对即时通讯交 流的标度特征进行分析, 表明单个用户的通讯记录时间间隔、 对 话中的消息数、 用户登录时间间隔、 用户在线时间以及在线时的 活跃度等等均服从不同幂指数的幂律分布。针对由个体组成的
( B u s i n e s s S c h o o l , U n i v e r s i t yo f S h a n g h a i f o r S c i e n c e a n dT e c h n o l o g y , S h a n g h a i 2 0 0 0 9 3 , C h i n a )
1 2
( 上海理工大学管理学院 上海 2 0 0 0 9 3 )
( 山西农业大学文理学院 山西 太谷 0 3 0 8 0 1 )
摘 要 分析六个 Q Q群聊天记录的真实数据, 从群体的角度出发, 对群聊天记录的间隔时间和每条消息的字符长度进行统计分 析。结果表明, Q Q群聊天行为无论从时间间隔还是聊天记录长度上都表现出明显的重尾特征, 且不同群之间的幂指数相近。研究 说明, 即时通讯的群体性的沟通行为服从人类动力学普遍的重尾规律。 关键词 人类动力学 即时通讯 群聊天 群体行为 中图分类号 T P 3 0 5 文献标识码 A
1 数据来源和分析
由于群聊天相对具有公开性, 给我们采集数据带来了相当 的便利性。因为 Q Q群是一个聊天集体, 所以个人聊天的异质 性, 如打字速度、 上网频率、 发消息的积极性等都可以得到很大 程度的降低, 从而获取的数据比较有代表性, 更能反映群里聊天 的人类动力学特征。 如表 1所示, 我们选取了六组聊天记录, 聊天群来源于不同 调查对象的 Q Q账号, Q Q群的性质包括班级群、 朋友群、 企业群 以及行业群等, 时间跨度均为一年以上, 聊天记录均取自长期使 用一台电脑登录 Q Q的用户, 因此不存在异地登录造成的时间 间隔过长带来的不准确。 Q Q群的活跃度均比较高, 因此可以
G R O U PC H A TR E C O R D SB A S E DH U MA NB E H A V I O RD Y N A MI C SA N A L Y S I S
1 1 2 Wa n gH o n g c h u a n G u oJ i n l i F a nC h a o
1
3 聊天记录字符数的人类动力学特征
Q Q群作为一个即时聊天工具, 交互具有即时性, 其中每条 消息的长度一般不会过长。以下对上述六个群的聊天记录每一 次发言的字符数进行统计, 得到概率分布如图 2所示。
2 Q Q 群聊天记录的时间间隔分布规律
研究群聊天记录时不区分发送者, 把整个 Q Q群作为一个 整体进行研究。间隔时间 t 是连续两条聊天记录的间隔时间, 以秒为单位。双对数坐标下, 各个群的聊天记录间隔时间的概 率分布如图 1所示( 注: 横坐标为间隔时间, 纵坐标为相对应的 的概率) 。
第2 9卷第 7期 2 0 1 2年 7月
计算机应用与软件 C o m p u t e r A p p l i c a t i o n s a n dS o f t w a r e
V o l 2 9N o . 7 1 2 J u l . 2 0
基于群聊天记录的人类行为动力学分析
王洪川1 郭进利1 樊 超2
0 引 言
人类行为千差万别, 在形式不同的行为中是否存在共有的 规律呢?早期对人类行为的研究一般用泊松过程来描述, 即相 对随机和稳态。2 0 0 5年, B a r a b a s i 在N a t u r e 上发表了人类动力
1 ] 学中阵发和胖尾的起源 [ , 提出人类活动驱动的系统具有明显
的发送间隔时间进行研究, 证明群体间即时沟通也符合人类动 力学特征。 是否群体之间的沟通存在共通性?本文将从群体角度出 发, 针对 Q Q群聊天记录, 选取不同背景的人群组成的 Q Q群进 行统计分析, 从而进一步考察群体间即时通讯的人类社会系统 的标度特征。
偏离泊松分布的性质: 人类行为的发起具有短时间内爆发和长 时间内静默并存的特征, 从而开创了“ 人类动力学” 的新研究方 向。随后, 在这一领域, 学术界做了大量的实证研究
4 结论和讨论
对于即时通讯( I M) 的研究, 相关学者已经从个体的角度出 发做了不少研究, 但对于群体性即时通讯的研究则相对较少。 本文以此为出发点, 对即时通讯中两个主要的特征— — —消息间 隔时间和消息长度进行实证分析。结果表明, Q Q群的消息间 隔时间中间部分符合幂律分布, 幂律大小分布于 1 . 5- 2 . 5之 间; 聊天记录字符长度也符合幂律分布特征, 幂律大小分布于 ( 下转第 2 1页)
第 7期
孙增国: S A R图像的 M M S E降斑算法研究
2 1
[ 1 0 ]F r o s t VS , S t i l e s J A , S h a n m u g a nKS , e t a l . Am o d e l f o r r a d a r i m a g e s a n di t sa p p l i c a t i o nt oa d a p t i v ed i g i t a l f i l t e r i n go f m u l t i p l i c a t i v en o i s e [ J ] . I E E ET r a n s a c t i o n s o nP a t t e r nA n a l y s i s a n dM a c h i n e I n t e l l i g e n c e , 1 9 8 2 , P A M I 4 ( 2 ) : 1 5 7 1 6 5 .
2
( C o l l e g e o f A r t s a n dS c i e n c e s , S h a n x i A g r i c u l t u r a l U n i v e r s i t y , T a i g u 0 3 0 8 0 1 , S h a n x i , C h i n a )
A b s t r a c t T h ep a p e r a n a l y z e s t h e a c t u a l d a t a f r o mc h a t r e c o r d s o f 6Q Qg r o u p s . F r o mt h e g r o u pv i e w , i t m a k e s s t a t i s t i c s a n da n a l y s i s o f t h e i n t e r m e d i a t et i m eb e t w e e nt w os u c c e s s i v em e s s a g e s a n dt h el e n g t ho f e a c hm e s s a g ei nc h a r a c t e r s . R e s u l t s t u r no u t t h a t b o t ht h ei n t e r m e d i a t e t i m ea n dt h el e n g t ho b v i o u s l y f o l l o wt h e p o w e r l o wd i s t r i b u t i o n ,w h i l e t h e i r e x p o n e n t s a r e v e r y c l o s e .R e s e a r c ho u t p u t s h o w s t h a t t h e g r o u p e d c o m m u n i c a t i o nb e h a v i o r w i t hI Ma b i d e s b yt h eg e n e r a l r u l eo f h u m a nd y n a m i c s . K e y w o r d s H u m a nd y n a m i c s I M ( i n s t a n t m e s s a g e ) G r o u pc h a t G r o u pa c t i v i t y 群体间即时通讯, 文献[ 1 4 ] 对总体发言间隔和群内的单个用户
收稿日期: 2 0 1 1- 0 9- 2 0 。国家自然科学基金项目( 7 0 8 7 1 0 8 2 ) ; 上 海市重点学科建设项目( S 3 0 5 0 4 ) 。 王洪川, 硕士生, 主研领域: 人类动 力学。郭进利, 教授。樊超, 硕士。
, 包括市
3 ] 4 - 6 ] 7 ] 8 ] 场交易活动 [ 、 网站浏览 [ 、 电影点播 [ 、 在线游戏 [ 、 手机 9 ] 1 0 ] 1 1 ] 1 2 ] 1 3 ] 短信 [ 、 图书借阅 [ 、 邮件通信 [ 、 博客 [ 、 以及即时通讯 [
导致间隔时间较短的占较大的部分。但总体来看各个图形的幂 指数是相当接近的, 说明 Q Q群的组成群体不同, 但群内的用户 发送消息的时间间隔分布规律是相近的, 具有明显的规律性。 这样的结果与现有的人类动力学实证结合, 如幂律分布一致, 说 明千差万 别 的 人 类 行 为 之 下 暗 藏 着 一 种 具 有 普 适 性 的 客 观 规律。
图1 双对数坐标下 Q Q群聊天间隔时间概率分布
此聊天的内容有所区分。朋友群如 Q Q群 B , 其中消息往往比 较简短, 字符少的消息占总消息数的较大比重, 因此斜率较大。 而企业群 A则因为有事务性的内容, 往往消息中较长的相对更 多, 从而导致斜率上的差异。
观察图 1中的六幅图, 可以明显看到相似性。尽管各个聊 天群记录数不同, 群的组成人员不同, 但是其双对数坐标下的概 率分布却呈现一致性, 都呈现明显的胖尾分布, 即大多数聊天记 录间隔时间较短, 而少量间隔时间很长, 去掉下垂的头部和长长 的尾部, 该概率分布的主体部分可由幂律分布近似刻划, 且幂指 数集中在约 1 . 4 8- 2 . 1 1的范围内。这样的分布特征可由群体 性互动行为的潜在规律来解释: 群体性聊天往往由一个话题引 发, 一个人发起话题而引起群内成员的共同参与, 导致往往当话 题发生时, 消息多且间隔时间短, 而在话题结束后又会有长时间 的静默。 从拟合结果可以看到, 图形中间部分的斜率基本处于 1 . 4 8 - 2 . 1 1之间, 其中的差距可能原因在于 Q Q群成员关系的紧密 程度不同, 而且如朋友群、 班级群中的聊天相对比较踊跃, 从而
1 0
计算机Biblioteka Baidu用与软件
2 0 1 2年
保证足够的数据量。但因群的组成人员、 群性质等差异, 聊天记 录条数有所差异。
表1 群聊天记录汇总 数据集( 群) A B C D E F 消息数 3 6 0 8 4 7 5 4 6 8 3 8 3 8 3 0 1 7 3 4 1 3 0 1 9 时间跨度( 月) 1 2 1 7 1 6 1 5 1 4 1 5
图2 双对数坐标下 Q Q群聊天纪录长度概率分布
由于字符数的取值种类比较少, 我们计算如下形式的累积 分布: C - - 1 ) α x( α-1 从图 2可以看到, 字符数的累积分布尽管具有一定的波动
- α P ( X≥ x ) =C x ′ d x ′= x
∫
∞
性, 主体部分仍可用直线近似拟合, 因此可以认为字符数的累积 分布服从幂律, 幂指数在 1 . 4 0- 2 . 6 4之间。相对于间隔时间而 言跨度范围较大。其原因可能在于每个群的组成主题不同, 因
等等。这些实证研究得到的时间间隔分布都服从幂律分布, 且 幂指数大多分布在 1至 3之间。 我们现在身处信息时代中, 信息的交流量程爆发式地增长, 各种新的通信方式与日俱增, 特别是对于新一代年轻人而言, E m a i l 、 即时通讯、 微博、 S N S交友平台等等新的通信方式已经在 某种程度上取代甚至淘汰了旧的交流方式。因此, 研究新的通 信方式下的人类动力学特征对于进一步了解人类的行为模式有 重要意义。针对即时通讯, 文献[ 1 3 ] 在多层次上对即时通讯交 流的标度特征进行分析, 表明单个用户的通讯记录时间间隔、 对 话中的消息数、 用户登录时间间隔、 用户在线时间以及在线时的 活跃度等等均服从不同幂指数的幂律分布。针对由个体组成的
( B u s i n e s s S c h o o l , U n i v e r s i t yo f S h a n g h a i f o r S c i e n c e a n dT e c h n o l o g y , S h a n g h a i 2 0 0 0 9 3 , C h i n a )
1 2
( 上海理工大学管理学院 上海 2 0 0 0 9 3 )
( 山西农业大学文理学院 山西 太谷 0 3 0 8 0 1 )
摘 要 分析六个 Q Q群聊天记录的真实数据, 从群体的角度出发, 对群聊天记录的间隔时间和每条消息的字符长度进行统计分 析。结果表明, Q Q群聊天行为无论从时间间隔还是聊天记录长度上都表现出明显的重尾特征, 且不同群之间的幂指数相近。研究 说明, 即时通讯的群体性的沟通行为服从人类动力学普遍的重尾规律。 关键词 人类动力学 即时通讯 群聊天 群体行为 中图分类号 T P 3 0 5 文献标识码 A