算法传播中偏差与偏见再析算法偏见
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2021·4(上)《科技传播》
140
作者简介:时盛杰,硕士研究生在读,国际关系学院,研究方向为国际传播、文化传播、公共外交。
算法传播中偏差与偏见:再析算法偏见
时盛杰
摘 要 近年来算法偏见现象得到了广泛关注,学界对于算法偏见的定义、成因、对策阐述各不相同。
算法偏见在不同的情形下可以分为两种:“算法产生对人的偏见”和“算法使人产生的偏见”。
前者由受众个人的主观印象为标准,后者则由受众的客观认知效果为标准。
两种算法偏见则有着共同的基础——算法偏差,算法产生的偏差性信息来源于社会文化与“算法黑箱”。
而“偏见”的产生则依赖于人的主观认知框架与偏离性信息的共同作用。
关键词 算法偏见;算法偏差;算法黑箱;认知框架
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2021)280-0140-03
以算法为技术支撑的智能传播正在塑造新的社会信息传播格局。
智能传播给受众带来“千人千面”的个性化内容的同时,也带来了算法偏见等新问题。
特别是随着资本力量与技术力量的结合,算法俨然已经成为一种“霸权”,算法偏见就是算法霸权的表现之一。
破除算法霸权的首要任务便是重新考量算法偏见的概念与成因。
1 算法偏见的概念辨析
当前学界对于算法偏见的概念并未取得普遍共识,也有学者将算法偏见(algorithmic bias)与算法歧视(algorithmic discrimination)等同,从而使得“算法偏见”这一概念模糊化,也给算法偏见的成因分析和治理造成了困难。
1.1 两种情形:“算法产生对人的偏见”和“算法使人产生的偏见”
虽然学界对“算法偏见”的定义并不相同,但是所指的现象大致相同,即经过算法技术整合后输出信息产生了“偏见”。
而概念的争议首要之处便是“偏见”的主客体问题,即偏见的发出者与承受者是谁的问题。
如果是偏见的发出者是运用算法技术的媒体,受者是受众,那么这就是算法对人的“偏见”,即对受众区别对待,丧失了公正客观立场。
如林爱珺认为“算法偏见是算法技术应用于信息生产与分发过程中,由于算法设计、输入数据、技术局限等因素造成的算法决策不客观、不公正的现象。
”[1]一些企业的“大数据杀熟”就是这种偏见的典型案例,这种情况下偏见就形成了对受众的歧视。
在这一情形下,算法偏见表现为“算法产生对人的偏见”。
其他学者的定义则略有不同,如郭小平认为算法偏见是“算法程序在信息生产与分发过程中失去客观中立的立场,造成片面或者与客观实际不符的
信息、观念的生产与传播,影响公众对信息的客观
全面认知。
”[2]
在这一定义下,偏见和歧视显然是无法等同的,其原因就在于该定义强调的“偏见”实际上是一种受众的不客观、不全面的认知,即偏见的主体实际上是受众本身,而偏见所作用的客体则是受众生活的社会。
在这一情形下,算法偏见表现为“算法使人产生的偏见”。
因此,“算法偏见”实际上包括了两个层面的内容,即 “算法产生对人的偏见”和“算法使人产生的偏见”。
当然,这两个层面的概念是相互联系的,都指向了算法技术形成的不全面、不客观的偏差性信息。
企业机构等利用算法的产生的偏差性信息对受众进行“歧视”,在消费领域常表现为“杀熟”。
而媒体机构则通过传递偏差性信息使得受众头脑中的图景与世界真实图景产生较大差异,从而让受众形成偏见。
1.2 两种标准:个人主观印象与客观认知效果
作为智能传播的消极影响,算法偏见重在“偏见”这一消极结果。
而两种不同的“算法偏见”概念也有着不同的判断标准。
当算法偏见指向“算法产生对人的偏见”时,对于偏见的判定主要依赖于以受众的主观印象,即以受众心理为标准。
只要当受众感知到被不公正地区别对待、被歧视时,算法偏见就形成了。
诚然,完全以个人好恶为判断标准太具主观性,这里的人应当理解为“类本质”的人。
因为受众个体既可能因为缺乏相应认知而陷入被歧视却不自知的局面,也可能会造成某些个体过于强调“政治正确”而将歧视扩大化的情形。
人是主观能动与社会制约的统一体,对于偏见的判定不能随心所欲而应当受到社会共同意识的制约。
因此,“算法产生对人的偏见”的判断标准实际上是受到社会制约的个人主观印象。
当算法偏见指向“算法让人产生的偏见”时,
《科技传播》
141
对于偏见的判定不以受众的主观印象而以造成的客观认知效果为标准,即以偏差程度为标准。
不论受众接受到的信息是否带有传播者的偏见,或者受众是否感知到了这种偏见,只要算法传播所塑造的受众头脑中的世界图景与真实的世界图景存在较大差异,就形成了算法偏见。
但是,受众从获取算法信息到形成偏见性认知,这一过程是“不可知”的。
因为只有当受众个体在接受了算法信息形成偏见性认知并表达出来时,算法偏见才能被“观测”到。
因此,“算法让人产生的偏见”的判断标准实际上是由主观表现出的客观认知效果。
1.3 共同基础:算法偏差
“算法偏见”可以根据不同的判断标准分成两种情形,但是两者的的基础是共同的。
算法技术的运用使得信息产生了信息偏差现象造成信息失真,这是算法偏见的基础。
当算法偏见指向“算法产生对人的偏见”时,便是指传播者有意或无意利用这些有偏信息谋取利益,造成了对受者的偏见与歧视。
当算法偏见指向“算法让人产生的偏见”时,便是指传播者有意或无意传递这些有偏信息,从而对受众认知造成消极影响。
运用算法技术生产信息的环节是相同的,算法输出的信息都是有偏差的,这就是算法偏见的共同基础。
这种有偏差的信息并非算法偏见,而是算法偏差。
因为偏见实际上是一个社会学概念,离开了人的主观定义就无法确定偏见。
而信息的偏差则是不以人的意志为转移的客观现象。
因此,算法偏见的基础就是算法偏差。
打开“算法黑箱”以纠正算法偏差是治理算法偏见的关键与前提。
2 算法偏差的来源
算法偏差就是算法技术在信息生产过程中造成的失真、偏差现象,是算法偏见的基础。
而这些偏差性信息则来源于两处:社会文化与“算法黑箱”。
算法偏差一方面是传递了社会文化中已有的偏差性信息,另一方面则是算法技术在“黑箱”中“创造”出的新的偏差性信息。
2.1 社会文化中已有的偏差性信息
算法产生的偏差性信息并不是凭空产生的,算法技术的所有者、算法模型的设计者、算法进行机器学习的数据库等都是根植于切实的社会文化之中。
每个人对社会的全部真实面貌都只是片面的认知,必然带有极大的偏差。
算法技术对这些偏差性信息进行智能复制,形成了算法偏差。
算法技术通过如下两种方式复制了社会文化中的偏差性信息。
一是算法在模型设计阶段包含的偏差性信息。
算法模型的设计直接决定了机器学习的方法,相同的数据在不同算法模型的整合下也会输出不同的数据结果。
而算法的所有者、模型的设计者都可能将
自己的偏差性信息带入算法模型之中。
错误的偏差性信息是难以避免的,因为模型的本质就是简化[3]。
在将纷繁复杂的各种社会要素简化为模型时,哪些要素被采纳而哪些要素被忽略以及各要素的占比都是依赖于人的主观抉择,也因此不可避免地带有个人的偏差性信息。
例如,当时濒临破产的《美国新闻》杂志社为了提升销量而从1983年开始评估全美大学和学院的排名,产生了许多模型。
但是其模型的评估因素及权重并不客观,引起了诸多控诉和不满。
也有许多大学根据各模型要素“投其所好”,在短时间内迅速提升排名。
而且在当前算法偏见的研究案例中,算法的所有者往往是科技巨头公司,模型的设计者是公司员工,这就不可避免地涉及到企业组织内部的博弈问题。
企业为了追求自身利益,其所有者必然会对设计者“施压”,设计者也会“投其所好”设计模型,从而不可能做到客观、全面与真实。
二是算法进行机器学习的数据库中包含的偏差性信息。
数据是社会现实的映射和镜像,一旦社会存在偏见,这种偏见就会反映在数据上,大数据算法就会如实地吸纳并反映这些偏见[4]。
算法模型往往需要大数据才能够发挥作用,而数据的真实与否直接关系到输出结果的偏差程度。
算法进行机器学习的数据库可以根据不同的环节分为3个:原始数据库、修正数据库和反馈数据库。
原始数据库就是输入给算法模型的数据库,大量偏差性信息充斥于原始数据库中,就会“迫使技术被无形地嵌入在偏见中,最终影响算法的准确运行”[5]。
修正数据库指用于修正算法初步输出结果的数据库。
算法以原始数据库为基础完成机器学习后初步输出的结果往往还需要通过其他数据库的检验与修正,而这一过程也可能受到修正数据库的偏差性信息的影响。
反馈数据库指的是算法技术通过受众的反馈性信息再次进行机器学习的数据库。
反馈直接来源于受众,其数据信息不可避免地带有个人情感色彩和认知偏差。
例如,2017年微软开发出聊天机器人Tay,其设定是19岁少女,并可以根据用户的聊天内容进行“再学习”。
结果Tay 在短短几天内就被网友塑造为了一个充满种族偏见、宣扬暴力的“毒舌女孩”,微软最终不得不将其下线。
反馈往往是算法所有者对用户进行“画像”从而进行个性化推荐的重要机制,但是反馈数据库中的诸多偏差性信息反而加剧失真与谬误。
2.2 “算法黑箱”创造的偏差性信息
算法技术除了对社会已有偏差性信息进行智能复制,还会通过“算法黑箱”创造出新的偏差性信息。
这主要归咎于两个方面:合成谬误与虚假因果。
这意味着,即使算法的模型设计与数据库都不存在有偏性,其输出的数据结果也不一定是无偏差的。
2021·4(上)《科技传播》
142
合成谬误(Fallacy of Composition)由美国著名经济学家、诺贝尔经济学奖得主保罗·萨缪尔森提出,指在微观上正确的东西并不一定在宏观上都是正确的,“个人理性行为往往无法产生集体理性的结果”。
节俭悖论、囚徒困境、奥尔森困境都是合成谬误的典型案例。
有学者认为,“合成谬误”本身就是经济规律,规律只能利用、不能改变[6]。
合成谬误不仅广泛存在于经济学中,也广泛存在于社会之中。
算法模型进行机器学习的对象是大数据,大量无偏信息经过算法模型的组合在宏观效果上可能会得出有偏差的结论。
虚假因果指的是各变量存在共变现象但不存在因果机制的关系,即变量之间可以通过归纳法得出看似正确的因果规律却没有任何因果机制可以探究。
例如,铲雪机与手套的销售量都在近乎相同的时间段内增长,铲雪机的销量与手套的销量之间存在共变,但并不是因果关系,其原因其实是天气。
但是算法技术仅仅通过对数据进行机器学习并无法得出正确结论。
机器学习的海量数据中包含许多存在共变却无真实因果关系的现象。
人尚且不能完全识别所有的虚假因果现象,当前算法技术仍然处于弱人工智能(Artificial Narrow Intelligence,ANI)阶段,就更不可能精确挖掘出海量数据中的因果机制。
这就会导致算法输出的结果可能并不是现实世界的真实反映,也就无法适应受众的需求。
算法的高度复杂性造成了人难以认知的“算法黑箱”,因为大数据的处理已经超出了人脑的承受。
在“算法黑箱”中,机器被动接受和出理大数据必然会产生许多新的偏差性信息。
3 算法偏见的形成
在形成算法偏差之后,算法偏见的产生还依赖于受众的主观认知框架。
算法偏见是受众在算法传递的偏差性信息基础上根据自身认知框架判断后形成的,可以用公式表达为“算法偏见=偏差性信息+受众主观认知框架”。
偏见是人类社会而非自然世界的现象,倘若抛开人的主观认知,世界只有真实与偏差之分,而没有公平与偏见之分。
受众接收到算法传递的偏差性信息后,不同判断决定了算法偏见的分类。
“算法产生对人的偏见”和“算法使人产生的偏见”建立在人的判断基础上,前者涉及对信息是否符合公正、平等的判断,后者涉及对信息是否真实、客观的判断。
“算法产生对人的偏见”本质上因为受众在接收到来自算法的信息后感受到了被区别对待的不公正与不平等。
例如广受诟病的“大数据杀熟”现象,就是消费者在获得价格信息后,发现商家给自己的开价高于给其他消费者的开价。
这样的区别对待使得信息受众感受到了不公正与不平等,这样情形就
是“算法产生对人的偏见”。
“算法使人产生偏见”则依赖于受众在接收到算法信息后对信息的真实性与客观性行判断。
如果受众认为信息失真而不加理睬,那么算法输出的偏差性信息便无法塑造人头脑中的世界图景,算法偏见也不会产生。
如果受众因为自身认知不足而认为算法输出的偏差性信息是真实可靠的,那么受众形成的内在观念就是有偏见的。
诚然,社会生活中往往存在着受众“明知故犯”的现象。
例如,诸多“地域歧视”早被证明是谬传,但是却往往在网络中被“热炒”。
其原因并不完全在于算法新闻传递的偏差性信息,而是网民出于娱乐化、情绪化需要,故意炒作话题传播偏见。
此时的偏见并不是源于算法而是源于社会本身。
4 结论
当前,算法偏见的现象已经得到了学界的广泛关注,但是其内涵、成因、影响、对策等方面的研究仍然值得深入探讨。
算法偏见既指“算法产生对人的偏见”,也包含“算法使人产生的偏见”,其所指情形、评判标准都不相同,前者由受众个人的主观印象为标准,后者则由受众的客观认知效果为标准。
两种算法偏见都有着共同的基础——算法偏差现象,即算法输出的信息并不符合真实客观情形。
而算法偏差的来源包括了两个方面,一是算法对社会文化中已有的偏差性信息进行智能复制,二是算法在进行大数据机器学习时因为合成谬误与虚假因果而输出了偏差性信息。
算法偏见则是社会学概念,偏见的判断依赖于人的主观认知框架。
“算法产生对人的偏见”产生意味着受众对算法信息不公正、不平等的判断,“算法使人产生的偏见”则意味着人对算法信息产生误判,接受了算法输出的偏差性信息,从而在认知上形成偏见。
参考文献
[1]林爱珺,刘运红.智能新闻信息分发中的算法偏见与伦理规
制[J].新闻大学,2020(1):29-39,125-126.
[2]郭小平,秦艺轩.解构智能传播的数据神话:算法偏见的成
因与风险治理路径[J].现代传播(中国传媒大学学报),2019,41(9):19-24.
[3]凯西•奥尼尔.算法霸权[M].马青玲,译.北京:中信出版
社,2018.
[4]许向东,王怡溪.智能传播中算法偏见的成因、影响与对策
[J].国际新闻界,2020,42(10):69-85.
[5]李昭熠.智能传播数据库偏见成因与规制路径[J].当代传
播,2020(1):93-97.
[6]王东京.从供求规律看“合成谬误”[N].学习时报,2019-10-16(3).。