大数据对科学认识论的发展_黄欣荣

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

83
自然辩证法研究
第 30 卷
第9 期
如此之大, 以至于用传统的手段根本无法把握, 所 以大数据就是指超出了我们常规的处理能力, 必须 引入新的科学工具和技术手段才能够进行处理的 数据集合
〔3 〕
。 形式因、 动力因与目的因, 这就是著名的“四因说 ” 几千年的科学史无非就是寻找事物之间这四种原 因的历史。 文艺复兴之后, 近代科学取得了突飞猛进的发 展。在寻找近代科学的哲学基础之时, 无论是唯理 论还是经验论, 都承认现象之间存在因果关系, 也 就是说, 因果性是他们共同的哲学基点。 当英国经 验论哲学家休谟将经验推至极致时, 他发现, 科学 因果性是没有得到论证的哲学假设, 人们之所以相 信它是因为习惯使然。
智能手机、 视频监控以及其他各 随着互联网、 种智能设备的普及, 世界逐渐变成了一个数据化的 世界, 我们被急速推入大数据的浪潮中, 并快速步 入大数据时代。大数据是一场新技术革命, 即将彻 底改变我们的世界观、 生产方式、 生活方式和思维 模式。
〔1 - 2 〕
自然世界逐渐向人类社会延伸。 然而, 由于认识工具的局限, 人类对世界数据 化的脚步经过了漫长的历程, 直到二战之后电子数 字计算机的发明, 才加快了历史的脚步, 人类由此 走进了信息社会, 迎来了信息时代。 特别是随着计 算机从科学计算走向信息管理以及智能设备的微 型化、 移动化和网络化, 数据的采集、 存储、 传输和 处理都变得越来越容易, 因此数据化的脚步明显加 快, 信息社会的构 想 基 本 上 得 到 了 实 现。2012 年 初, 美国著名咨询公司麦肯锡正式提出了大数据的 概念和分析框架, 美国政府也及时提出了大数据的 构想和政策, 于是大数据的论文和著作像雨后春笋 般地涌 现, 世 界 迎 来 了 大 数 据 元 年。 我 国 各 界 人 士, 从学者到政府官员, 从商人到百姓纷纷响应和 参与了世界大数据的浪潮, 于是有人把 2013 年看作 是中国的大数据元年。 什么是大数据? 从字面来看, 大数据就是指规 模特别巨大的数据库, 所以此前也被称为海量 数 据, 这主要是从数据规模的大小来界定的。 但究竟 到达什么规模才算大数据? 古人说学富五车、 汗牛 充栋来形容个人学识渊博、 社会知识爆炸, 但现在 看来却是小儿科。 如今数据诞生的速度基本上一 两年就要翻番, 美国国会图书馆的所有文献与现在 爆炸的大数据相比只能望数兴叹。 现在的数据量
〔6 〕
然而, 正在兴起的大数据革命却提出了超越因 果性的问题。大数据学者们认为, 追求因果性是小 数据时代的产物, 也是小数据时代的理想和目标。
〔9 〕 , “知道‘是 , “相关比因果更重要 ” 在大数据时代
” 。 什么’ 就够了, 没必要知道‘为什么 ’
〔10 〕 71
在大数
据时代, 我们没有必要非知道现象背后的原因 不 可, 只要知道现象之间是否有相关关系就已足够。 因此, 大数据通过相关性对传统科学的因果性提出 了尖锐的挑战。 如果通过数据间更为表象的相关 性就能够揭示现象间的规律, 那我们又何必苦苦追 寻更为艰难的内部因果性呢? 究竟什么是相关关系呢? 两种现象之间具有 所谓相关关系是指一种现象发生变化时, 另一种现 。“相关关系的核心是 象也会随之产生相应的变化 。 量化两个数据值之间的数理关系 ”
收稿日期: 2014 - 05 - 09
“大数据技术革命的哲学问题研究” ( 14AZX006 ) 。 基金项目: 国家社会科学基金重点项目 作者简介: 黄欣荣( 1962 —) , 哲学博士, 马克思主义学院教授, 江西财经大学 管理 哲学研究中心主任, 主要研 江西赣州人, 究方向: 复杂性哲学、 技术哲学、 管理哲学。
第 30 卷 2014年
第9 期 9月
自 然 辩 证 法 研 究
Studies in Dialecties of Nature
Vol. 30 , No. 9 2014 Sep. ,
文章编号: 1000 - 8934 ( 2014 ) 09 - 0083 - 06
大数据对科学认识论的发展
黄欣荣
( 江西财经大学 管理哲学研究中心, 南昌 330013 ) 摘要: 大数据革命给传统科学认识论既提出了新挑战, 又提 供 了 新 机 遇。 大 数 据 使 科学 从 仅 追 求 因果性 走 向 “让数据发声” “科学始 于 数 据 ” 了重视相关性; 通过 提出了 的 知 识 生产新 模 式, 增添 了 科学 发 现 的 逻辑 新 通 道; 通 过数据规律补充了因果规律, 拓宽了科学规律的范围。大 数 据 给传 统 科学 认识 论 带 来了 新发展, 并由 此形 成 了 大 数据认识论。 关键词: 大数据; 认识论; 大数据哲学 中图分类号: N03 ; N941 文献标识码: A
由于康德的伟大贡献, 科学与哲学界对因果性又重
二、 从因果性到相关性
科学究竟是什么? 这是科学哲学反复追问的 问题, 但它又是一个难于回答的问题。 不过大家比 较一致的看法是一切科学都在追究现象之间的因 果关系。 科学与因果性紧紧地联系在一起, 正因 如此, 当哲学家休谟否定科学的因果性时, 科学家 和哲学家都彻底陷入了困境, 引起了集体的不安。 当古希腊第一个哲学家、 科学家泰勒斯提出水 是万物的本原之时, 科学与因果性就结下了不解之 缘。古希腊哲学家中, 无论是早期的自然哲学家, 还是后期的人文哲学家, 他们从本质上来说都在寻 找世界上纷繁复杂的各类现象背后的根本原因, 也 就是寻找我们可见现象背后所隐藏着的原因, 只是 自然哲学家更注重寻找自然现象背后的原因, 而人 文哲学家更注重寻找人类社会现象背后的根本原 因罢了。古希腊集大成的哲学家亚里士多德综合 前人的成果, 将万事万物的原因归为四类: 质料因、 84
更为重要的是大数据通过凸显相关性来
超越因果性, 通过挖掘海量数据来形成知识、 发现 规律, 从而对传统科学认识论带来了新发展, 并由 此可能形成大数据认识论这一科学认识新范式 。
一、大数据及其特征
人类与数据的历史源远流长, 数据是人类认识 客观世界的标度。 古埃及时期由于丈量土地的需 要就已经产生了数字和数据, 而古希腊哲学家毕达 哥拉斯提出了数是万物本原的观点, 从而将数据提 高到了本体论的高度, 数成了世界的本原, 也构成 了世界的本质。 翻开科学史, 我们很快会发现, 科 学的历史就是一部人类对事物数据化的历史。 某 事物越是能够用数据来表征, 表明其科学化的程度 越高, 人类对其认识也就越深入。 近代科学数据化 的脚步从 天 文 学、 物 理 学 开 始, 逐 渐 走 向 化 学、 地 学、 生物学、 人类学、 经济学、 管理学和社会学等, 从
〔8 〕 〔7 〕 441 - 444
当前的大数据技术革命是信息革命的延续 , 是 信息时代的一个重要阶段。 历史上的技术变革或 革命曾给科学认识带来新的挑战和机遇, 例如, 望 远镜让天文学家可以观测更遥远的宇宙太空, 显微 镜让科学家可以观测到微观世界。 当前的大数据 技术革命正在开启一次重大的时代转型, 它必然会 向传统认识论提出种种挑战, 并让人们通过这种收 集和分析海量数据的新技术获得新认知、 创造新价 值, 帮助我们改变认知和理解世界的方式, 为科学 认识的深入提供新手段。
〔10 〕 71
相关关系
有强弱之分, 当一个数据值发生变化, 另一个数据 值几乎不变时, 两个数据之间相关性就弱, 反之则
大数据对科学认识论的发展
相关性强。 我们怎样通过相关关系来寻找现象之 , “相关关系 间的规律? 首先应找到合适的关联物 通过识别有用的关联物来帮助我们分析一个现象, 而不是通过其内部的运作机制 ”
〔7 〕 440
。与小数据相比, 大数据不仅表现为规
模浩大, 而且在采集和处理速度、 数据类型诸多方 面都有本质的差别, 因此美国 Gartner 公司将大数据 : “大数据是指数量巨大、 表述为 速度快捷、 种类繁 多的信息财富, 这些数据需要新的技术手段来处 理, 以便提高决策制定、 领悟发现以及过程优化等 ” 由 此 可 得 出 大 数 据 的 如 下 特 点: 1. Vol能力。 ume: 数据规模巨大; 2. Velocity: 数据处理迅速; 3. Variety: 数 据 类 型 多 样 ( 涵 盖 不 同 来 源、 格 式、 结 构) 。
〔10 〕 72
什么’ 时, 我们就会继续向更深层次研究因果关系,
〔10 〕 89 ‘为什么 ’ 。 ” 因此大数据的相关性 找出背后的
分析是对传统因果性的挑战, 更是对小数据时代因 果性分析的超越和发展。
, 然后通过关
联物的变化来判断现象之间关联关系的强弱 。 现象间的因果关系是通过揭示它们内部之间 的必然性而建立起来的联系, 因此如果两种现象之 间存在因果关系, 那么它们就具有必然性, 具有绝 对的强相关。但是, 相关关系却不具有这样的必然 性, 它们完全有可能是偶然联系, 因为在建立现象 间的相关关系的时候, 我们只是把研究对象当作黑 箱, 只观测了黑箱的输入输出关系, 并没有打开黑 箱来研究它们的内部机制。 换句话说, 我们只管现 象, 只管表象, 不管机制, 不管本质, 因此相关关系 只具有可能性, 不具有必然性和绝对性。 例如, 亚 马逊网上推荐系统会根据我们以往浏览或购买的 记录向我们推荐许多读物, 但它们未必就是我们需 要的, 有时可能成为讨厌的骚扰信息。 相关性与因果性究竟是什么关系? 大数据为 什么只求相关性而不问因果性? 相关性能超越因 果性吗? 因果性肯定是相关性的一种, 而且是一种 必然的、 稳定的强相关关系, 而相关性也是在寻找 现象之间的关系, 只是它允许偶然的关系存在, 追 求的层次比因果性更浅层, 更表面。 大数据时代为 什么要放弃因果性而只问相关性? 在小数据时代, 我们所面对的数据量很少, 而且所有数据基本上来 自我们预先设计好的受控实验, 因此数据之间的因 果关系比较容易寻找。 但在大数据时代, 我们面对 的是海量数据, 就像我们没法跟踪和刻画热力学中 大量受热的每一个分子的运动轨迹一样, 我们同样 没法追究海量数据中每个数据与其他数据的因果 关系, 因此我们只好退而求其次, 把它们封存起来 当作一个黑箱系统, 从宏观上把握海量数据中表现 出来的宏观相关关系。 可以说, 相关关系是因为在 大数据面前没法找到因果关系时的一种无奈举措。 因此相关性并不是抛弃或排斥因果性, 而是既肯定 因果性又不拘泥于因果性, 并通过相关性来超越因 果性。在大数据面前无法找到因果关系时, 我们通 过寻求相关关系来发现现象间的规律, 这种规律虽 然不具备必然性, 但在很多情况下同样对我们仍有 。“在大多数情况下, 一旦我们完成了对大数 帮助 据的相关关系分析, 而又不再满足于仅仅知道‘是 知识的来源问题一直是认识论的核心问题 , 不 同的哲学家有着不同的回答。 由于认识来源和途 径的不同, 近代科学认识论主要分为经验论和唯理 论两大阵营。经验论认为, 我们的一切知识皆来源 于经验, 只有能够体验到的人类经验才是知识的真 正起点。唯理论则认为, 人类的知识应该来源于之 前已经被证明为正确的知识, 只有建基于绝对正确 的前提之上, 我们才能获得知识, 而且获得的知识 才可靠、 可信。正因如此, 经验论推崇归纳法, 因为 归纳法可以将人类的经验上升为理论知识, 而唯理 论则推崇演绎法, 因为在正确的逻辑前提下通过演 绎可以推演出可靠的知识。 牛顿在创立近代力学 过程中, 将经验论与唯理论进行了综合, 倡导了新 的实验法。 实验法将研究对象孤立、 隔离, 将之放 置在理想环境中, 从而获得理想化的实验数据, 并 从这些数据中获取知识, 因此人们也将这种实验叫 做受控实验。自牛顿之后, 通过实验来获取知识成 了近现代科学特别重要的知识通道 。 现代西方科学哲学在继承近代认识论的基础 上对知识的来源问题又有了新发展, 并将该问题称 为科学发现的逻辑问题, 其中最著名的有逻辑实证 主义和波普尔的观点。逻辑实证主义认为“科学始 , 于观察” 也就是说任何科学理论的逻辑起点都是 观察。这里的观察包括自然条件下的自然观察和 实验条件下的实验观察两种。 他们认为, 任何观察 都记录了科学家们对研究对象的客观认识, 这些观 察是看得见或摸得着的, 并且具有纯客观性, 与观 察者无关。 在这种纯客观的观察基础上通过归纳 方法提炼出科学理论, 这样就实现了从科学观察到 : “科学始于观 科学理论的认识飞跃, 因此他们认为 。 察” 证伪主义者波普尔并不同意逻辑实证主 不过, 义的观点, 他认为任何观察都没有绝对的客观性, 它渗透了观察者的理论预设和知识背景等, 这些观 “污染” , 察数据有可能被观察者 这就是所谓的观察 85
〔5 〕 〔4 〕
这一结论导致人们对因
果性的怀疑, 并且让经验论走进了死胡同, 唯理论 也失去了哲学的基础, 因此无论是科学家还是哲学 家都被休谟的结论所震惊。 哲学家康德试图通过 对纯粹理性的批判来找到科学因果性的哲学基础, 以便让人们重新信任科学及其因果性, 同时还希冀 用这套方法ቤተ መጻሕፍቲ ባይዱ定未来科学形而上学的基础 。 新获得了信心。 因果性虽然被休谟怀疑、 动摇过, 西方科学哲 学家中也有批判者, 但它依然是科学的坚实基础。 科学研究者也坚信, 科学研究就是寻找研究对象的 现象之间的因果关系, 没有因果性, 科学研究也就 失去了基础。虽然对因果性可以提出种种责难, 但 我们在 科 学 研 究 中 却 无 法 离 开 它, 更无法超越 它。
相关文档
最新文档