大数据研究徐宗本
徐宗本院士谈“ADMM:一种大数据计算与学习方法论”

徐宗本院士谈“ADMM:一种大数据计算与学习方法论”
来源:国家数学与交叉科学中心
2016年5月18日上午,西安交通大学徐宗本院士应国家数学与交叉科学中心(以下简称“交叉中心”)的邀请,
作了题为“ADMM:一种大数据计算与学习方法论”的综合报告。
报告会由袁亚湘院士主持,交叉中心主任郭雷
院士等出席报告会。
报告从大数据算法出发,阐述了大数据算法是解决大数据问题的计算方法,而引入ADMM 作为大数据算法的框架,
展示了这一框架适宜于实施“数据分解、变量分组、随机化”等大数据算法设计原理,并将其应用于大规模分
布式回归、大规模线性方程组的求解中。
最后,徐宗本院士阐述ADMM也可作为大数据学习的框架,提出了将ADMM
与深度学习结合的思想(深度ADMM网),实现了“由ADMM理论决定深度学习层数与机构,由深度学习确定ADMM
参数与扩大模式适应性”的“模式+数据”的新学习范式。
徐宗本院士,西安交通大学数学与统计学院教授,国家重点基础研究计划(973)“基于视认知的非结构化信
息处理基础理论与关键技术”首席科学家。
1991年获国家教委及国务院学位委员会联合授予的《做出突出贡献
的中国博士学位获得者》称号。
2007年研究结果《基于认知与非欧式框架的数据建模基础理论研究》获国家自
然科学二等奖,2008年获第二届CSIAM苏步青应用数奖,2010年在国际数学家大会作45分钟报告,2011年当选
中国科学院院士。
“数字化、网络化、智能化” 新一代信息技术的聚焦点

“数字化、网络化、智能化” 新一代信息技术的聚焦点作者:徐宗本来源:《科学中国人》 2019年第7期专家简介:徐宗本,数学家、信号与信息处理专家,西安交通大学数学与统计学院教授,中国科学院院士。
1955年1月出生于陕西商洛。
主要从事智能信息处理、机器学习、数据建模基础理论研究。
提出稀疏信息处理的L(1/2)正则化理论,为稀疏微波成像提供了重要基础;发现并证明机器学习的“徐—罗奇”定理,解决了神经网络与模拟演化计算中的一些困难问题,为非欧氏框架下机器学习与非线性分析提供了普遍的数量推演准则;提出基于视觉认知的数据建模新原理与新方法,形成聚类分析、判别分析、隐变量分析等系列数据挖掘核心算法,并广泛应用于科学与工程领域。
习近平同志在2018年两院院士大会上的重要讲话指出:“世界正在进入以信息产业为主导的经济发展时期。
我们要把握数字化、网络化、智能化融合发展的契机,以信息化、智能化为杠杆培育新动能。
”这一重要论述是对当今世界信息技术的主导作用、发展态势的准确把握,是对利用信息技术推动国家创新发展的重要部署。
数字化:从计算机化到数据化数字化是指将信息载体(文字、图片、图像、信号等)以数字编码形式(通常是二进制)进行储存、传输、加工、处理和应用的技术途径。
数字化本身指的是信息表示方式与处理方式,但本质上强调的是信息应用的计算机化和自动化。
数据化(数据是以编码形式存在的信息载体,所有数据都是数字化的)除包括数字化外,更强调对数据的收集、聚合、分析与应用,强化数据的生产要素与生产力功能。
数字化正从计算机化向数据化发展,这是当前社会信息化最重要的趋势之一。
数据化的核心内涵是对信息技术革命与经济社会活动交融生成的大数据的深刻认识与深层利用。
大数据是社会经济、现实世界、管理决策等的片段记录,蕴含着碎片化信息。
随着分析技术与计算技术的突破,解读这些碎片化信息成为可能,这使大数据成为一项新的高新技术、一类新的科研范式、一种新的决策方式。
大数据背景下统计分析在财务管理中的应用王丽

大数据背景下统计分析在财务管理中的应用王丽发布时间:2021-01-12T11:17:52.067Z 来源:《基层建设》2020年第25期作者:王丽许亚琪曹梦琳李嘉乐李雪琪[导读] 摘要:统计分析技术随着社会的发展不断成熟。
中北大学 036000摘要:统计分析技术随着社会的发展不断成熟。
在激烈的市场竞争环境下,统计分析方法在经济管理领域中的价值也越来越高。
想要提高经济管理领域中的自身经营效率,有效地将统计学和经济管理结合到一起是非常重要的,其可以实现有效资源配置优化,提高企业决策的科学合理性。
本文对大数据背景下统计分析在财务管理中的应用进行分析,以供参考。
关键词:大数据;统计分析;财务管理引言大数据技术的创新为信息管理模式带来了新的发展方向,由此信息共享得以全面展开。
而受到传统信息管理模式的影响,企业对于大数据背景的适应性较差。
如何以大数据背景为依据,对会计信息化管理模式进行合理创新、提升企业信息管理效果呈现出的必要性,对于企业信息管理安全有序进行具有深远意义。
1大数据内涵及特性什么是“大数据”?这个问题一直以来都是业界争论的焦点,学者和从事大数据有关研究的专家们对大数据的定义都有其自己的见解。
维基百科中将大数据界定为:常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。
徐宗本院士对大数据的描述为“不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集”。
从上述定义可以看出,大数据是一个与传统数据集相对的概念,为了区分大数据还得拿它和传统数据做一番比较。
大数据和传统数据差异首先不得不说的就是数据量,它是区分大数据和传统数据的关键因素。
传统数据集一般仅仅达到GB,而大数据则已经达到PB、EB甚至ZB.其次,传统数据通常是结构化的关系型数据,对传统关系型数据进行标注和存储一般来说相对容易。
而大数据则大部分都是半结构和非结构化的,比如文本、图像、音频、视频文件等。
让大数据创造大价值

让大数据创造大价值作者:徐宗本张宏云来源:《人民周刊》2018年第15期习近平同志在中共中央政治局就实施国家大数据战略进行第二次集体学习时指出,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善。
这一重要讲话精神,为推动实施国家大数据战略指明了方向和任务。
我国大数据发展具有独特优势综观世界,我国大数据发展具有独特优势。
虽然很多国家把经济数字化作为实现创新发展的重要动能,在前沿技术研发、数据开放共享、隐私安全保护、人才培养等方面进行前瞻性布局,一些发达国家还相继出台了大数据发展规划,但没有一个国家能像中国这样将发展大数据上升为国家战略,并持续深入推动。
但也要看到,我国大数据发展整体上仍处于起步阶段。
虽然快速发展的格局基本形成,但在数据开放共享、核心技术突破、以大数据驱动发展等方面都面临重重挑战。
在推动实施国家大数据战略中,实践路径仍不够清晰,对需求的认知还比较模糊;数据开放共享滞后,数据资源红利尚未得到充分释放;企业赢利模式不稳定,产业链坚韧性和完整性不足;核心技术尚未取得重大突破,应用仍处于较低水平;安全管理与隐私保护存在漏洞,制度体系仍不够完善;市场活跃程度不够,人才供给严重不足。
这些突出问题是制约我国大数据发展的主要因素。
目前,大数据发展正进入从概念推广到应用落地的关键时期,科学认识大数据、增强对大数据发展规律的把握能力十分重要和必要。
准确把握大数据价值产生的规律从根本上说,制约我国大数据发展的问题在很大程度上源于认识和思维层面,即源于对大数据的内涵、大数据价值产生的机理和规律认识不清。
大数据价值产生有其内在规律,只有深刻认识并掌握这些规律,才能提高科学运用大数据的能力。
大数据建设赋能数字普惠金融发展研究——基于“_国家级大数据综合试验区”_的准自然实验

第4期(总第390期)2024年4月商㊀业㊀经㊀济㊀与㊀管㊀理JOURNAL OF BUSINESS ECONOMICSNo.4(General No.390)Apr.2024收稿日期:2024-01-17基金项目:国家自然科学基金青年项目 长江经济带城市收缩的空间异质性㊁影响因素与城市体系协同发展 (71804021);辽宁省 兴辽英才计划 青年拔尖人才项目 中国城市经济韧性的空间关联网络研究 (XLYC2007123);辽宁省教育厅面上项目 风险干扰下辽宁省城市经济韧性的驱动因素与提升机制重构研究 (LJKMR20221600);辽宁省经济社会发展研究项目 资源型城市高质量发展:模式与政策选择研究 (2024lslybkt-012)作者简介:张明斗,男,教授,经济学博士,主要从事城市与区域经济学研究;李学思(通讯作者),女,博士研究生,主要从事城市与区域经济学研究㊂大数据建设赋能数字普惠金融发展研究基于 国家级大数据综合试验区 的准自然实验张明斗1,李学思2(1.东北财经大学经济学院,辽宁大连116025;2.东北财经大学经济与社会发展研究院,辽宁大连116025)摘㊀要:大数据背景下,如何拓宽数字普惠金融发展路径,进而强化其作用价值,成为重要且具有深远意义的研究话题㊂为此,基于2011 2020年中国286个地级及以上城市的面板数据,以 国家级大数据综合试验区 为准自然实验构建双重差分模型进行实证检验㊂研究发现,大数据建设对数字普惠金融发展具有显著促进效应,且经过反事实检验㊁安慰剂检验㊁随机性检验等一系列稳健性检验后,结论依旧可靠;异质性分析表明,在地级市㊁区位优势较好㊁金融结构指数高的城市组别中,大数据建设对数字普惠金融发展具有更为明显的促进效果;机制分析表明,大数据建设通过金融科技进步效应以及信任强化效应促进数字普惠金融发展㊂文章揭示了大数据建设赋能数字普惠金融发展的内在逻辑,能够为相关部门制定科学有效的数字普惠金融发展方案提供经验参照㊂关键词:大数据;数字普惠金融;金融科技进步效应;信任强化效应中图分类号:F832.7㊀㊀文献标志码:A㊀㊀文章编号:10002154(2024)04006617DOI:10.14134/33-1336/f.2024.04.006Research on Big Data Construction Empowering Development of Digital Inclusive FinanceBased on the Quasi-natural Experiment of National Big Data Comprehensive Pilot ZoneZHANG Mingdou 1 LI Xuesi 21.School of Economics Dongbei University of Finance and Economics Dalian 116025 China2.Institute of Economic and Social Development Dongbei University of Finance and Economics Dalian 116025 China Abstract ︰Under the background of big data how to broaden the development path of digital inclusive finance and further strengthen its role value has become an important and far-reaching research topic.Therefore Based on the panel data of 286cities at or above the prefecture level in China from 2011to 2020 this paper constructs a difference-difference model based on the quasi natural experiment of National Big Data Comprehensive Pilot Area for empirical testing.It is found that the construction of big data has a significant promoting effect on the development of digital inclusive finance and the conclusion is still reliable after a series of robustness tests such as counterfactual test placebo test and randomness test.Heterogeneity analysis shows that in prefecture-level cities cities with better location advantages and higher financial structure index big data construction has a more obvious promotingeffect on the development of digital inclusive finance.The mechanism analysis shows that the construction of big data promotes the inclusive development of digital finance through the effect of financial technology progress and the effect of trust strengthening.This paper reveals the internal logic of the construction of big data to enable the development of digital inclusive finance which can provide experience reference for relevant departments to formulate scientific and effective digital inclusive finance developmentprograms.Key words ︰big data digital inclusive finance effect of financial technology progress effect of trust strengthening一、引㊀言众所周知,金融是现代经济核心,能够有力支撑实体经济发展,不断打开经济增长的上升空间[1]㊂但是,随之出现的金融供需结构失衡等诸多现实问题同样不容忽视,持续扩张的金融供给无法全面满足企业的金融需求,多数中小企业依旧面临融资难的困境㊂为有效应对上述问题,突破传统金融的边界约束,优化金融服务网络,构建与实体经济规模及其特征相匹配的多元化金融体系,进而高质量推进多层次韧性资本市场的建设,数字普惠金融的系统性㊁全方位发展成为其密钥,也成为健全完善中国现代金融体系的重要路径㊂作为数字科技与普惠金融的结合,数字普惠金融既能够合理配置金融资源,优化金融服务[2],又能够有效提高资金供需双方的信息共享性,节约信息搜索㊁风险控制等成本[3],缓解实体经济部门的信贷约束[4],进而实现经济发展成果共享[5]㊂可见,数字普惠金融具有显著的发展优势与发展必要性㊂‘金融科技发展规划(2022 2025年)“指出: 全面加强数据能力建设,在保障安全和隐私前提下推动数据有序共享与综合应用,充分激活数据要素潜能,有力提升金融服务质效㊂ 因此,如何在前沿技术推广应用及金融供给侧结构性改革备受重视的情境下,将大数据建设赋能于数字普惠金融发展中,进而强化数字普惠金融的经济社会价值,成为亟待研究的重大命题㊂与此同时,中国于2015年首次提出 实施国家大数据战略,推进数据资源开放共享 策略㊂‘ 十四五 数字经济发展规划“进一步强调, 数字经济以数据资源为关键要素,成为重组全球要素资源㊁重塑全球经济结构㊁改变全球竞争格局的关键力量 ㊂作为继互联网㊁移动计算㊁云计算之后的又一次颠覆性变革,大数据正重新定义国家㊁企业㊁个人等主体决策的过程和方式,并应用于政府治理㊁金融㊁教育等社会多个领域,而且趋向扩张至其他领域[6]㊂具体而言,通过掌握㊁精炼与分析海量数据,搭建多源数据共享平台,大数据建设可以加速行业知识积累,推动传统产业跨界整合,甚至重构,进而助力众多行业朝集约化㊁创新性方向发展,特别是促使金融领域新兴模式的不断涌现㊂这既能够通过转变金融交易形式,推动其运营效率提升,也能够借助非中介化交易等金融交易结构的改变,实现其结构效率提升㊂那么,大数据建设能否赋能数字普惠金融发展,助力金融供给侧结构性改革,进而提高数字金融服务可得性,同时其具有怎样的内在机制,均需开展系统性的理论分析与实证检验㊂由此,本文尝试以 国家级大数据综合试验区 为准自然实验,识别大数据建设对数字普惠金融发展的促进效应㊂这将对推动数字金融产业勃兴㊁拓宽数字金融服务边界㊁促进实体经济稳定发展具有重要而深远的意义㊂就数字普惠金融发展而言,现有研究主要围绕其内在优势及影响因素展开㊂一是数字普惠金融发展的内在优势,学者们多从个体获益㊁企业融资与经济增长等方面加以探讨㊂在个体获益方面,郭峰等认为,数字普惠金融能够改进金融服务,优化支付方式,使广大居民切实体会到金融服务的可得性与便利性[7]㊂吴雨等指出,数字普惠金融能够基于碎片化信息绘制出用户信用画像,这不仅控制了信用风险,也能够确保弱势群体获得便捷㊁可负担的金融支持[8]㊂在企业融资方面,张铭心等研究发现,数字普惠金融可以帮助生产率较低的小微企业克服出口固定成本支付困难的问题,加大其出口力度[9]㊂在经济增长方面,傅利福等研究认为数字普惠金融能够识别目标用户及应用场景的差异性,确立适用的发展路径,形成个性化的发展模式,进而得出其可以促进经济包容性增长的结论[10]㊂二是数字普惠金融发展的影响因素,学者们着重从资源依赖与金融可得性两方面进行分析㊂在资源依赖方面,李明贤等研究发现,良好的经济条件能够有效应用数字科技㊁推动金融服务需求的增长,进而促进数字普惠金融发展[11]㊂董晓林和张晔指出,数字化76㊀第4期㊀张明斗,李学思:大数据建设赋能数字普惠金融发展研究 基于 国家级大数据综合试验区 的准自然实验86商㊀业㊀经㊀济㊀与㊀管㊀理2024年金融产品对使用者的学习能力提出更高要求,较低的人力资本水平㊁信任感的缺失将会使资源依赖地区难以有效推广数字普惠金融[12]㊂在金融可得性方面,宋科等研究认为,数字普惠金融是基于传统金融发展而来的,二者相互作用产生的互补与协同效应将会影响金融服务普惠性的提升效果[13]㊂就大数据建设的效应而言,依托大数据促进要素融合,推进企业发展,提升金融服务水平,正成为全球发展的新趋势㊂一是要素配置,Manyika等㊁杨善林和周开乐均考虑数据本身的资源特性,以及在生产活动中拥有的潜能,认为大数据逐渐成为日趋关键的生产资料与国家基础性战略资源[14-15]㊂谢康等指出,在大数据的驱动下,以资本㊁劳动和技术为代表的基础要素能够更高效地转为现实生产要素,即通过参与价值分配,大数据缓解了传统资源的配置扭曲问题[16]㊂二是企业发展,Ducange等研究认为,大数据建设所带来的信息透明性,有助于制造业企业在产品设计㊁生产制造以及市场推广等方面发挥应用潜力[17]㊂邱子迅和周亚虹基于国家级大数据综合试验区,研究发现大数据建设有助于企业节约交易成本,推动资金供需双方精准对接,加速企业内部变革[18]㊂Zhang等认为,大数据建设能够促进能源密集型企业转型[19]㊂杨俊等研究指出,凭借 乘数作用 优势实现中间品质量飞跃与技术能力提升,持续推动经济增长,展现出显著的增长效应[20]㊂三是金融服务,徐宗本等认为依托大数据开展的金融业务再造包括金融机构的自我变革以及互联网企业跨界开展金融服务业务[6]㊂同时,Wei等研究得出大数据能够多维度评估对象的信用水平,打破时空限制,进而使得金融服务便捷化的结论[21]㊂通过对已有研究的系统性梳理,可以得知,数字普惠金融发展优势明显,主要体现在个体受益㊁企业融资与经济增长等方面,其影响因素研究多聚焦于资源依赖㊁金融可得性等方面,但未充分关注如何顺应当代科技进步趋势来发展数字普惠金融,进而持续释放数字普惠金融的内在价值㊂同时,目前有关大数据助力解决经济学难题的研究成果丰硕,多集中于要素配置㊁企业发展与金融服务等方面,却鲜少对大数据如何惠及数字普惠金融发展这一主题展开深入研究㊂有鉴于此,本文将以数字普惠金融的发展路径为研究基础和起点展开探讨,以 国家级大数据综合试验区 构建准自然实验,剖析大数据建设对数字普惠金融发展的影响效应及内在机理,进一步拓宽数字普惠金融发展路径,为实现金融供需结构平衡提供思想贡献和行动贡献㊂相较于既有研究,本文的创新之处主要体现在三个方面:一是基于 国家级大数据综合试验区 构建准自然实验,首次评估了大数据建设影响数字普惠金融发展的效果㊂这不仅在一定程度上丰富了有关大数据建设效果的研究内容,同时也拓宽了推进数字普惠金融发展的路径体系㊂二是考虑到区域发展的非均衡性,本文从城市行政级别㊁区位特征㊁金融结构三个方面开展异质性讨论,为不同城市结合自身发展优势,有针对性地规划部署大数据建设,进而推进数字普惠金融发展提供参考㊂三是基于涌现理论探析了大数据建设对数字普惠金融发展的理论机制,实证检验了大数据建设通过金融科技进步效应与信任强化效应赋能数字普惠金融发展的存在性,客观评价了国家级大数据综合试验区的建设效果,揭示了大数据建设赋能数字普惠金融发展的内在逻辑,为相关部门制定合理的数字普惠金融发展方案提供启示㊂二㊁政策背景与研究假设(一)政策背景伴随着信息化浪潮在全球兴起,大数据正在成为具有重要战略意义的国家资源,引领新一轮创新与变革㊂‘促进大数据发展行动纲要“(以下简称‘纲要“)指出: 推动大数据与云计算㊁物联网㊁移动互联网等新一代信息技术融合发展,探索大数据与传统产业协同发展的新业态㊁新模式,促进传统产业转型升级和新兴产业发展,培育新的经济增长点㊂ 为深入贯彻落实‘纲要“内容,2015年9月,中国在贵州省启动了首个国家级大数据综合试验区的建设工作㊂2016年2月,国家发展改革委㊁工业和信息化部㊁中央网信办发函批复,同意贵州省建设首个国家级大数据综合试验区㊂同年10月,继贵州省之后的第二批国家级大数据综合试验区获批建设,其中包括两个跨区域类综合试验区(京津冀㊁珠江三角洲),四个区域示范类综合试验区(河南㊁上海㊁重庆㊁沈阳),一个大数据基础设施统筹发展类综合试验区(内蒙古)㊂考虑到大数据综合试验区的规划和建设绝非短时间内可以完成的,因而各试验区应在建设初期分清重点和难点,以城市为基本单位落实完成规划任务,保证建设的高效性㊂与此同时,鉴于国家级大数据综合试验区名单中同时存在省份及城市层面的试验区,为保证研究层面的一致性,本文以名单中涉及的69个地级及以上城市作为实验组㊂具体包括:(1)京津冀综合试验区,即北京㊁天津及河北省的11个地级及以上城市㊂(2)珠江三角洲试验区,即广东省的21个地级及以上城市㊂(3)贵州㊁河南㊁内蒙古试验区,即贵州省的6个地级及以上城市㊁河南省的17个地级及以上城市㊁内蒙古自治区的9个地级及以上城市㊂(4)上海㊁重庆㊁沈阳试验区㊂(二)研究假设1.大数据建设与数字普惠金融发展㊂众所周知,大数据具有便捷性与共享性的核心特征㊂类似于公共产品,大数据的便捷性体现在数据的复制㊁传播和使用可不受时空限制[22]㊂具体到金融服务方面,依托大数据建设的金融机构不再局限于时空范围,而是以多维度评估服务对象的信用水平,使金融服务更加便利㊁快捷[21]㊂例如,蚂蚁金服利用大数据分析平台,通过多维度的风险评估来评估客户的信用水平,实现高效性与多样性的贷款支持㊂这意味着大数据建设使得金融机构打破营业网点的约束,地处偏远的企业也能够享受到高效的金融服务[7]㊂大数据的共享性体现在海量数据不因使用而产生折旧和贬值,并且很容易开源共享㊁复制和重组[23]㊂对于金融领域而言,以往信息公开中通常存在信息的条块分割㊁共享效率低等问题,容易引致较多重复信息与 信息烟囱 现象,届时企业将耗费较高时间成本以获取应急资金,进一步陷入 融资难 的困境,致使正常运营岌岌可危㊂而以大数据建设为代表的创新科技进步能实现信息共享,这有利于推动数字金融产业的兴起,改善金融服务的可得性与普惠性[24]㊂具体而言,大数据建设能够将融资对象㊁金融机构的相关信息迅速集成,为金融需求方开辟筹措资金新渠道㊂在节约资金供需双方搜寻与匹配成本的同时,有效整合宏微观层面的信息数据,顺利构建第三方征信体系[25],降低信息的不对称性,从而拓展金融业务长尾市场,让不同规模企业均可享受到正规金融服务㊂基于此,本文提出假设1:假设1:大数据建设能够显著促进数字普惠金融发展㊂2.大数据建设影响数字普惠金融发展的异质性㊂尽管大数据建设能够发挥 桥梁 作用,对现有生产要素加以联系[20],但这种要素统筹能力会受到城市实际要素禀赋与功能定位的干预,继而使得数字普惠金融发展效果呈现参差㊂换言之,大数据建设对数字普惠金融发展的影响可能存在空间异质性,具体表现在城市的行政级别㊁区位特征与金融结构的差异上㊂在行政级别方面,副省级及以上城市行政级别较高,这类城市通常享有一系列的要素配置便利性[26],已然具备较为成熟的金融市场,能够盘活市场中的金融资源,为金融服务对象提供有效供给,大数据统筹连接各项要素的能力对这类城市数字普惠金融发展的促进效应无异于 锦上添花 ㊂同时,与副省级及以上城市相比,地级市初始禀赋相对落后㊁金融发展水平较低,大数据在金融领域的应用将极大程度地简化其金融资源审批流程,借助数字技术优势有效推广数字金融服务,实现数字普惠金融发展㊂在区位特征方面,尽管日新月异的现代科技能够打破微观个体交流合作的空间限制,但地理区位仍能影响要素流动性,特别在劳动力㊁土地等传统要素层面表现得尤为突出㊂作为一条国情地理界线,胡焕庸线两侧城市要素流动性差异巨大,线东南侧城市的区位优势更为明显,这对社会各领域均衡发展产生深刻影响㊂通常,区位优越的城市更具开放性与包容性,对新技术的理解与掌握更为顺畅,居民享受数字金融服务的积极性相对较高,并对金融机构充满信任,从而有助于发挥大数据建设对数字普惠金融发展的促进效应[13]㊂在金融结构方面,大数据作为驱动新一轮科技革命和技术演进的关键生产要素[20],能够提升金融交易活跃程度,使得金融市场流通更为合理化的金融产品,保证数字金融服务覆盖的全面性㊂高金融结构指数城市通常具有完善的金融功能以及快捷的融资渠道,大数据综合试验区将率先搭建数据开发与共享平台,市场中的数据得以深度挖掘与利用,使得该类城市的金融业发展 如虎添翼 ,实现金融交易脱媒化与数字化相结合,进一步解决传统金融中的资金错配问题,确保企业以适当融资成本获得资金支持,促进其金融数字化和普惠性发展㊂相较而言,低金融结构指数城市主要依托金融机构开展资金融通等金融服务,融资流程相对烦琐,资源配置尚未达到最优状态,大数据建设固然能助力其统筹协调包括金融数据在内的各项要素,然而仍受限于金融服务模式的复杂化,金融服务边界的拓展范围96㊀第4期㊀张明斗,李学思:大数据建设赋能数字普惠金融发展研究 基于 国家级大数据综合试验区 的准自然实验较小,因而大数据建设对该类城市数字普惠金融发展的促进效果有限㊂基于此,本文提出假设2:假设2:大数据建设对数字普惠金融发展的影响因城市行政级别㊁区位特征及金融结构而存在异质性㊂3.大数据建设影响数字普惠金融发展的内在机制㊂大数据建设是价值创造的关键,应用范围广,涉及社会的诸多领域[20],亦可引起金融体系内外部变动㊂而依据约翰㊃霍兰提出的涌现理论,①数字普惠金融的发展有赖于金融体系内部革新及其外部变化,其中,内部革新意指金融体系的技术进步,外部变化则为金融体系之外信任环境的改变㊂换言之,大数据建设能够通过金融科技进步效应与信任强化效应推动数字普惠金融发展㊂就金融科技进步效应而言,大数据建设所带来的技术进步对金融领域的变革起到重要作用㊂实际上,大数据建设推动了要素重组升级㊁再配置与效率变革[27],可助力各行业提高效率和创新服务决策[23]㊂聚焦到金融领域,大数据建设使得金融业务在方法㊁流程㊁产品等方面进行改革和创新㊂并且,金融交易产生的海量数据蕴含着巨大的潜力与价值,有效挖掘数据可以实现资源合理配置[28],为制定个性化金融服务提供了便利,进而实现金融科技水平的提升㊂这种金融体系内部的技术进步使得金融服务摆脱时空制约并涵盖支付㊁理财㊁信贷等多类业务,最大程度地满足了下沉市场消费者的金融需求㊂同时,金融科技进步能够有效降低信息处理成本,确保金融服务以更加经济的方式实现,从而推动数字普惠金融发展㊂就信任强化效应而言,大数据建设改善了城市信任环境,进而提升了数字金融服务的可得性㊂具体地,大数据建设能够以数据流引领其他生产要素流动,改变社会分工协作模式,强化生产组织的集约化与创新性[29]㊂这种建设优势以优先发展互联网等数字化设施作为重要的基础性工作,推动市场主体间信息传播的有效性,构筑良好的城市信任环境,进而最大程度地维系金融体系的外部稳定性㊂就金融体系而言,营造城市信任环境有助于完善金融交易的信息沟通与传递机制,提高数字金融服务参与率,延伸金融利益链,扩大数字金融服务的覆盖面,有效惠及社会各群体㊂另外,在日渐稳固的城市信任环境中,金融机构更可能降低融资门槛,借助网络平台监管金融交易活动,为居民提供优质金融服务,节约搜索㊁交易㊁运营等方面的成本,最终实现数字金融服务的便利可得㊂基于上述分析,本文提出假设3:假设3:大数据建设通过金融科技进步效应与信任强化效应促进数字普惠金融发展㊂本文构建的大数据建设影响数字普惠金融发展的作用机制框架如图1所示㊂图1㊀大数据建设影响数字普惠金融发展的作用机制示意图三㊁研究设计(一)模型设定1.双重差分模型㊂2016年获准建设的国家级大数据综合试验区是外生于金融领域发展的试点政策,因07商㊀业㊀经㊀济㊀与㊀管㊀理2024年①涌现理论指出,事物的 涌现 既受系统内部变革限定,又受外部环境影响㊂而可将其看作大数据建设的准自然实验㊂为科学研究大数据建设对数字普惠金融发展的影响效应,本文构建了同时点双重差分模型,如式(1)所示:Dif it =α+β1Bdata it +γ1Control it +YearFE +CityFE +εit(1)其中,Dif 表示数字普惠金融指数,Bdata 表示大数据建设,Control 为控制变量合集㊂YearFE 为时间固定效应,CityFE 为城市固定效应,ε为随机扰动项㊂估计系数β1度量了数字普惠金融发展在大数据建设前后的平均差异㊂2.作用机制模型㊂基于前文的理论分析,为检验大数据建设促进数字普惠金融发展的作用机制,本文构建如下模型:Mid it =α+β2Bdata it +γ2Control it +YearFE +CityFE +εit(2)其中,Mid 表示机制变量,依次采用反映金融科技进步效应(Technology )与信任强化效应(Trust )的变量进行替换㊂其他变量含义同式(1)一致㊂若β2显著,则说明机制变量在大数据建设影响数字普惠金融发展中发挥传导作用㊂(二)数据来源与变量定义本文以 国家级大数据综合试验区 为准自然实验,采用2011 2020年中国286个地级及以上城市面板数据研究大数据建设对数字普惠金融发展的影响㊂所用数据来自2012 2021年‘中国城市统计年鉴“㊁EPS 数据平台㊁北京大学数字金融研究中心以及锐思金融研究数据库㊂1.被解释变量㊂本文的被解释变量为数字普惠金融发展水平(Dif ),采用北京大学测算的城市层面数字普惠金融指数进行衡量㊂为便于报告回归结果,本文进一步参考相关学者的处理方法[8,30],将数字金融发展指数除以100㊂2.核心解释变量㊂本文的核心解释变量为大数据建设(Bdata ),将 国家级大数据综合试验区 作为一项准自然实验,以大数据综合试验区城市的虚拟变量(Group )与建设实施时间虚拟变量(Post )的交互项(Group ˑPost )表征大数据建设的政策处理效应(Bdata )㊂具体地,本文将大数据综合试验区中的城市(以下简称大数据建设城市)Group 设置为1,作为实验组,将非大数据综合试验区中的城市(以下简称非大数据建设城市)设置为0,作为对照组;将设立试验区前后的时间虚拟变量Post 分别设置为0和1,并从两个方面分析确立国家级大数据综合试验区开始发挥影响的时间㊂一是两批试验区正式获批建设的时间统一,均为2016年;二是推广大数据试验区是渐进式的,尽管贵州于2015年启动大数据综合试验区建设工作,但是试验区推广的峰值仍是2016年[18]㊂基于此,本文将2016年确定为国家级大数据综合试验区发挥影响的起始年份㊂3.控制变量㊂考虑到其他城市特征因素可能对数字普惠金融发展产生影响,参考相关研究[11,13],本文控制了以下变量:(1)科研投入水平(Science )㊂科技创新有助于金融领域研发更具多样化与创新性的金融产品,更好地实现金融数字化与普惠性,而这也需要足够的资金支持㊂本文用科学支出占一般预算支出比重表征科研投入水平㊂(2)金融支持力度(Finance )㊂完善的金融体系有助于为不同类型㊁不同规模㊁不同性质的创业者提供资金支持,丰富创业投资来源[31],数字普惠金融发展可能会受其影响㊂本文用金融机构贷款余额与GDP 之比表征金融支持力度㊂(3)医疗服务水平(Medical )㊂随着 健康中国 意识的提高,医疗建设水平将极大地影响经济活动的开展,从而使数字金融服务质量呈现差异㊂本文以每平方千米的医院个数表征医疗建设水平㊂(4)市场化程度(Market )㊂市场繁荣程度将会影响金融业的发展,也影响了金融业的服务品质㊂本文以限额以上零售总额与GDP 之比表征市场化程度㊂(5)人力资本水平(Human )㊂人力资本是对能力㊁知识和技术的综合反馈[32],金融体系的数字化与科技化发展离不开人才的支撑㊂本文以当年本专科人数与常住人口之比表征人力资本水平㊂4.机制变量㊂依据上文的研究假设,大数据建设可以通过金融科技进步效应与信任强化效应促进数字普惠金融发展,有必要对反映上述效应的机制变量加以说明㊂(1)反映金融科技进步效应的机制变量(Technology )㊂大数据建设将引发金融体系内部革新,提升金融科技水平,进而促进数字普惠金融发展㊂考虑到金融科技发展通常优先由媒体获悉,继而可被百度新闻17㊀第4期㊀张明斗,李学思:大数据建设赋能数字普惠金融发展研究 基于 国家级大数据综合试验区 的准自然实验。
封面报道中国科学院院士徐宗本:感知教育的核心是数据

封面报道中国科学院院士徐宗本:感知教育的核心是数据教育大数据是一个非常值得期待的领域,大数据的核心是利用信息对业务的内涵和服务进行革新。
发展大数据具有迫切性信息时代的教育是要在充分了解学生认知能力和知识结构的前提下,提供符合学生认知规律和培养目标的优质教育,帮助其领悟学习的愉悦并养成通过学习解决问题的习惯。
徐宗本中国科学院院士未来“感知”这个词将成为教育的关键词。
通过智能的感知,使得学习者对所处的环境和所要学习的对象进行更多信息的获取,而在感知的过程中,数据是最核心的部分。
如何对待和认识数据?首先要理性看待数据。
数据是以编码形式存在的信息载体,是资料的数字化形式,大数据是大而复杂的数据集,具有海量性、时变性、异构性、分布性等特征。
当反映真实世界的数据(碎片)量己达到可以从一定程度上反映其真实面貌的程度,随着信息获取的发展,数据在积累过程中从量变发展到质变。
量变是指数据量增加,质变是指量增加到了一定时刻使得人们通过数据的片断就能大体判断它背后的故事。
大数据泛指一个时代、一项技术、一种文化、一个挑战,通常用四句话概括:拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇;能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高新技术;任何人都要以数据说话;现有的数据采集、传输、存储、处理与分析技术己无法适用于现有的需要。
大数据的价值有四个方面值得大家关注。
第一,提供社会科学的方法论:实现基于数据的决策,支持管理科学与实践的革命;第二,提供科学研究的新范式:支持基于数据的科学发现;第三,形成高新科技的新领域:推动行业深化发展并形成大数据产业;第四,形成社会进步的新引擎:深刻改变人们的思维、生产、生活方式,推动社会进步。
发展大数据具有迫切性与极端重要性。
大数据技术是解决众多国家重大需求问题的共性基础,必将成为重构社会和经济的基本生产资料和生产力(底层架构和标配),它是国家创新驱动发展的核心驱动力。
大数据背景下公安基层侦查情报工作的优化路径

2019年8月第4期总第193期湖北警官学院学扌艮Journal of Hubei University of PoliceAug.2019No.4Ser.N o.193大数据背景下公安基层侦查情报工作的优化路径涂鸣越(中国人民公安大学,北京100038)【摘要】大数据时代的来临给公安工作带来了机遇和挑战,应用大数据已成为推动情报主导警务工作的重要杠杆。
大数据在发现犯罪信息、打击犯罪组织、核查信息和研判、犯罪预警以及侦破互联网金融类犯罪等案件中发挥着巨大作用。
大数据背景下公安基层的侦查情报工作仍面临一些亟待解决的问题,需要进一步树立大数据意识,建立健全犯罪信息采集和数据整合体系,加大对业务人员数据技术分析能力的培养,最大限度保障公民隐私和信息安全。
[关键词】大数据;侦查情报;公安基层;警务机制【中图分类号1D631【文献标识码】A【文章编号】1673—2391(2019)04—0124—07随着互联网、物联网、移动互联等现代信息技术的迅猛发展和各种智能产品的广泛普及应用,社会各领域数据呈爆炸性增长。
全球已经进入大数据时代,人类生活逐步迈入“数据智慧”的时代。
与此同时,一些危害国家安全、影响社会稳定,依托互联网而产生的智能型、高科技型的犯罪频发。
此类案件呈现出智能性、互动性、隐蔽性等特点,由于其借助互联网进行作案联系,隐蔽真实身份,因而容易逃避法律制裁。
如何对海量的信息进行大数据分析与研判,挖掘有价值的情报信息,为侦破案件、打击犯罪、导控舆情提供决策支持己成为公安工作亟待解决的问题。
因此,探索公安基层情报机制的构建具有重要意义。
一、大数据背景下侦查情报的新特征当前对于“大数据”仍然没有一个统一的定义,中国科学院徐宗本院士指出,大数据是“不能集中存储、难以在可接受时间内分析处理、个体或部分数据呈现低价值而数据整体呈现高价值的海量复杂数据集”円基于这个定义,我们可以对大数据做如下理解:一是大数据不能系统存储;二是大数据的分析处理难以在预计的时间内完成;三是大数据信息整体呈现较高价值性。
徐宗本院士+ai的10个重大数理基础问题

徐宗本院士+ai的10个重大数理基础问题【徐宗本院士+本人的10个重大数理基础问题】在当今科技飞速发展的时代,人工智能(Artificial Intelligence,简称本人)已经成为了全球科技领域研究的热点之一。
在本人领域,徐宗本院士是一位备受推崇的专家,他对于本人的研究和发展做出了杰出的贡献。
徐宗本院士曾提出了一些重大的数理基础问题,这些问题对于本人的发展具有非常重要的意义。
在本文中,我们将深入探讨徐宗本院士提出的与本人相关的10个重大数理基础问题,为您呈现一场知识盛宴。
1. 本人的基础模型和算法在徐宗本院士提出的10个重大数理基础问题中,第一个问题就是本人的基础模型和算法。
本人作为一门交叉学科,其基础模型和算法直接影响着本人系统的性能和效果。
在当前的研究中,如何构建高效、精准的基础模型和算法一直是本人领域的研究热点。
徐宗本院士提出了一系列的数理基础问题,希望能够在这一领域取得重大突破。
2. 深度学习理论与方法的建设深度学习是目前本人领域的热门研究方向,徐宗本院士也在其中做出了突出的贡献。
在他提出的重大数理基础问题中,深度学习理论与方法的建设被放在了重要的位置。
深度学习不仅是本人领域的重要理论基础,也是构建高效本人系统的重要方法。
如何建设深度学习的理论与方法对于本人的发展至关重要。
3. 大数据在本人中的作用在当今的信息时代,大数据已经成为了支撑各行各业发展的重要资源。
而在本人领域,大数据更是扮演着至关重要的角色。
如何充分利用大数据,并将其有效应用到本人系统中,是当前本人研究中亟待解决的重要问题之一。
徐宗本院士期待能够有更多的研究者能够关注并解决这一问题。
4. 推理与规划技术在本人系统中,推理与规划技术是实现智能决策和行为的关键。
徐宗本院士在其提出的重大数理基础问题中,特别强调了推理与规划技术在本人中的重要性。
如何构建高效、精准的推理与规划技术,是当前本人研究中的一个重要挑战。
徐宗本院士期望在未来能够有更多的研究能够探索和突破这一问题,推动本人技术的发展。
大数据分析与处理的基础理论与核心算法 (3)

一、立项依据(大数据分析与处理面临巨大挑战)
处理对象上:数据特征突变
中小规模 结构化 非时变
单一结构 集中存储 传统数据特征
超大规模 非结构化
流数据 多源异构 分布存储 大数据特征
一、立项依据(大数据分析与预期的大数据方法
目的
经典 统计 方法
一、立项依据(国内外研究进展)
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的探索 与实践,取得一批令人振奋的结果。
代表性进展
突破点
以压缩感知为代表的处理高维数据 的稀疏性理论与方法
压缩感知(L1):由 E. J. Candes、J. Romberg、 T. Tao 和D. L. Donoho 等科学家于2004 年提出;
重大研究计划立项建议 大数据分析与处理的基础理论与核心算法
引言
问题一
问题二
委务会议已通过管理科学部启动 “大数据驱动的管理与决策研究” 重大计划,为什么还有必要启动 新的大数据重大计划?
为什么要聚焦研究“大数据分 析与处理的基础理论与核心算 法”?
汇报内容
第一部分 第二部分 第三部分
为什么要聚焦大数据分析与处理? 研究内容、科学问题与科学目标 必要性:为什么还要启动新的大数据重大计划?
一、立项依据(大数据分析与处理是核心)
聚焦大数据分析与处理具有紧迫性
据国际数据联盟(IDC)统计,中国目前拥有的数据量占全球的14%,但数据 利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用,其本质原
因是这些数据没有利到深入分析与处理。
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
抽样(独立同分 布)
n→∞(估计分布、 极限定理)
数据科学与大数据技术专业的教材建设探索

广告与品牌研究学子园地103NEWS CULTURE CONSTRUCTION 新闻文化建设数据科学与大数据技术专业的教材建设探索张晓丽摘要:随着大数据时代的到来,信息技术蓬勃发展,国家大力推进大数据产业的发展,鼓励高校设立数据科学和数据工程相关专业。
在趋势的推动下,许多高校成立了数据科学与大数据技术专业。
本文通过研究数据科学与大数据技术专业的发展现状,探索新专业下人才培养的课程设置及教材建设等问题,同时介绍高等教育出版社在数据科学与大数据技术专业教材建设方面的研发成果。
关键词:数据科学与大数据技术专业;课程设置;教材建设随着以互联网、大数据、人工智能、区块链等为代表的新一代信息技术的发展,人类社会已进入数字经济或大数据时代。
大数据被认为是一种基础性、战略性资源,成为社会进步的新引擎,深刻改变了人类的思维、生产和生活方式。
谈论大数据是时代话题,拥有大数据是时代特征,解读大数据是时代任务,应用大数据是时代机遇。
大数据的发展催生了数据科学,而数据科学承载着大数据发展的未来[1]。
在大数据技术的迅猛发展势头下,为满足社会对数据科学人才的需求,我国众多高校纷纷成立了数据科学与大数据技术专业。
作为一门新兴专业,如何科学合理地搭建课程体系,梳理人才培养方案,成为全国高校专家及相关行业领域技术人员争相讨论的问题。
教材是教学内容的载体,高等教育出版社作为中国高等教育出版的国家队和主力军,始终以“植根教育、弘扬学术、繁荣文化、服务社会”为使命,面对新兴专业,积极探索研发新产品,服务于高校教学需求。
一、数据科学与大数据技术专业发展状况数据科学是以数据为研究对象,从数据中提取信息、形成知识、支持决策的理论与方法;数据科学家则是通过从数据中提取可操作的知识来解决实际问题。
在当下,数据科学和大数据技术人才成为各领域急需的人才,从事与数据科学有关的工作也成为当下年轻人较为追求的职业选择。
为满足社会对数据科学人才的需求,斯坦福大学、加州大学伯克利分校、密歇根大学等世界著名大学纷纷建立数据科学研究中心并设置数据科学专业。
徐--稀疏最优化非凸正则化_理论

其中 | x |[ k ] 表示向量 | x | 的第 k 个最大分量 (ML)1/2 问题的解是有限的
L1/2正则化框架 (Half型算法)
Half
程求解问题的k -稀疏解:
步骤1(求解k稀疏问题):对于确定的稀疏度k,通过下述迭代过
型 算 法
= xn +1 H λn µn ,1/2 Bµn ( xn ) ,
z
2
x = arg min{ y − Ax 2 + β z − Bx 2 } = ( AT A + β BT B) −1 ( AT y + β BT z )
∗ x
2
2
L1/2正则化框架 (解的择一性理论)
定 理
对固定的 µ ∈ (0,1/ L) ,记 Bµ ( x) = x − µ∇Eemp ( x)。则 (ML)1/2 问题
y
min
x
x
0
s.t. y = Ax + ε
人脸识别问题
稀疏性 (稀疏性问题)
稀疏性问题:一个与大量疑似要素相关但本质上仅由少量要素决定的问题。
y F ( x1 , x2 , ..., xn )
压缩感知问题 图像处理问题 文本处理问题 复杂网络问题 基因选择问题 指数追踪问题 变量选择问题
挑战与问题
只在很严格的条件下才有L1/L0 等价性(Donoho,2006); L1框架不能保证在最少采样下完全重构信号; L1理论对于正规化约束( x1 + x2 + + xn = 1)问题失效.
纲
要
稀疏性与稀疏机器学习问题 L1/2 正则化理论 应用举例 非凸正则化理论 展望
中国工程院院士徐宗本:大数据的挑战和问题

中国工程院院士徐宗本:大数据的挑战和问题佚名【期刊名称】《中国教育网络》【年(卷),期】2016(000)004【总页数】2页(P29-30)【正文语种】中文在方法论方面,大数据带来了三大挑战。
第一,是分析基础;第二,计算的模式与计算方法需要推倒重来;第三,根本性判定需要条件。
谈论大数据是时代话题,拥有大数据是时代特征,解读大数据是时代任务,应用大数据是时代机遇。
这四句话概括出大数据时代。
从本质上说,数据,就是指资料的信息化、数字化,大数据的复杂性体现在四个方面,第一,海量性;第二,实践性;第三,异构性;第四,分布性。
这是大数据区别于传统数据的四个特点。
什么是大数据技术?严格地讲,是没有定义的。
目前,有关大数据搜集、整理、成熟、解读或应用的技术,我们统称为大数据。
在日常生活中,大数据的价值到底在哪里?需要强调四个方面。
第一,提供社会科学的方法论,实现基于数据的决策,助推管理革命。
这也正是目前大数据最热的领域是在社会科学方面的原因所在。
大数据改变了人们对文科、理科的认识。
社会科学最大的问题在于没有一个可普遍遵循的、可重复和被所有人接受的公共方法论,而利用大数据,弥补了这个缺憾。
第二,形成科学研究的新范式,支持基于数据的科学发现,减少对精确模型与假设的依赖,使过去不能解决的问题变得可能解决。
也就是说,我们有一种方法能够较小地依赖于模型和依赖于假设,形成了第四种科研范式。
第三,形成高新科技的新领域,推动互联网、物联网、云计算等行业深入发展,形成大数据产业。
互联网能实现如何把信息技术中的人、环境、机器,沟通在一起来处理问题,这是未来的发展。
而大数据,则是实现信息化的组成,换句话说,即实现机器和机器的交换、人和机器的交换,是以数据的形式来沟通、来交换的。
第四,大数据成为社会进步的新引擎,深刻改变人类的思维、生产和生活方式,推动社会变革和进步。
信息技术革命与经济社会活动的交融催生了大数据。
大数据是经济社会、现实世界、管理决策的片断记录,蕴含着碎片化信息。
916229-大数据解决方案-徐宗本简历

徐宗本简历徐宗本男, 1955年1月生。
教授、中国科学院院士。
1987年毕业于西安交通大学数学系,获理学博士学位;1988-1989赴英国Strathclyde大学做博士后研究;1990年被破格晋升为教授(经原国家教委批准)。
1990-2001期间先后任香港中文大学、英国Essex大学、意大利Napoli大学研究员、访问教授。
从1994年起任西安交通大学信息与系统科学研究所所长、博士生导师;1997.5-2003.7任西安交通大学理学院院长;2003.7起任西安交通大学副校长;2011年当选中国科学院院士。
为国家重点基础研究计划(973)“基于视认知的非结构化信息处理基础理论与关键技术”和“非结构环境下的智能感知基础理论与关键技术”首席科学家。
主要学术任职包括:国务院学位委员会数学学科评议组成员、国家科技部《国家重点基础研究发展规划》(973)信息领域第二届咨询专家组成员、国家自然科学基金委员会“可信软件基础研究”指导专家组成员、国家自然科学基金委员会天元基金领导小组成员、数理学部应用数学学科基金评审组组长、教育部大学数学基础课程教学指导委员会主任委员、中国工业与应用数学学会副理事长、《大学数学》杂志主编、《工程数学学报》常务副主编、高等教育出版社“信息与计算科学专业系列教材”主编、《中国科学》等10种学术期刊编委。
长期致力于数学与信息技术的结合与交叉研究。
在智能信息处理,特别是机器学习、稀疏信息处理、数据建模等领域取得系统性创新成果,并做出了重要而实质性贡献。
(1)提出稀疏信息处理的L(1/2)正则化理论, 为稀疏SAR成像新体制提供了重要基础。
雷达数据采集一直是以香农采样定理为基础的,因而在军事侦测、地球遥感等国家重大需求应用中面临挑战。
徐宗本教授发现了压缩感知的L(1/2)正则化框架,并系统建立了稀疏信息处理的L(1/2)正则化理论。
新理论为解决稀疏信息处理问题提供了全新的求解范式,形成了“基于L(1/2)正则化的合成孔径雷达成像新方法”和“不直接基于雷达观测矩阵的稀疏微波成像新原理”。
“中国好创意”CCF全国青年大数据创新大赛

姓名
职务/职称
李德毅 中国工程院院士
徐宗本 中国科学院院士、西安交通大学副校长 陈继东 蚂蚁金融服务集团安全智能部总监
5
杜小勇 中国人民大学信息学院院长 华云生 香港中文大学常务副校长 黄亚楼 天津市滨海新区科学技术委员会主任 黄哲学 广东省大数据协同创新中心常务副主任 李 青 香港城市大学教授 林学民 新南威尔士大学计算机科学及工程学院教授 罗圣美 中兴通讯首席架构师 倪明选 澳门大学学术副校长 施水才 北京拓尔思信息技术股份有限公司总裁 田溯宁 中国宽带资本基金董事长、亚信科技董事长 王求乐 软银赛富投资基金合伙人、执行董事 王晓阳 复旦大学计算机科学技术学院、软件学院院长 肖 侬 国防科技大学长江学者特聘教授 熊 辉 美国罗格斯-新泽西州立大学罗格斯商学院副系主任 杨 强 香港科技大学计算机与工程系教授 郑 毅 北京云基地大数据实验室合伙人 周晓方 澳大利亚昆士兰大学计算机科学教授
11. 中文地址魔方大赛-华院数据(2 万)
本题要求参赛者对提供的各级地址文本完整、准确地识别。通过对地址进行标准化的 处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖 掘提供了更加丰富的方法和手段。
12. 基于大数据的未知病原检测方法构建-华大基因(8 万)
本题可抽象为字符串的匹配、查找问题。人的基因序列和细菌的序列可看做一组长的 字符串(A),而待检测个体的数据是一个短字符串的集合(B)。需要确定字符串集合 B 中的字符串能够同字符串集合 A 中哪些字符串匹配。
本题要求参赛者基于短信文本内容,结合机器学习算法、大数据分,析准确地、完整 地识别出垃圾短信、正常短信。解决传统的基于策略、关键词等过滤手段,很多垃圾短信 “逃脱”过滤到达手机终端的问题。
徐宗本院士:从科学的角度说大数据的科学问题

徐宗本院士:从科学的角度说大数据的科学问题作者:邢黎闻来源:《信息化建设》2017年第06期大数据是最底层的信息技术。
按现在的话来说,中国科学院院士、西安交通大学教授徐宗本算是一个数学科科学家。
所以,他在会上演讲的内容大多基于这个基础,从科学的角度理性地劝诫大家:“大数据对于近一、两年的GDP贡献有限,但对于三年、五年之后的GDP贡献巨大。
如今的大数据技术并不是已经成熟的技术,是一个正在从应用中逐渐走向成熟的技术,目前的挑战多于成熟。
包括分析基础被破坏,计算技术待革新,真伪判定需重建,对新技术的盲目所引起的盲从。
”“凡是对一些问题积攒的数据量超过这个量,就叫大数据,反之则不叫大数据。
”对于大数据的概念,徐院士从数据和资料说起:“數据是资料的数字化。
资料是什么?资料是生产过程、管理过程,乃至经济、社会、生活过程的记忆,那些记忆可能表现在一个文件、一段演讲、一段文字等等。
资料不放在计算机上,一般不叫数据。
所以有个标准的说法:数据是指以编码形式存在的信息载体才是数据。
因而,数据一定要放在机器上,要有空间。
真正的大数据是指大而复杂的资料集,这些复杂性包括了海量性、时变性、异构性、分布性等等。
”那么,大到何种程度才能被称之为“大数据”?徐院士画图举例道:用圆点表示数据,一开始纸上的圆点看不出什么迹象;随着时间的延长,纸上的圆点越来越多,意味着人们获取的信息越来越多,慢慢地大家能看出来是一只大象的轮廓;再随着时间的延长,大象的牙齿、四肢也清晰地显露了出来。
这个例子告诉我们,信息获取到一定数量,人们只要看一些局部、看一些数据就能够指导它背后的故事,这个量就叫做数据的临界量。
“凡是对一些问题积攒的数据量超过这个量,就叫大数据,反之则不叫大数据。
”徐院士认为,“讲大数据,要注意两件事,第一件事是:大和小是相对概念;第二件事是相对特定问题而言,不同的决策问题要求的数据不一样。
尽管大数据可以做很多事,但是大家也千万不要神化大数据,以为它可以解释任何事情,做所有的事。
北京信息科学与技术国家研究中心

北京信息科学与技术国家研究中心Beijing National Research Center for Information Science and Technology简 报本期导读北京信息科学与技术国家研究中心团队工作会议举行李梢教授课题组的《Cell 》子刊论文被F1000推荐为“杰出论文”清华大学“复杂生物网络、中医药与关系推断”高层研讨会召开信息国家研究中心张学工教授当选第四届中国人工智能学会生物信息学与人工生命专委会主任委员生物信息学研究部积极开展学术交流信息国家研究中心开展信息楼安全工作大检查◆ 焦点要闻北京信息科学与技术国家研究中心团队工作会议举行6月5日中午,北京信息科学与技术国家研究中心团队工作会议在信息楼1-415会议室举行。
国家研究中心主任陆建华院士,副主任罗毅教授以及已经立项建设的21个团队和国家研究中心各研究部主任参加了会议。
罗毅主持会议,向与会人员介绍了国家研究中心建设情况,指出国家研究中心最主要的工作就是面向重大需求做出国家级别影响力的科研成果,团队是国家研究中心科研工作的“台柱子”和建设主线,目前启动的人才引进工作来源于团队需求,归属于团队建设,希望各团队积极配合国家研究中心的管理工作。
陆建华一一解答了各团队负责人的疑问,他在谈话中介绍了国家研究中心在人才引进,机构建设等方面获得学校支持的情况,着重阐述了国家研究中心在人员评价中正在执行的三维度“创新立方”改革措施,以及即将在项目评估中引入的“无干扰评估”新机制。
陆建华希望各团队明确定位,高度重视,主动适应,积极沟通,共同努力为国家信息科学基础研究突破和产业发展做出应有贡献。
北京信息科学与技术国家研究中心实施人员按照团队聘任的人事管理办法。
2018年底,中心通过院系推荐和评审立项21个研究团队,6月5日下午,后续3个团队通过了评审。
至此,国家研究中心围绕六个重点研究方向的首批研究团队建设立项工作完成。
接下来,国家研究中心将在跨学科团队策划组织、人才引进评聘办法、项目评估机制等工作中探索机制改革措施,实现人、财、物、管多方位服务科研、引导科研,多维聚焦推动实现国家信息科学技术发展的伟大使命。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Outline
Big Data: Opportunities and Challenges Some More Scientific Problems in Big
Data Analysis and Processing
Some Advances on Big Data Research
Big Data: Opportunities and Challenges
Big data research: A real inter/multidisciplinary activities.
Management Science Information Science Math and statistics
Sub-sampling problem: A big data set has to be processed by some types
of ‗divide-and-conquer‘ schemes, like Hadoop system.
Map (random sub-sampling)
D1
Reduce (aggregation)
X1 X2 X3 … … Xn D
Intermediate solution f1
Dk
Intermediate solution f2
Dm
Intermediate solution fm
The Big Data Bootstrap. Kleiner et.al. 2012 ICML
…. ….
Final estimation f*
Scientific Researches
• • • • High-energy physics Astronomy Life science Geosciences and remote sensing
• • •
Social Governance
The fourth paradigm of research A systematic approach uniquely applicable to modern management (Jims Gray) Big data view of assessing public policies • • •
Data Analysis and Processing
Some Advances on Big Data Research
Problem 1: High Dimensionality
High dimensionality problem:The number of features (p) is far
Problem 2: Sub-sampling
Core open questions
How to sub-sampling/aggregate so that the
final f* models properly D Is distributed processing feasible? How about traditional sub-sampling technologies work? Sub-sampling axiom (Similarity; Transitivity, …)
Big Data: Opportunities and Challenges
Big Data
A term for a collection of data that are very large and complex so that it is difficult to process and analyze using on-hand database management tools, traditional data processing methods and analysis methodologies .
)
(Wikipedia )
ZB(1021), EB(1018), PB(1015), TB(1012), GB(109), MB(106)
Big Data: Opportunities and Challenges
Why difficulty? Big data challenges the existing information technologies, management paradigm, statistical and computational sciences.
Volume
PB—ZB in scale Distributed storage and processing necessary
Velocity
Growing tremendously Data flow
Variety
Multisource, correlated, heterogeneous Unstructured, unreliable, inconsistent.
Fundamental Challenge 1
Fundamental Challenge 2
Fundamental Challenge 3
Fundamental Challenge 4
Big Data: Opportunities and Challenges
Big data research: A real inter/multidisciplinary activities.
Total
Value
dataset embodies great value Individual or small subset contains less information
Big Data: Opportunities and Challenges
What opportunities:Big data embody great values that might not be explored in small sized data.
Representation (Uniform scheme; Complexity); Modeling (Parent space identification; sampling); Mining Acquisition; Quality; Standard; Sharing; Privacy protection; Data-driven Highly domain-specific; Any data-driven (Social media based; Safety; Trade data based; Record (Survey, Architecture; System/Software/Algorithm; Scalability/Complexity; Real time processing (Clustering; Classification; Regression; Prediction; fields Variable Selection) ; Analytics (Relevance Analysis; Latent management Observation) based; Empirical data based; Experimental data based) computation) variable analytics; Statistical inference) ; Computation (Subsampling; Complexity; Distributed
larger than the sample size (n), and n varies with p (n=n(p))
Classical:n>>p; High-D:p>>n; Big data:p>>n(p).
Linear model: y = b1x1 + b2 x2 +, , b p x p Data:D = {( x1, y1 ),( x2, y2 ), ,( xn, yn )} Matrix form:
Management Science Information Science Math and statistics
Engineerings
Data acquisition& data management
Data storagea understanding
Applications
Hot Issues:Sparse modeling (compressed sensing; low rank
decomposition of matrix; sparse learning) Core open questions
How to add priors so that a high-D problem
Exploring Big Data Analysis: Fundamental Scientific Problems
Zongben Xu
(Xi’an Jiaotong University)
Email: zbxu@ Homepage:
Y = Xn´ p b p´1
-1
ˆ = ( X ' X ) X 'Y Solution b Asymptotical normality
ˆ - b ) ~ N (0, 1 ( X ' X )-1s 2 ) ® N (0, s 2 I ) n (b p´ p n
d
Problem 1: High Dimensionality
Management Science Information Science Math and Statistics
Engineerings
Data acquisition& data management