大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行
朱智贤教授从事心理学教学科研六十周年与八十寿辰庆祝大会简讯
朱智贤教授从事心理学教学科研六十周年与八十寿辰庆祝大会
简讯
兹定于20xx年x月x日隆重举行朱智贤教授从事心理学教学科研六十周年与八十寿辰庆祝大会,借此隆重纪念朱教授长达六十年来为心理学发展和人类社会进步所作出的贡献。
朱教授今年80岁,自从1959年起就以学者身份投身心理学教学与科研,以崇高的心灵把握着历史,影响着未来,取得了一系列卓越成就,为推动中国心理学发展作出了巨大贡献。
当天,朱教授发表了题为“心理学发展的道路”的演讲,介绍了他在心理学领域的学术研究成果,并指出当今社会心理学发展面临的挑战及应对之策,充分反映了朱教授以一己之力推动中国心理学发展的坚定信念与责任担当。
来自国内外的诸多心理学界知名专家、教授、学者及朱教授的老同学代表等200余人出席庆祝大会,他们为朱教授的学术建树和科研成就献上热烈的掌声。
朱教授用幽默的笑话与参会人士亲切互动,谈了自己的收获、心得和体会。
此外,朱教授还特意提到他的研究成果还有很多需要深入挖掘,他将继续努力,以更加完善的学术思想和更丰富的学术成果回报社会。
本次庆祝活动是致敬朱教授长达六十年来艰苦奋斗、开拓创新的精神,也是对其所取得卓越成就的充分肯定。
在朱教授生日
之际,心理学社区全体成员衷心祝愿朱教授身体健康,智慧永远洋溢,笔端终能不断颂扬着心理学的真理!。
年国家自然科学奖
2019年度国家自然科学奖安徽省提名项目公示(一)项目名称大数据挖掘的若干模型和方法(二)提名意见该项目对大数据挖掘的若干模型和方法开展了深入研究,解决了大数据挖掘若干科学问题,例如,系统性地阐明大数据的基本特征,提出了大数据多层次处理框架;设计稀疏嵌入与最小方差下的哈希方法,有效解决训练数据集具有海量特征和高维特征的问题;发明了含缺失值的决策树分类子,可以直接有效地利用缺失数据。
研究成果发表在TKDE、TIP和PAMI等权威杂志,在国内外产生一定的学术影响,被同行引用2600多次、SCI 引用1100多次,获得了学术界和工业界的跟进发展和采用,推动了本学科及相关学科的发展。
项目材料填写规范,内容真实,经公示无异议。
对照国家自然科学奖授奖条件,提名该项目为国家自然科学奖二等奖。
(三)项目简介图灵奖获得者斯通布雷克教授认为,大数据的四种含义之一是大多样性,意指:处理来自太多源的数据必然导致令人畏惧的数据集成挑战。
数据集成的实质性困难在于多源数据的海量、异质异构和低质量性,这也一直是数据库领域的基础性关键研究问题。
该项目组在过十来年对大数据的上述挑战中海量、高维、动态和低质量等问题展开深入研究,揭示了大数据中模式的形态与演变态势,提出训练样本的分块挖掘方法、噪音数据和缺失数据利用模型,从而,在2013年阐明了大数据的四个基本特征:异构、自治、复杂和演化,凝练出HACE定理。
主要科学发现点如下:1、大数据的基本特征与挖掘框架:阐明大数据的基本特征,提出了大数据多层处理框架,为大数据分析提供了理论基础和应用框架;提出稀疏嵌入与最小方差下的哈希方法,用于处理海量特征和高维特征的训练数据集。
2、不完全动态大数据的模式发现:揭示大数据中模式的形态与演变态势,提出面向大数据的不完全信息下模式发现、动态模式发现和模式演变的模型与方法。
3、噪音以及缺失数据的模式质量:揭示噪音数据的可修正机制及缺失数据与已知数据之间的关联关系,提出误差感知下的贝叶斯分类器用于解决噪声数据清洗所带来的信息丢失和信息错误的问题。
冯志伟:“巴别塔”上的中国计算语言学先锋
“落后分子”编码,55和机器翻译。
师从国际计算语言学学会首任主席沃古瓦,他倍加珍惜宝贵的学习研究机会,给自己规定了“887工作制”:每天8点上班,晚上8点下班,一周7天工作无休。
留法期间,他利用当时先进的大型计算机进行了大规模的基于规则的语言学研究,提出了多叉多标记树形图模型,并在此基础上研制出了世界上第一个从汉语到多种外语的机器翻译系统—“汉-法、英、日、俄、德”多语种翻译系统。
在布拉格的会议上,冯志伟介绍的正是这一具有里程碑意义的研究成果。
几年后,冯志伟调入国家语委语言文字应用研究所(现属教育部)担任计算语言学研究室主任,同时在中国科学院软件研究所担任兼职研究员;后又赴德国从事术语数据库研究,研制成世界上第一个中文术语数据库。
1998年退休后,冯志伟仍心系学术研究、胸怀国际交流。
2000-2002年,他赴韩国科学技术院担任客座教授、为博士生授课;2005年,与人合译出版《自然语言处理综论》;2011-2015年,参与修订汉语拼音出海的国际标准《中文罗马字母拼写法》ISO-7098;他还对国内外自然语言处理的研究成果进行了系统梳理,写成了基于规则与基于统计的自然语言处理方法的专著《自然语言计算机形式分析的理论与方法》,后又应世界上最大的科技出版社之一—德国斯普林格出版社邀约,将这本书译成英文出版。
如今,一直致力于利用跨专业之砖砌筑“巴别塔”的冯老也没有忘记沟通中外的初心。
“面对新技术带来的新形势和新变化,应当学习翻译技术,把新技术也纳入到翻译工作中。
人工智能翻译成绩巨大,应当提倡‘机器翻译+译后编辑’,加强译后编辑的作用,实现机器翻译与人工翻译和谐共处、相得益彰。
”冯老还提出建议,作为国际传播的一部分,有必要加强古代典籍汉译外语资料库建设。
在讲述自己担任ISO-7098国际标准国际工作组组长和应邀出版译作的经历时,冯老还不忘感慨和叮嘱几句:“做国际传播,一定要知己知彼,了解对方的情况”“要尊重对方的意愿,不要强加于对方”……唯有热爱:“我得到精神上的满足”“中国的计算语言学早期做的人少。
语言研究的方法
语言研究的方法目录1. 语言研究概述 (3)1.1 语言研究的重要性 (4)1.2 语言研究的定义与类型 (5)1.3 语言研究的当代背景 (6)2. 语言研究的理论基础 (7)2.1 语言学的基本理论 (8)2.2 认知语言学 (9)2.3 功能语言学 (12)2.4 社会语言学 (13)3. 语言研究的方法论 (14)3.1 定性研究与定量研究 (15)3.2 全面研究与案例研究 (16)3.3 观察法 (17)3.4 访谈法 (19)3.5 问卷调查法 (20)3.6 实验法 (22)4. 语言数据收集与分析 (23)4.1 语言素材的采集 (25)4.2 语料库的建立与管理 (25)4.3 数据分析软件的应用 (26)4.4 定性数据分析方法 (27)4.5 定量数据分析方法 (29)5. 语言研究的应用领域 (30)5.1 教育语言学 (32)5.2 临床语言学 (33)5.3 贸易语言学 (34)5.4 心理语言学 (35)6. 语言研究的伦理问题 (36)6.1 数据的隐私与保护 (37)6.2 研究对象的权益 (38)6.3 研究者的责任 (40)7. 语言研究的实践案例 (41)7.1 跨文化交际研究 (42)7.2 儿童语言发展研究 (43)7.3 方言及濒危语言保护研究 (45)7.4 计算机辅助语言研究 (47)8. 语言研究的未来趋势 (47)8.1 大数据、人工智能在语言研究中的应用 (49)8.2 语言模型与自然语言处理 (50)8.3 虚拟现实的语言学习与研究 (52)8.4 对外开放的数据共享平台 (53)1. 语言研究概述语言是人类交流的一种特定手段,是文化传承与发展的基石。
语言研究旨在探究语言的性质、结构、功能及其演变过程,旨在理解和使用语言的范畴中发掘意义。
语言研究涵盖的领域非常广泛,包括但不限于语言学的理论探讨、语言应用实践、语言教学、语言病理分析、计算语言学以及跨语言的交流研究。
我们为什么要悼念袁庚?
我们为什么要悼念袁庚?2019-05-30袁庚提出将蛇⼝作为改⾰开放的实验区,并愿意担当“实验员>> 我们为什么要悼念袁庚?我们为什么要学习我们为什么要舞蹈我们为什么要兄弟我们为什么要加班? 我们为什么要结婚我们为什么要感恩我们为什么要补?我们为什么要评选我们为什么要亲吻我们为什么要读书我们为什么要定制?我们为什么要上学我们为什么要辟⾕为什么我们要宽容我们为什么要旅⾏我们为什么要跑步我们为什么要读书?我们为什么要“翻转”?我们为什么要担⼼?常见问题解答当前所在位置:中国论⽂⽹ > 管理 > 我们为什么要悼念袁庚? 我们为什么要悼念袁庚? 杂志之家、写作服务和杂志订阅⽀持对公帐户付款!安全⼜可靠! document.write("作者:徐庆全")申明:本⽹站内容仅⽤于学术交流,如有侵犯您的权益,请及时告知我们,本站将⽴即删除有关内容。
袁庚提出将蛇⼝作为改⾰开放的实验区,并愿意担当“实验员”,当年是了不起的壮举。
2016年1⽉31⽇凌晨,袁庚在深圳蛇⼝逝世,享年99岁。
悼念的热潮⽅兴未艾。
理由有两个:第⼀,作为改⾰开放早期(1978年⾄1982年)为中国改⾰开放左冲右突的地⽅⼤员,袁庚的离世,意味着属于这⼀代⼈的时代,在落下帷幕。
怀念袁庚,也是怀念那个时代。
第⼆,袁庚是“中国改⾰开放事业的重要探索者”,他提出将蛇⼝作为改⾰开放的实验区,并愿意担当“实验员”,当年是了不起的壮举。
1978年“两报⼀刊”的元旦社论使⽤了特别醒⽬也特别振奋⼈⼼的标题:《光明的中国》。
中国怎样才能“光明”?取决于发展速度问题!社论指出: “建设的速度问题,不是⼀个单纯的经济问题,⽽是⼀个尖锐的政治问题。
”把“四个现代化”意识推向全国。
1978年5⽉,⾃1949年以来中国第⼀个赴西欧考察的国家级经济代表团,由国务院副总理⾕牧率领,历时⼀个多⽉,在法国、联邦德国、丹麦、⽐利时、瑞⼠五国进⾏考察,考察报告向中国提供了⼤量的信息与建议。
基于知识本体的术语界定——冯志伟教授访谈录
收稿日期:20190403 基金项目:江苏省高校哲学社会科学研究项目“中美人权话语构建的术语应用机制对比研究”(2018SJA0097)的研究成果。 作者简介:殷健,南京邮电大学外国语学院讲师,南京大学外国语学院博士研究生,主要从事术语翻译研究;冯志伟,杭州师范大学外国语 学院特聘教授,曾任教育部语言文字应用研究所研究员、博士生导师,主要从事自然语言处理、计算语言学、术语学等研究。
的价值。通常情况下,人文学者更加关心文章的 语法和修辞,不太关注术语的使用规范。这和科 技工作者的关注点不同,后者对于术语使用的准 确性有着很高的要求。我历来的观点是:文章文 辞优美是锦上添花,而术语使用正确规范则是雪 中送炭。在 当 时,由 于 学 术 背 景 不 同,大 家 看 问 题的角度 有 差 异,客 观 上 低 估 了 术 语 学 科 的 价 值。
冯:术语的定义众多,很难取得广泛共识,我
认为有如下几个原因。首先,这反映了术语作为
术语学研究对象本身的复杂性,来源于术语这一
特殊的语言单位的多重属性。术语是认知单位、
语言单位和交际单位。术语的研究涉及多个层
次和多个维度,学者对其的界定繁多也就不足为
学术访谈
2019 7ຫໍສະໝຸດ 4JournalofHangzhouNormalUniversity HumanitiesandSocialSciences
No.4July.2019
基于知识本体的术语界定
———冯志伟教授访谈录
杭
州
师
范
大
学
学
报 年 社
月会
科 第学
期
版
1 32
殷 健1,冯志伟2
(1.南京邮电大学 外国语学院,江苏 南京 210023;2.杭州师范大学 外国语学院,浙江 杭州 311121)
长沙市第一中学2022-2023学年高三上学期月考(五)地理试卷含答案
长沙市一中2023届高三月考试卷(五)地理第Ⅰ卷选择题(共48分)一、选择题(本大题共16小题,每小题3分,共48分。
每小题只有一个正确选项)耕地具有经济生产、社会保障和生态服务等功能。
洞庭湖地区是湖南省乃至全国重要的粮食生产基地,现已进入城乡转型快速发展阶段。
下图示意1998—2018年洞庭湖地区耕地功能的演化过程。
据此完成1~3题。
1.1998—2018年洞庭湖地区耕地功能的演化过程中()①经济收入保障功能上升②基本生活保障功能上升③生态安全维护功能上升④地区产业结构比重上升A.①③B.①④C.②③D.③④2.1998年以来洞庭湖地区发生的主要变化是()A.农业劳动力投入增多B.城乡相互作用增强C.粮食种植的比重增加D.耕地功能趋于集中3.图示三个阶段洞庭湖地区耕地生态服务功能的变化是()A.较弱—增强—增强B.较强—减弱—减弱C.较弱—增强—减弱D.较强—减弱—增强太阳辐射照度是指到达地表上单位面积、单位时间内的辐射能量。
我国北方冬季气候干燥,晴天多,利用太阳辐射能的条件优越。
下图示意我国北方某地(40°N附近)建筑物南壁面和地面两个监测点二分二至日的太阳辐射照度日变化(实线为地面、虚线为南壁面)。
据此完成4~6题。
4.图中表示该地夏至日、冬至日太阳辐射照度日变化的分别是()A.a、c B.b、c C.c、a D.c、b5.晴天条件下,该地全年正午建筑物南壁面太阳辐射照度总体上()A.大于地面B.小于地面C.等于地面D.无法确定6.该地区最可能位于()A.新疆B.陕西C.河北D.辽宁布兰德山位于非洲纳米比亚北部,是典型的花岗岩山体。
下图为布兰德山及周边区域地质地貌遥感影像图。
据此完成7~8题。
7.相对周边地区,布兰德山山体高耸的主要原因是()A.流水侵蚀B.沉积差异C.岩性差异D.褶皱隆起8.与布兰德山花岗岩岩体年龄最接近的是()A.花岗岩区B.变质岩区C.沉积岩区D.接触变质岩区珠江水系各支径流汇集于三角洲后,通过八条水道注入南海,各水道出口称之为“门”。
数字语言能力的界定及理论构建
数字语言能力的界定及理论构建目录一、数字语言能力概述 (2)二、数字语言能力的界定 (3)三、理论构建基础 (4)四、数字语言能力的理论构建 (5)4.1 理论基础整合 (6)4.2 理论框架的构建思路 (7)4.3 数字语言能力的模型设计 (8)五、数字语言能力的实践与培养策略 (9)5.1 实践应用现状 (11)5.2 培养目标与要求 (12)5.3 培养策略与方法探讨 (13)六、数字语言能力的未来发展及挑战 (14)6.1 发展趋势分析 (16)6.2 面临的挑战与问题 (17)6.3 应对策略与建议 (18)七、案例分析与应用实践 (20)7.1 案例分析 (21)7.2 应用实践 (22)八、结论与展望 (23)8.1 研究结论总结 (25)8.2 研究不足与展望未来研究方向 (26)一、数字语言能力概述随着科技的飞速发展,数字化逐渐渗透到我们生活的方方面面,语言能力作为人类交流与表达的重要手段,也在数字世界中得到了新的发展与挑战。
数字语言能力,即指在数字环境中,个体运用各种数字技能进行有效信息获取、处理、传递和交流的能力。
这一概念涵盖了多个层面,包括基本的语言理解与生成、知识图谱的构建与运用、算法的理解与应用以及跨平台的语言交互等。
在数字化时代,数字语言能力的重要性日益凸显。
它不仅是信息社会的基本需求,也是创新与创造力的重要基础。
数字语言能力的高低直接影响到个体的学习、工作和生活质量。
在智能化的办公环境中,能够熟练掌握数字语言能力的个体将更有可能获得高薪和良好的职业发展机会;在人工智能领域,具备高级数字语言能力的专家往往能够占据市场的主导地位。
为了更好地适应数字化时代的需求,我们需要对数字语言能力进行系统的研究和理解。
这包括明确其定义、构成要素、发展历程以及在不同领域的应用。
我们还需要关注数字语言能力与其他语言能力之间的关系,如跨语言、跨文化沟通等,以便更全面地认识其在人类社会中的重要作用。
产品需求文档模板【范本模板】
<产品名称〉产品需求说明书[注:产品需求说明书的定义:此文档的目的是收集、分析和定义〈〈xxx产品名〉〉的需要和特性。
它包括相关方和目标用户需要的功能和这些需要存在的原因,以及详细地说明所确定的产品的关键外部业务流程、接口和非功能性特性的需求、设计约束。
此文档用来让读者了解产品的外部黑盒概念,并指导《架构设计说明书》和《软件需求说明书》。
一个产品(对外对内具有统一定义的)只有一份《产品需求说明书》,对于分解的对内项目部分可以以《xxxx产品需求说明书—yyyy分册》来撰写。
以下提供的模板用于需求管理流程。
其中包括用方括号括起来并以蓝色斜体(样式=InfoBlue)显示的文本,它们用于向作者提供指导,在发布此文档之前应该将其删除.按此样式输入的段落将被自动设置为普通样式(样式=正文)。
]上海市XX网络技术有限公司版权所有内部资料注意保密修订记录:目录一、简介 (12)1、目的 (12)2、范围 (12)二、用户角色描述 (12)三、产品概述 (12)1、总体流程 (13)2、功能摘要 (15)四、产品特性 (16)1、读书人社区首页 (16)1。
1 优先级 (16)1.2 特性描述 (16)1.3 社区首页 (16)1.3.1 读书会列表 (16)1.3。
2 热评书潮 (17)1.3.3 视频节目 (17)1。
3.4 社区名人 (18)1。
3.5 读书会推荐 (18)1.3.6 热门原创 (19)1。
3.7 读书快报(新闻) (20)1.3。
8 合作伙伴列表(页底) (20)2、板块一——藏书阁 (21)2。
1 藏书阁首页 (21)2。
1。
1 页面描述 (21)2.1。
2 搜索 (21)2。
1.3 书籍推荐 (21)2。
1.4 书评推荐 (22)2.1.5 名家读书会专题 (23)2。
1。
6 分类推荐 (24)2。
1.7 一周好书 (25)2。
1。
8 排行榜 (25)2。
1.9 读书会推荐 (27)2。
宗成庆《统计自然语言处理》1 一书序言
宗成庆《统计自然语言处理》1一书序言冯志伟我在1996年出版的《自然语言的计算机处理》中,曾经说过:“自然语言处理(Natural Language Processing, NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。
”2这个定义是正确的,它的缺点是比较笼统。
我一直不太满意这个定义。
后来,我在1999年出版的《计算机进展》(Advanced in Computers)第47卷上,看到了美国计算机科学家马纳瑞斯(Bill Manaris)在《从人-机交互的角度看自然语言处理》一文给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。
自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。
”这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.”3马纳瑞斯的这个定义更加完善,把自然语言处理的研究过程也清楚地反映出来了。
大数据时代
大数据时代
作者:
来源:《作文周刊·高考版》2020年第10期
现在的社会是一个高速发展的社会,科技发达,信息流通,人与人之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
大数据并不在“大”,而在于“有用”,有人把数据比喻为蕴藏能量的煤矿,它的价值含量、挖掘成本比数量更为重要。
对于很多行业而言,恰如其分地利用这些大数据是赢得竞争的关键。
不过,“大数据”在经济发展中的重要意义并不代表其能取代一切我们对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。
著名经济学家路德维希·馮·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。
”
1.身处大数据时代,当数据的处理技术发生翻天覆地的变化时,我们的思维也要变革。
2.大数据时代,隐私的内涵逐步扩大,公共领域不断缩减,使得隐私保护愈来愈困难,如人格尊严受损、自由意志受限等都是隐私保护伦理中涉及个人权利问题的典型代表。
3.我们要明确的是,科技发展和安全并不是互相矛盾的,虽然产生了个人信息泄露这样的问题,但总体而言,科技让我们的生活更安全了,比如我们可以通过对海量DNA数据的比对找到被拐儿童,也可以通过天眼系统识别犯罪嫌疑人。
可以说,科技的发展、大数据的兴起极大地提高了社会治理的智能化水平。
4.大数据的确对我们社会的发展起到了推动作用,因此我们要用积极的、包容的心态去看待科技,不断完善科技。
任何事物都有正反两面,我们没办法让科技只产生正面效用,但是我们可以通过努力将科技发展给我们带来的负面影响降到最低程度,让科技和安全相伴而行。
我国语言学研究的现状、趋势与展望
我国语言学研究的现状、趋势与展望目录一、内容简述 (2)1.1 语言学的重要性 (3)1.2 我国语言学研究的背景与意义 (3)二、我国语言学研究现状 (5)2.1 语言学各分支学科的发展概况 (6)2.1.1 音韵学 (7)2.1.2 句法学 (8)2.1.3 语义学 (10)2.1.4 语用学 (11)2.1.5 社会语言学 (12)2.1.6 心理语言学 (13)2.1.7 计算语言学 (15)2.2 我国语言学研究的代表性成果与贡献 (15)2.2.1 重大科研项目与成果 (17)2.2.2 学术论文与专著 (18)2.2.3 国际合作与交流 (19)三、我国语言学研究趋势 (21)3.1 科技创新与语言学研究融合 (22)3.2 跨学科研究方法的运用 (23)3.3 语言资源保护与利用 (24)3.4 语言智能与自然语言处理技术的发展 (25)3.5 全球化背景下的汉语研究 (26)四、我国语言学研究展望 (27)4.1 未来语言学研究的方向与重点 (29)4.2 语言学与其他学科的交叉融合前景 (30)4.3 语言学研究的社会服务功能与应用 (32)五、结论 (33)5.1 我国语言学研究的总结 (34)5.2 对未来发展的建议与思考 (36)一、内容简述随着我国经济的快速发展和科技的不断进步,语言学研究在国内外的地位日益重要。
本文将对我国语言学研究的现状、趋势与展望进行分析,以期为我国语言学领域的发展提供有益的参考。
我国语言学研究仍然面临一些挑战和问题,理论研究方面,虽然取得了一定的成果,但仍存在许多未解之谜,需要进一步深化探讨。
应用研究方面,虽然在某些领域取得了显著的成果,但与国际先进水平相比仍有较大差距,需要加强基础研究和技术创新。
跨学科研究方面,虽然取得了一定进展,但仍需加强与其他学科的交流与合作,形成合力。
人才培养方面,我国语言学界需要进一步加强人才培养,提高整体素质,培养更多具有国际视野和创新能力的优秀人才。
大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行
190odern ChineseMXIANDAI YUWEN2018.04语言资讯一、会议综述2018年4月14日上午,“大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会”在浙江大学紫金港校区启真酒店求是厅隆重举行。
来自全国各地近两百位学界同仁共同探讨语言学研究的国际化与科学化进程,并为计算语言学家冯志伟先生庆贺八十寿诞。
冯志伟先生的老朋友——浙江大学外语学院原院长邵永真教授,应用语言学专家应惠兰教授,汉语研究专家吴洁敏教授等专程到会祝贺。
浙江大学外语学院梁君英教授担任大会主持。
国际世界语学院院士、浙江大学求是特聘教授刘海涛做了题为“信息时代的语言观”的主旨演讲,深情回顾了冯志伟先生的学术生涯,并借此揭示语言学研究方法科学化、成果国际化的奥秘。
作为中国计算语言学的先驱与资深专家,冯志伟先生的学术生涯堪称传奇,为中国乃至世界的语言研究作出了巨大贡献。
60年前,当时正在北京大学地球化学系上学的冯志伟对语言产生了浓厚的兴趣,并听从内心的声音转系到了中文系潜心进行语言研究。
用刘海涛教授的话说:这次从理到文的转系,创造了中国语言学的一个历史。
本科毕业后,又接着在北大中文系师从语言学家岑麒祥读研究生。
此后,冯志伟先生考取了中国科技大学的机器翻译研究生,并被公派到法国学习数理语言学。
留学法国期间,冯志伟先生于1981年完成了“汉—法/英/日/俄/德多语言自动翻译试验”,在机器翻译领域走在了世界前沿。
鉴于乔姆斯基短语结构语法存在的局限性,冯志伟先生在1983年提出了MMT模型(多叉多标记树形图分析法),以此为基础进行自然语言计算机处理和机器翻译研究,MMT模型是迄今为止中国学者在计算语言学方面最重要的成就的之一。
除了这些学术成就,冯志伟先生还努力将当时世界最前沿的语言学理论、模型和方法带回中国,先后为国内学界介绍了法国语言学家泰尼埃的“从属关系语法”以及齐普夫定律(Zipf’law),为中国计量语言学的发展奠定了坚实的基础。
网络语言文化行为的大数据生成_陈祥雨 陈美华
文章编号:1003-9104(2015)S2-0322-04网络语言文化行为的大数据生成*陈祥雨,陈美华(东南大学外国语学院,江苏南京210096)摘要:网络上的文本、音频、视频等内容性资源归根结底仍然落在语言文化的范畴之内。
网民的浏览、上传、评论、转载等行为属于语言文化行为,通过大数据方法对网民的文化行为进行分析,对于网络文化的发展趋势、传播模式、审美变迁等都有着重要的研究意义。
然而,这种分析必须建立在对大数据概念的实质进行深刻理解的基础之上。
关键词:大数据;网络行为;语言文化;文化行为;Tin Can API中图分类号:J802文献标识码:AThe Generation of the Big Data of Internet Language Culture and BehaviorCHEN Xiang-yu,CHEN Mei-hua(School of Foreign Languages,Southeast University,Nanjing,Jiangsu210096)一、引言大数据的概念已经家喻户晓,称之为当前的流行语也并不为过。
自从美国的一家信息分析公司Gartner对爆炸式增长的数据提出3V控制概念以后[1],大数据的应用理念便成为业界研究的焦点。
大数据的3V特征是指现代数据的容量(Volume)、速度(Velocity)和种类(Variety)已经超出了传统数据管理和处理工具的能力,必须采用更加先进的数据技术才能挖掘到关键信息以提升相关决策力。
除上述3V之外,也有学者提出其他“V字头”特征,如Veracity(真实)[2]或Value (价值)[3]等。
关于大数据的“传说”,已由早期的“使用大数据是一种优势”演变为“不使用大数据便是一种劣势”[4]。
我国各行各业对大数据概念的讨论热度仍在迅速高涨,政府部门对于网络舆情的采集也不例外。
2014年“两会”期间,央视《焦点访谈》节目推出了“两会大数据”板块,通过对网友搜索关键词的分析来推测百姓最关注的问题。
乘大数据之势 探语言脑疾病之理——管窥“大数据与全生命周期语言脑健康论坛”
2023年7月第39卷㊀第4期外国语文(双月刊)Foreign Languages and Literature(bimonthly)July,2023Vol.39㊀No.4收稿日期:2023-03-26基金项目:四川外国语大学重点项目 语言概念能力增齿性衰退心脑机制研究 (sisu2020002)㊁重庆市社会科学规划一般项目 汉语老齿化蚀失机制及干预策略研究 (2019YBYY131)的阶段性成果作者简介:王霞,女,四川外国语大学英语学院博士研究生,主要从事语言脑科学㊁语言智能研究㊂姜孟,男,四川外国语大学语言智能学院教授,博士,博士生导师,主要从事语言脑科学㊁语言病理学㊁语言智能等研究㊂引用格式:王霞,姜孟.乘大数据之势探语言脑疾病之理 管窥 大数据与全生命周期语言脑健康论坛 [J].外国语文,2023(4):169-172.乘大数据之势㊀探语言脑疾病之理管窥 大数据与全生命周期语言脑健康论坛王霞1㊀姜孟2(1.四川外国语大学英语学院/语言脑科学研究中心,重庆400031;2.四川外国语大学语言智能学院/语言脑科学研究中心,重庆400031)0㊀引言大脑是人体最重要㊁最复杂的器官㊂全生命周期脑健康对个体自主生活㊁提高生活质量至关重要㊂脑健康指 执行所有认知㊁心理过程的能力,包括学习㊁判断㊁记忆㊁语言等 (Centers for Disease Control and Prevention,2009)㊂语言作为人脑高级认知能力之一,被誉为 智能之冠 ㊂语言疾病多与大脑疾病相勾连,因此,保护脑健康就是保护语言脑健康㊂在人工智能飞速发展的浪潮中,汲取脑科学㊁语言学㊁人工智能㊁医学等学科的元素,借助大数据前沿技术揭示大脑奥秘㊁探索全生命周期语言脑健康的发展变化模式与路径,是当今语言脑科学与语言类脑智能研究的热点与前沿话题之一㊂在此背景下,2022年11月12日, 大数据与全生命周期语言脑健康论坛 在重庆举行㊂论坛由四川外国语大学语言脑科学研究中心与复旦大学博士后校友会重庆分会联合举办㊂本文缕析论坛核心内容,解析其意义与动向,以期为大数据助力全生命周期语言脑健康保护与研究提供支持和借鉴㊂1㊀论坛概述论坛邀请到来自全国各高校与医疗机构的20余名专家作报告,以大数据与全生命周期语言脑健康为主题,内容涉及脑科学㊁语言学㊁人工智能㊁医学等领域㊂1.1大数据助力语言脑认知原理解析对脑结构与功能的理解是21世纪最具挑战的前沿问题㊂人类从未停止对大脑奥秘的探索,但理解仍十分有限㊂自2005年以来,瑞士㊁美国等国家先后开启 脑计划 项目㊂ 中国脑计划 于2021年正式启动,旨在实施以 大脑认知功能原理解析 为 一体 认知障碍相关重大脑疾病诊治 ㊃861㊃㊀㊀王霞㊀姜孟㊀乘大数据之势探语言脑疾病之理 管窥 大数据与全生命周期语言脑健康论坛 ㊀和 类脑计算/脑机智能发展 为 两翼 的发展战略(陆林等,2022)㊂近年来,基于大数据技术,我国在语言脑认知原理方面取得了一定进展㊂北京师范大学卢春明教授借助大数据构建了预测过程的神经计算模型㊂他从正常儿童语言认知角度探讨了语言与认知的关系,指出预测是贯穿全生命周期的语言交流计算机理,涉及布洛卡㊁韦尼克等语言脑区;神经预测是认知预测的生理基础,亲子互动实验证实了神经同步是儿童语言交流中预测的生理机制㊂西南大学邱江教授基于大数据和神经科学技术,从语义视角对正常儿童和青少年的创造力开展了大量研究,开发了可客观评估创造力的语义工具包,借助机器学习算法建立了国内首个基于毕生发展的基因-脑-行为大数据库㊂他指出,用深度学习算法探究基因与大脑及行为之间的关系可更好地对儿童和青少年大脑发育与认知发展进行预测㊁解释㊂南京师范大学倪传斌教授从语言符号的二分视角出发,基于大数据阐释了正常人群 二分 的语言神经解剖学基础㊂他逐一梳理了视觉㊁听觉㊁词汇㊁计算㊁情感五个方面的二分脑结构基础,这些脑结构均大致遵循语言双流假设,即五方面的信息加工都存在腹侧和背侧通路,分别涉及多个语言脑区,证实了语言符号二分脑结构的存在㊂1.2大数据助力 典型 语言脑疾病诊治对健康人群脑神经基础的研究有助于提升语言脑疾病临床诊疗水平,意义重大㊂ 中国脑计划 将孤独症㊁抑郁症㊁痴呆等不同年龄期脑疾病的诊治置于重要位置;这些脑疾病普遍伴有语言异常,因此是 典型 语言脑疾病㊂随着人工智能应用领域不断扩大,大数据技术已广泛应用于多种 典型 语言脑疾病诊治中,如孤独症㊁失语症㊁阿尔茨海默症等㊂电子科技大学陈华富教授聚焦大数据时代脑结构与功能网络在脑健康中的作用,指出语言相关精神疾病大多仅存在功能损伤而并无结构异常,这大大增加了诊疗难度;大数据前沿技术恰好能帮助实现疾病的精准诊疗和智慧康复㊂他指出,孤独症和失语症是语言脑疾病研究的两个重要切入点,大数据有助于构建失语症患者静态和动态脑网络㊁识别孤独症患者相关脑功能网络㊂北京语言大学高立群教授聚焦数字医疗在老年期语言障碍中最常见的失语症中的应用㊂他指出,不同类型的失语症患者异质性较强,导致临床评估与康复困难重重㊂大数据时代催生的数字医疗极大地提高了临床诊断准确率;数字医疗,尤其是远程医疗与医疗物联网技术在失语症中的应用,将减轻患者经济负担㊁加速患者康复进程㊂首都医科大学韩璎教授侧重于大数据在阿尔茨海默症中的研究㊂语言退化是该病最早和最明显的标志之一㊂以往对疾病的早期发现主要依据六阶段疾病谱和七条主观认知下降的叠加特征,如今借助大数据技术,她牵头制定了早期诊断专家共识㊁搭建了临床前期研究全国平台,拟建立临床前期诊断模型,助力早期智慧诊断㊂四川外国语大学姜孟教授分享了人工智能技术干预语言脑疾病的相关研究㊂他提出 语言脑疾病 概念,认为神经系统先天性疾病㊁失语症及神经系统变性疾病均属此范围,其发生机理包括老年病理学与语言学的机理㊂他指出,机器学习和深度学习有助于实现语言脑疾病的智能干预;他以帕金森病为例展示了科学智能应用于语言脑疾病研究的广阔前景㊂认知障碍是另一种 典型 语言脑疾病,患者语言通常显著退化㊂华中科技大学协和深圳医院宋鲁平教授与四川省八一康复中心何霞教授均围绕人工智能技术在认知障碍中的应用展开报告㊂㊃961㊃㊀外国语文2023年第4期㊀宋教授指出,智能化技术有助于实现精准化㊁客观化的认知评估和训练,如虚拟现实技术;其团队开发了基于PASS模型的认知评估与训练系统,可有效改善卒中患者的认知功能㊂何教授指出,数字化系统可用于远程认知评估;以神经可塑性㊁神经网络模型为理论基础,数字化康复平台可实现认知障碍在风险筛查㊁早期干预等方面的闭环管理,提高疾病可及性与依从性㊁提升患者体验感与生活质量㊂1.3大数据助力 非典型 语言脑疾病诊治肺结节㊁心血管疾病㊁甲状旁腺亢进㊁乳腺癌㊁营养不良等看似与语言不直接相关的疾病也可能引发语言异常,即 非典型 语言脑疾病,主要与全生命周期脑健康息息相关,进而间接影响语言能力㊂肺是人体呼吸系统的重要器官,为言语呼吸提供动力㊂心血管系统为全身血流提供动力,相关疾病可引发认知障碍㊁继而导致语言异常㊂甲状旁腺亢进和乳腺癌患者手术时供血不足也可能间接引发认知或语言异常㊂营养不良者常伴有吞咽障碍,从而导致语言障碍㊂为此,本次论坛举行了 跨学科专题论坛 ;五位医学专家从全生命周期视角探讨了大数据技术在 非典型 语言脑疾病中的应用㊂陆军军医大学新桥医院白莉教授㊁重庆医科大学儿童医院吕铁伟教授㊁重庆医科大学附属第一医院孔令泉教授㊁重庆大学附属肿瘤医院曾晓华教授㊁陆军特色医学中心大坪医院王耀丽教授分别分享了大数据和人工智能技术在肺结节㊁儿童心血管疾病㊁甲状旁腺功能障碍㊁乳腺癌及接受营养治疗的重症急性胰腺炎患者中的临床应用,展示了我国临床医学的智慧筛查与诊疗现状及巨大发展潜力;这些 非典型 语言脑疾病通过损害患者全生命周期脑健康,进而破坏其语言能力㊂2㊀论坛评析论坛以建设 健康中国 为契机,以大数据技术为抓手,共探语言脑认知原理与语言脑疾病诊治前沿话题,其裨益与影响预期将在以下四个方面显现㊂论坛将助力语言脑健康学科建设与创新㊂目前我国各类语言病理康复需求人口超3,000万,专业语言治疗师却不足万人(张敬等,2017);造成此窘境的原因之一在于缺乏相应成熟学科作支撑㊂国外语言脑健康相关学科发展较早,以语言病理学为主,现已较为成熟,但无大数据或人工智能与语言学和其他学科的交叉融合㊂我国部分高校设置了相关专业,但以医学院校为主;仅首都师范大学和四川外国语大学从人工智能㊁大数据技术与语言脑健康融合的角度设置了 语言智能 二级学科㊂本次论坛涵盖人工智能㊁脑科学㊁语言学㊁医学等学科,将有助于强化语言脑健康相关学科建设,推动学科交叉融合与专业方向优化布局㊂2.1论坛将助力语言脑健康人才培养模式革新2.2大数据时代语言脑健康人才的培养过程相当复杂,也极具挑战国外语言病理人才培养体系虽较为完善,但契合大数据时代的人才培养模式仍有待探索㊂我国语言脑健康人才培养体系尚不完备;大数据时代人才缺口巨大的现状亟需我们尽快完善人才培养体系,突出人才培养特色㊂近年来,各高校开始探索人才培养新模式,其中论坛主办方四川外国语大学已制定较为完整的语言智能研究生培养方案,初步探索出了一条语言脑健康人才培养创新之路㊂本次论坛专家指出,大数据时代语言脑健康人才培养不仅应采用多单位㊁多层次的产学联动模式,更要加强学生跨学科思维与创新思维培养,必将助力推动建立更完备的人才培养体系,促进㊃071㊃㊀㊀王霞㊀姜孟㊀乘大数据之势探语言脑疾病之理 管窥 大数据与全生命周期语言脑健康论坛 ㊀大数据时代语言脑健康人才培养模式革新㊂2.3论坛将助力语言脑健康科学研究取向转变大数据思维对语言研究领域影响较大;如何从庞杂的医疗数据中提取有用信息㊁挖掘障碍机理㊁预测障碍发生,是语言脑健康研究的关键突破口㊂西方国家已尝试将大数据技术应用于语言脑健康研究中;国内也逐步重视语言脑健康研究,如四川外国语大学近年来致力于打造智慧语言康复领域研究特色㊁开展靶向大数据与语言脑疾病的融合研究㊂此次论坛展示了大数据助力解析正常人语言脑认知原理以及大数据应用于 典型 与 非典型 语言脑疾病的重大研究进展,将进一步推进大数据与语言脑健康融合的科学研究取向转变㊂2.4论坛将助力语言脑健康社会服务水平提升对语言脑疾病群体开展社会服务是增进民生福祉的有力举措㊂国外社会服务萌芽较早,大数据时代的相关法案旨在推动健康服务的数字化转型;我国相关政策也为大数据赋能脑疾病的社会服务保驾护航㊂但国内外专门针对语言脑疾病群体的社会服务体系还亟待建立㊂近年来,国内高校较为重视语言脑疾病社会服务能力的培养,如四川外国语大学在语言病理学与语言智能研究生培养方案中设置了临床见习实习环节,以期探索大数据时代语言脑健康的新兴社会服务模式㊂本次论坛旨在探寻建设大数据助力语言脑健康社会服务体系的新思路,将助力实现全生命周期语言脑健康呵护,提升语言脑疾病群体的社会服务水平㊂3㊀结语在大数据风靡之际,本次论坛以实现全生命周期语言脑健康 智慧呵护 为宗旨,努力打破学科壁垒,借助大数据技术探究语言障碍发生与发展规律,以促成更加精细化㊁数据化㊁智能化的语言脑疾病干预及诊疗方案㊂论坛彰显了面向人民生命健康㊁对接 中国脑计划 和 健康中国 战略㊁实施创新驱动发展的时代趋势,将在语言脑健康学科建设㊁人才培养㊁科学研究㊁社会服务等方面起到切实推动作用㊂ 在人工智能领域,得语言者得天下㊂ (冯志伟,2018)套用这句话,在大数据融合的 脑疾病 研究领域,得 语言 者也将畅行天下!参考文献:Centers for Disease Control and Prevention.2009.What is a healthy brain?New research explores perceptions of cognitive health among diverse older adults[J/OL].(2018-10-08)[2022-12-07].https:ʊ/aging/pdf/Perceptions_of_Cog_Hlth _factsheet.pdf冯志伟.2018.人工智能领域:得语言者得天下[J].语言战略研究(5):1.陆林,刘晓星,袁凯.2022.中国脑科学计划进展[J].北京大学学报(医学版)(5):791-795.张敬,章志芳,肖永涛,等.2017.国内多省份医疗系统和非医疗系统言语治疗从业人员现状调查分析[J].中国现代医学杂志(2):98-105.责任编校:肖谊㊃171㊃。
传承是最好的致敬 大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会剪影
传承是最好的致敬
大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会剪
影
佚名
【期刊名称】《现代语文(语言研究)》
【年(卷),期】2018(000)004
【摘要】2018年4月14日,约200名来自海内外的学者齐聚浙江大学求是报告厅,召开“大数据时代的语言研究研讨会”,为著名语言学家冯志伟先生祝寿.2018年4月15日,冯先生迎来八十寿诞.
【总页数】2页(P封2,封3)
【正文语种】中文
【相关文献】
1.韦政通先生的豪杰气象--记人文思想与人文教育研讨会暨韦政通先生八十八寿诞学庆活动 [J], 朱锦程
2.人文思想与人文教育研讨会暨韦政通先生八十八寿诞学庆事状 [J], 陈微
3.大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行 [J], 刘益光;方昱;
4.传承是最好的致敬:大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会剪影(一) [J], 浙江大学“大数据+语言规律与认知”创新团队;
5.大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行 [J], 刘益光;方昱
因版权原因,仅展示原文概要,查看原文内容请购买。
院士钟世镇:人生80才开始
院士钟世镇:人生80才开始
梦生
【期刊名称】《廉政瞭望》
【年(卷),期】2005(000)011
【摘要】一个人活到80岁时还能干些什么?我国现代临床解剖学的奠基人,被誉为中国“数字虚拟人”之父的钟世镇院士告诉大家:可以带领一个优秀的学术团队把4具尸体从头到脚切成几万片,完成4个“数字虚拟人”的数据收集工作;可以编著出版中国第一部《数字人和数字解剖学》……
【总页数】3页(P30-32)
【作者】梦生
【作者单位】无
【正文语种】中文
【中图分类】K826.2
【相关文献】
1.钟世镇院士:数字医学研究奠定广东医学3D打印发展基础 [J], 潘慧
2.《华南国防医学杂志》特聘钟世镇院士为名誉主编 [J], 本刊编辑部
3.钟世镇院士从教55周年暨80华诞庆典纪要 [J], 丁自海;徐达传;原林
4.钟世镇院士题词祝贺 [J],
5.钟世镇院士的第一等“学问” [J], 王广平
因版权原因,仅展示原文概要,查看原文内容请购买。
大圆满前行79课思考题
大圆满前行79课思考题
【实用版】
目录
1.大数据的概念与应用
2.非全硕士的含义与特点
3.大数据对非全硕士教育的影响
4.发展非全硕士大数据专业的意义与挑战
正文
随着信息技术的飞速发展,大数据作为一种新兴产业已经渗透到了各行各业。
大数据是指海量的数据集合,通过分析这些数据可以挖掘出有价值的信息,为政府、企业和个人提供决策支持。
非全硕士是指在职人员通过一定的课程学习和考核,获得硕士学位的教育形式。
这种教育方式以其灵活性、实用性,深受在职人员的欢迎。
大数据技术在教育领域的应用已经越来越广泛,特别是在非全硕士教育中,大数据技术的应用为非全硕士教育提供了新的发展机遇。
大数据技术可以为非全硕士教育提供更加个性化的学习路径,通过分析学习者的学习行为和数据,可以为学习者提供更符合其需求的学习资源和学习路径。
此外,大数据技术还可以为非全硕士教育提供更加精准的评估和反馈,通过对学习者的学习数据进行实时监控和分析,可以及时发现学习者的学习困难,并提供有针对性的帮助。
发展非全硕士大数据专业,既可以满足社会对于大数据人才的需求,又可以推动非全硕士教育的发展。
然而,发展非全硕士大数据专业也面临着一些挑战,比如如何保证教育质量、如何吸引优秀的师资力量等。
总的来说,大数据技术为非全硕士教育提供了新的发展机遇,同时也带来了一些挑战。
语言模型与人工智能
语言模型与人工智能
冯志伟;张灯柯
【期刊名称】《外语研究》
【年(卷),期】2024(41)1
【摘要】本文按照自然语言处理学术发展的时间顺序,分析了人工智能与基于规则的语言模型、统计语言模型、神经语言模型、预训练语言模型、大语言模型之间的关系。
研究指出,构建一个能够理解世界的模型将是人工智能未来的发展方向。
【总页数】20页(P1-19)
【作者】冯志伟;张灯柯
【作者单位】新疆大学新疆民汉语文翻译研究中心
【正文语种】中文
【中图分类】H030
【相关文献】
1.人工智能需要“灵魂”吗——由大语言模型引发的可能性及质疑
2.人工智能大规模语言模型的运行逻辑与传媒应对
3.人工智能大语言模型对数字出版的影响及挑战
4.生成式语言模型与通用人工智能:内涵、路径与启示
5.从逻辑学视角看人工智能语言模型ChatGPT
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举
行
一、会议综述
2018年4月14日上午,“大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会”在浙江大学紫金港校区启真酒店求是厅隆重举行。
来自全国各地近两百位学界同仁共同探讨语言学研究的国际化与科学化进程,并为计算语言学家冯志伟先生庆贺八十寿诞。
冯志伟先生的老朋友——浙江大学外语学院原院长邵永真教授,应用语言学专家应惠兰教授,汉语研究专家吴洁敏教授等专程到會祝贺。
浙江大学外语学院梁君英教授担任大会主持。
国际世界语学院院士、浙江大学求是特聘教授刘海涛做了题为“信息时代的语言观”的主旨演讲,深情回顾了冯志伟先生的学术生涯,并借此揭示语言学研究方法科学化、成果国际化的奥秘。
作为中国计算语言学的先驱与资深专家,冯志伟先生的学术生涯堪称传奇,为中国乃至世界的语言研究作出了巨大贡献。
60年前,当时正在北京大学地球化学系上学的冯志伟对语言产生了浓厚的兴趣,并听从内心的声音转系到了中文系潜心进行语言研究。
用刘海涛教授的话说:这次从理到文的转系,创造了中国语言学的一个历史。
本科毕业后,又接着在北大中文系师从语言学家岑麒祥读研究生。
此后,冯志伟先生考取了中国科技大学的机器翻译研究生,并被公派到法国学习数理语言学。
留学法国期间,冯志伟先生于1981年完成了“汉—法/英/日/俄/德多语言自动翻译试验”,在机器翻译领域走在了世界前沿。
鉴于乔姆斯基短语结构语法存在的局限性,冯志伟先生在1983年提出了MMT模型(多叉多标记树形图分析法),以此为基础进行自然语言计算机处理和机器翻译研究,MMT 模型是迄今为止中国学者在计算语言学方面最重要的成就的之一。
除了这些学术成就,冯志伟先生还努力将当时世界最前沿的语言学理论、模型和方法带回中国,先后为国内学界介绍了法国语言学家泰尼埃的“从属关系语法”以及齐普夫定律(Zipf’law),为中国计量语言学的发展奠定了坚实的基础。
此外,冯志伟先生在1987年发表了专著《现代语言学流派》,系统梳理了现代语言学的格局,直至今日仍是最重要的语言学流派参考书。
冯志伟先生一直投身语言学研究,共出版专著38部,以英、德、法、汉等多种语言发表了431篇论文。
值得一提的是,其中300余篇论文都是其退休之后的成果,这成为冯老永葆学术青春的最佳注脚,这份执着和坚守令人钦佩与动容。
报告的结尾处,刘海涛教授以其15年前发表的对冯先生的书评《计算语言学不仅仅是计算》一文中的一段话作结,以此与在场语言学同仁共勉:“我们学到的不仅仅是一些有关(计算)语言学的知识,而是一种精神,一种人类原本应该具有的对于未知的探索精神,一种理想主义的精神,一种爱国主义的精神。
”
之后,浙江大学人文学部主任黄华新教授、浙江大学外语学院副院长程乐教
授、教育部语言文字应用研究所研究员郭龙生教授先后致辞,分享对大数据时代语言研究理解和看法的同时,向冯志伟先生表达了崇高的敬意。
值冯志伟先生八十寿诞之际,大会为其举办了庆祝会,仪式虽简短却饱含深情,在场各位共祝冯老福如东海、寿比南山!
庆祝仪式结束后,冯志伟先生做了题为“大数据—人工智能—翻译技术”的主旨演讲。
冯老从翻译的起源、当今世界的翻译需求讲起,指出当今翻译市场高达90%的翻译需求无法得到满足,这凸显了发展机器翻译的必要性。
基于此,冯志伟先生回顾了机器翻译的发展历程,大体上可以分为基于规则、基于统计和基于神经网络三个发展阶段。
第一代机器翻译关注语言本体,以短语结构语法等为基础,研究人员力图编写完备的规则让机器模拟人类的翻译过程。
结合自身的研究经验和成果,冯先生认为该类机器翻译应用场景局限性大、研发过程耗时耗力且翻译正确率有待提高;第二代机器翻译基于统计数据完成翻译过程,如2003年,来自德国亚琛大学的奥赫曾利用平行语料库,现场构建翻译系统进行演示。
基于统计的翻译系统的机器翻译体系正确率大幅提高,是目前的主流;而随着人工智能和深度学习的发展,谷歌翻译等基于神经网络的机器翻译系统完成了“弯道超车”,虽然其翻译原理仍不明确,但翻译成效令人称赞。
不过,发展至今,机器翻译仍在文学等专业翻译领域存在明显的不足。
现阶段,机器翻译的发展主要由谷歌、微软等科技公司的计算机专家主导,而语言学家日渐式微,这难免造成科技界的过分乐观和语言学界的担忧。
冯老认为两者都不可取,一方面,科技界过分强调语言的符号性,却忽视了语言是凝结文化的复杂系统,这不利于机器翻译解决反讽等多样化翻译难题;而语言学界也不必妄自菲薄,我们应该拥抱技术革新,同时致力于机器翻译背后原理的探究,破解尚存的“黑箱”问题。
冯老的发言既是鼓舞也是指引,字里行间洋溢的信心和勇气催人奋进。
二、分组讨论
下午,“大数据时代的语言研究研讨会”分组讨论在浙江大学紫金港校区东五教学楼青荷咖啡吧和201会议室同时进行。
讨论分为四组,来自北京大学、复旦大学、南洋理工大学、浙江大学、华中科技大学、西安交通大学、广东外语外贸大学、大连海事大学、北京语言大学、杭州师范大学、华南师范大学、南京师范大学、中国传媒大学等高校的学者共报告了20余项研究。
(一)关注当下新兴的人工智能、机器学习等技术。
冯志伟、詹宏伟介绍了语音自动识别在人工智能会话中的应用。
他们首先梳理了语言自动识别的历史与现状,随后介绍了影响语音识别效果的四个可变维度:词汇量的大小、语音的流畅度和自然度、信道和噪声以及说话人的语音特征,指出语音识别需经历特征抽取、声学建模和解码三个阶段。
常宝宝、张浩和裴亚军则探讨了从科技文献中自动识别并提取术语的方法。
他们采用的多损失双向LSTM模型,不仅可以标记文献中重合的术语,还能够标记文献中的新术语。
乐明、张翼利用大数据探究特定语法现象,利用BNC语料库,从格、数、人称、时态四个方面讨论了英语it-分裂构式的特点。
(二)主要探讨如何以大数据视角研究词长、词频等语言基本特征。
陈芯莹报告了基于谷歌大数据的汉语词长历时研究,研究发现近300年来,汉语词长呈现多音节化、加速增长的趋势。
互动环节有人认为,若语料未剔除外来词,这一趋势或许与外来词影响有关。
陈芯莹指出,外来词的判定本身难以统一标准,此外外来词的进入确实可能是汉语词长变化的一个动因,但它们之间的因果关系需要更多相关研究进行佐证。
陈衡、刘海涛基于兰卡斯特现代汉语语料,发现汉语语法符合门策拉定律,即句子越长,组成句子的小句越短。
(三)主要关注语料库研究。
雷蕾、Dilin Liu对比了2016年美国总统竞选过程中特朗普和希拉里的演讲内容,发现两位竞选者在演讲中的主题词和用词情感色彩都存在明显差异。
具体而言,相较于克林顿,特朗普的演讲用词更具商业用词特点,用词的情感色彩更偏负面。
现场有老师指出,特朗普的这种说话风格也许跟其情绪化的性格有关,或许特朗普所用的正面词汇也较多,而情感程度较低的中性词较少。
对此,雷蕾老师表示认同,并认为可以从不同的角度进一步探讨这一问题。
(四)主要探讨了语音和词共现网络两个问题。
黄伟以10个方案为对象,报告了汉语罗马化拼写经典方案的计量研究。
研究结果发现,汉语拼音方案虽然在6个考察指标上都非最优解,但其综合表现最为均衡。
赵雪等人对个人口述史、民族志和新闻访谈等三类访谈的共现词网络进行了分析,发现三类访谈的关键词区分非常明显,口述史的话题具“个体性”“时代性”,民族志话题具“族群性”“文化性”,而新闻访谈话题则具“公众性”和“时效性”。
三、会议总结
分组讨论结束后是展板交流环节,三十余位参会学者展示了自己的研究成果,并在现场与到场的专家学者进行了面对面的交流,气氛热烈而融洽。
这些研究涵盖语言学研究的方方面面,集中展现了大数据时代下语言学研究的新趋势,同时也体现了将更为客观、科学的方法引入语言研究的重大意义。
与会的学界同仁在向前辈表达敬意的同时,深入探讨了大数据时代下语言研究的新形势和新发展。
援引大数据创新团队梁君英教授的话,这次大会真正实现了学科交叉、学术交融、学者交流的目的。