基于机器学习的类型推理方法综述

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对于动态类型语言，在缺乏上下文信息和语法规则的前提下，编译器都很难正常理解这些代码片段，所以采用传统的类型推理方式则很难解决这些问题．例如ｐｙｔｈｏｎ语言，它的程序严重依赖外部ＡＰＩｓ和动态语言的特性，而且ｐｙｔｈｏｎ变量类型都是路径敏感的，对于不同的程序路径，变量可能会有不同的类型，对象的类型和属性集可以动态更改，大大增加了类型推断的难度，使得传统的方法并不适用．另一方面，现有的传统特性往往无法区分不同语义的代码区域，具有不同语义的程序文件可能具有相同值的传统特性，要能够区分这种语义差异的特性就需要能够建立更加精确的预测模型．所以在这些情况下，能够采用基于机器学习的方法对程序片段进行类型推理就显得尤为重要了．
（武汉大学计算机学院，湖北武汉４３００７２）
摘要：类型推理是一种轻量级的形式化方法，通过对程序变量和语句的类型这些关键信息进行推理，可以更好地理解程序行为．传统的类型推理方法依赖于语法规则与类型推演规则，然而，随着软件技术的发展，在动态语言等新的软件应用场景中，传统的类型推理方法在缺乏运行时信息的时候无法在静态对类型进行推理．针对这些问题，近年来出现了很多基于机器学习的类型推理的方法．基于机器学习的方法，可以利用已有的动态类型信息，对新程序的类型进行静态的类型推理．文章系统地总结了各种基于机器学习进行类型推理的方法，总结其特点和存在的问题，并讨论了未来可能的研究方向．关键词：类型推理；机器学习；程序分析中图分类号：ＴＰ３１２文献标志码：Ａ
收稿日期：２０１９－０５－２１；修回日期：２０１９－０６－０４基金项目：国家自然科学基金资助项目（６１８７２２７２，６１６４０２２１）作者简介：袁梦霆（１９７６—），男，副教授，博士．Ｅｍａｉｌ：ｙｍｔ＠ｗｈｕ．ｅｄｕ．ｃｎ
８６
广州大学学报（自然科学版）
第１８卷
ห้องสมุดไป่ตู้
程中，也无法保证所输入的推理程序一定能够通过语法检查，这种情况下，就无法继续进行类型推理．
第１８卷第３期
２０１９年６月
广州大学学报（自然科学版）
ＪｏｕｒｎａｌｏｆＧｕａｎｇｚｈｏｕＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）
文章编号：１６７１４２２９（２０１９）０３００８５０８
Ｖｏｌ．１８Ｎｏ．３Ｊｕｎ．２０１９
基于机器学习的类型推理方法综述
袁梦霆，谢婧
传统的类型推理方法都是基于规则和语法结
构［１］，传统的类型推理解决方案在方法上存在很大的差异．它们可以使用静态分析、动态分析以及它们的组合．如Ｔｒｏｓｈｉｎａ等［２］采用了静态分析的方法，Ｇｕｏ等［３］使用了动态分析的方法，Ｌｅｅ等［４］则采用了静态分析和动态分析的组合．另一方面，它们可以选择从不同的类型信息来源出发，如Ｒａｍａｎ等［５］和Ｓｒｉｎｉｖａｓａｎ等［６］使用基于值的类型推理方法，而Ｃｈａｎｄｒａ等［７］选择了基于流的类型推理方法．不同的类型推理方法还可以采用不同的数据结构，如抽象语法树、路径图、函数调用图等．其中，函数调用图是利用程序中函数之间的调用关系建立起的模型，抽象语法树是利用程序语义建立起的模型．同时，对于所推理的类型也有很大的差异，包括基本类（如整数、浮点和指针等）、聚合数据类型（如数组），以及面向对象程序中的类．它们也可以有不同的输入形式，如源码、二进制代码和字节码等．但是，由于传统的类型推理方法基于上下文与语法规则，所以其在许多实际应用的情况下会具有局限性．在传统的类型推理中，因为需要语法规则和类型推演规则，所以要求被推理的程序片段首先都是合法的表达式，即要通过完整的语法检查．然而随着软件技术的发展，在很多情况下获取所需要的类型信息时，并不要求程序在语法上是合法的，而且在很多实际应用的过
编辑代码文件的开发人员与函数名、参数和变量名等各种标识符交互，这些标识符都存在于一个类型系统中，类型系统限制只接受定义它们的操作数．在编译时进行类型推理了解类型可以提高代码的性能，并允许早期检测错误．较强的类型系统对于软件开发工具也很有用，例如提高自动完成的准确性和调试信息．基于机器学习的类型推理可以被广泛应用于程序错误检测［８］、程序抽象、程序优化、代码补全、程序摘要、错误定位［９］等多个软件领域．
１类型推理介绍
类型推理是一种轻量级的形式化方法，是编程语言中的自动推理部分或全部表达式类型的能力，通常在编译时完成．编译器能够推理变量的类型或函数的类型名，而不需要给出显式的类型注释．它包括分析一个程序，然后推理该程序中某些或所有表达式的不同类型，这样程序员就不需要每次在程序中使用变量时都显式地输入和定义数据类型．类型推理通常是函数式编程语言的编译器特性，而不是面向对象编程语言的编译器特性．编译器或解释器只需要最少的信息和上下文，就可以确定变量或表达式的数据类型．推理算法尝试确定参数类型和返回值类型，然后尝试找到与所有参数一起工作的最特定的数据类型．类型推理的输入可以是源代码、字节码或二进制代码，它是在编译时自动推理表达式的类型，使编译器能够在没有给出明确的类型注释的情况下推理出数据和函数的类型．在许多情况下，如果类型推理系统足够健壮，或者程序或语言足够简单，则可以完全省略程序中的类型注释．在程序编写和编译执行过程中，类型推理是一项很重要的功能．