面向裁判文书的司法知识抽取方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的问题,面向裁判文书数据
提出了一种基于级联二进制标记框架的司法知识抽取方法。对裁判文书中实体抽取和关系抽取两个
任务进行了模型设计,并基于盗窃罪案由的裁判文书开展了算法实验,经实验验证,相比传统BERT
模型,文中方法的F1值提升了 2.11 9。
关键词:裁判文书;知识抽取;实体识别;关系抽取
中图分类号:TP32 1 . 1 文献标识码:A
进行了归纳和预定义,构建出了盗窃罪案由裁判
文书中的知识模型体系。在盗窃罪案由的规范裁
判文书文本中,一共定义出11类在案件审判中有
重要地位的司法要素实体,每一类实体,又有若干
属性,司法要素实体及属性对应表,如表1所示。
—52 —
面向裁判文书的司法知识抽取方法一刘明伟等
实体
犯罪嫌疑人/被告人
被害人
被盗财物 盗窃事件 销赃事件
事件代码、事件名称、时间、地点、行为人、起因、行为对象、行为方式/手段、使用工具、行为结果 罪名、姓名、受处罚时间、受处罚依据、裁判法院、刑罚、作出处罚的单位、处罚结果 名称、是否属于公共场所、是否符合入户标准、地址、特征、法定情节 开始时间、结束时间、期限、强制措施类型、理由和依据、采取强制措施的机关、地点 名称、 据、 节量
一个重要环节。
来,随着NLP领域的不断发展,在简单
语境下(例如,一个句子仅
个关系三元组)
进行知识抽
能够达到不错的效果。但在复
语(一个句子中 多个关系三元组),尤
其当多个三元组有重叠的 时,现有模型的效
果
定的局限性。
统的知识抽取方法中,一般采用两步式
—51 —
面向裁判文书的司法知识抽取方法一刘明伟等
③ 随机选择一个Subject起始与终止位置,把 相应的输小入BERT,得到最后一层的隐藏状态;
④ 对隐藏状态进行Siymoid分类,得到SuUject的起始与终止位置,再取出倒数第二层的隐 层状态,利用输入的suUject_ib取出隐层状态中 的首尾向量;
判处 侵害财产权
发生于 占 盗窃 姓名 判处 判处
宾语 被盗财物 被盗财物
姓名
刑 被害人 地 被盗财物 被盗财物 姓名
刑 刑
2.2 基于级联二进制标记框架的SPO联合抽取 在实体和关系抽取时,以往的方法大多将关
系建模为实体对上的一个离散的标签,然后转化 为一个关系分类问题:首先通过命名实体识别 (Named Entity Recopnition, NER )确定出句子中所 有的实体,然后学习一个关系分类器在所有的实 体对上做关系分类,最终得到所需的关系三元组。 然而这种方式在多个关系三元组有重叠的情况下 会使得关系分类成为一个极其困难的不平衡多分 类问题,导致最终抽取出的关系三元组不够全面 和准确。传统的实体-关系抽取模型如图1
文章编号:1 029 -2552(2221)26 -025 1 -07
DOI: 10.13274/j. cokk hdzi. 2729 06. 010
Judicial knowleggr ertraction method for judgemeri doccmerts LID Mina-weX , Ak Zhosk-liank2, LID Zhosk-lik1, WANG Li-cal1, HUANG Yana-chen1 (9 North China InshtiUe of Computina TxhkoUcy, Bep ma 100233 , China ; 2. China JuUicial Bip Data Research Institute , Beijina 100043 , China) Abstract: Usina aaificial intellipenco techkoloce te extract iuUiciai kkowledee from judicial dochmenis is ak impoani research direction in the fielU of intellipeni justice, dk 01\121> te solve the proSiem that the tmL1l tiosal entity ank relation extraction moCel is kot accorate —onkh te ikentify complet ank overlappina tioks ; this pdper prososes a judicim kkowledee extraction methoS based os cascaked binny mnaup fmmel wot Up juUicmt docoment data. This pdper desiyks the moCel of entity extraction ank relation extraction in juUicial docoments ; ank carries oct alyorithm expeaments based os the (ukkmedt docoments of theft came. The expeament results show that the F1 vvIuv of this methok ikcreases by 0. 119 compared with the tmLil tiosal Bea mokeb Key worat: jiikicim docoments - kkowledee extraction; xtity mcocnitios; relation extraction
报案人/证人
一般事件 刑事处罚事实 犯罪地点/场所 采取强制措施 量刑情节
表1司法要素实体与属性对应表
属性 姓名、性别、出生日期、年龄、民族、身份证号、文化程度、家庭住址、户籍所在地、联系电话、职业、工作单位、职 务、排序、体貌特征、法定情节、是否为人大代表、籍贯
姓名、性别、出生日期、年龄、民族、身份证号、文化程度、家庭住址、户籍所在地、联系电话、职业、工作单位、职 务、法定情节 名称、原价、现价、销赃收益、特征、数量、下落、法定情节 时间、地点、盗窃行为人、盗窃行为、盗窃对象的占有者、法定情节、盗窃手段、盗窃对象 事件简称、时间、地点、出售人、买受人、金额、交货方式、付款方式、销赃方式、销赃物品 姓名、性别、出生日期、年龄、民族、身份证号、文化程度、家庭住址、联系电话、职业、工作单位、职务、与本案关 系、户 地
根据上述设计,联合抽取工作分为两个模块, 第一步是对文本中头实体的抽取,这一-步米用基 于BERT的NER方法,第二步是基于第一步中头 实体抽取结果,进行关系和尾实体的抽取。具体 步骤如下:
① 将训练集中的句子利用BERT进行切分, 得到相应的编码;
② 在句子中标记出每个Subject和Object的 起始与终止位置;
的关系;而RTE则是在仅给定输入文本的情况 下,抽取出包含在文本中的所有可能的关系三元
组。在本文中使用的RTE技术旨在从文本中抽
取出结构化的关系三元组(SuUject, Relation, Ob-
ject)用以构建知识图谱。关系抽取中的传统方法 同样包括基于RNN的方法[0]、基于CNN的方
法[0以及基于混合模型的方法,而预训练模型阶
决书中命名实体的识别模块进行了研究,并应用 于从司法判决书中抽取法言法语;高丹等[5]提出
一种基于改进核函数和CNN的多实体关系抽取
技术,从法律角色和案情中抽取有效的实体关系
三 组°
2知识抽取方案设计与实现
本文提出的司法知识抽取方案,分为数据标
注阶段和知识抽取阶段,在知识抽取阶段,又可以
细分成共享编码层、头实体抽取层和实体-关系
以这10类司法要素为基础,定义了 95种不 同的关系类别,部分关系类别示例如表2所示。
表2司法要素关系示例表
主语 被害人 犯罪嫌疑人/被告人 犯罪嫌疑人/被告人
系类型
占 盗窃 姓名
犯罪嫌疑人/被告人 犯罪嫌疑人/被告人 盗窃 被害人 犯罪嫌疑人/被告人 犯罪嫌疑人/被告人 犯罪嫌疑人/被告人 犯罪嫌疑人/被法知识模型的实体及关系标注
知识抽
务而 , 重要的
步骤
有两个,第一步是建立需要抽取的知识体系,即有
哪些要素需要抽取,要素之间是否存在关联关系;
第二步是根据建立的司法模型,进行文本的标注
工作,从而提供模型所需的训练集和测试集°
本文通过与中国政法大学法律方面专家合
作,基于法律专家知识,对裁判文书中的司法要素
示。 本文把关系(Relation)建模为将头实体(SuU-
ject)映射到尾实体(Object)的函数,而不是将其
视为实体对上的标签。具体来说,就是不学习关 系分类器,而是学习关系特定的尾实体标注器,每 个标注器都将在给定关系和头实体的条件下识别 出所有可能的尾实体。在这种框架下,关系三元 组抽取问题就被分解为如下两步过程:首先,预测 出句子中所有可能的头实体;然后针对每个头实 体suUject,使用关系特定的标注器来同时识别出所 有可能的关系padicate和对应的尾实体object。
体识 务, 统的方 要 基 循环神经网络RNN的方法[2],基于卷积神经网络 CNN的方法[5]以及混合模型的方法⑷等。而随 着预训练模型的发展,模型不必完全依赖静态的 WorUVac[5]词向量,更好地解决了一词多义的问 题,产生了 一批具有代表性的模型:基于双向 LSTM 的模型 EL-MS4]、基于单向 TransformeC4 的模型GP-8、基于双向Transformer并融合后句 预测任务的模型BERT[]等。
关系抽取(Relation Extraction, RE ),包括关 系三元组抽取(Relational TUpta Extraction, RTE) 与关系分类(Relation Classification, RC ) ° RC 与 RTE的主要区别在于:RC是在给定实体对和输 入文本的情况下,抽取出实体对在句子中所表达
0引言
随着司法公开化和人工智能风潮的到来,大
量裁 书数据 联网上进行公开。结合深度
学
,对于裁判文书数据的快速、有效处理,
其中信息的智能提取和 ,成为
的
基金项目:国家重点研发计划项目(2719YFC0551226) 作者简介:: 伟(1995 -),男,硕士研究生,研究方向为大数
据、知识图谱、信息抽取。
段的代表性技术主要有多任务模型TRE[O]等。
裁判文书文本,是反映案件发生主客体、案情
事实以及裁判量刑结果的非结构化文本。对裁判
文书中司法知识的提炼抽取,可以很好地归纳出
案件的各方面要素,对还原案件全貌,辅助进行案
件的判断和决策有重要的意义。对于裁判文书的 知识抽取,张琳等[/]利用机器学习技术对司法判
的抽取方法,即将知识抽取割裂地划分成实体识 别和关系分类两个步骤。而在本文中,采取了实 体-关系联合抽取的方法,没有割裂地分别进行 实体和关系抽取,而是构建模型对实体和关系实 现联合抽取。本文借鉴了吉林大学魏哲培等人的 级联二进制标记框架[1],使用半指针的方式,先 进行头实体的识别,然后在头实体已确定的前提 下,预测可能的关系及尾实体,以解决复杂语境下 实体关系重叠的问题。
信息技术XINXIPIPHU
2029年第6期
面向裁判文书的司法知识抽取方法
,艾中良2,刘忠麟1 ,
1,黄杨
(1.华北计算技术研究所,北京100233; 2.中国司法大数据研究院,北京100043)
摘 要:运用人工智能技术对裁判文书进行司法知识抽取,是智慧司法领域的重要研究方向。文中
针对传统的实体-关系抽取模型中对复杂关系和重叠关
本文的主要贡献如下: ① 以盗窃罪案由作为主要研究对象,结合领 域专家知识,构建出了一套裁判文书中的司法知 识体系; ② 基于级联二进制标记框架设计算法模型, 将半指针的实体-关系联合抽取的方法运用到司 法领域,对裁判文书中的实体及关系实现了统一 抽取,并通过算法实验,验证了方法的效果。 1相关研究 知识抽取任务,可以主要划分为实体抽取与 关系抽取,即抽取出文本中包含的各类命名实体, 以及抽取出实体之间可能的各种关系,构建出 (S,p,o),即(主语、谓语、宾语)的三元组,以实 现下一步的知识图谱构建。