王迪|数字赋能法律监督现代化研究

王迪|数字赋能法律监督现代化研究王迪|数字赋能法律监督现代化研究王迪|数字赋能法律监督现代化研究

与传统犯罪相比,网络犯罪无论是在犯罪空间、违法方式还是在犯罪形态方面,都与传统犯罪有明显区别。尽管网络犯罪跨地域、跨空间、跨平台、隐蔽性强,但一般会在网络空间留下痕迹。网络犯罪体现出的与计算机与网络、系统的强关联性将电子数据这一证据形态置于指控犯罪的特殊重要地位。在对电子数据的真实性、合法性、关联性审查进行法理和实务分析的基础上,针对网络犯罪应当坚持的技术与法律双重标准,基于电子数据的双重载体特性,以审查判断规则的标准化、证据标准的数据化和证据的智能化审查为目标,提出一种应用知识图谱人工智能技术为电子数据审查判断标准进行数据化建模的新方法,为网络犯罪案件办理和网络空间治理现代化提供数字赋能司法、提升监督质效的新路径。

王迪|数字赋能法律监督现代化研究

引言

当前,信息技术的快速变革正对传统的社会结构、生活方式与商业模式产生深刻影响,作为伴随新技术、新工具、新媒介产生和演变的新型犯罪类型,网络犯罪呈现滋生蔓延之势,犯罪手段不断翻新,手法高度隐蔽,严重影响人民群众的安全感和社会公共利益。在这样的形势下,通过依法打击网络犯罪净化网络生态,推动网络空间多元共治责任重大、意义深远。

(一)网络犯罪概述

随着互联网和计算机技术的发展,理论和实务界对于网络犯罪的认识不断加深,对其内涵和外延的界定也在不断更新。我国刑法中的网络犯罪可分为两类:一是针对信息网络的犯罪,即学术界定义的“纯正的网络犯罪”,如破坏计算机信息系统、非法控制计算机信息系统等;二是利用信息网络或在网络空间实施的犯罪,即“不纯正的网络犯罪”,如通过计算机网络实施的侵财类犯罪、网络平台非法集资、侵犯公民个人信息与数据安全犯罪等。也有新观点认为网络犯罪还包括妨害网络业务、网络秩序的犯罪。2022年8月出台的《关于办理信息网络犯罪案件适用刑事诉讼程序若干问题的意见》(法发〔2022〕23号)第1条中还规定了一类网络犯罪类型:拒不履行信息网络安全管理义务、非法利用信息网络、帮助信息网络犯罪活动的犯罪。

纵观国内外网络犯罪现状,这一犯罪类型呈现出以下三大特点。一是技术、工具依赖性明显,不论是针对信息网络的犯罪,还是利用信息网络或在网络空间实施的犯罪,均与网络、系统、终端等工具产品密不可分,而且专业化程度越来越高,最新技术手段往往为不法分子所利用,网络犯罪经历了网络由“犯罪对象”到“犯罪工具”,再到“犯罪空间”的演变。二是链条化、产业化态势明显,很多网络犯罪行为不仅有组织、有预谋,而且呈现出集团化特征,甚至出现了提供专门设施设备和资金、服务的黑灰产市场,上下游关联性极强。三是跨地域特征明显,网络的存在使得跨省、市甚至是跨境犯罪日趋常态化,很多不法分子为躲避监管将作案工具、平台等置于境外,而境外取证成本高、难度大,网络犯罪治理亟需加大国际合作。

(二)电子数据在网络犯罪案件办理中的作用

与传统犯罪相比,网络犯罪无论是在犯罪空间、违法方式还是在犯罪形态方面,都与传统刑事犯罪有较为明显的区别。从犯罪空间上看,由计算机、网络组成的虚拟现场往往是网络犯罪的主要犯罪空间;从违法方式上看,系统攻击、网络侵财、网上侵害社会公共利益和国家安全等在网络犯罪中占据相当比例;从犯罪形态上看,科技水平高、花样翻新快、组织严密性强成为网络犯罪形态的显著特征。尽管如此,网络犯罪都体现出与计算机和网络、系统的强关联性,这一方面使网络犯罪治理面临发现识别难、打击取证难的新考验,但另一方面又恰恰将与网络犯罪密切相关的电子数据置于构建证据体系特别是客观证据链的特殊重要地位。在网络犯罪中,刑法意义上的“行为”往往通过行为人与计算机网络输入设备(如键盘、鼠标、拾音器、摄像头、扫描设备等)的接触或操作实现,这些接触或操作对于计算机系统就是“指令”,必然会在处理器、内部存储、外部存储、网络存储及其他计算机部件内生成数据和文件。因此,不仅传统意义上的犯罪现场和痕迹物品在网络犯罪中迁移到了电子网络空间,反映行为人身份、社会关系、通讯、轨迹及犯意联络、资金支付、物品交易等的诸多信息也更容易在网络空间留下行为痕迹。司法实践证明,无论是行为人实施犯罪行为的终端,还是网络犯罪涉案平台,都留下了相当数量与案件事实相关的电子化信息数据,电子数据在很多网络犯罪中往往是能够直接证明犯罪事实的原始证据、客观证据,而且能够与其他证据形成关联,因此从一定程度上讲,电子数据的出现,使网络犯罪的可侦查、审查的证据甚至比传统犯罪的证据更多。尤其在当今大数据时代,犯罪证据的数据化是网络犯罪的新态势之一。可以认为,对于针对信息网络的犯罪,电子数据毫无疑问是核心证据形态,而对于利用信息网络或在网络空间实施的犯罪,电子数据也往往是整个案件证据体系特别是客观性证据链中的主要证据形态之一。

网络犯罪司法的中心任务是有效使用电子证据进行网络犯罪案件事实的重建。在以审判为中心的刑事诉讼制度改革背景下,对电子数据这一证据形态的审查是使得网络犯罪案件达到“案件事实清楚,证据确实充分”法定标准的关键之一,本文针对网络犯罪应当坚持的技术与法律双重标准,基于电子数据的双重载体特性,以审查判断规则的标准化、证据标准的数据化和证据的智能化审查为目标,提出一种应用知识图谱人工智能技术为电子数据审查判断标准进行数据化建模的新方法,尝试为网络犯罪案件办理和网络空间治理能力现代化提供数字赋能的新路径。

一、网络犯罪案件的电子数据审查

(一)电子数据的概念及特性

电子数据的概念最初源于1991年在美国召开的第一届国际计算机调查专家会议提出的“计算机证据(Computer Evidence)”,并被翻译为“电子证据”“电子物证”“数字证据”等,而最终以“电子数据”这一名称在法律层面进行统一,指信息数字化过程中形成的以数字形式存在的能够证明案件事实情况的数据。

从电子数据生成原理的角度分析,电子数据是计算机或网络信息系统运行的产物,具有独特的系统性特征,并且通过其科学性、系统性反映出其与生俱来的物质客观性和逻辑关联性。从证据科学的视角看,电子数据包括数据电文信息、附属信息和环境信息,其中数据电文信息也可称作目标数据,是数据(文件)本身的内容,附属信息是该数据(文件)的特征性信息,如校验值、创建时间、访问时间、修改时间、大小等等,而环境信息一般指该数据(文件)生命周期中所依存的硬件、软件、网络等的静态及动态信息。当然,某一特定数据(文件)是电文信息、附属信息还是环境信息是相对的,需要根据特定事件或案件进行判断,比如一个系统配置文件,在针对信息网络的犯罪中可能属于数据电文信息,但在利用信息网络实施的犯罪中又可能属于环境信息。

(二)电子数据的审查判断

电子数据能否作为证据使用,必须对其可采性和证明力进行审查判断。真实性(客观性)、合法性、关联性是刑事诉讼证据的固有属性,电子数据作为一种独立证据形态,也应围绕“三性”开展审查,这一点在2016年9月最高人民法院、最高人民检察院、公安部联合发布的《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》(法发〔2016〕22号,以下简称《刑事电子数据规定》)中予以明确,该规定第2条指出:“人民检察院、人民法院应当围绕真实性、合法性、关联性审查判断电子数据”,该条款对电子数据的审查做出了根本性规定,而该规定也是“两高一部”首次就电子数据制定的一部较为系统全面的专门性规定。在此基础上,公安部于2019年1月出台《公安机关办理刑事案件电子数据取证规则》(以下简称“《电子数据取证规则》”),重点突出对电子数据侦查取证行为的规范操作;2021年1月,最高人民法院、最高人民检察院分别印发《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》(以下简称“《新刑事诉讼法解释》”)和《人民检察院办理网络犯罪案件规定》(以下简称“《办理网络犯罪案件规定》”),专门对电子证据的收集、审查和运用规范指引进行细化。虽然《电子数据取证规则》《新刑事诉讼法解释》《办理网络犯罪案件规定》等内容各有侧重,但对电子数据进行“真实性、合法性和关联性”审查的总体要求是一致的。此外,2021年6月,最高人民法院发布《人民法院在线诉讼规则》(以下简称《在线诉讼规则》),明确了电子化材料的效力和审核规则,而该规则中的电子化材料即包含以电子数据形式存在的材料,并首次对区块链存储的电子数据效力范围和审查标准作出规则指引。此外在理论界,也有学者从比较法学的角度提出了中外电子证据的鉴真问题,实则也指向鉴真规则与证据的真实性、关联性及合法性的必然联系问题。

1.真实性审查

电子数据具有三大特征:容易产生、容易获得、容易被修改,正是由于其容易被修改,而一旦被修改,证据的效力就无从谈起,电子数据的存储形式、介质的特殊性及产生方式决定了它很容易被修改、伪造、破坏、篡改甚至灭失,有些改动易于识别,而有些需通过复杂的专业技术手段加以甄别,因而在司法实践中也是辩护方质疑的重点之一。因此,电子数据的真实性审查是首要和关键的问题。

证据的真实性也称证据的客观性,有两个层面的含义:一是证据载体的真实性,二是证据事实的真实性。电子数据真实性的审查判断与物证、书证等传统证据有较大差别,电子数据的真实性审查归纳为形式和实质两方面。笔者认为,对真实性的形式审查主要关注的是电子数据从收集提取到保管、转移、检验、鉴定等涉及司法、诉讼全过程的程序、方式是否符合规定,即动态因素,包括:(1)是否移送原始存储介质;在原始存储介质无法封存、不便移动时,有无说明原因,并注明收集、提取过程及原始存储介质的存放地点或者电子数据的来源等情况;(2)是否具有数字签名、数字证书等特殊标识;(3)收集、提取的过程是否可以重现;(4)如有增加、删除、修改等情形的,是否附有说明等。而对实质的审查则聚焦其内容的真实性,即静态因素,因此,完整性校验是实质性审查的必要方式,一般需借助一定的技术手段和工具完成,包括:(1)审查原始存储介质的扣押、封存状态;(2)审查电子数据的收集、提取过程,查看录像;(3)比对电子数据完整性校验值;(4)与备份的电子数据进行比较;(5)审查冻结后的访问操作日志等。只有完整性得到确认,电子数据的客观真实性才能得到保证。

在此基础上,《办理网络犯罪案件规定》又分别对原始存储介质、数据镜像、线下提取的电子数据、在线提取的电子数据、冻结的电子数据、调取的电子数据的真实性和完整性的特殊审查内容予以细化,如对数据镜像,需要审查制作数据镜像的工具、方法、过程等必要信息,可操作性更为具体明确。

2.合法性审查

电子数据的合法性审查主要围绕“程序”这一核心要素,注重非法证据的排除。合法性审查的含义包括生成电子数据的设备、系统、程序以及取证技术和工具的可靠性,又强调电子数据从源头到庭审整个流程保管的严密性。《刑事电子数据规定》第2条指出:“侦查机关应当遵守法定程序,遵循有关技术标准,全面、客观、及时地收集、提取电子数据”,实际上表明了作为一个强技术相关性的证据种类,电子数据的取证过程与电子网络信息技术密切相关,因而对电子数据的审查判断也应坚持法定程序与技术标准的统一,即作广义理解:法定程序和技术标准二者都应作为合法性审查的内容。需要强调的是,正是因为电子数据容易被修改,才需要制定完备的操作规程对取证、鉴定等过程加以规制,并随着技术的发展不断补充、更新、完善,最终目的是通过程序合法合规来保证电子证据的客观真实。比照真实性审查,广义语境下的合法性审查也可分为形式合法性审查和实质合法性审查。

形式合法性审查就是审查电子数据取证过程是否符合法定程序,这里的法定程序主要指刑事诉讼法及其司法解释、《全国人民代表大会常务委员会关于司法鉴定问题的决定》《关于办理网络犯罪案件适用刑事诉讼程序若干问题的意见》《刑事电子数据规定》《办理网络犯罪案件规定》《在线诉讼规则》等法律法规、部门规章及规范性文件,主要审查以下内容:收集、提取、保管方法和过程是否规范,取证法律手续是否齐全,取证人员及其他参与人是否符合规定,取证记录是否完备,是否按照规定同步录音录像,境外电子数据收集提取是否符合国(区)际司法协助及其相关法律规定的要求等。对于不同形式的电子数据的审查要求也分别有不同规则予以规制。

形式合法性审查贯穿电子数据从提取到保管、转移、鉴定等证据保管(监督)链的闭环全过程,对于通过不同取证方式获取的电子数据,法律法规已有较为明确的规定,《办理网络犯罪案件规定》等对扣押原始存储介质、数据镜像、线下提取的电子数据、在线提取的电子数据、冻结的电子数据、调取的电子数据、检查和侦查实验报告、鉴定意见(检验报告)等分别提出了需要注重审查的内容。如对电子数据进行检查、侦查实验,其合法性审查内容包括:(1)是否记录检查过程、检查结果和其他需要记录的内容,并由检查人员签名或者盖章;(2)是否记录侦查实验的条件、过程和结果,并由参加侦查实验的人员签名或者盖章;(3)检查、侦查实验使用的电子设备、网络环境等是否与发案现场一致或者基本一致;(4)是否使用拍照、录像、录音、通信数据采集等一种或者多种方式客观记录检查、侦查实验过程。

实质合法性审查可理解为审查取证操作是否遵循技术标准。这里的技术标准指目前我国电子数据提取和鉴定领域的各项标准与技术规范,主要包括国家标准、认证认可行业标准规范、司法鉴定技术规范和公共安全行业标准等,具体包含以下三个层次:

(1)国家标准:主要指由相关标准化技术委员会制定并以国务院标准化行政主管部门的名义发布的标准,与电子数据相关的包括全国刑事技术标准化技术委员会电子物证检验分技术委员会制定的“GB/T 29360-2012《电子物证数据恢复检验规程》”“GB/T 29361-2012《电子物证文件一致性检验规程》”“GB/T 29362-2012《电子物证数据搜索检验规程》”,全国信息安全标准化技术委员会制定的“GB/T 31500-2015《信息安全技术存储介质数据恢复服务要求》”,全国电子业务标准化技术委员会制定的“GB/T 39321-2020《电子合同取证流程规范》”等。

(2)行业标准和技术规范:目前,国内关于电子数据的行业标准和技术规范主要集中在检验与鉴定领域,因而主要由司法鉴定主管部门(司法部)、相关行业主管部门(如公安部)及行业组织制定,如司法部发布的司法行政行业标准“SF/T 0105-2021《存储介质数据镜像技术规程》”、司法鉴定技术规范“SF/Z JD0401002-2015《手机电子数据提取操作规范》”、公安部发布的公共安全行业标准“GA/T1175-2014《软件相似性检验技术方法》”、中国合格评定国家认可委员会发布的认证认可行业标准规范“CNAS-CL08-A001《司法鉴定/法庭科学机构能力认可准则在电子数据鉴定领域的应用说明》”等。

(3)该专业领域多数专家认可的技术方法:有学者认为,所谓该专业领域多数专家认可的技术方法包括该专业领域知名技术组织或者科学书籍、学术期刊公布的方法、仪器设备制造商指定的方法以及其他机构使用的成熟方法,实际上,其属于未经过有权部门确认的具有行业性质的“行业技术方法”,在适用上,这些技术方法不仅要科学,更需要可重复性,得到该领域多数专家认可。

一般而言,电子数据领域的各项标准与技术规范侧重于对仪器设备(硬件和软件)、操作步骤、操作记录、结果等,相对于法律法规规定而言对操作程序的指引更为细致、语言表述的行业技术性更强,对这些标准的严格遵守是对科学方法的尊重,能够最大限度地保证电子数据取证和鉴定的质量。需要指出的是,虽然电子数据领域多为推荐性、指导性标准,但只要鉴定机构在意见或报告中明确了采用的标准就应当受到标准约束,成为实质合法性审查的依据。

3.关联性审查

在证据学上,关联性既指证据与案件事实的关联程度,也包括证据之间的联系。《办理网络犯罪案件规定》对网络犯罪的审查提出了总体性的要求,即“人民检察院办理网络犯罪案件应当重点围绕主体身份同一性、技术手段违法性、上下游行为关联性等方面全面审查案件事实和证据,注重电子数据与其他证据之间的相互印证,构建完整的证据体系”,同时特别强调“注重审查电子数据与案件事实之间的多元关联,加强综合分析,充分发挥电子数据的证明作用”,作出这样的规定,首先是因为从根本上说关联性在很大程度上是一个事实问题,电子数据也不例外;而更为重要的原因是电子数据作为一种单独的证据种类,具有信息量大、自身体系完整的特点,通过关联性审查可以与被告人供述、被害人陈述、证人证言、物证、书证等其他证据相印证,从而发挥查明事实的关键性作用。信息量大,指的是从宏观上说,电子数据种类庞大,是信息时代的“证据之王”;从微观上看,一份电子数据往往信息丰富,可以证明多方面的案件事实。自身体系完整,指的是电子数据产生、来源于计算机系统这一特定环境,既有一定的存储结构,又遵循一定的存储方式,最典型的就是“文件系统”,因此任意一份电子数据都与它的产生环境具有强关联性。

电子数据的关联性,亦可按形式和实质进行分类:形式关联性解决行为人与电子数据及存储区介质的物理关联,即载体关联性,也可称指向标准,属证据资格审查的范畴,解决关联性有与无的问题;实质关联性指电子数据所承载的信息与案件事实存在客观的内在联系,这种内在联系具体表现为,电子数据所承载的信息应当是证明待证案件事实的全部或一部分信息,也可称为内容关联性或功能标准,属证明力审查的范畴,解决的是证明力大小的问题。笔者认为,从证据标准化的角度,刑事案件特别是网络犯罪案件对电子数据关联性的审查可以围绕电子数据与犯罪构成要件认定之间的关联性展开,即电子数据对于犯罪主体、主观方面、犯罪客体和客观方面的证明作用。

(1)主体要件。电子数据关联性审查的首要问题是证明电子数据与主体身份的关联性。包括“人机同一性”和“身份同一性”两方面。所谓“人机同一性”,是指承载该电子数据的电子设备(原始存储介质)是否为待证行为人所有、持有或使用。审查方式主要有两项:一是痕迹关联性审查,即计算机网络系统信息(终端MAC地址、IP地址、域名、路由、通信基站等)是否能与行为人建立关联;二是内容关联性审查,即存储介质中包含的通话记录、短信息、文字聊天记录、文档、图片、视频等信息是否可以印证该介质为行为人所有、持有或使用。所谓“身份同一性”,指的是行为人网络身份与现实身份的一致性,应着重审查行为人网络账户、应用软件账户(账号)的注册信息(如证件号、手机号等),同时有针对性地审查网络账户的上网痕迹、通信账号内的交流内容、支付账户内记载的物流、支付结算、生物识别信息(人脸、声纹、指纹等),以及数字签名信息等等,实现虚拟身份到现实身份的关联。需要指出的是,无论是“人机同一性”还是“身份同一性”,有些可以通过电子数据之间自身产生的关联性实现身份认定,如在网络身份与现实身份是否同一的认定上,使用电子设备可能面临解锁,登录特定的网络账号会面临再次验证,登录后的操作会留下数据痕迹,而人脸识别、指纹识别、声纹识别等技术方法的运用,或者特定通讯设备接收的验证码方式,基本可以排除他人冒用的可能,因此,即便没有言词证据佐证,基于虚拟空间电子数据环环相扣的印证,特别是生物识别技术的运用,完全可以做到网络身份与现实身份的同一认定;但如果仅靠电子数据之间自身产生的关联性不能形成完整的主体身份证明链条,一般都还应当结合全案其他类型的证据加以综合判断认定。

(2)主观方面。犯罪的主观方面包括罪过、目的动机以及认识错误等。比如,行为人是故意、明知或相信结果、情况确实存在,还是只是怀疑相关结果、附随情况可能出现,对责任认定具有重要意义,同时也应考虑共犯、未完成的帮助犯和教唆犯等刑法理论对于认定实行犯以外的人的责任。司法实践表明,网络犯罪主观方面的认定是办案中的难点问题,因为有的犯罪如不纯正的网络犯罪是一种非接触性的犯罪,手段行为及其隐蔽;还有的犯罪如网络传销性质的犯罪、网络黑灰产犯罪产业链长、分工精细,线索事实难以摸清;再如帮助信息网络犯罪活动行为中是否“明知”的认定标准也是实践中的难题。因此不能仅通过嫌疑人的供述或涉案数额、造成的损失等进行简单推定,需要通过电子数据与其他证据的关联性审查查清行为人和团伙的认知能力、专业水平、既往经历、人员关系、内部分工、行为次数、获利情况等因素,如审查社交通讯记录、发布内容、浏览记录等电子数据发现其与行为人主观故意之间的关联性;审查是否采用“阅后即焚”的通信方式、隐蔽身份和位置信息的上网方式,以发现其与行为人目的动机之间的关联性;综合审查网络数据内容、操作的过程,以及程序代码的功能特性,以发现工具的违法性以及网络行为的恶意性;审查电子数据反映出的网络空间中行为规则的违背性、正常操作提示的知晓程度以及支付结算的对象、频次、数额是否与正常交易习惯明显不符来判断自身违法性认识等。

(3)客体要件。在刑事司法中,以侵害法益为基础的证据链构建,是以实体法背景下证据链构建的最主要方法,这一方法的核心是将客观行为与刑法规定进行比对、分析,以确定客观行为的危害性质。某一行为及其造成的结果侵害的是哪一种法益,需要通过构建证据链加以综合认定,对于传统类型犯罪,电子数据这一类型证据一般仍然通过审查其内容与其他证据的关联性加以定性;而对于计算机网络犯罪,通过电子数据分析其利用的程序工具、技术手段的功能及其实现方式、犯罪行为和结果之间的关联性往往可以成为准确认定行为所侵害的客体、厘清此罪与彼罪的关键。一方面,从刑法立法与司法的逻辑来看,网络犯罪或以计算机、网络、系统、数据作为直接、间接犯罪对象,或以它们作为工具、介质、手段,因此在网络犯罪中,电子数据这一数据类型除了内容关联性审查外,需要进一步通过深度的技术分析挖掘犯罪行为和结果之间的关联性。如在微信“抢红包”类犯罪案件办理中对技术功能和功能的实现路径、机理进行分析。再如通过分析特定平台建站方式植入木马程序的方式非法获取网站服务器的控制权限,进而通过“菜刀”等软件修改、增加计算机信息系统数据向相关计算机信息系统上传网页链接代码的行为。具体案件中具体的行为属于非法侵入、非法控制还是破坏计算机信息系统,需要进行工具功能和操作行为的技术层面解读。另一方面,网络犯罪会对计算机系统的管理秩序造成严重破坏,也往往会直接严重危害到其他社会利益,也就是说,有些网络犯罪侵犯的是复杂客体,是对两种或者两种以上直接客体进行侵害的行为。比如在非法侵入计算机系统犯罪中,一方面侵犯了计算机系统所有人的排他性的权益,如所有权、使用权和处置权,另一方面又扰乱、侵害甚至破坏了国家计算机信息管理秩序,如非法利用网络信息,同时还有可能对受害人的计算机系统当中数据所涉及的第三人的权益如虚拟财产造成危害,因此,侵犯的究竟是单一客体还是复杂客体,需要通过对提取、鉴定的电子数据体系所反映的客观事实进行具体的分析甄别。

(4)客观方面。犯罪的客观方面聚焦的是行为以及由此造成或可能造成的结果,也包括时间、地点、方法、手段等要素。有学者提出了电子证据的“场”理论,即电子证据是虚拟的作案场所,可以通过整体分析重建虚拟现场还原和证明案件事实。这一论断表明,基于整体分析的电子数据关联性审查是查明犯罪客观方面的重要手段。还有学者提出,需要构建多维度立体式的关联鉴真规则,综合考虑其与行为人、行为对象以及单机或网络运行环境的关联关系,特别是单机或网络运行环境这一要素与客观方面往往联系紧密,如欲证明行为人发布了不具有特定指向性的电子数据信息时采用查验其电脑的上网记录及硬盘内容的方式,以及证明行为人发布了具有特定指向的电子数据信息时,采用对其附属电子数据信息、该电子数据传输路由及服务器日志分析等网络及系统运行环境反映出的基本要素进行鉴真和分析的方式,就是通过网络运行环境获得行为、时间、地点、方法、手段等客观要素的具体体现。笔者认为,对于网络犯罪应注重从以下几类电子数据中提取客观方面要素:一是网络、设备、应用程序(包括恶意程序)、软件源代码、开发平台等作案工具及运行环境;二是系统日志、网络日志、应用系统审计记录、上网浏览历史记录、即时通信工具信息、支付和转账记录、购物记录、物流信息、行程记录等反映操作者行为及违法所得、经济损失、被侵害程度等的信息;三是域名、IP地址、移动基站、热点、GPS定位等反映使用人行为轨迹的信息;四是服务器日志、中间件日志、网络交换设备日志、网络安全设备日志等能够反映对信息网络运行造成影响程度的内容;五是数据库等数据中涉及账号数量、点击数、转发数等能够反映对网络秩序产生危害程度的内容以及在诸如传销、洗钱、侵犯公民个人信息等上下游犯罪中的人、财、物、行为之间的关系、流向和结构。

最后需要指出的是,真实性、合法性与关联性三者之间既相互区别、又相互联系并以真实性为中心,共同保证电子数据的证明力。有文献指出:电子数据具有双重载体的特点,应分别审查电子数据介质载体的真实性、数据载体的真实性和证据内容的真实性,所谓的内容真实性指所包含的事实信息是否真实可靠,即与其他证据相互印证,正体现出了电子数据真实性审查与关联性审查的联系;而介质载体与数据载体的真实性必然建立在证据来源合法性的基础上,又体现出真实性与合法性的必然联系。

(三)网络犯罪电子数据审查判断的实践障碍

尽管电子数据已被越来越多的理论学者和司法实务人员认作当代证据学领域效力最优的证据之一,但面向传统犯罪的电子数据取证程序以及收集、审查规则规范在网络犯罪语境中呈现出一些现实难题,较为突出的有以下几方面。

一是海量数据取证问题。网络犯罪面临计量对象海量化,海量电子数据的使得犯罪事实的证明和认定不再如传统犯罪那般简单与迅捷。虽然大数据证明代表了以算法为核心的证明方式变革方向,但其推广应用还有待算法的突破和应用的迭代完善。在这种情况下,按比例对电子数据进行抽样取证成为实践中较为常用的做法。正因如此,《关于办理信息网络犯罪案件适用刑事诉讼程序若干问题的意见》第20条第一款专门对比例原则的适用进行了说明和规定,在这样的情形下,针对个案如何科学地选取电子数据审查的对象和检材、如何证明选取的对象和检材确实包含了所有证据材料的性质、特征、功能,如何科学地确定比例数值、如何系统客观地开展说明论证,等等,将是审查的重点和难点所在。

二是涉云取证问题。一些新型网络犯罪如电信网络诈骗,在传统跨地域的基础上,出现了跨平台的趋势,信息网络犯罪的相关银行账户、网络数据往往遍布各地,采用传统取证方式往往效率低下,而向案外第三方网络服务提供者调取电子数据往往又存在周期较长的弊端。为提高取证效率和取证质量,实践中越来越多地采用云端在线提取电子数据的方式。云取证是计算机取证原则和程序在云环境中的应用,是利用云计算服务,在云端发现、采集、固定电子数据,并通过分析整理形成证据材料的过程。然而,作为,云取证尚无相关的具体程序性规定及技术标准,给该类电子数据的审查也缺乏足够可操作的规范予以支撑。

三是跨境取证问题。对于境外获取的证据材料,在合法性审查上则更为复杂,主要涉及以下四个方面的问题:一是材料形式合法性问题,即审查证据材料在形式上是否符合我国刑事诉讼法的规定;二是境外执法人员的取证在我国的“适法性”问题,需要通过审查相关条约、司法协助协议等证据材料予以解决;三是解决证据保管链的完整性问题,即需要对移交程序进行审查;四是境外证据材料的公证和认证等法定程序的审查问题。

二、电子数据审查判断规则的数据化建模

证据是诉讼的核心要素,是裁判的基石,对于保证案件质量、实现司法公正具有关键性的作用。证据标准的制定实施将有效引导办案人员按照法律规定的证明标准、证据规则以及办案程序全面合法地收集、固定证据,从根本上解决诉讼过程中证据标准不统一带来的司法不公问题,规范司法裁量权,减少司法任意性,确保每一件案件都经得起法律的检验。

(一)证据标准的数据化

尽管证据标准的制定可以解决制度层面的问题,但在操作层面这些标准如何与办案工作紧密结合是影响其效果发挥的关键所在。当前,随着数字中国、政法大数据、司法人工智能等国家战略的大力实施,公、检、法、司各系统通过再造办案流程、办案规范,网上信息化办案已逐渐取代以往的传统办案模式,科技运用不断赋能高质量发展,国家治理现代化水平得到显著提升。一方面,案件流转、文书制作、电子印章等业务办理基本功能已趋于稳定成熟,另一方面,大数据、人工智能、区块链等前沿技术在音视频智能分析、电子阅卷等智能化办案辅助领域的应用正全面推开,还有一些地区逐步打通单位间的信息壁垒,政法网络的互联互通、政法数据的共享共用极大地提升了办案效率,毫无疑问,诉讼全流程电子卷宗网上流转的办案新模式必将成为未来案件办理的主流。在这样的形势下,在现有信息化系统的基础上探索将证据标准嵌入办案流程,将充分发挥信息化手段对案件办理起到的规范化作用,促进刑事诉讼整体提质、增效。因此,在技术层面将证据标准嵌入办案流程,即实现证据标准的数据化,是落实制度层面证据标准的一种重要实践手段,更是政法协同办案迈向智能化的关键环节。

证据标准的数据化,是指将证据标准转化为由数字化符号逻辑表示的计算机可以运算、推理的证据标准体系。与之相对应的,是个案信息的识别、提取与归类,同时辅以人工标注、核对和校准,从而实现个案要素信息的结构化。基于以上两项主要工作,计算机就可以将结构化的个案信息与嵌入办案流程的证据标准自动关联匹配,实现对证据的摘录、甄别和处理,达到自动检验收集程序、形式要件和内容要素是否合规和合法的目的,进而对证据链进行逻辑分析,判断证据是否合理、证据之间有无矛盾,以解决证据的收集和使用过程中存在的两大难题。

数据化的证据标准以计算机可以识别的符号、关系和规则表达式为外在形式,但其内在语义仍然是法律语境下的证据规则体系,因此该过程属于以应用为目标的特定领域建模,即将司法实践中的证据标准映射到逻辑数学模型上。为了实现模型构建,需要事先对证据标准体系进行层次式分析。通用的建模技术一般采取自顶向下或自底向上分析法、图谱分析法等等。证据标准体系具有层次交错的特点,首先,证据标准可以分为一般证据标准和各罪名证据标准,如贵州省出台的基本证据要求分为两个部分:一般规定和常见类型案件的个别化证据要求;第二,证据的种类可以有多个层次,一是基本种类,包括刑事诉讼法规定的物证、书证、证人证言等若干大类,二是收案信息、立案材料、破案材料等具体证据材料分类,再进一步可以具体到法律文书和工作文书的不同种类;第三,按照证据收集固定的阶段,可以按照立案阶段、侦查阶段、审查逮捕阶段、审查起诉阶段等将证据归类;此外,还可以按犯罪情节的证据、定罪量刑的证据划分,等等。因此对证据标准体系分析宜采用网状图谱式结构,构建法律法规、证据审查等多维度的思维导图。

对证据标准体系建模,其手段就是要借助大数据、人工智能技术改造证明标准,目的是实践证明标准的具体化,有文献指出,人工智能的运作逻辑其实是“基于知识或信息的逻辑”与“基于规则的逻辑”的统一,人工智能工作的对象是将大量的案件事实与法律规则处理为知识、信息,其原理是从知识数据库中归纳出模型(建模)并运用于新案件,所以智能系统最关键的任务就是建立有关法律领域的概念模型。而这种概念模型,并非只是简单地描述证据的概念,而应当表达更为丰富的逻辑关系,成为完整的证据标准体系,才能形成法律知识库用于规则推理和案例分析。

证据标准数据化的过程最终得到的是证据标准模型。总的来说,证据标准模型应当涵盖证据的概念模型和证据的规则模型两个方面。证据的概念模型描述的是法律规定的不同种类证据的自身特性及相互关系,即以某一种证据作为概念实体,其种类、形式、数量等证据的特性、要求、规范作为属性,建立实体与属性、实体与实体之间的关系。而证据的规则模型是根据相关法律法规规定,能够体现证据在审查过程中为满足证据“三性”要求的一系列条件和约束,这些条件和约束应当能够全面反映证据规则体系。

证据标准模型的作用体现在:模型嵌入计算机系统后,系统可以进行证据的逻辑排列组合,也可以根据设定的证据审查规则供计算机进行判断比对,或者进行案例的机器学习和推理训练。对于具体的案件,嵌入模型的智能辅助系统可以自动从法律文本中提取出证据实体要素,根据证据的概念模型进行元素解构,建立实体、推理属性值、构造实体间的关系,并按照规则模型逐一进行规则判断。

(二)基于知识图谱的电子数据证据标准数据化建模

在司法实践中,证据的载体通常是各类具有法律意义的非结构化文本,需要通过计算机的智能化处理转化为易于分析计算的结构化数据。法律文本以自然语言描述,而且包含大量的法律领域术语词汇,能否准确反映文本中的语义关系、抽取法律元素,是选取证据标准模型必须考量的主要因素。因此证据标准的数据化需要采用一种既能表达丰富的实体间关系,又能够理解和分析语义、适合进行规则推理的建模框架。

另一方面,当前数据化的证据标准领域研究还存在以下几个问题:一是主要停留在“证据规格”层面而非“证明”层面,虽然实现了统一的数据化的证据标准,但还不是统一的数据化的证明标准,二是系统功能主要集中于证据的数量及合法性审查方面,对于机器如何审查判断证据关联性、真实性等问题尚未解决,三是系统在证据合法性自动审查方面主要是形式审查,在实质审查方面还存在一些障碍。

针对上述两方面难题,同时鉴于网络犯罪治理“应当坚持技术与法律的双重标准”所反映的客观规律和司法活动内在要求,在众多建模框架和技术中,本文采用一种伴随互联网和人工智能技术发展在业界引起广泛关注的一种知识学习手段——知识图谱模型作为网络犯罪案件电子数据审查判断的数据化模型,该模型同时具备逻辑优势和技术两方面的优势。首先,在逻辑上,由于知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相关关系,这种建模技术尤其适合描述客观世界中的各种概念、实体及它们相互之间的关系,而且在非结构化和半结构化数据的特征提取、内容检索和表示理解方面具有独特优势,契合了法律文书及为数众多的半结构化形式的电子数据的智能理解智能分析的需求。其次,在技术优势上,由于网络犯罪案件中电子数据是主要的数据形式,而且往往以海量的形式出现,知识图谱具有优秀的海量数据处理分析能力,契合了网络犯罪案件的证据审查需求。

1.证据标准数据化建模的技术路线

知识图谱以结构化的形式描述客观世界中概念、实体及其关系。具体地说,知识图谱一般由概念、实体、属性、关系和推理规则等构成,其中,概念是对客观世界中具有相同属性事物的抽象,是将人们对世界认知联系在一起的纽带,实体是概念的实例化描述,属性是对概念或实体的信息描述,关系是概念、实体或属性之间的关联,包括了概念之间的层次关系、属性与值的关系、概念与实体的对应关系,等等,推理规则是用以进行关系、属性值等推理的形式逻辑。随着法律人工智能的兴起与行业应用的逐渐落地,法律行业的知识图谱正在成为学界研究的热点问题之一,法律知识图谱的构建是人工智能司法应用的先决问题。完全的法律知识图谱应当覆盖法律法规、司法案例、证据指引等多个知识库子集,且涵盖刑事、民商事等多个领域,虽然构建过程将较为漫长,但其在司法办案、案例检索、律师行业、法律普及等方面应用前景值得期待。目前各子领域的研究都尚处于探索和实践阶段,鉴于证据标准化建模在智能辅助办案中的关键性作用,利用知识图谱技术对证据标准建模将具有重要理论和实务价值。

证据标准的数据化建模,其核心是法律知识和法律事实的计算机表示和推理。本章以电子数据为主要对象进行证据标准的知识图谱数据化建模,方法的主要框架是:从证据的基本分类和电子数据的审查判断规则入手,层层递进展开,形成模式层的知识图谱,再针对网络犯罪具体案件构建数据层知识图谱,最后将数据层实例与模式层实体进行匹配,辅助办案人员完成证据的综合审查判断。

模式层知识图谱构建的具体过程是:首先,根据法律领域相关主题词确定概念实体集和各实体的属性集,以及实体之间的各种基本关系和特定关系种类,形成概念层图谱。其次,逐一建立证据审查判断规则,包括单一证据的合法合规性校验,具体证据的收集、固定、保存、运用的规范校验,证据链条完整性判断,验证事实是否有证据印证、逻辑关联性以及言词证据有无矛盾,等等。同时,结合法律语料库进行文本的信息抽取和标注。

模式层的知识图谱建立以后,系统要能够自动完成规则推理,还需要对具体案件建立个案法律知识图谱,即数据层知识图谱。数据层知识图谱的建立有以下几个关键环节。一是要素提取,即在电子卷宗基础上建立“要素-证据”关联机制,由系统OCR技术识别结合法律语料库提取证据元素实体,进行关系抽取、属性识别和属性值填充。二是实体消歧和实体统一,在采用实体链接技术对实体做匹配时,需要进行实体消歧和实体统一操作。实体消歧是机器在自然语言理解过程中,面对同一个词组在不同的上下文中所表达的不同含义而做的技术区分,使之指向不同的实体;实体统一也称作共指消解,是在两个用不同的方式表达的实体指向同一个语义时所指向同一实体的技术处理。三是分类标注,即类别标签标注,该操作既可以用来解决实体之间的消歧,也可以增强实体的语义。标注一般采用先自动后人工的方式,即首先采用文本分类技术由机器为要素打标签,后期由人工进行校正。四是关系、属性推理。实体建立完成之后,系统根据预设规则进行关系的推理和属性的识别与填充。五是模式匹配,即将模式层概念与数据层实例进行匹配,实现实例与概念实体、实例与属性的关联,完成数据层知识图谱的构建。

个案数据层知识图谱建立完成之后,系统逐一读取计算机形式化语言表述的规则文档表述的证据审查判断规则,提取规则所需的实体元素进行运算,得到运行结果,辅助司法人员对每一证据的真实性、合法性、关联性进行审查判断。

2.模式层证据标准的知识图谱构建

模式层知识图谱构建的具体过程是:首先,根据法律领域相关主题词确定概念实体集和各实体的属性集,以及实体之间的各种基本关系和特定关系种类,形成概念层图谱。其次,逐一建立证据审查判断规则,包括单一证据的合法合规性校验,具体证据的收集、固定、保存、运用的规范校验,证据链条完整性判断,验证事实是否有证据印证、逻辑关联性以及言词证据有无矛盾,等等。同时,结合法律语料库进行文本的信息抽取和标注。

知识图谱是一个由节点、边组成的有向图,我们用形式化方法将模式层证据标准知识图谱SKG定义为一个二元组SKG={N,E},其中:N为节点集,n是节点集中的一个节点,表示概念或实体;E为边集,e是边集中的一条边,表示概念、实体间的关系或属性。本体(Ontology)是实体存在形式的描述,往往表述为一组概念定义和概念之间的层级关系,通常被用来为知识图谱定义模式。本体表示是构建证据标准知识图谱的较为高效的方式,可以认为本体是知识图谱的知识表示基础。通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体以及用以本体建模的Web本体语言(OWL)具备更为丰富的语义表达能力,能够系统地表现抽象的事物,尤其适合于描述相关专题(譬如法律)的基本术语、关系以及术语和关系构成的规则。

从本体的观点看,节点之间的关系可以分为二元关系和多元关系,二元关系主要包括:EQU(等同)、SUB(子集)、ALI(相似)、DIS(无关)、CAU(因果)、ORD(序)、PAR(属性)、SKO(信息依赖)等;多元关系主要包括:FPAR(子图)、NEGPAR(否定)、POSPAR(可能性)、NECPAR(必要性)等。每种基本的关系还有各种具体关系形式,如“……是……”这样的“ISA”关系就是FPAR关系的一种形式。这些关系通过知识图谱中节点与节点连接的边来体现。

为了建立证据标准的知识图谱模型,本文首先采用OWL对证据的概念体系进行语义层面的描述,并将“证据”作为顶层本体(一级本体)。刑事诉讼法规定了八大类证据:(一)物证;(二)书证;(三)证人证言;(四)被害人陈述;(五)犯罪嫌疑人、被告人供述和辩解;(六)鉴定意见;(七)勘验、检查、辨认、侦查实验等笔录;(八)视听资料、电子数据,以此为依据建立八个二级本体。需要指出的是,尽管现行诉讼法将电子数据与鉴定意见和勘验、检查、侦查实验笔录并列,但在司法实务中,电子数据勘验检查和检验鉴定是网络犯罪侦查办案不可或缺的重要手段,同时在证据学理论中均遵循洛卡德交换原理,因此对电子数据的审查判断特别是真实性、合法性的审查应当涵盖电子数据勘验、检查、侦查实验笔录以及电子数据鉴定意见、检验报告等,而且对电子数据的关联性审查离不开其他几种证据类型,故本文模型涵盖所有八个二级本体。对于具体的证据种类,如“网络通信信息”“远程勘验笔录”等,建立三级本体,然后顺次向下建立直至该本体为原子类型不可再分。

对于本文建立的模式层证据标准而言,规则主要是指以语义表示语言描述的证据审查判断规则。结合上文模式层证据本体的构建,这里我们采用语义Web规则语言(SWRL)对规则建模。SWRL的核心是以“推理前提⇒推理结果”作为规则的表达形式,SWRL模式以head表示推理结果,body表示推理前提,head和body中的限制通过atom或variable元素定义。构建证据审查判断规则模型,就是根据模式层的证据本体定义,将用自然语言描述的真实性、合法性、关联性审查判断规则文本翻译为SWRL规则表达式的过程。

真实性规则:如规则“对扣押的原始存储介质,《扣押清单》写明原始存储介质名称、编号、数量、特征及其来源等,由侦查人员、持有人(提供人)和见证人签名或者盖章”,用“推理前提⇒推理结果”的形式可以表达为:如果该电子数据“扣押清单”实体中的“存储介质名称”“编号”“数量”“特征及其来源”“侦查人员”“持有人(提供人)”“见证人”这些属性值均不为空,则推理结果result的值为1,否则result的值为0。再如“比对电子数据完整性校验值”可以表达为:如果该电子数据实体中的“完整性校验值”属性值与该电子数据“扣押清单”等实体中的校验值属性值均相同,则推理结果result的值为1,验证通过,否则result的值为0,验证不通过。

合法性规则:如规则“鉴定意见的形式要件是否完备,是否注明提起鉴定的事由、鉴定委托人、鉴定机构、鉴定要求、鉴定过程、鉴定方法、鉴定日期等相关内容,是否由鉴定机构盖章并由鉴定人签名”,用“推理前提⇒推理结果”的形式可以表达为:如果该电子数据“鉴定意见”实体中的“提起鉴定的事由”“鉴定委托人”“鉴定机构”“鉴定要求”“鉴定过程”“鉴定方法”“鉴定日期”“鉴定机构盖章”“鉴定人签名”这些属性值均不为空且“鉴定人数量”属性值大于等于2,则推理结果result的值为1,验证通过,否则result的值为0,验证不通过。

关联性规则:对于关联性规则的制定可以有两种基本方式,一种是布尔型,即结果值为1时通过、为0时不通过,如对组织、领导传销活动行为进行主观方面要件审查时,规则“以推销商品、提供服务等经营活动为名,要求参加者以缴纳费用或者购买商品、服务等方式获得加入资格,并按照一定顺序组成层级,直接或者间接以发展人员的数量作为计酬或者返利依据,引诱、胁迫参加者继续发展他人参加,骗取财物,扰乱经济社会秩序的传销组织,其组织内部参与传销活动人员在三十人以上且层级在三级以上的,应当对组织者、领导者追究刑事责任”可以通过ALI和ORD表达的实体间的序关系计算得出的COUNT(人员实体)和COUNT(层级)的值,从而判断推理结果result的值。另一种是阈值型,即以[0,1]区间内的结果值来量化关联度,表示关联程度的概率大小。关联度的值越大表明关联性越强,关联性越强则证据的证明力越强。已有学者提出了基于独立来源证据的概率乘积规则设计的“电子证据印证公式”解决其采信问题,并以典型的网络犯罪案件“快播案”为例说明案件事实认定背后的逻辑法则,而这种公式及基于公式的规则亦可用本体关联度及SWRL规则和贝叶斯网络模型进行形式化表达和计算。

3.实例层知识图谱构建

实例层知识图谱也称数据层知识图谱,在知识图谱的数据层,知识以实例或者事实的形式存储于图数据库。对于个案的证据审查判断过程而言,构建实例层的知识图谱,就是通过数据库的结构化信息提取以及文书、电子数据等非结构化数据的信息抽取与要素识别,将实例所体现的案件犯罪构成要件要素对概念层实体的实例进行属性值填充和关系构造,实现实例层知识图谱与证据概念本体的要素匹配,为审查判断规则的自动运行提供数据输入。

与模式层类似,我们形式化地将实例层知识图谱IKG定义为一个二元组IKG={N,E},其中:N为节点集,n是节点集中的一个节点,表示实例;E为边集,e是边集中的一条边,表示实例间的关系或属性。IKG中的每一对节点以及连接这两个节点的边都可以用〈实例—关系—实例〉或〈实例—属性—属性值〉三元组表示。根据知识图谱工程的方法,IKG构造的主要步骤包括实例抽取、关系构造和属性值填充等。

实例抽取:实例抽取是指从各种证据材料文本中识别出证据要素的过程,该操作在自动化运行时其准确度和精度高度依赖于OCR、自然语言处理(NLP)、机器学习、启发式算法等的技术水平,对于法律领域词汇的识别效率还取决于法律语料库中专业词汇和惯用句式的丰富程度。进行实例抽取的证据材料除了包括各类结构化和半结构化的电子数据,还包括各类文书。也就是说,实例既可能从单一的证据材料中抽取。

关系构造:实例与实例之间的关系构造,其目标是根据模式层的关系定义进行匹配,逐一建立边将节点两两连接,使得数据层知识图谱表达的语义能够接近文本所蕴含的一般关系和法律关系。通常从构造基本关系开始,如证据实例间的“EQU”关系、“SUB”关系、“PAR”关系等等;接下来构造特定法律关系,如鉴定人鉴定机构与鉴定对象之间的“鉴定与被鉴定”关系等;最后构造与证据“三性”要求有关的各种关系,如对于真实性和合法性,比较典型的可以用EQU、ALI等关系进行形式化表达;对于关联性,可以用DIS表示无关性,CAU表示因果关系、ORD表示时态逻辑、SKO表示特定的依赖关系,等等,即通过CAU、ORD、SKO等关系构建法律图谱形式的证据链。

属性值填充:在关系构造时如果确定了A与B之间具有“PAR”关系,则表明B是实例A的一种属性,在属性值填充这一步骤就需要对B的值进行确定。对于法律文书而言,由于属性的值存在于文本中,要让机器能够做出判定,必须事先预设规则,通过句式、正则表达式、线索词进行截取、甄别,如,我们可以设定:“在《电子数据司法鉴定意见书》中‘鉴定人(员)’:后面的内容为鉴定人”作为某一份电子数据的“鉴定人”这一属性的属性值,又如设定:“在《电子数据司法鉴定意见书》中‘MD5值’或‘SHA1值’或‘SHA256值’后面的内容为完整性校验值”作为某一份电子数据的“完整性校验值”这一属性的属性值,等等。而对于一份电子数据的结构化或半结构化文本,其抽取一般需要更为丰富的领域语料库作为支撑,为提高机器判定的准确率,需要依靠机器学习算法进行长期的语料训练,对规则进行修正和完善。

通过以上步骤构造完成的实例层知识图谱用OWL文本的形式描述。OWL模式除了可以描述概念本体,还可以通过定义元素描述实例、元素反映实例与模式层本体的“ISA”关系、为实例的属性赋值,标明证据实例与证据概念本体的自动匹配。在此基础上,系统即可按照SWRL文档设定的规则进行证据的审查判断。

4.法律语料库的构建

法律语言属于“领域语言”的一种。从内涵上说,法律语料库是表述法律意义的语言材料的集合,而从外延上说,如果表达了法律上的约束力,该表述即可以属于法律语言。因此,语料库的取料范围可以包括各类法律法规、司法解释、国际条约以及司法文书、执法文件、生效合同以及产生过法律意义的各种笔录等。

法律语料库是系统动态维护的解析法律文本的知识结构,语料库的丰富程度直接决定了元素解析的准确程度。法律语料库构建的步骤一般是:按照法律系统的内部体系对所有语料进行编排形成初步的生语料库,然后由系统进行自动分词和词性标注、词频统计,经过人工校对后生成法律词表,提取法律词汇,生成包含法律术语、法律基本用语和法律语境常用词汇在内的法律基本词汇表,最后分析总结法律领域的惯用表达句式。众所周知,自然语言表达具有句式的多样性和语义的复杂性等特点,因此,采用合适的机器学习方法以及人工专家标注是语料库构建过程中的必要手段。在系统使用过程中,系统分析的案例将作为机器学习训练的语料,得到新的词汇或者句式自动添加进语料库。

语料库一般以XML格式的文件存储。在本文的方法中,计算机使用法律语料库作为语词和句式的比对的辅助工具,可以更加精准地对具体的案例文本进行法律语词的识别提取,实现文本自动分类。系统通过使用自然语言处理(NLP)技术解析句式结构、匹配法律语料库中的语词,根据本体间的关联关系将法律文本映射为包含语义信息的实例,形成实例层知识图谱。

结论

数字化背景下,数字治理之路成为社会治理现代化的必然选择。作为“数字法治”“数字正义”的重要组成部分,数字化法律监督变“离线”监督模式为“在线”,变“文本驱动”为“数据驱动”,社会治理监督效能将由“单一”走向“多元”。数字化社会治理需要数据要素赋能、治理方法支撑,数字治理在共建共享共治的数字社会治理体系中作用举足轻重。电子数据在网络犯罪案件中能否发挥其应当具备的证据能力和证明力,对其真实性、合法性、关联性的审查判断至关重要。针对网络犯罪在证据裁判等方面面临的难题和挑战,以及互联网电子证据收集过程中的技术性缺陷,准确把握电子数据的法律规制,深入剖析电子数据的技术原理,从技术层面寻求建模方案,将是破解治理难题、提升网络空间治理水平的一条数字赋能的崭新路径。在这一过程中,法律知识的正确表示才是法律大数据应用开发过程中需要最优先考虑的问题,它搭建了从数据到知识的技术桥梁,基于这一理念,本文选取知识图谱作为法律知识的数字化表示方式,围绕证据标准这一核心问题,探索电子数据审查判断的人工智能创新方法,为办案人员提供辅助,以期提升司法公信力。下一步,将针对相关重点类案的证据规格及建模样本数据分析方面作进一步研究。

王迪|数字赋能法律监督现代化研究

版权声明:本站发布此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,请读者仅作参考,并请自行核实相关内容。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

(0)
菩提菩提
上一篇 2024-02-02 16:26
下一篇 2024-02-02

相关推荐