来源:庭前独角兽
作者:穆昱
特别提示:凡本号注明“来源”或“转自”的作品均转载自媒体,版权归原作者及原出处所有。所分享内容为作者个人观点,仅供读者学习参考,不代表本号观点。
关键词:法律数据库的判断和选择 V1
作为一名法律工作者,检索工作非常重要,好的检索至少要具备三个条件:1、法律数据库的基本数据够全、够新;2、法律数据库提供足够高效、有效的检索手段;3、好的检索思维。
关于法律数据库的介绍已经有很多,伴随着数据库之间的竞争和互相学习,各大数据库间的数据和检索手段看起来也大同小异,但在实际检索中却会呈现出比较大的差异,法律工作者在检索中也经常会问,我们究竟应该用哪个数据库?本文即从展现各数据库的客观运行效果出发,对比主流数据库的数据及检索手段,以辅助法律工作者在对特定事项进行检索时,判断和选择最适合的法律数据库。
注:检索人员并非数据库的研究及开发人员,故对数据库的各项功能不可能有最为全面的掌握,但是检索人员根据数据库的检索指南或者页面指示,尽可能地尝试各条检索路径,以最大限度地挖掘数据库的数据及功能。如果有操作遗漏或者失误,欢迎各位指出,我们会在后续版本中予以改进。
研究对象及内容
本次研究集中于当前法律诉讼群体中普遍应用的数据库,包括:
1.中国裁判文书网(免费账户登录)
http://wenshu.court.gov.cn
2.法信(免费账户登录)
http://www.faxin.cn
3.无讼(免费账户登录)
https://www.itslaw.com/bj
4. Openlaw(免费账户登录)
http://openlaw.cn
5.北大法宝(通过上海“东方律师网”中的“法规检索模块”登录)
http://shlx.pkulaw.cn
6.威科先行(收费账户登录)
https://law.wkinfo.com.cn
7.律商网(收费账户登录)
https://hk.lexiscn.com
本文研究内容集中于各数据库的法律法规数据、司法文书数据、最常用的检索手段(如关键词检索、法条引用检索等)的实际操作。
本文数据的检索时间为2019年2月22日至2019年2月28日。
注:各数据库会有一些其他突出的特点,如法信的法信大纲、无讼的天同码、律商/威科的实务版块等,限于本文主要研究目的,本文对于数据库的各项功能不作全面介绍。
法律法规数据
1
基础数据
注:
1.单元格内容为“*”刷灰的,表示检索人员没有发现对应功能的入口。
2.检索人员未发现“openlaw”关于法律法规的检索入口,但是在案例中发现有法律法规的链接,点击法规,可以进入法规检索页面,但是只有关键词检索,且没有数据统计,故检索人员没有作进一步的分析。
3.律商未直接提供法律法规总量数据,检索人员以关键词组合、起始日期设计等方式尝试检索,发现不同检索模式下检索结果并不相同,当前选择数据量最高的记录。
4.律商未提供法律法规英文版的总量,检索人员系选择“高级检索”模式下的“仅英文”选项确定相关数据。
5.威科也提供了部分法律法规的英文版本,但是检索人员未发现检索入口,无法统计数据。
6.北大法宝英文版需要进入其他版块另行收费:http://en.pkulaw.cn。
2
小结
1.从数据总量来看,律商最高,法信相对低,不过在具体关键词的检索中,法信直接的检索结果并未呈现出明显的劣势,相反,在特定关键词上有一定的优势。
2.以特定关键词进行检索时,数据库呈现出了错峰优势,研究人员分析可能与数据库收录文件特点有关,比如有些数据库比较重视特定专业领域,有些数据库对地方文件的收录比较重视等。
3.从数据更新来看(以2019年收录数据为标准考量),威科的数据有明显优势。
4.从对国际条约和港澳台法规的收录来看,仅从本次研究地址下的数据库而言,法信和北大法宝有明显优势。
5.从英文版的提供来说,律商有优势,并提供相关检索选项;北大法宝也提供英文版,但需要进入另外一个收费子库;威科虽然有英文版,但是检索人员并未发现检索路径。当然英文版的质量如何,需要具体使用的人来评判了。
6.从检索人员个人的用户体验来说,法信、威科很友好,界面清晰,检索简单,检索结果的呈现也很清楚;律商则显得不太友好,光入口就有三个,不同入口进入,检索结果还呈现出一定的差异;对于同样的“精确检索”,在不同模式下出现了“精确搜索”和“传统检索”两种表达方式;对于“精确搜索”的说明是“使用双引号”,但实际只有使用“半角英文状态的双引号”才能实现“精确”的结果。
司法文书数据
1
基础数据
为更好地观察上述数据,我们看一下年度数据的折线图:
2
小结
1.从数据总量来看,裁判文书网具有绝对优势,但是其优势主要集中于2016年之后,2013年之前其数据要远远小于其他几个数据库;律商似乎没有关注裁判文书的收录,相比其他数据库,其数据总量要差一个数量级。
2.从阶段性数据来看,2016年以来,除裁判文书网外,openlaw显示出了比较强的优势;2013年-2015年,各数据库数据相差不大;2009年-2012年,无讼、openlaw、北大法宝、威科的数据差不多,较裁判文书网和法信都有一定的优势。
3.从数据的更新(以截至到2019年2月22日的2019年的数据)来看,裁判文书网具有绝对的优势,其余数据库中,openlaw和北大法宝具有一定的优势,无讼则明显滞后,且这个状况似乎在2018年的时候就已经出现。
4.从行政处罚文书的收录来看,威科具有绝对的优势,北大法宝和律商也收录了部分,但北大法宝需要另行收费查阅。
5.上述数据总量具有一定的参考价值,但大家也需要同时意识到一则网站公示数据未必是网站真正的数据总量(可以通过一般裁判文书中必定会出现的关键词或其组合进行检验),二则有些网站文书的重复度比较高,这与网站不重视文书去重或去重技术不过关有关。
检索方法及尝试
1
基础数据
注:
1.单元格刷灰内容为“*”的,表示检索人员未发现相关功能。
2.单元格刷橙内容为“**”的,表示虽有该功能但是操作的当时未能成功运行或者虽然运行但是结果明显有错误的。
2
小结
1.上述表格没有将裁判文书网纳入,主要因为裁判文书网比较不稳定,检索人员经多次尝试,无法在合理的时间内获取相应的结果。
2.“精确检索”是诉讼检索最常用的重要检索手段,上述列出的数据库都提供了该功能,但是大家需要了解各数据库采用的具体方法有所不同:法信、北大法宝、威科给出了明确的提示,openlaw的指南中指出用户采用半角双引号的模式可以获得精确检索的效果,律商则是检索人员尝试总结后发现采用半角双引号可以获得精确检索结果。
3.“同时包含几个关键词”,即通常所述的“AND”,各数据库都包含,需要注意的是数据库采用的逻辑语法不同。
4.“包含任一关键词”,即通常所述的“OR”,检索人员尝试了可能的一些语法结构,但是在法信、无讼数据库中没有发现;在其他几个数据库中都有该功能,但同样需要注意数据库采用的逻辑语法不同。
5.“不包含”,即期望在已有的检索结果中不包含某个特定的关键词(如期望包含“合同”,但不包含“劳动合同”),这个检索方法日益显示出其在检索中的重要性,目前无讼、openlaw、北大法宝、威科、律商都提供了该功能。然而仅北大法宝和威科初步提示检索结果符合要求,其他几个数据库或者不能正常运行,或者相关的关键词并未排除出去(通过在检索结果中定位劳动争议案由很容易审核结果的正确性)。
6.“同句”、“同段”、“间隔”是近年来新兴的检索模式。“同句”,要求给出的几个关键词出现在一句话中;“同段”,要求给出的几个关键词出现在一段话中;“间隔”,要求给出的几个关键词之间的距离不能长于N个字符。这些检索方法用技术的手段最大限度建立关键词之间的关联度,如果用得好,能够极大地提高检索效率。比如,想研究许诺销售行为的管辖地,就可以以“许诺销售”和“管辖”为关键词,采用上述模式进行检索。目前威科提供了“同句”、“同段”、“间隔”模式;律商提供了“同句”、“同段”模式,但仅在法律法规检索中适用;无讼提供了“同段”模式。
7.“法条引用”检索,即通过具体法条检索引用了该法条的文书,是非常实用的一项文书检索功能,目前各数据库也都提供了该功能。在检索的“质”和“量”上,威科都具有绝对的优势,该功能的设计需要考虑到法条引用表达的多样性以及法律法规的修订等法律问题。
8.“当事人”检索、“法官”检索、“律师”检索可以满足特定的检索需求,各数据的功能开通可见上表。在“当事人”检索的效果上,法信和威科有优势。
9.“案由”检索,一般数据库都设定了案由筛选,即可以根据选定的案由检索相关案件。在特定情形下,需要同时选择多个案由,可以避免多次重复检索,目前法信、北大法宝、威科、律商都提供了该功能,不过检索人员有点不理解为什么北大法宝和威科对于可选定的案由做了数量的限制。
10.“诉讼结果”检索,这是很实用的功能,很多数据库都提供了该模式。但是鉴于文书表达的多样性,这项功能要做好并不容易,一则要准确地切分出“诉讼结果”的段落,二则要准确识别出诉讼结果中关键词的含义(比如出现“驳回”,并不意味着诉讼结果就是“驳回”)。检索人员在检索中也能感受到检索结果的准确性问题,特别是在直接提供裁判结果选项(如全部支持、部分支持、不支持、驳回等)的模式下,所以对于采用该项检索模式的检索结果需要跟进后续的审核。
11.批量下载和文书信息批量下载,这个功能比较适合做案例研究,或是进行大数据分析的,可以极大地提高工作效率。在当前的数据库中,威科有比较好的用户体验,每次可以下载100篇;无讼在信息内容的提供上有优势,可以批量展示基本案情、法院认为、裁判结果等信息,便于用户更快捷地抓取案件要点。
12.需要注意的是,上述检索结果可能会受到数据库技术开发周期的影响,也可能针对某些特定的关键词正好出现了bug,从而导致功能显示不正常,故涉及具体问题时,建议大家多多尝试。
系统稳定性
在检索人员研究数据库的这段时间内,法信、北大法宝、威科、律商,一直保持稳定运行的状态;无讼和openlaw的稳定性次之,偶尔出现检索故障;而裁判文书网则常处于不太稳定的状态,但如前所述,如果要检索2018-2019年度的文书,裁判文书网是最优选择。我们注意到最高人民法院于2019年2月19日针对用户《关于“中国裁判文书网”网站建设的建议》做了回复,对于裁判文书网不稳定、不方便等问题做了解释和展望,我们也期待裁判文书网在2019年能够有实质性改观,真正实现其首页的“开放、动态、透明、便民”。
以上是我们对于主流法律数据库做的一些研究,期待能够为法律工作者面对具体问题时在数据库的选择以及检索方法的应用上提供一些辅助。正如本文开头所述,好的检索至少要具备三个条件,本文只是呈现数据库的客观,只是检索的基础,高效检索更重要地依赖于对法律关系的把握,对争议焦点的把握,以找对检索的切入点,并在后续检索中根据检索结果不断调整检索思路,精化检索角度,这是解决问题的过程,也是学习的过程,共勉!
版权声明:本站发布此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,请读者仅作参考,并请自行核实相关内容。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。