数据集概述
数据集名称
LEXTREME: A Multilingual Legal Benchmark for Natural Language Understanding
数据集概要
该数据集包含11个多语言法律自然语言理解(NLU)数据集,总计18个任务,包括8个单标签文本分类任务、5个多标签文本分类任务和5个令牌分类任务。
支持的任务和配置
- Brazilian Court Decisions: 判决预测(判决、一致性)
- Swiss Judgment Prediction: 判决预测(默认)
- German Argument Mining: 论点挖掘(默认)
- Greek Legal Code: 主题分类(卷、章、主题)
- Online Terms of Service: 不公平分类(不公平级别、条款主题)
- Covid 19 Emergency Event: 事件分类(默认)
- MultiEURLEX: 主题分类(级别1、级别2、级别3)
- LeNER BR: 命名实体识别(默认)
- LegalNERo: 命名实体识别(默认)
- Greek Legal NER: 命名实体识别(默认)
- MAPA: 命名实体识别(粗粒度、细粒度)
语言支持
支持以下语言:bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
数据集结构
- 文件格式: jsonl
- 数据分割: 每个配置包含三个数据分割(训练、验证和测试)
许可证
cc-by-4.0
数据集大小
10K<n<100K
数据集来源
任务类别