各个开放实体识别数据集信息统计

1、CLUENER2020:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/cluener_public

  • 数据说明
实体类型说明
地址(address)**省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。
书名(book)小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。
公司(company)**公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。
游戏(game)常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。
政府(government)包括中央行政机关和地方行政机关两级。中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。
电影(movie) 电影,也包括拍的一些在电影院上映的纪录片,如果是根据书名改编成电影,要根据场景上下文着重区分下是电影名字还是书名。
姓名(name)一般指人名,也包括小说里面的人物,宋江,武松,郭靖,小说里面的人物绰号:及时雨,花和尚,著名人物的别称,通过这个别称能对应到某个具体人物。
组织机构(organization)篮球队,足球队,乐团,社团等,另外包含小说里面的帮派如:少林寺,丐帮,铁掌帮,武当,峨眉等。
职位(position)古时候的职称:巡抚,知州,国师等。现代的总经理,记者,总裁,艺术家,收藏家等。
景点(scene)

常见旅游景点如:长沙公园,深圳动物园,海洋馆,植物园,黄河,长江等。

  • 训练集:10748
实体类型

地址

书名公司游戏政府电影姓名组织机构职位景点
个数2829113128972325179711093661307530521462
  • 验证集集:1343
实体类型

地址

书名公司游戏政府电影姓名组织机构职位景点
个数364152366287244150451344425199

2、MSRA:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/MSRA

  • 训练集:45000
实体类型LOCORGPER
个数368602058417615
  • 测试集:3442
实体类型LOCORGPER
个数288613311973

3、人民网(04年):nlp_corpus/open_ner_data/people_daily at main · GuocaiL/nlp_corpus · GitHub

  • 数据集:19359
实体类型GPEDATEPERSONORG
个数 14317834896251838

4、微博命名实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/weibo

  • 数据说明
实体标注说明
PERPER.NAM名字(张三)
PER.NOM代称、类别名(穷人)
LOCLOC.NAM特指名称(紫玉山庄)
LOC.NOM泛称(大峡谷、宾馆)
GPEGPE.NAM行政区的名称(北京)
ORGORG.NAM特定机构名称(通惠医院)
ORG.NOM泛指名称、统称(文艺公司)
  • 训练集 :1350
实体类型PER.NAMPER.NOMLOC.NAMLOC.NOMGPE.NAMORG.NAMORG.NOM
个数574766565120518342
  • 验证集:270
实体类型PER.NAMPER.NOMLOC.NAMLOC.NOMGPE.NAMORG.NAMORG.NOM
个数902086626475
  • 测试集:270
实体类型PER.NAMPER.NOMLOC.NAMLOC.NOMGPE.NAMORG.NAMORG.NOM
个数111170199473917

 5、BosonNLP NER数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/boson(2000条)

实体类型company_namelocationorg_nameperson_nameproduct_nametime
个数237445972689514141224250

6、影视-音乐-书籍实体标注数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/video_music_book_datasets

  • 训练集:7814
实体类型bookmusicvideo
个数641341252994
  • 验证集:977
实体类型bookmusicvideo
个数797626354
  • 测试集:978
实体类型bookmusicvideo
个数770371575

7、中文医学文本命名实体识别 2020CCKS:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/2020_ccks_ner

8、电子简历实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/ResumeNER

  • 训练集:3821
实体类型CONT(国家)EDU(学历)LOC(地名)NAME(人名)ORG(组织名)PRO(专业)RACE(种族背景)TITLE(工作职位)
个数2608584795246112871156308
  • 验证集:463
实体类型CONT(国家)EDU(学历)LOC(地名)NAME(人名)ORG(组织名)PRO(专业)RACE(种族背景)TITLE(工作职位)
个数3310621105231815690
  • 测试集:477
实体类型CONT(国家)EDU(学历)LOC(地名)NAME(人名)ORG(组织名)PRO(专业)RACE(种族背景)TITLE(工作职位)
个数2811261125533314772

9 医渡云实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/yidu-s4k

  • 训练集1:400
实体类型实验室检验影像检查手术疾病和诊断药物解剖部位
个数51322341717478383604
  • 训练集2:600
实体类型实验室检验影像检查手术疾病和诊断药物解剖部位
个数68274661224659844822
  • 测试集:379
实体类型实验室检验影像检查手术疾病和诊断药物解剖部位
个数59034816213234853094

欢迎关注微信公众号,文章会同步更新在公众号,如需转载请标注来源

着眼未来科技,追踪研究传播最新思想、最新理论,打开最新世界。


版权声明:本文为qq_33331424原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。