1、CLUENER2020:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/cluener_public
| 实体类型 | 说明 |
| 地址(address) | **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。 |
| 书名(book) | 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。 |
| 公司(company) | **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。 |
| 游戏(game) | 常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。 |
| 政府(government) | 包括中央行政机关和地方行政机关两级。中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。 |
| 电影(movie) | 电影,也包括拍的一些在电影院上映的纪录片,如果是根据书名改编成电影,要根据场景上下文着重区分下是电影名字还是书名。 |
| 姓名(name) | 一般指人名,也包括小说里面的人物,宋江,武松,郭靖,小说里面的人物绰号:及时雨,花和尚,著名人物的别称,通过这个别称能对应到某个具体人物。 |
| 组织机构(organization) | 篮球队,足球队,乐团,社团等,另外包含小说里面的帮派如:少林寺,丐帮,铁掌帮,武当,峨眉等。 |
| 职位(position) | 古时候的职称:巡抚,知州,国师等。现代的总经理,记者,总裁,艺术家,收藏家等。 |
| 景点(scene) | 常见旅游景点如:长沙公园,深圳动物园,海洋馆,植物园,黄河,长江等。 |
| 实体类型 | 地址 | 书名 | 公司 | 游戏 | 政府 | 电影 | 姓名 | 组织机构 | 职位 | 景点 |
| 个数 | 2829 | 1131 | 2897 | 2325 | 1797 | 1109 | 3661 | 3075 | 3052 | 1462 |
| 实体类型 | 地址 | 书名 | 公司 | 游戏 | 政府 | 电影 | 姓名 | 组织机构 | 职位 | 景点 |
| 个数 | 364 | 152 | 366 | 287 | 244 | 150 | 451 | 344 | 425 | 199 |
2、MSRA:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/MSRA
| 实体类型 | LOC | ORG | PER |
| 个数 | 36860 | 20584 | 17615 |
| 实体类型 | LOC | ORG | PER |
| 个数 | 2886 | 1331 | 1973 |
3、人民网(04年):nlp_corpus/open_ner_data/people_daily at main · GuocaiL/nlp_corpus · GitHub
| 实体类型 | GPE | DATE | PERSON | ORG |
| 个数 | 14317 | 8348 | 9625 | 1838 |
4、微博命名实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/weibo
| 实体 | 标注 | 说明 |
| PER | PER.NAM | 名字(张三) |
| PER.NOM | 代称、类别名(穷人) |
| LOC | LOC.NAM | 特指名称(紫玉山庄) |
| LOC.NOM | 泛称(大峡谷、宾馆) |
| GPE | GPE.NAM | 行政区的名称(北京) |
| ORG | ORG.NAM | 特定机构名称(通惠医院) |
| ORG.NOM | 泛指名称、统称(文艺公司) |
| 实体类型 | PER.NAM | PER.NOM | LOC.NAM | LOC.NOM | GPE.NAM | ORG.NAM | ORG.NOM |
|---|
| 个数 | 574 | 766 | 56 | 51 | 205 | 183 | 42 |
| 实体类型 | PER.NAM | PER.NOM | LOC.NAM | LOC.NOM | GPE.NAM | ORG.NAM | ORG.NOM |
|---|
| 个数 | 90 | 208 | 6 | 6 | 26 | 47 | 5 |
| 实体类型 | PER.NAM | PER.NOM | LOC.NAM | LOC.NOM | GPE.NAM | ORG.NAM | ORG.NOM |
|---|
| 个数 | 111 | 170 | 19 | 9 | 47 | 39 | 17 |
5、BosonNLP NER数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/boson(2000条)
| 实体类型 | company_name | location | org_name | person_name | product_name | time |
| 个数 | 2374 | 4597 | 2689 | 5141 | 4122 | 4250 |
6、影视-音乐-书籍实体标注数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/video_music_book_datasets
| 实体类型 | book | music | video |
| 个数 | 6413 | 4125 | 2994 |
| 实体类型 | book | music | video |
| 个数 | 797 | 626 | 354 |
| 实体类型 | book | music | video |
| 个数 | 770 | 371 | 575 |
7、中文医学文本命名实体识别 2020CCKS:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/2020_ccks_ner
8、电子简历实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/ResumeNER
| 实体类型 | CONT(国家) | EDU(学历) | LOC(地名) | NAME(人名) | ORG(组织名) | PRO(专业) | RACE(种族背景) | TITLE(工作职位) |
| 个数 | 260 | 858 | 47 | 952 | 4611 | 287 | 115 | 6308 |
| 实体类型 | CONT(国家) | EDU(学历) | LOC(地名) | NAME(人名) | ORG(组织名) | PRO(专业) | RACE(种族背景) | TITLE(工作职位) |
| 个数 | 33 | 106 | 2 | 110 | 523 | 18 | 15 | 690 |
| 实体类型 | CONT(国家) | EDU(学历) | LOC(地名) | NAME(人名) | ORG(组织名) | PRO(专业) | RACE(种族背景) | TITLE(工作职位) |
| 个数 | 28 | 112 | 6 | 112 | 553 | 33 | 14 | 772 |
9 医渡云实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/yidu-s4k
| 实体类型 | 实验室检验 | 影像检查 | 手术 | 疾病和诊断 | 药物 | 解剖部位 |
| 个数 | 513 | 223 | 417 | 1747 | 838 | 3604 |
| 实体类型 | 实验室检验 | 影像检查 | 手术 | 疾病和诊断 | 药物 | 解剖部位 |
| 个数 | 682 | 746 | 612 | 2465 | 984 | 4822 |
| 实体类型 | 实验室检验 | 影像检查 | 手术 | 疾病和诊断 | 药物 | 解剖部位 |
| 个数 | 590 | 348 | 162 | 1323 | 485 | 3094 |
欢迎关注微信公众号,文章会同步更新在公众号,如需转载请标注来源
着眼未来科技,追踪研究传播最新思想、最新理论,打开最新世界。
