1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 中文实体识别数据集

中文实体识别数据集

时间:2024-04-03 05:38:39

相关推荐

中文实体识别数据集

中文命名实体识别数据集

1. 微软实体数据集

数据集简介:

MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集,也是SIGNAN backoff 的实体识别任务的数据集之一。该数据集包含5 万多条中文实体识别标注数据,实体类别分为人物、地点、机构三类。

数据集详情:

基于该数据集发表的论文

Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” ().Li, Xiaoya , et al. “Dice Loss for Data-imbalanced NLP Tasks.” ().Li, Xiaoya , et al. “A Unified MRC Framework for Named Entity Recognition.” ().Diao, Shizhe, et al. “ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations.” arXiv preprint arXiv:1911.00720 ().Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” ().

2. 微博实体数据集

数据集简介:

WeiboNER是根据新浪微博11月至12月间历史数据筛选过滤生成,包含1890条微博消息,基于LDC的DEFT ERE的标注标准

进行标注。该数据集实体类别分为人物,机构组织,地址和地缘政治实体4个类别,并且每个类别可细分为特指(NAM,如“张三”标签为“PER.NAM”)和泛指(NOM,如“男人”标签为“PER.NOM”)。

数据集详情:

基于该数据集发表的论文

Peng, Nanyun, and Mark Dredze. “Named entity recognition for chinese social media with jointly trained embeddings.” Proceedings of the Conference on Empirical Methods in Natural Language Processing. .He, Hangfeng, and Xu Sun. “F-score driven max margin neural network for named entity recognition in chinese social media.” arXiv preprint arXiv:1611.04234 ().Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” ().Cao, Pengfei , et al. “Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism.” Proceedings of the Conference on Empirical Methods in Natural Language Processing .Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” ().

3. 简历实体数据集

数据集简介:

Resume NER是根据新浪财经网关于上市公司的高级经理人的简历摘要数据,进行筛选过滤和人工标注生成的。该数据集包含1027份简历摘要,实体标注分为人名、国籍、籍贯、种族、专业、学位、机构、职称等8个类别。

数据集详情:

基于该数据集发表的论文: Zhang, Yue, and Jie Yang. “Chinese NER Using Lattice LSTM.” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). .Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” ().

4. 细粒度实体数据集

数据集简介:

CLUENER是根据清华大学开源的文本分类数据集THUCNEWS,进行筛选过滤、实体标注生成的。该数据集包含组织、人名、地址、公司、政府、书籍、游戏、电影、职位、景点等10个实体类别,且实体类别分布较为均衡。

数据集详情:

5. Yidu-S4K:医疗命名实体识别数据集

数据集简介:

Yidu-S4K 数据集源自CCKS 评测任务一,即“面向中文电子病历的命名实体识别”的数据集,包括两个子任务:

医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对度数据集做了修订,并随任务一同发布。本子任务的数据集包括训练集和测试集。医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集(非目标场景和目标场景的标注数据、各个场景的非标注数据)和测试集(目标场景的标注数据)。

数据集详情:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。