1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 开源开放 | 中药说明书实体识别数据集TCM-NER

开源开放 | 中药说明书实体识别数据集TCM-NER

时间:2022-01-11 01:24:49

相关推荐

开源开放 | 中药说明书实体识别数据集TCM-NER

OpenKG地址:/dataset/tcm-ner

阿里云天池:/dataset/dataDetail?dataId=86819

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:阿里云(陈漠沙)

1、背景

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础。本数据集就是在这样的背景下提出的,通过抽取中药药品说明书中的关键信息,达到自动构建中医药药品知识库的目标。

2、数据集

2.1 数据来源

TCM-NER(Traditional Chinese Medicine - Named Entity Recgonization Dataset)数据源来自中药药品说明书,TCM-NER包含1,997篇文档,训练集、验证集和测试集分别为1,000, 500和497个,共标注实体59,803个。

2.2标注规范

本数据集由中医专家定义了13类实体:

·药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散

·药物成分(DRUG_INGREDIENT):中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞

·疾病(DISEASE):疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病

·症状(SYMPTOM):指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛

·证候(SYNDROME):中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。例子:血瘀、气滞、气血不足、气血两虚

·疾病分组(DISEASE_GROUP):疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病

·食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜

·食物分组(FOOD_GROUP):中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物

·人群(PERSON_GROUP):中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女

·药品分组(DRUG_GROUP):具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药

·药物剂型(DRUG_DOSAGE):药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片

·药物性味(DRUG_TASTE):药品的性质和气味。例子:味甘、酸涩、气凉

·中药功效(DRUG_EFFICACY):药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀

2.3标注数据示例

本数据集采用常规的offset下标标记法:

2.4数据集统计信息

数据集统计信息如下:

表1: TCM-QC统计信息

实体类别分布如下:

图1: 实体类别分布

2.5数据集特点

TCM-NER有如下特点:

(1)类别分布不均匀:数据来源于真实世界,如图1所示,实体类型遵行长尾分布。标签分布不均匀是NER任务的一大挑战。

(2)专业性强:中医文本存在许多专业领域词汇,部分类别之间较难区分,如本任务重定义了“症状”和“症候”两类概念,进一步加大了任务的难度。

3、结语

TCM-NER是业界首个中医领域的实体识别数据集,希望本数据集的开放能够促进抽取中药信息抽取,知识图谱自动构建等领域的技术发展。

4、致谢

感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。