1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 文本检测识别数据集

文本检测识别数据集

时间:2020-08-28 01:04:10

相关推荐

文本检测识别数据集

1.中文数据集

CTW data(Chinese Text in the Wild)

清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)——一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 32,285 张图像和 1,018,402 个中文字符,规模远超此前的同类数据集。研究人员表示,未来还将在此数据集之上推出基于业内最先进模型的评测基准。

资源链接:CTW Dataset

在相关论文《Chinese Text in the Wild》中,清华大学的研究人员以该数据集为基础训练了多种目前业内最先进的深度模型进行字符识别和字符检测。这些模型将作为基线算法为人们提供测试标准。这些图像源于腾讯街景,从中国的几十个不同城市中捕捉得到,不带任何特定目的的偏好。由于其多样性和复杂性,使得该数据集的收集很困难。它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。对于每张图像,数据集中都标注了所有中文字符。对每个中文字符,数据集都标注了其真实字符、边界框和 6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化,和手写体等。

参考:资源 | 百万级字符:清华大学提出中文自然文本数据集CTW

华中科技大学中文数据集链接

http://www.icdarchinese.site:5080/dataset/

icdar比赛结果分析

ICDAR Competition on Reading Chinese Text in the Wild(RCTW-17)_rabbithui的专栏-CSDN博客

ICPR WTMI中文数据集(天池比赛数据集)

MTWI 挑战赛二:网络图像的文本检测赛题与数据-天池大赛-阿里云天池

ICDAR 数据集

Overview - ICDAR Robust Reading Challenge on Reading Chinese Text on Signboard - Robust Reading Competition

ICDAR SROIE

1000个完整的扫描收据图像,600张用于训练,400张用于测试。

task1:常规识别任务,定位加识别。

task2:扫描收据,提供OCR单词列表。

task3:提取关键信息。

2.其它非中文数据集

参考:文字检测与识别数据库整理【持续更新】 - lilicao - 博客园

3.手写数据集

国内研究机构发布的数据集

1. HCL2000脱机手写汉字库 /data/13885

北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。

这是一份非常优秀的数据,是汉字识别的首选测试数据库。

2. CASIA中文手写数据集 /data/13227

中科院自动化所发布的中文手写数据。包括187个人通过Walcom笔在线输入的手写文本。

3. CASIA英文手写数据集 /data/13226

中科院自动化所发布的英文手写数据。包括134个人通过Walcom笔在线输入的手写文本。

4. 基于Wacom笔的用户手写Text数据 /data/16613

中国科学院软件研究所笔式和多通道人机交互研究组发布的数据。包含12用户在执行手写Text任务时Stroke层数据和Point层数据两部分。

5. 留学生手写汉字 /data/10089

北京语言大学采用数字墨水技术采集的留学生手写汉字库(样例)

国外研究机构发布的数据集

6. USPS美国邮政服务手写数字识别库 /data/11927

用于数字的手写识别。库中共有9298个手写数字图像(均为16*16像素的灰度图像的值,灰度值已被归一化),其中7291个用于训练,个用于测试。

7. 手写数字MNIST数据集 /data/3082

用于数字的手写识别。库中共有6万个训练集和1万个测试集。

8. 用于笔交互的手写数字识别(UCI) /data/578

用于数字的手写识别。库中共有44个人的250个手写数据例子

9. 用于处理和理解手写阿拉伯语的数据集 /data/2188

用于阿拉伯语的手写识别。包括51个人的2万个手写数据。

4.其它数据集

从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集 - 知乎

5.别人总结的资源

文字检测与识别资源_PeaceInMind的博客-CSDN博客_文字检测与识别

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。