1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 【自然语言处理NLP】中文语料整理【情感分析 文本分类 摘要 实体分析】

【自然语言处理NLP】中文语料整理【情感分析 文本分类 摘要 实体分析】

时间:2023-05-09 14:14:59

相关推荐

【自然语言处理NLP】中文语料整理【情感分析 文本分类 摘要 实体分析】

中文NLP语料整理

新闻文本分类语料情感分析语料实体分析语料垃圾分类语料

个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼。

有很多公开的语料,被他人收费,或要积分下载等等。

对平时开发造成诸多不便。

这边整理了一些自己收集到的语料方便大家使用

新闻文本分类语料

THUCNews是根据新浪新闻RSS订阅频道~间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。非常感激前辈及学习过程中的伙伴。

github地址:/gaussic/text-classification-cnn-rnn#text-classification-with-cnn-and-rnn

下载地址

cnews新闻的子集精简版

本次训练使用了其中的10个分类,每个分类6500条数据。

类别如下:

体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

这个子集可以在此下载:链接: /s/1hugrfRu 密码: qfud

搜狗新闻语料

来自若干新闻站点6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

/labs/resource/ca.php

注意选择IE浏览器否则 下载失败

复旦大学语料

本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别

链接: /s/1XU3ATrXb4gW3hANTPRu0iA 提取码: 36wh

情感分析语料

Sownnlp 开源包中情感分析语料

共3W多条评论类型

链接: /s/120ZEXEMbTgm2vu6825JmAw 提取码: 04p1

苏神开放的情感分析语料

共2W多条也是短评类型

链接: /s/1ftPIn8zohcTjMGQ5Pd5Shg 提取码: 17m1

实体分析语料

BosonNLP开发者语料

大家遵循《玻森数据开发者下载须知》

下载地址:/dev/resource

链接: /s/1wx5zX6EvP8UWfZrQhzXiZA 提取码: 88x3

详细的ner标注语料

这份语料我这边找不到来源了。

如有清楚的请和我联系一下

链接: /s/1va2z6mYtKEd1VWAQXFPnHw 提取码: ptad

垃圾分类语料

/alexayan/garbage-classification-data

超多的中文语料分享:/brightmart/nlp_chinese_corpus

超多的中文NLP相关资源:/fighting41love/funNLP

各种模型相关例子:/keras-team/keras/tree/master/examples

各种资源来源网络,如有侵权联系我,马上删除。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。