🎄🎄【自然语言处理NLP】简介 🎄🎄

自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

收藏 | 自然语言处理(NLP)数据集汇总(附下载链接)-LMLPHP


🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈


1.Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)

http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2.博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3.亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)

https://www.kaggle.com/snap/amazon-fine-food-reviews

4.亚马逊评论:斯坦福收集了3500万条亚马逊评论。(11GB)

https://snap.stanford.edu/data/web-Amazon.html

5.ArXiv上:所有收录论文全文(270GB)+源文件(190GB)

http://arxiv.org/help/bulk_data_s3

6.ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB)

https://www.kaggle.com/c/asap-aes/data

7.ASAP简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB)

https://www.kaggle.com/c/asap-sas/data

8.治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB)

https://www.crowdflower.com/data-for-everyone/

9.CLiPS文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究。(数据集需要申请获得)

http://www.clips.uantwerpen.be/datasets/csi-corpus

10.ClueWeb09 FACC:带有Freebase注释的ClueWeb09(72GB)

http://lemurproject.org/clueweb09/FACC1/

11.ClueWeb11 FACC:带有Freebase注释的ClueWeb11(92GB)

http://lemurproject.org/clueweb12/FACC1/

12.常见爬虫语料库:由超过50亿个网页(541TB)爬虫数据构成。

http://aws.amazon.com/de/datasets/common-crawl-corpus/

13.康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对话集合:617部电影,10,292对电影人物之间的220,579次会话交流。(9.5MB)

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

14.企业信息:分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)

http://aws.amazon.com/de/datasets/common-crawl-corpus/

15.Crosswikis:关联英语短语与维基百科文章的数据库。(11GB)

http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

16.一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB)

http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

17.Del.icio.us:delicious.com上的125万个书签。

http://arvindn.livejournal.com/116137.html

18.经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从1951年到2014年。(12MB)

https://www.crowdflower.com/data-for-everyone/

19.安然公司电子邮件数据:包含1,227,255封电子邮件,其中493,384个附件覆盖151位管理者。(210GB)

http://aws.amazon.com/de/datasets/enron-email-data/

20.事件注册:免费工具,可以实时访问全球100,000个媒体的新闻文章。有API接口。(查询工具)

http://eventregistry.org/

收藏 | 自然语言处理(NLP)数据集汇总(附下载链接)-LMLPHP

关于论文投稿&选刊可关注并留言博主的CSDN/QQ

>>>一起交流!互相学习!共同进步!<<<

12-12 06:56