BookCorpus (也称Toronto Book Corpus )是一个数据集,包含互联网上收集的约 11,000 本未出版书籍的文本。它是用于训练OpenAIGPT初始版本的主要语料库[1],并用作包括谷歌的BERT[2]在内的,其他早期大型语言模型的训练数据。 该数据集包含约 9.85 亿单词,涵盖了多种类型的书籍,包括浪漫小说、科幻小说和奇幻小说。

多伦多大学麻省理工学院的研究人员在 2015 年的一篇题为“Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books”的论文中介绍了该语料库。作者将其描述为“由尚未出版的作者撰写的免费书籍”[3][4]。 该数据集起初托管在多伦多大学的网页上。 原始数据集不再公开,但多伦多大学创建了一个镜像版本 BookCorpusOpen。 虽然在 2015 年的原始论文中没有记录这个网站,但现在已知的删除语料库书籍的网站是Smashwords 。

参考

  1. ^ BookCorpus. Wikipedia. 2023-03-22 [2023-03-25]. (原始内容存档于2023-03-25) (英语). 
  2. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs]. 2019-05-24 [2023-03-25]. (原始内容存档于2023-07-09). 
  3. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. 2015 [2023-03-25]. (原始内容存档于2023-02-05). 
  4. ^ Lea, Richard. Google swallows 11,000 novels to improve AI's conversation. The Guardian. 2016-09-28 [2023-03-25]. ISSN 0261-3077. (原始内容存档于2023-03-25) (英国英语).