数据产品

派尔(Pile)超大预生成应用训练用语料库(ChatGPT, Grok等)

派尔(Pile)超大预生成应用训练用语料库(ChatGPT, Grok等)

数据简介

派尔(Pile)超大预生成应用训练用语料库(ChatGPT, Grok等)


压缩文件大小:725G(解压后800多G)

数据来源:前OPENAI团队处理、清洗、标注,耗时两年。

数据用途:CHATGPT, Grok等预生成文本软件训练用的超大文本语料。

参数量:20B, 即200亿参数


国外新闻报道,本语料库极其珍贵,当时CHATGPT3的训练就是“剽窃”了本语料库然后再优化训练而成。

本语料库为原团队作者授意,原来开源部分全部已被原作者删除,是AI对话软应用开发的基本语料。


该语料库的组成见Alan D. Thompson的描述,国内也有不少博文有翻译版本,具体见

https://baijiahao.baidu.com/s?id=1757941994751676450&wfr=spider&for=pc。


Copyright ecorpus.cn 亿蝌语料,语料中国 法律声明与隐私权政策