派尔(Pile)超大预生成应用训练用语料库(ChatGPT, Grok等)
数据简介
派尔(Pile)超大预生成应用训练用语料库(ChatGPT, Grok等)
压缩文件大小:725G(解压后800多G)
数据来源:前OPENAI团队处理、清洗、标注,耗时两年。
数据用途:CHATGPT, Grok等预生成文本软件训练用的超大文本语料。
参数量:20B, 即200亿参数
国外新闻报道,本语料库极其珍贵,当时CHATGPT3的训练就是“剽窃”了本语料库然后再优化训练而成。
本语料库为原团队作者授意,原来开源部分全部已被原作者删除,是AI对话软应用开发的基本语料。
该语料库的组成见Alan D. Thompson的描述,国内也有不少博文有翻译版本,具体见
https://baijiahao.baidu.com/s?id=1757941994751676450&wfr=spider&for=pc。