被称为 "史上最强 NLP 模型" 的 GPT-2 终于迎来了部分开源.
照例先放上 GitHub 地址: https://github.com/openai/gpt-2
还记得 GPT-2 首次亮相的时候, 由于 OpenAI 没有将之开源的计划, 很快被技术社区声讨, 各种说法铺天盖地, 讨论的重心从不开源的决定是否正确, 转移到模型本身是否被过誉.
不知道是因为受不了来自技术社区的压力, 还是模型已经更加完善了, OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源.
在 OpenAI 的 官方博客 上, 也有一段附加的文字对这次的开放进行了解释:
首先, 阶段性发布会随着时间的推移逐步发布一系列模型. 分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性, 讨论它们的社会影响, 并在每个阶段之后评估发布的影响.
作为分阶段发布策略的下一步, OpenAI 表示将发布 GPT-2 的 345M 参数版本. 与 117M 版本相比, 该模型的性能有所提高, 但在生成连贯文本的便捷性方面, 它还不及 1.5B 版本. 此外, 官方认为 345M 版本的误用风险会高于 117M 的版本, 但大大低于 1.5B 版本的误用风险.
在做出 345M 版本发行的决定时, OpenAI 也考虑到了一些其他因素, 包括: 不同模型大小的易用性 (由不同用户使用), 不同大小的模型生成的文本质量, 文本生成过程中人类的角色等等, 官方也明确表示对其中一些变量仍然不确定, 并继续欢迎有关如何制定适当的语言模型发布决策的意见.
而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员, 技术公司和决策者进行对话的结果.
OpenAI 目前正在与学术机构, 非营利组织和行业实验室建立研究伙伴关系, 重点是增强社会对 GPT-2 这类大型语言模型的准备. 共享 GPT-2 的 762M 和 1.5B 版本, 目的也是促进对该语言模型的输出检测, 偏差分析和缓解以及误用潜力分析的研究. 除了观察 GPT-2 模型对外界的影响, 与利益相关者进行对话, 进行内部分析, 这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键.
根据官方博客介绍, 这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集, 以及用于培训 GPT-2 的 webText 语料库的子集. 输出数据集包含大约 250,000 个模型 / 超参数对样本, 这足以帮助更多的研究人员对上述三个主题进行定量和定性分析. 除了这些数据集, OpenAI 还对模型的一些与检测相关的属性进行了基线分析, 目的是希望其他人能够在此基础上快速构建模型.
来源: http://www.tuicool.com/articles/uamimqz