1780亿个参数,这个语言模型的诞生只为挑战王者GPT-3?

2022-10-10

有人要胆敢挑战GPT-3垄断地位!

GPT-3自问世以来就成为了最大的AI语言模型之一。

不仅可以写电邮、写文章、创建网站、甚至是生成用于Python深度学习的代码。

最近,一个名叫「侏罗纪」模型号称可以打败GPT-3。

究竟是谁这么有勇气,居然敢如此叫嚣?

不是侏罗纪公园的恐龙!是Jurassic-1 Jumbo,还在公测的语言模型!

现在还可以免费体验:

https://studio.ai21.com/playground

除了能将Python代码转成Javascript,这个语言模型还有什么过人之处?

胆大,但有实力

在机器学习中,参数是模型的一部分,从历史训练数据中学来的。

一般来说,在语言领域,参数越多,模型就越复杂。

Jurassic-1 Jumbo这个模型包含了1780亿个参数。

一下子就甩开GPT-3足足30亿个参数!

在词汇项目上,GPT-3有50000个。

但Jurassic-1可以识别包括表达式、单词和短语等共250000个。

涵盖范围比GPT-3在内的大多数现有模型更大。

Jurassic-1模型经过云训练,在一个公共服务上有数百个分布式GPU。

token是一种在自然语言中将文本片段分成更小的单元的方法,它可以是单词、字符或单词的一部分。

而Jurassic-1训练数据集就有3000亿个token,全都是从维基百科、新闻出版物、StackExchange等英语网站编译而来的。

模型的训练采用传统的自监督和自回归的形式,对来自公开资源的3000亿个token进行训练。

优化程序方面,研究人员对J1-Large和J1-Jumbo分别使用了1.2×10-4和0.6×10-4的学习率,以及200万和320万个token的批大小。

平均每字节对数概率表明模型在不同领域的适用性

研究人员表示,在几乎所有的语料库中,Jurassic-1模型都领先于GPT-3。

在小样本学习的测试上则各有输赢,不过平均得分两个模型持平。

在基准测试中,Jurassic-1回答学术和法律问题的表现已经能与GPT-3相当,甚至表现得更好。

GPT-3需要11个token,但Jurassic-1只需要4个,样本效率大大增加。

当然,对于语言模型来说,最困难的莫过于逻辑和数学问题。

而Jurassic-1 Jumbo已经可以解决两个大数相加这种非常简单的算术问题。

Jurassic可以解释某个单词的意思

在各种各样的语言模型面前,Jurassic-1 Jumbo最多只能算是个后起之秀,也不是什么新奇的模型了。

不过和它的前辈们类似,如果问题描述不清,大概率出现的答案并不是你想要的。

堪称产品经理终结者。

偏见起来连自己人都「打」

Jurassic-1模型由AI21 Labs公司开发,会通过AI21 Labs的Studio平台提供服务。

开发人员可以在公开测试版中构建虚拟代理和聊天机器人等应用程序原型。

除此之外,在公测版中,Jurassic-1模型和Studio还能用于释义和总结,比如从产品描述中生成简短的产品名称。

根据新闻内容给新闻分类

同时,开发者还可以训练自己的Jurassic-1模型,甚至只需要50-100个训练实例。

训练完成之后,就可以通过AI21 Studio使用这个自定义模型。

但是Jurassic-1也一样面临其它语言模型的「痛点」:对于性别、种族和宗教的偏见。

由于模型训练数据集中或多或少都会存在偏见,训练出来的模型也会跟着「学坏」。

有研究人员指出,GPT-3等类似的语言模型生成的文本可能会激化极右翼极端主义意识形态和行为。

Jurassic模型的输出面临预设场景问题

针对这一点,AI2 Labs就在限制可以在公测中生成的文本数量,打算手动审查每个微调模型。

不过就算是经过微调的模型也难以摆脱训练过程中「染上的恶习」。

就像Open AI的Codex,还是一样会生成种族主义或者其它令人反感的可执行代码。

虽然是以色列的研究人员开发的,但大概是受训练数据集的影响,Jurassic-1似乎对犹太人的歧视比GPT-3还更重一些。

在偏见与歧视这个问题上,各个模型都是「五十步笑百步」。

不过AI21 Labs的工程师则表示,Jurassic-1模型的偏见比GPT-3少那么一丢丢。

您好!请登录

点击取消回复