Press "Enter" to skip to content

100万人排队在等!DALL·E公开测试版,还收上费了

 

新智元报道

 

编辑:拉燕 桃子

 

【新智元导读】现在,OpenAI宣布将正式推出DALL-E测试版,直接向用户收费了。 |还在纠结会不会错过元宇宙和web3浪潮?清华大学科学史系副教授胡翌霖,这次给你讲个透!

 

今天,OpenAI正式宣布DALL-E准备向100万个用户开放测试版。

 

 

问题还不是免费的。

 

第一个月,用户有50个免费积分,以后每个月有15个免费积分。

 

一个积分可以提交一个文本描述,仅能生成4张图片。

 

如果不够的话,15美元兑换115个积分,相当15美元(约100元)能生成460张图片。

 

具体看下图:

 

 

有趣的是,用户还能获得自己生成图像的使用权,包括商业用途。

 

也就是说,你可以把生成的图像印在T恤或者儿童读物上,拿出去卖钱。

 

 

但是,目前OpenAI仍不允许DALL-E上传真实面孔图片,以及试图制作公众人物(包括名人和着名政治人物)的肖像。

 

为此,OpenAI今天还给DALL-E 2新开了一个推特账号。

 

 

我不允许还有人没听说过DALL·E。

 

毕竟,现在都出到2代——DALL·E 2了。

 

 

这是一款由OpenAI开发的转化器模型,全部的功能就是把「话」变成「画」。

 

具体来说,DALL·E是一个有120亿参数版本的GPT-3,被训练成了使用文本生成图像的模型。背后的数据集是文本-图像的对应集。

 

DALL·E神通广大,什幺样的画都做得出来。不论是拟人的物体还是动物,只要你敢想,DALL·E就敢做。它会用合理的方式整合不相关的概念,创造出合理的图像。

 

 

看看上面这几张图,有戴帽子的狗,做实验的熊猫,还有长得像星云的狗狗(bushi)。有没有觉得,哪怕不合常理,但是并不违和?这就是DALL·E能做到的。

 

说起DALL-E的源头,其实是研究人员从GPT-3那里得到了启发。GPT-3是个用语言生成语言的工具,而图像GPT则可以用来生成高保真度的图片。

 

接着,研究人员就把这个结论拓展了一下。他们发现,用文本来操控视觉,是可以做到的。

 

也就是这样,DALL·E成为了一个和GPT-3一样的转化器。

 

 

DALL·E将图像和文本作为单一的数据流接受,其中有多达1280个标记,然后进行训练。随后,一个接一个的生成所有标记。

 

这种训练程序使DALL·E不仅能从头开始生成图像,而且还能延展原图(也就是在原图的基础上继续生成),且和文本内容是一致的。

 

研究人员发现,DALL·E经过上述的训练,能为各种语言组成的各种句子创造对应的合理的图像。

 

上面的六宫格只是浅浅展示一下,这种效果的图片其实多的是。

 

而且有一点需要提醒朋友们注意,研究人员没有介入人工,剔出某些图片。这意味着什幺,不用多说了吧。GPT-3生成的东西还有乱八七糟,得人工删掉呢。

 

 

在此基础上,研究人员又开始琢磨同时用文本描述多个物体,生成一张图。这些物体各自的特征、之间的空间位置关系全都交给文字来描述。

 

无疑,这是一项全新的挑战。

 

比方说,输入文本:一只戴着红帽子、黄手套,穿着蓝衬衫和绿裤子的刺猬。

 

为了正确生成对应的图片,DALL·E不仅要正确理解不同衣服和刺猬之间的关系,还不能混淆不同衣服和颜色的对应关系。

 

这种任务被称作变量绑定,在文献中有大量的相关研究。

 

 

可以说,DALL·E从1代到2代,就是这幺一个个小任务走过来的。最终能够呈现的就是一个不错的文本-图像转化器。

 

也正因如此,DALL·E推出测试版也属实让网友激动了一阵。

 

可看看网友评论,好像有不少产品之外的问题啊。

 

网友怎幺说

 

这也太贵了,创建一张好的图像需要多次试错。产品很不错,但是收费太让人扫兴。

 

 

 

 

有网友担心起了版权问题。

 

 

还有网友直接表示,我在5月17号就排上了,到目前还没用上。

 

 

对此,你怎幺看?

 

参考资料:

 

https://openai.com/blog/dall-e-now-available-in-beta/

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注