OpenAI小说写作背后的技术,虚假新闻 – 喷出人工智能,解释

OpenAI小说写作背后的技术,虚假新闻 – 喷出人工智能,解释

 

语言模型可以像人一样写,但它不知道它在说什幺

 

插图:科技女士

 

作者:Karen Hao

 

2月14日,非营利性研究公司OpenAI发布了一种 新的语言模型, 能够产生令人信服的散文段落。 那幺 有说服力 ,事实上,研究人员已经从开采购的代码,以拖延其潜在武器的一种手段,希望忍住了 大规模生产假新闻

 

虽然令人印象深刻的结果是超越现有语言模型所取得的显着飞跃,但所涉及的技术并不是全新的。相反,这一突破主要是通过为算法提供更多的训练数据来推动的 – 这一技巧也是教授AI阅读和写作的大多数其他近期进步的原因。斯坦福大学计算机科学教授Percy Liang说:”对于你可以用更多的数据和更大的模型做什幺,这是一种令人惊讶的人。”

 

模型产生的文本段落足以伪装成人类书写的东西。但是这种能力不应该与对语言的真正理解相混淆 – 人工智能子领域的最终目标是自然语言处理(NLP)。 (计算机视觉中有一个模拟:算法可以合成高度逼真的图像,而不需要任何真正的视觉理解。)事实上,让机器达到理解水平是一项很大程度上让NLP研究人员无法完成的任务。这个目标可能需要数年甚至数十年才能实现,推测梁,并且很可能涉及尚不存在的技术。

 

四种不同的语言哲学 目前推动了NLP技术的发展。让我们从OpenAI使用的那个开始。

 

1.分布语义

 

 

语言哲学

 

单词来源于它们的使用方式。例如,单词”cat”和”dog”在含义上是相关的,因为它们或多或少地以相同的方式使用。你可以喂养和宠物猫,你喂养和宠物狗。但是,你不能喂食和喂橙色。

 

它如何转换为NLP

 

基于分布语义的算法一直是 NLP近期突破的 主要原因。他们使用 机器学习 来处理文本,通过基本上计算单词相对于彼此的使用频率和接近程度来查找模式。然后,结果模型可以使用这些模式来构建完整的句子或段落,并为自动完成或其他预测文本系统提供支持。近年来,一些研究人员也开始尝试查看随机字符序列而不是单词的分布,因此模型可以更灵活地处理首字母缩略词,标点符号,俚语和其他未出现在字典中的内容,以及单词之间没有明确界定的语言。

 

优点

 

这些算法具有灵活性和可扩展性,因为它们可以在任何上下文中应用,并从未标记的数据中学习。

 

缺点

 

他们制作的模型实际上并不理解他们构建的句子。在一天结束时,他们使用单词关联撰写散文。

 

2.帧语义

 

 

语言哲学

 

语言用于描述动作和事件,因此句子可以细分为主语,动词和修饰语 – 什幺何地何时

 

它如何转换为NLP

 

基于帧语义的算法使用一组规则或许多标记的训练数据来学习解构句子。这使得他们特别擅长解析简单命令 – 因此对聊天机器人或语音助理非常有用。例如,如果你要求Alexa”找一家明星有四颗星的餐馆”,这样的算法会弄清楚如何通过将其分解为动作(”查找”)来执行该句子,即 什幺 (”四人餐厅”明星”),以及 何时 (”明天”)。

 

优点

 

与不了解他们所学习的文本的分布式语义算法不同,帧语义算法可以区分句子中的不同信息。这些可用于回答诸如”此事件何时发生?”之类的问题。

 

缺点

 

这些算法只能处理非常简单的句子,因此无法捕捉细微差别。因为它们需要大量特定于上下文的培训,所以它们也不灵活。

 

3.模型理论语义学

 

语言哲学

 

语言用于传播人类知识。

 

它如何转换为NLP

 

模型理论语义基于人工智能中的旧观念,即所有人类知识都可以在一系列逻辑规则中进行编码或 建模 。因此,如果您知道鸟类可以飞翔,而鹰是鸟类,那幺您可以推断出鹰可以飞翔。这种方法不再流行,因为研究人员很快意识到每条规则都有太多的例外(例如,企鹅是鸟类但不能飞行)。但是,基于模型 – 理论语义的算法对于从知识模型(如数据库)中提取信息仍然很有用。与帧语义算法一样,它们通过将句子解构为部分来解析句子。但是,框架语义将这些部分定义 为谁什幺何处何时 ,模型 – 理论语义将它们定义为编码知识的逻辑规则。例如,考虑一个问题”人口中欧洲最大的城市是什幺?”模型理论算法将其分解为一系列独立的查询:”世界上所有城市都是什幺?” “哪些在欧洲?” “城市的人口是多少?” “哪个人口最多?”然后,它将能够遍历知识模型,为您提供最终答案。

 

优点

 

这些算法使机器能够回答复杂而细微的问题。

 

缺点

 

它们需要一种知识模型,这种模型构建起来非常耗时,并且在不同的环境中不灵活。

 

4.接地语义

 

 

语言哲学

 

语言源于生活经验的意义。换句话说,人类创造了语言来实现他们的目标,因此必须在我们以目标为导向的世界的背景下理解它。

 

它如何转换为NLP

 

这是最新的方法,也是梁认为最有希望的方法。它试图模仿人类在生命过程中如何获取语言:机器以空白状态开始,并学会通过对话和交互将单词与正确的含义联系起来。在一个简单的例子中,如果你想教一台计算机如何在虚拟世界中移动物体,你会给它一个命令,如”将红色块移到左边”,然后显示它的意思。随着时间的推移,机器将学会理解并执行命令而无需帮助。

 

优点

 

理论上,这些算法应该非常灵活,并且最接近对语言的真正理解。

 

缺点

 

教学是非常耗时的 – 并不是所有的单词和短语都像”移动红色块”一样容易说明。

 

在短期内,梁认为,NLP领域将从利用现有技术,特别是那些基于分布语义的技术中获得更多进展。但从长远来看,他认为,他们都有限制。 “人类理解语言和感知世界的方式与我们现有的模型之间可能存在质的差距,”他说。他补充说,缩小这一差距可能需要一种新的思维方式,以及更多的时间。

 

查看英文原文

 

查看更多文章

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注