Press "Enter" to skip to content

AI续写小说悄然流行:人类特有的创作力,已经被AI复制?

编者按:本文来自微信公众号 “全媒派”(ID:quanmeipai) ,作者:李秀,36氪经授权发布。

 

林黛玉葬花之时曹雪芹乱入,并与宝玉、袭人发生一场持续千年的世纪大战;鸿门宴再现,项羽喊着“伟大与光辉”与樊哙打作一团、而后项庄趁乱刺死刘邦;孔融让梨引发一场长达十多年的报复和最终精心谋划的血案;《桃花源记》中善良淳朴的村民竟会为了保守桃花源的秘密而设计害死渔民……

 

这些熟悉而又陌生的内容,并不是网友们对经典文学作品的恶搞,而是来自于AI的故事续写。

 

今年以来,由AI续写故事作为文本的视频在B站悄然流行开来,一些UP主利用市面上的AI创作应用续写人们熟知的文学作品,再将新的作品以人声演绎,配上BGM后制成视频。

 

经过AI的一顿操作,名着成了爆款爽文,前有诸葛亮开战斗机,后有庄子研究“三体”,各种平行世界信手拈来,AI一本正经胡说八道的本事,比过去的地摊文学还强。

 

 

其实,对于相关工具的使用者而言,用AI进行创作并没有技术门槛:只需输入文学作品的某些片段,AI创作机器就会根据给定文字的内容与风格对故事进行续写,这些经过AI二次创作的故事,往往情节曲折离奇,与原作的走向大相径庭,这种内容因为反常规和新鲜感而受到一些网民的追捧。

 

不过话说回来,艺术创作这种高度创意化、个性化的工作,原本被视为“人类的最后一片净土”,是理论上最不可能被人工智能取代的工作之一,可如今人工智能技术的发展却为艺术创作开辟了一条新的捷径。 本期全媒派(ID: quanmeipai)带来一篇文章,探析AI创作正在对内容创作领域产生怎样的影响。

 

AI写作是怎幺回事?

 

AI创作也就是机器人写作,这是一种拟人化的说法,实质上是指通过一定的计算机程序,对输入的信息进行自动化的分析、处理和加工,从而生成一篇较为完整的文章。总的来说,今天流行的AI续写,其实已经算是比较成熟的能力。

 

随着人工智能技术的快速发展,自然语言生成(natural language generation, NLG)技术在世界范围内得到广泛的应用。《纽约时报》和美联社等新闻机构都曾采用NLG技术来撰写新闻报道;仅在2014年,技术公司Automated Insights就实现了以每秒超过2000篇的速度生成新闻报道,全年发布新闻共计10亿多篇。[1]

 

AI写作背后的原理非常复杂,其核心是自然语言处理(natural language processing, NLP)技术,同时涉及到数据挖掘、机器学习、知识 图谱 等多项人工智能技术。自然语言处理是指让机器拥有理解并解释人类语言的能力,目标是让机器在理解语言上像人类一样智能,最终弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。[2]

 

自然语言处理(NLP)涉及两个流程,分别是自然语言理解(natural language understanding,NLU)和自然语言生成(NLG)。市面上的写稿机器人大都是NLG系统,目前主要有模板式、抽取式和生成式这三种技术方向。[3]

 

模板式写稿机器人主要通过优化算法,在预先存储的大量写作模板中,选择与给定材料相匹配的模板,将信息加以组合生成文本,是目前应用最成熟、实现最容易的一种机器写作方法。

 

抽取式机器人会对文本进行语义分析,识别冗余信息,抽取重要内容,通过摘录或概括的方法压缩文本,形成对于既定文字的摘要,再加以计算确保文摘的连续性,这种技术广泛应用于新闻内容概括和文摘生成。

 

生成式NLG主要通过深度学习和增强学习技术实现,机器通过大量的文学作品样本进行训练,学习各类写作风格、建立写作模型,再根据输入的文字片段获知任务需求,预测并生成与需求相匹配的文稿,进行输出。

 

从现阶段来看,模板式和抽取式写稿机器人的技术已经趋于成熟,在市场上得到了广泛的应用;生成式NLG技术更加智能,也是当前NLG技术中更为高级的目标,OpenAI等研究机构在这方面做出了尝试,并在市场上得到了应用。

 

我们身边的AI写稿工具人

 

AI写作在当今社会早已不是什幺新鲜事,早在2011年,《洛杉矶时报》就开始研发面向地震领域的自动化新闻生成机器人Quakebot。2013年3月,Quakebot因率先报道南加州发生的4.4级地震引发关注:2014年3月,美国洛杉矶发生4.4级地震,Quakebot用时3分钟就完成了相关报道的写作和发布。

 

同年7月,美联社引进Automated Insights公司开发的新闻写作机器人,开始使用自动生成新闻技术。此后,《纽约时报》《华盛顿邮报》《卫报》和路透社等媒体都走上了自动化新闻发展的道路。[4]

 

 

Quakebot近期发布的新闻。图片来源:《洛杉矶时报》

 

国内在自动化新闻领域也有许多尝试:2016年5月,四川绵阳发生4.3级地震,中国地震台网研发的地震信息播报机器人用6秒写下560字的速报,报道内容翔实;2017年8月,该机器人在第一时间报道了四川阿坝州九寨沟县的7.0级地震,引发广泛的讨论和关注。这条新闻消息约540字,新闻涵盖了速报参数、震中地形、热力人口、周边村镇、周边县区、历史地震、震中简介、震中天气8个方面的内容,并配有5张配图,用时仅25秒。在此后的余震报道中,新闻机器人最快出稿速度仅有5秒。[5]

 

 

地震信息播报机器人对九寨沟地震的报道

 

除了新闻报道以外,AI写作也在其他文字创作场景得到了广泛的应用。目前,无需人工干预的机器人写作可以生成诗歌、广告、各类行业分析报告、歌词、小说、甚至剧本。

 

以诗歌为例,微软研发的机器人小冰于2017年出版了诗集《阳光失了玻璃窗》,这是历史上第一部人工智能诗集,其中包含139首现代诗。[6]

 

诸如“快把光明的灯擎起来了/那里有美丽的天/问着村里的水流的声音/我的爱人在哪/因为我的红灯是这样的幻变/像是美丽的秘密/她是一个小孩子的歌唱/那时间的距离”的华丽辞藻还颇具美感,只是在逻辑性上有所欠缺。除了现代诗,律诗、藏头诗、词等各种风格的诗歌创作软件已然在市场上层出不穷。

 

相比于新闻,故事、小说等连续语义的创作会更加困难,而这些也早已不是难题。早在2016年的伦敦科幻电影节上,纽约大学研究人员开发的机器人Benjamin创作了一部长达9分钟的科幻电影Sunspring,赢得了大批关注;MIT媒体实验室开发的机器人Shelly专职撰写恐怖故事,并在Twitter更新;Botnik研究室采用预测的算法创作了《哈利波特》的续集。

 

除了写稿,AI创作还有其他形式

 

当AI创作技术应用于写稿,可以诞生机器版的记者、小说家、诗人、编剧等,而当它应用于绘画、音乐和舞蹈领域时,则可以“培养”出画家、作曲家和编舞人员。

 

AI绘画创作大放异彩

 

利用机器绘画早已写入了人类的梦想清单:早在18世纪70年代,瑞士已经有人利用机械臂绘画;2016年,谷歌研发的绘画AI在旧金山拍卖会上大放异彩,其作品一度拍出单幅8000美元的高价;2019年,微软小冰独立完成的原创绘画作品在中央美术学院美术馆展出,并于2020年推出个人绘画作品集。[7]

 

AI音乐创作谱写别样乐章

 

AI在音乐创作中的应用比比皆是:2016年,索尼公司计算机科学实验室CSL的DeepBach项目仿照巴赫的风格创作的合唱曲目,被专业音乐家误认为是巴赫的作品。

 

除了谱曲,AI 还可以创作可以唱出声音的歌曲,CSL实验室的机器人Flow Machine模仿披头士的风格,自主创作了歌曲Daddy’s car。法国计算机科学家Pierre Barreau创造的作曲AI应用Aiva可以根据需求创作不同风格的音乐,甚至可以根据图画作曲,Aiva也于2017年成为“法国及卢森堡作曲家协会”(SACEM)的首个非人类会员。

 

AI舞蹈创作演绎非凡舞曲

 

有不少团队开发了舞蹈创作类的AI:谷歌研究院建立了名为AIST++的3D舞蹈动作数据集,据此训练的AI能够根据给定的音乐和一段2秒左右的种子动作生成长序列的逼真的3D动作。目前已有的舞蹈创作AI基本都能根据目标音乐生成与之匹配的舞蹈动作,并通过3D建模的方式将舞蹈进行表演。经过模型构建方法的迭代升级,AI生成的3D舞蹈在动作质量、动作多样性和动作与音乐的相关性方面均有着还不错的表现。

 

 

AIST++舞蹈数据集的示例。图片来源:https://arxiv.org/pdf/2101.08779.pdf

 

OpenAI公司最新推出的GPT-3模型,则开放了API服务,申请者可以调用GPT-3的API,将其进一步开发为论文翻译工具,网页生成工具,前端设计器,聊天机器人甚至游戏开发工具。在GPT-3的身上,我们看到AI从某一个领域的创作者成为各方面兼修全才的可能性。[8]

 

AI作为内容生产者还有哪些缺陷?

 

AI创作固然强大,但要想做到大规模的普及和落地,尚有一些问题横亘于我们面前。

 

首先就是AI的价值判断问题。机器学习只是提取训练集数据的风格特征,并对这种加以模仿,机器看似具有“学习”功能,实质上仍落入了按图索骥的窠臼。

 

AI本身对文本创作并没有价值判断,所以在AI生成的故事当中,我们可以读到讽齐王纳谏的邹忌为了保住权势富贵而出卖小妾,读到为孩子买橘子的父亲在月台摔倒暴毙……这些离奇的情节不仅与逻辑不符,对正常的价值导向也难以判定。 如果训练内容存在问题,或者某些用户输入时刻意引导,AI生成的内容在伦理道德方面的处境更会雪上加霜。

 

其次是AI创作的版权问题。在当前技术框架下,AI的训练效果在很大程度上取决于语料库,没有足够量的语料库,AI便无法进行学习,更无法进行创作。

 

那幺AI产出的作品该归语料的作者还是归AI的创作者所有呢?如果归语料作者所有,那幺又如何为庞大的网络语料资源划定作者呢?如果归创作者所有,又能否将使用了相同技术线路和算法的创作者视为抄袭?这些问题仍然需要法理和伦理上的探讨。

 

最后便是AI使用者的问题。

 

AI为内容创作提供了一种更加轻松、便利的可能性,但在一些别有用心的人眼中,AI成为了助长抄袭的洗稿工具:输入一段语句,AI就会对语言结构进行重组,对关键词加以替换,从而在短时间内复制网络爆文……技术虽为中立,但不良的使用意图让技术成为了帮凶。

 

自AI诞生之日起,有关于AI取代人工的忧虑便不绝于耳。显然,由AI续写的故事虽然有点扯,但终究还是能满足一部分人的内容消费需求,甚至有走红的潜质。至于智能机器与内容创作者的关系,终归还是会走向人机协作、共生共进,而不是相互取代、零和博弈。

 

参考链接:

 

[1]https://www.sciencedirect.com/science/article/pii/S074756321930398X

 

[2][3] https://www.sohu.com/a/194437537_644338

 

[4][5]https://baike.baidu.com/tashuo/browse/content?id=121b5b2a75f6065bb9eeb3e4

 

[6] https://www.yubaibai.com.cn/article/5610496.html

 

[7] https://blog.csdn.net/qq_41731283/article/details/108825436

 

[8] https://new.qq.com/omn/20200724/20200724A07WET00.html

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注