编辑:袁榭 拉燕
【新智元导读】嫌情人节的各种卡片、糖果上情话千篇一律?每年上AI界网红Janelle Shane的个人博客,搜集她例行用AI生成的奇葩情话吧:「爱上两千野猪」、「打到我服」、「蚂蚁能留下」。
情人节到了。
不管是永远孤寂的万年单身宅,还是等着另一半奉上例行年敬的有情人,抑或是憎恶商业化节日物化人性的愤怒野狼,都会预期在今天看到铺天盖地的量产单调情话。
嫌弃情人节的情话千篇一律令人厌倦,几乎已是普世情绪。那么,想要月下鬼步舞不走寻常路、整点诡奇情话的话,该怎么搞呢?
有会写码的大姐姐支招了:拿AI来跑。
2018年,开始用个人电脑训练AI说情话
自由研究者Janelle Shane,主职是在光学设备公司供职的激光科学家,副业是搞自己爱好的神经网络AI训练、写AI科普书籍、做AI界网红。
在gpt没有面世的2017年,她就拿自己的MacBook,训练简单的神经网络AI写哈利波特同人文、给星战宇宙和龙与地下城游戏创作新的角色名字、生成新的宝可梦卡片。
2017年底-2018年的情人节,她开始了自己的着名习惯,隔年就用AI生成一批情人节心形糖果/卡片上的情话。
在情人节前后,这些被称为「糖果心」的产品会在欧美热销一阵。它们小小的,上面写着一些简短的和情人节相关的信息。心形的糖果上一般只有几个字符的空间,所以一般就写一些像「我爱你」或「给我打电话~」或「我是你的!」之类的东西。
为了创建「情话bot」AI,最开始Shane搜集了366条市面上真正在售卖的情人节心形糖果的情话。将这些原始数据集输入神经网络,让AI识别数据模式然后利用这些模式生成新的仿作情话。
结果嘛,的确颇为新异。不过看得出AI在示爱勾引人这门技术的造诣上还远远比不过真人。生成的情话产品也远未达到能填在糖果、卡片上卖钱的商业化质量。
尽管不能卖钱,但结果真的非常奇葩。
AI生成的情话有的甜度达标:
「爱情面包」(LOVE BUN)
「你是宝贝」(YOU ARE BABE)
「亲爱的我」(DEAR ME)
「可爱的吻」(Cute Kiss)
「我的小熊」(MY BEAR)
有的就差点意思:
「就是你」(YOU ARE IT)
「我比心」(HEART ME)
「爱我的英雄」(FANCY MY HERO)
更多的往奇怪的方向奔去了:
「全体悬浮」(ALL HOVER)
「熊队」(TEAM BEAR)
「钉住一脸」(PIN A FACE)
「陷坑爱」(BOG LOVE)
「我鸣笛」(I HONKER)
还有一些进入了真正诡异的领域:
「爱上两千野猪」(LOVE 2000 HOGS YEA)
「打得我驯服」(BEAT ME TAME)
「臭臭的爱」(STANK LOVE)
「汗汗的便便」(SWEAT POO)
「汗汗的梨」(SWEAT PEAR)
「燧石脸」(CHERT FACE)。
更有一些进入了成年人双关语领域:
「甜心长棍」(SWEET POLE)
「贴肉伴侣」(MEAT MATE)
「你是坨黏液」(YOU A GOO)
「舔」(LICK)
「看着大」(LOOK BIG)
「我的小*人」(MY HAG)……
按Janelle Shane接受采访时的回应,她觉得拿AI生成勾引人情话这事非常有意思,因为算法完全不懂单词的具体意思,也不知道为什么换一个字母意义就会改变。当时的简单AI只会学习数据排列的模式,并按这些模式排列字母。
不过以AI为镜,可以知人类自己求偶时能有多搞笑,毕竟原始数据字眼全是从市售的真实心形糖果上摘录的。
2020年,用GPT-2生成乱码情话
2017年生成情人节情话的神经网络AI,对英语的训练经验为零,只能学习原始的那 366 条文字中的内容——而且,它还是不知道在某些组合中应该避免哪些字母。
在2019年底-2020年的情人节,Janelle Shane尝试使用 GPT-2来生成情话。
在当时,GPT-2算得上是自然语言处理领域的市面上最强AI,参数超过15亿,爬取的训练文本相当于3.5万本《白鲸记》,在各种「预测给定文本后内容」的任务上有突出表现。
虽然当时GPT-2还没有学习过关于情人节卡片的内容(尽管它可能已经在网上看到过卡片的列表),但Shane用 talk to 给它添加了现有的心形糖果、情人节卡片上的情话内容数据,看它会输出什么。
不过Shane知道,GPT-2不是专门生成心形糖果情话的神经网络。她所做的事有点像走到某人面前大喊「火辣好家伙!酷男!甜蜜情侣!给我打电话!魔法男孩!就算!」这些词汇的杂烩,任何真人听到这些都会感到迷茫。
但其实,这和朝着神经网络AI喊「润滑剂」,并期望从AI运算结果里得到反馈,是差不多的事。说实话大多数自然语言处理的实验都是这么无厘头。
那这个神经网络AI知道它到底在做啥吗?应该是不知道的。在GPT-2输出了一些全文大写的文字后,又会继续显示其他类型的文本。从这些其它的文本,才能看出它到底想输出什么:
歌词
乐队名
动物有趣小知识
校园惨案记录
铃声曲调
即使给GPT-2一个线索,并在提示中标清楚,这是一些和情人节相关的信息,GPT-2似乎仍然不知道自己在输出什么东西。这类文本在它的训练数据中可能很少见。
另一个线索是,GPT-2生成的心形糖果情话通常都很长而且无厘头——它没有长度限制的概念。比如如下:
**困难,真的需要低密度鲟鱼
天佑不死队伍
火辣玩意,我的身体是
排出横溢之爱
舞场地板的面单
来自地穴的信息称看到你给我发朋友信息非常高兴
我想知道今天是几号
警惕我们的底层
如何穿得像只蝙蝠
美国海洋卷心菜愉悦
朱古力香蕉奶酪块
如此的话,我能请你吃饼干么
生成的长句糟糕,但在生成情话短句上,GPT-2还是颇有斩获的。比如还算甜蜜的有:
真心对待(HEARTED TREAT)
恋爱号角(LOVING HORN)
面包上起舞(DANCING ON A LOAF)
诡异范的有:
蚂蚁能留下 (ANTS CAN STAY)
完蛋了 (DOOMED)
结局 (THE END)
生化污染物 (BIOHAZARD)
鸡鸡万岁 (ALL HAIL THE CHICKEN)
猫猫乐队 (KITTEN BAND)
那就这样吧 (SO BE IT)
*人双关范的有:
润滑油(LUBRICANT)
放气的咪咪(FART BOOBY)
屁屁(BUTTOCK)
这些情话,简直是车祸现场啊……看来GPT-2也没有传说中的那么智能。
2021-2022年,用GPT-3生成连图带字的情人节贺卡
Janelle Shane现在把AI生成情话玩成一个年度仪式。2021年,她用上了GPT-3。
一般人们所说的「GPT-3」其实是一个不精确的笼统术语,它其实是一个用于 OpenAI的API集合中不同的训练模型。一般来说,大家指的是「达芬奇」,这是最强大的模型。
Shane给最强模型「达芬奇」以下提示:
生成 12 条情人节心形糖果情话,最长 10 个字符,全部大写。不要包含现有的心形糖果情话。
以下是「达芬奇」输出的一些内容:
跟随 ()
帮忙 (HELP)
我需要 (I NEED)
为啥 (WHY)
我仍然 (I STILL)
邪恶 (EVIL)
绶带 (RIBBON)
不信 (UNBELIEF)
空间 (SPACE)
甩 (YEET)
萨摩亚 (SAMOA)
这还算好,越长的就越奇怪……内容无所不包:
要幸福哦(BE HAPPY)
是你!(IS YOU!)
你的1968年大胜(YOUR 1968 WIN)
我们在一起有不可计数的6年了(WEVE DATED FOR 6 OF YEARS)
我祝你圣诞快乐(I Wish You A Merry )……
挖空树造独木舟(TO CANOE THE NOSE)你扛底座(YOU BEAR THE PETALS)
山莓好吃(SHRUBBERYS PRECIOUS)
所有吃食加上可可都更美味( WILL BE ALL IN )
那么 GPT-3 的其他变体呢?
最小的模型是「艾达」。这是它输出的情人节情话:
甜点()
饺子(dumplings)
糖棍(candy bars)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
次小的模型是「巴贝奇」。以下是它输出的情人节情话:
我很高兴你为我做了这个(Im so glad you did this for me)
我很高兴你想通了几件事(Im glad that youll out a few )
我能明天过来么(Can I come over )
我能留下么(Can I stay)
我能呆到4月3日么(Can I stay till April 3rd)
我发现了真相!(I found out the truth)
对不起(Im sorry)
我怕(Im afraid)
我很高兴你来救我(Im happy you came to my rescue)
我很高兴你在这儿(Im happy you e here)
我很高兴你不恨我了(Im glad you don hate me anymore)
比「达芬奇」本身低一档的模型是「居里」,以下是它输出的情人节情话:
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
Shane还尝试让「达芬奇」模型生成更奇怪的情话,效果较好的是微小说:
天空黯淡成紫色(The sky is fading to purple)
请将你的大块从我的舱盖拿开( move your bulk away from my hatch)
我们的触手比你以为的更相似(Our are more alike than you might think)
可以从这些AI模型生成的不同风格的呓语情话里看出,「达芬奇」被训练成了文青、「巴贝奇」被训练成了惨绿少年、「艾达」被训练成了吃货、「居里」被训练成了自恋小屁孩。
2022年,Janelle Shane让GPT-3连图带字,完全生成出一张整全的情人节卡片内容。
GPT-3 原本并不是专门为生成情人节卡片文本而设计的,但它已经学习了足够多的英文范例,包括人们如何互祝情人节快乐,所以Shane不需要再想办法去找成千上万的卡片是怎么做的。
Shane浏览了一些销售情人节贺卡的网站,并记录下其中一些卡片的描述。
最终,Shane给了GPT-3 10个精心策划的范例。然后,由于文本生成神经网络本质上是文本预测神经网络,GPT-3的工作就是预测列表的其余部分,它可以自行添加余下的内容。Shane在做每张卡片的时候都尽力按照AI模型说明的指导去做。
Shane的最终任务就是挑选她喜欢的卡片,然后配上点文字。
最终效果比之前都好,不难看,图文也相符。
情侣去死团的情人节卡片:「咩!不要在这里,不要和我在一起!」
最佳恭贺:「节日快乐!年年有今朝!」
「哎呀~性感的焦熟桃心!」
「情人你好,我为你崭新的大爱心做了特殊酸奶来庆祝哦!」
说实话,这些情人节卡片产品,已经可以拿去卖钱了。
参考资料:
https://www..com//?=03340
https://.com//
https://www..com/40529660/-
https://www..com/-9/
https://.com/
https://nerdist.com/article/neural-net-ridiculous-candy-hearts/
https://www.cnet.com/news/h/
https://www..com/4/