三
如果 Instagram 想要构建这样一个世界,则不能仅仅以技术手段进行修正,比如自动删除蛇表情。因此,工程师开始了更复杂的工作。
在互联网上,从逻辑中分离无意义的信息一直以来都是人类的任务。但由于人工智能的出现,机器越来越擅长这样的工作。
去年六月,Systrom 参加 VidCon 活动期间,Facebook 宣称构建了一个工具来帮助计算机解析语言。该系统被称为 DeepText,它是基于单词嵌入的机器学习概念。当系统遇见了一个新的单词,它会尝试从相近词中推理其意思。如果西瓜的表情总是跟随右翼的迷因(meme)一起出现,则其中包含某种意蕴。分类引擎分析越多的数据,它就能变得越聪明。与我们一样的是,它需要时间学习;与我们不同的是,在一行中读到绿帽这个单词72次时,它并不会感到疲惫或是抑郁。
可以将 DeepText 看做一个被抹除了全部记忆的成人大脑,现在它将会全身心投入到你分配的任何与语言相关的任务。事实上,Facebook 有一个“冰室”里面放满了这样的大脑,公司将这些全部给予其工程师团队。一些被训练识别 Messenger 用户是否需要出租车;另一些被训练引导人们在 Marketplace 上售卖自行车。
(“我们想做的就是,我们想要一个不同的世界。”
Instagram 的公共政策负责人 Nicky Jackson Colaco 说。)
在了解 DeepText 之后,Systrom 意识到他的工程师可以训练 DeepText 来抵挡 Instagram 上的垃圾信息。不过,就像孩子学习语言一样,首先要做的就是人类对 DeepText 进行训练。因此,Systrom 搭建了一个团队对平台中海量的垃圾信息进行分类。
他们将评论标为垃圾信息和非垃圾信息两种,将其馈送给 DeepText。当 DeepText 在区分垃圾信息方面有了较高的准确度,获得工程师的认可之后,Instagram 在去年十月默默地发布了这款产品。
然而,Systrom 产生了一个更为复杂的想法:如果 Instagram 可以使用 DeepText 过滤刻薄的评论呢?忘了 succs 和互相关注(follback)吧。人工智能(AI)能够学习过滤更多含义不明确的内容吗?“去窗边 take a big L E A P out of it”这句话绝对是充满恶意的,但它却没有包含任何恶意的词汇。“别合拢,张开双腿,宝贝”这句话非常粗鲁。但是计算机可以识别吗?“面包像你母亲一样丰满”非常粗鲁,不知所云。但是这句话同样可以出自一个真正品尝过你母亲做的德国饼干的发小口中。
其他的社交媒体公司致力于过滤垃圾信息,但是 Instagram 使整个平台更加友好的新计划显然具有更远大的抱负。Systrom 告诉他的团队要奋勇前行。
四
Instagram 是一个初创公司,只有500名员工,大概一个员工对应一千五百万活跃的用户。同样,训练机器使其变得友好的团队也很小。去年六月,20名员工中,一半使用立式办公桌,一半使用坐式办公桌,周围则是散落的一箱箱的消毒湿巾。每个人看起来都很年轻;团队的成员也很多元。带有头巾的女士在身着 Tim Lincecum 球衣的白人旁。他们的工作就是细细阅读评论并判断其是否符合 Instagram 的社区规范。
Instagram 在2012年首次起草了这份规范,尽管只有1,200词的简易版本对公众开放,但对于社交媒体平台起到了类似宪法的作用。(简单点说:请时刻保持尊重,注意着装)。然而,评判人可以接触到更多、更核心的规范,他们使用这些规范决定哪些内容违规,哪些没有。他们都至少会说两门语言,他们已经分析了超过200万条评论,每一条评论至少被审查过两次。
在处理大多数具有攻击性的词汇时,其中细微的差别至关重要。“如果你使用黑人词汇(N-word)来侮辱别人,这在我们的平台是不被允许的”,Instagram 的数据运营部主任 James Mitchell 说,其负责评判人的管理工作。“有一种例外是,你以自我指涉的方式使用词汇或者以自己的故事或者经历来反抗歧视”。
评判人将数据分类后,经过分类的4/5的文本都被馈送给 DeepText。机器学习所有的评论,寻找数据中的所有模式,好的分类与不好的分类进行比对。最终,Instagram 的工程师,与 DeepText 联手,基于推文的内容和其他特性,比如作者和评论者之间的关系,共同制定规则,以分辨负面的评论。公司同样使用一种度量—工程师内部称其为因果数(karma score),用来捕捉用户历史推文的质量。将制定的规则在没有被馈送给 DeepText 的那1/5的数据上进行测试,查看机器与人类评估的匹配度。