今日头条副总裁马维英:信息流的未来与人工智能的机

By 机器之心2017年6月02日 19:06

全球机器智能峰会( GMIS 2017),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个 Session、32 场演讲、4 场圆桌论坛、1 场人机大战,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。

5 月 27 日,今日头条副总裁、人工智能实验室负责人马维英在大会上发表了主题为《信息流的未来与人工智能的机会》的演讲,他分享了今日头条在人工智能时代,信息分发的机遇和挑战,详解了今日头条如何利用人工智能促进人类社会信息交流与写作。


核心要点:



640-34.jpeg


以下是经过编辑整理的演讲实录:

1. 信息流时代来临,人工智能可以重新定义一个新时代的信息平台

人工智能的本质是一个软件产业的革命。如今软件产业正在吞噬全世界,然而软件产业本身正在被颠覆。在过去二三十年的数字化进程中,万物已经被数字化,一切事物一旦被数字化表达之后,计算机就可以用它庞大的计算能力、用光速推进一个原来在人类社会类比世界里面旷日费时的过程。今天,万物互联更进一步,又不断地给予我们控制每个终端的机会。因此,我们已经是一个数字表达的世界了。
云计算能力也是如今科技世界的新能力,还有越来越多的 PowerFell 的计算设计,越来越多 GPU、TPU 还有一些新的 FPGA ,用在数据中心里面,处理越来越多的矩阵计算。我们也看到终端(像手机)计算能力也越来越强,今天能够在云端训练一个非常大的机器学习模型,这个模型里面有百万、千万的参数,当这些参数已经无法用软件工程师借着编程语言来把这样一个动写出来。在过去二三十年,我们有大数据,借着机器来学这些参数,所以我们看见软件越来越智能。


640-35.jpeg


这里面其实是有一个正循环,今天越大的数据、越强的计算能力,让我们能够有越来越好的模型,这里面就包括统计模型,深度学习模型也受到越来越关注。接下来有很多符号逻辑的模型、知识模型、知识表达,也都在进一步地推进。

2. 很多公司看到「AI+」或者「+AI」的机会,今日头条在重新定义人与信息的连接

上述基础能力的快速提升,推动人工智能时代的来临,也让很多公司看到「AI+」或者「+AI」能够颠覆很多原有产业。从今日头条角度,我们在重新定义人与信息的连接。PC 互联网时代,有人找信息、信息找人,搜索引擎扮演着非常重要的角色,但在那样一个时代里,搜索引擎并没有直接跟网站产生紧密的连接关系,搜索引擎对个人的了解仅次于过去他所搜索的关键字。而今天在移动互联网时代,个性化信息流已经成为一种新方式,人们把越来越多碎片化时间和信息需求放在手机终端上。工作、学习、娱乐等方方面面的信息,在人不需要主动表达需求的情况下,一个个性化的推荐引擎,能够事先预测他的信息需求,源源不断地推荐相关的内容给他。
今日头条作为一个个性化的推荐引擎,其推荐系统中使用了各式各样机器学习算法,还有很多深度学习的算法。我们对每一个用户建立了非常高维的向量表达,对每一个内容(文章、视频、问答)设置一个非常高维的深度学习所学出的向量表达,对每一个时空环节、用户所在的地理位置及时间也都学出了一个向量表达。我们需要在这中间做一个匹配、算出一个模型,使每一个用户都有一个针对它的个性化的表达,而且能够根据用户新的使用行为,在几毫秒内更新一遍。在这样的情况下,今日头条这样的产品上,我们可以看到越来越多各式各样的内容:
第一端:不光是新闻,越来越多的像短视频、直播、问答也都已经成为新内容;
第二端:我们连接人与信息。我们最近刚刚发布的微头条,我们也把很多的社交功能引入。总之,我们的目标是希望成为一个最懂你的信息平台。
由此,今日头条已经拥有相当大的数据量,每天有 60 亿数据,目前大概全中国有 4 万台服务器,很快这个数字会成长到双倍。还有用户的数据,大家已经看到有 190 TB 的数据,以及我们每天收到的请求,已经是一个非常大的并行分布式的机器学习的系统。
最重要的一点是,今天我们在中国有 1 亿的日活跃用户,这些活跃用户当中,平均每天使用 76 分钟。用户这么长时间使用头条的产品,我们有更多的机会能够了解用户,并深度地对他的需求、对他未来的需求进行预测,我们就有机会能够做出更好的内容跟更好的推荐。
不但在中国,我们其实也在全球范围快速布局,在过去这一年,我们进入美国、巴西、印度还有在欧洲,大家可以看到头条的产品提供用户服务的区域和国家。


640-36.jpeg


3. 人工智能驱动信息流

在 PC 互联网时代,信息的创作端跟最终的信息消费端以及连接中介如搜索引擎,它们之间的关系并不紧密,但今天这个情况已经改变。在头条, 我们头条号作者已经接近 50 万,所以大量各式各样的原创内容已经在到我们的平台,用户端也已经有了各式各样的信息流、各式各样的应用,可以看到都是新的信息流流出的管道,大家看到的是整个信息流里面的每个环节。


640-37.jpeg


今日头条就是要建立下面的 AI Infrastructure ,提供所有 AI 的解决方案,在中间每个环节提供内容的处理、分析、挖掘、理解、组织。从内容的创作到审核、过滤,我们其实也花了很大的力气,因为第三方直接将内容发布在我们的平台,我们负有这样的责任,希望这里面的内容是合法的、是没有问题的。
当然我们现在有人工标注、人工运营,但是我们也一步一步地把更多人工智能的自动理解内容做进来,一旦过滤审核过后,我们就进一步根据用户来分发,分发之后用户和信息再进一步交互,最后连信息的消费者,也越来越多地成为信息的创作者。
人工智能清楚地定义每一个输入跟输出,每个信息流中间都可以做迁移学习,一个用户的兴趣爱好可能也可以帮助我们学习另一个用户的兴趣爱好,我们可以进一步地改变我们的算法,也可以用对抗学习。我们有大数据、大用户,非常长的用户时间,而且有这么多丰富的应用场景,人工智能技术几乎在所有信息平台的创作、分发、消费、互动等环节都可以大大的改善。
今日头条接下来要做的是,从今天这样一个数字化的时代,一步步学习出一个表达方式,从而转换到语义表达的时代。今日头条开发了很多人工智能的标注工具,帮助他们标注得更好,他们标注的结果甚至也可以得到一些另外的反馈,又重新来帮助我们的机器学习,让机器学习又学出更好的算法,提供更好的工具给审核标注人员,最终使审核标注人员更高效地标注新样本,产生正循环。
因此,在今日头条,整个闭环的概念包含了我们的工作人员、运营人员、审核人员、工程师、人工智能算法的研究人员,还有我们最终用户。在使用我们头条产品的时候,每一个点击行为,在每一篇文章待了多久、分享给多少个人等都可以记录。这是比 PC 互联网时代更好的机会,搜索引擎不再需要用爬虫来尝试反向工程了解每一个网站里面的结构或内容,因为我们可以更紧密地跟创作端合作,可以拿到更多高质量、结构化的数据,用户端又能够这么深度地理解它,我们有机会可以提供更好的服务。
在人类创作和人类读者的交互过程中,我们不断地构建出机器创作和机器读者。机器读者可以帮助我们将来做审核,就相当于机器如果能够阅读和理解里面的内容,它就能够告诉我们这个内容是否低俗、真假,这些都在帮助我们更好地提高产品开发和服务的效率。
最近我们对摄像头非常感兴趣,因为我们认为接下来相机本身已经不再是一个光学相机,而是一个计算的 Computational Photography 。再加上我们今天要做视觉理解 Visual Understanding ,再加上 Augmented Reality ,所以我们可以用这个相机的摄像头成为一个输入,也成为新的内容创作入口。同时,在机器写作方面,我们也尝试了在一些垂直领域做机器人报道,特别是在体育、财经方面已经开始使用机器人写手来自动产生内容,有很多用户看到的内容其实是机器人写手写出来的报道。
总结来说,如今,我们在今日头条看到新的运用人工智能连接人与信息的机会。
在过去的人类历史洪流中,从结绳记事传递人与自然的关系,一直到公元前 2000 年纸的发明, 1000 年左右活字印刷术的发明,其实纸张和书成为一个人与信息连接的主要媒介,但是经过很长一段时间,几乎是到了过去三四十年才又进入一个新时期。互联网时代网站让纸张开始消逝,移动互联网时代又加速了这一变化,因为它让人可以用智能手机这一载体接触他所需要的一切信息。
而进入到人工智能的时代,我们认为我们可以利用这样一个新技术,让每一个人都能有一个无所不在的机器智能,帮助他们来发现、使用和交流、创作信息。借着更多的人机交互、人机互相学习,人工智能越来越智能,进而推动每个人工作效率的提高,进入这样一个良性的循环之后,我们能够把人工智能继续推进到一个超级智能的时代。icon.png

更多有关GMIS 2017大会的内容,请「点击这里」查看机器之心官网 GMIS 专题↓↓↓

屏幕快照 2017-05-27 上午7.59.58.png


声明:本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。