回顾华先胜老师两年前的分享干货整理
本文经授权转载自将门创投(thejiangmen)
以下内容根据华先胜博士所做的线上直播内容整理而成,有删减。
两年前我分享了当时在阿里做的图像搜索的工作,今天我要分享的内容是最近这两年做的一些新工作。
最近我正好看到一个文件,说美国综合了很多调研报告,总结了20项在未来30年将会改变世界的技术,我自己看了一眼,发现前面10项基本上都跟人工智能直接、或间接相关。
所以,看得出来人工智能在将来的世界里未来30年会扮演非常重要的角色,它将会影响各行各业。
那这些行业到底会发生什么样的变化,是被颠覆、会被改变、还是会对它整个布局、整个发展、整个状态发生或大或小的变化,我们分享完以后可以回来再看一下。
前面是一个引子,接下来解释一下今天的题目。无行业,不AI有两种解释方法。
第一,无行业不AI。没有一个行业没有AI,也就是说所有行业都会有AI降临(这个可能有些夸张,可以说是大部分行业吧),就是说AI将会渗透到各行各业里。
第二,无行业,不AI。就是说不深入行业的话是没有成功的AI的。我经常听到的、也是经常讲的一句话,也是在阿里里经常讨论的一句话,就是说今天我们通用的计算是有的,但通用的AI是没有的。所以,AI的技术要让它真正的落地,一定是要深入一个行业,为什么这么说、为什么这样做才可以?后面我们会根据实例来一步步拆解。
第三,视觉智能。因为我是做视觉的,所以重点从视觉智能案例一起来分析。视觉智能也是这次人工智能的热点,因为毕竟从应用的场景看,从今天技术成熟度来看,也是视觉方面做的更为靠前。人的信息获取绝大部分都是视觉,有人是70%、有人是80%、有人是90%,但至少有70%以上是从视觉获取的。所以,这一部分的信息也是最重要的。
第四,探索与实践。我今天讲的例子还算相对比较成功的。其实背后还有很多辛酸、眼泪,今天就不见得给大家分享了,但中间一些坑我可能会提到。
今天的AI,我套用主席的一句诗叫“天生一个仙人洞,无限风光在险峰”。确实首先AI非常风光,AI行业的工资也非常高,现在AI的人才也比较难雇。不管是从工资也好、还是融资、估值等之类的角度看,都很风光,但这个风光确实有点像在险峰上。
所以我后面想接一句“却是容易翻车处”。要保证不翻车的话,很重要的是要在商业上要有成功。商业上的成功很重要的一条是谁来买单。我们不希望只是VC买单,一个个往下接盘,看上去好像也有人买单似的,但这个肯定不是我们希望的,也是不能长久的。
在商业上的成功关键是什么呢?刷榜、PR、融资还是估值?我想除了这些以外,还有一个就是我们今天的主题,即行业壁垒。
我讲行业壁垒的时候,并不是着重说我们需要跟这个行业谁谁谁有什么关系,也不仅仅是行业的知识。
今天我讲的行业壁垒是我们对行业深入的理解,对行业的数据、对行业的问题、对行业的用户非常深入地理解它,为解决这个行业真正的问题,为这个行业的用户、客户带来真正不可带替代的价值。从这个角度来讲,它会成为一个壁垒,而且这个壁垒我个人认为可能会是更重要的壁垒。
前面说了一些自己的观点,后面我们还是从具体例子看一下。
视觉设计
这个其实做的人会比较少一点。曾经Google的DeepMind做过这个,今天我讲的是更能够商用的,更有商业价值的一种设计,而不是看着好玩的。
设计行业,我们这里主要讲二维设计平面设计,但实际上还有三维、还有动画、视频等。这个行业据说有万从业人员,他有很多工具,离线工具、在线工具,还有很多模块、很多素材,据说中国整个市场容量是亿,其实还是蛮大的。
现在这个行业基本上都是人工来做,效率还是比较低的。有很多工作并不需要顶级设计师来完成,但又不是说随便一个人就能设计出来的。我们看到这个情况以后,尤其在电商领域,阿里有这样一个很大的应用场景,有大量的商品广告(我们把它叫“Banner”),我们就开始思考这个问题的解决方案。
这个广告在电商的网站上经常出现,每天的需求量也非常大,我们就以这个作为突破口开始去看,我们能不能依靠算法能够达到初级设计师的水平。
在AI行业,大部分人做的都是识别、理解、搜索。这个基本上是从视觉的信号里去获取语义、或特征,而设计其实是反过来的,是生成或融合视觉信号。
今天也有一些这个方向的学术工作,像StyleTransfer,很早就有人做了,也不难实现。但说真正商用的东西,还不多见,今天我来介绍的就是一个这样的例子。
整个2D设计,目标是可控视觉内容的设计与生成。给定一些要求、一些素材以后,要设计成一个稿子,每个人设计出来的都是不一样的,不大可能有两个互相不参考的人能够设计出同样一个东西来。我们也是这样的。我们既要给他足够大的自由度,但也有一定的可控性。所以我们这个系统做出来以后,其实每次同样的输入,每次输出的数据结果都可以是不一样的。
所以,我们的目标是:可控视觉内容设计与生成,让AI做设计,使数据内容、制造变得高质、高效、普惠、低成本。愿景是:“所想、即所见、即所得”。这个稍微夸张了一点,但实际上你还是要把一些素材,例如文字、图片送到系统中去,后面出来的就是你想要的东西。
这里基本的技术包括了图像的理解,包括了增强、编辑、渲染、生成、评估等,因为我们必须知道我们做出来的东西是好还是坏,而且要自动做出评估。
下面这张图是一个非常Highlevel的系统构成,所想+云上的视觉(智能生成引擎),我们即所见、即所得的是三类东西。
第一类的东西应该很快就会面世、发布,我们内部叫鹿班,也就是二维图像的设计和生成。现在我们还在做的是三维的图像生成。
这项技术在去年的双11上得到了非常充分的运用。这项技术有了以后,对于每一个不同的产品会有不同的设计出来。我们做个性化推荐、搜索的时候是要千人千面,每个人的结果不一样。有了这项技术之后,是千货千面,合起来就是千人、千货、千千面。
所以,每一个不同的人对同一件商品会得到不同的设计,因为系统会根据他的喜好会得到不同的设计,可以以他更喜欢的方式来展现这个商品。
在去年双11的时候,有4.1亿的设计是用算法生成的。峰值的时候,每天可以生成万个,生成完以后直接就上线了。
我们把这个系统成功做出来,其中一定要有设计师一起来深度参与的,因为毕竟我们是做技术的人,不熟悉设计的原理。
大家可以看到刚才这个技术实际上有点想革设计师的命,那设计师怎么会跟你合作呢。我们在做很多行业的时候,比如像医疗,有时也会引起一些恐慌。其实我想这可能是还没有真正理解AI到底能做什么、到底什么东西是不能做的。
我们在寻求设计师合作的时候一定要找顶级设计师来合作,然后才能做出来一个AI的设计师(大概是一个入门级水平的设计师)。
但现在我们的AI设计师也只能做到这种比较有模式的设计。如果要做的非常有创新,今天的算法还是完成不了的。
所以,实际上设计师是不会失业的。但如果你只是一个二流、三流的平面设计师,可能会失业。这个其实也是在深入行业的时候碰到了一个很有意思的问题。有些行业我们虽然会颠覆它,但这个行业里的顶尖高手一定会有他们的未来,我想也会促使我们每个行业的从业者,从简单、重复的脑力劳动中、或有复杂但有模式的脑力劳动中解放出来,这是第一个例子。
视频广告
我记得在很多年前,YouTube刚出来,以及在国内很多视频网站还在为赢得用户而战斗的时候,可能没有多少人哪儿治疗白癜风好专业从事白癜风诊疗