央视新闻客户端

央视新闻客户端点击或扫描下载

首页资讯科技农业健康

大数据名人讲堂:揭开数据科学神秘面纱

观点 来源:央视网 2016年08月25日 16:33 A-A+ 二维码
扫一扫 手机阅读

原标题:

  大家好,今天很高兴来到《大数据名人讲堂》,今天我给大家分享的题目是《揭开数据科学神秘面纱》。为什么会讲这个题目,首先说数据科学这个概念从2010年出现以来是一个非常时髦或者是火热的概念。有些人认为数据科学是一个非常神秘或者神奇的学科,有化腐朽为神奇,点石成金的魔力。但是有一些,了解一些数据科学所涉及的技术的一些人,这样一些人又认为,其实数据科学不过就是传统的统计学的领域的一些东西,最多算是它的一些新的发展,跟传统统计学或者传统的数据分析没有本质性的区别,完全是在炒作概念。所以今天我讲这个题目就是想从我个人的观点来跟大家分享一下,到底什么是数据科学,它跟我们以前的传统数据分析方法有没有本质性的不同,或者有的话,它是什么样的不同。

  今天的内容主要是三个部分,第一个是概要性的来介绍,什么是数据科学,中间当然就包括了它的定义,它作为一个新的数据分析方法,它的方法论是什么样子的,它可能涉及到哪些具体的分析步骤。中间我会比较概览性的来讲一下数据科学涉及到的相关的技术,包括IT方面的技术,以及分析技术,最后一部分会讲一些数据科学实际的案例和例子来具体介绍一下数据科学能产生什么样的价值,同时数据科学是怎么来运作的,最后可能会总结下数据科学未来的发展趋势会是什么样子的。


  首先,第一个问题,就是很自然的事,什么是数据科学,数据科学出现其实有很多种不同的定义,我在网上也搜索了一下,我认为维基百科一般还算是比较一个大家公认的定义。维基百科上的定义是这样子的,数据科学是一门关于从不同形式中的数据中提取知识或者洞察的处理方法和系统的交叉学科。数据科学是统计学,数据挖掘,预测分析的延续。所以这个定义非常非常的正统,它其实讲了数据科学会干些什么事情,它的研究的对象主要是数据,想尝试从数据中提取知识或者洞察,但它又涉及到了怎么去做这些工作,需要哪些方法,需要一些系统的支持,然后它可能牵涉了不同的学科。然后它也点出了其实数据科学是跟统计学,数据挖掘,预测分析这样以前就存在的学科之间是有一个延续性的关系的一个定义,但是我个人认为这并不是一个最好的定义。

  我更喜欢一个定义是这样子的,数据科学是将数据转化为行动的艺术,这个定义非常短,但是我觉得是包含了数据科学真正的精髓。我们去研究数据,去分析数据,去从数据中提取知识,其最终的目的是要转化为行动,这个行动是为了创造价值,或者为了造福社会,或者改善人类的生活,这是数据科学最终的目的。同时,它也说明了数据科学目前现在的状态,为什么强调它是一个艺术,就是因为它目前还在一个成长和成熟的过程中,其实在某些很关键性的地方还是很依赖于人本身的经验、直觉跟洞察,而没有一个非常标准完善的标准流程,可以一步一步就能达到非常好的结果,所以这也正是它目前的魅力所在。而且我觉得这个定义也将数据科学与传统的统计学,传统的统计分析技术或者学科有了一个本质性的区分,区分在哪,就是传统的统计学其实更多的是用来为了我们研究,去了解这个世界,去了解世界的规律,就是提出我们人可以理解的一些知识。但是数据科学其实不完全是这样子的,它的最终目的是要解决实际的问题,但是这个问题具体是怎么解决的,可能跟传统的思维不一样,可能我们并不需要一定从中间得到一个是人完全可以认可的一种因果关系,或者什么样的一个完备的知识,然后我们再基于这个知识做行动,而是基于数据发现了一些可能存在的相关关系,或者能够形成,或者能够建立一个预测性的模型,这个模型也许对人来说是一个黑盒状态的模型,但是基于这个模型我们就可以做出一些预测,基于这些预测我们来采取一些行动,来创造一些新的价值,这我也觉得这是数据科学跟传统的统计分析有一些本质性不同的地方。

  讲完什么是数据科学,我们来说为什么会产生数据科学。因为其实按照说,这些数据分析的统计分析的工具、学科已经发展很多年了,统计学至少是一百年以上的历史,但是为什么到了现阶段又有数据科学这个名词冒出来,最主要的原因就是因为大数据时代的到来,什么是大数据,这里我不想反复的去强调这些东西,但是显然它给我们做数据分析带来很多前所未有的挑战,当然也带来了很多新的机遇,以前可能想都不能想,或者能想但是却做不到的一些事情,我们现在可以去做了,比如说像我所在的领域,有一些我们的合作伙伴,他们以前有很多很多的很好的想法,但是苦于没有这样的数据,没有大量的数据,所以他们没有办法去做这些事情,但是现在随着技术发展,随着互联网的发展,随着移动互联网的发展,在移动互联网内部积累和产生了,包括每天都在实时产生大量大量的数据,而很多这些数据都是非常有价值的,这些数据就可以用来做一些可能以前我们能想,但是却没法做的事情。但是正是因为现在数据量变大了,然后数据的来源也复杂了,而且因为数据的产生本身的目的,可能也并不是我们最终需要解决的问题直接来设计、产生的,随着也带来了很多很多不确定的,或者不太那么受控的一些因素,所以也会带来了一些对数据分析来说,带来了很多很多新的问题。

  这里我就简要列了几个,像这种怎么去获取数据,获取来的数据我们怎么去整合这些数据,拿到这些数据可能这些数据我们是以前完全不知道的,那么怎么去评估它的质量,怎么评估它的价值,这都会带来很多很多问题,这就使得限于原有的统计学或者原来的数据挖掘这样一些范畴内的这样一些标准的方法流程,或者一些方法论,变得是不可行了,所以才会提出数据科学这门学科。实际上它是说认识到了传统的这样一些方法,在新的大数据环境中有很大的不足,我们要去解决这些问题,所以我们有了一个新的学科,这个学科就叫做数据科学。

  因为在这个大数据环境下面,我们面临的挑战变得非常的不同,所以我们也会产生了新的这个数据科学的自己的一套新的方法论。首先我们来看看对于传统分析的一个方法论的模式。当然,我这里是一个非常非常简要的总结,也并不代表传统的分析方法,一定就是完全完全这么简单的。但是总的来说,传统的分析方法可以看到一个直线性的过程。首先就是我们可能要提出一个假设,比如最简单的我研究一个新药,比如对心脏病是不是有显著的疗效,这么一个东西,那么提出这个假设以后或者说提出了这个问题以后,可能我们要去设计很多实验,比如对照组,把病人分成两组,一组用安慰剂,一组用新药,去测试,观察一段时间,然后我们搜集到这样一些病人数据,有了这些数据以后我们用统计分析的模型来去建模,建模以后我们来看这个的结果,是不是能够说明这个新药能够产生真正的显著疗效,这是传统的统计分析的一个基本的思路。

  就是说,我们首先提出问题,提出问题可能我们要根据这个问题去设计实验,得到数据,然后建模,然后来验证,最后这个我们的问题是不是得到了解决。但是对数据科学来说就有很大的不同了,它的整个过程就变成一个有点像,好的说就是说一个迭代性的方法,我可能要做很多次,很多次很多次的迭代才能得到一个最终的结果。或者另外说的那个一点的话,可能就像走在一个迷宫中,我们可能在不断的尝试,可能走到这条路走不通了,我们回到上一个,又从另外一边去尝试。要做很多很多的尝试,这是为什么?因为首先对数据科学来说,我们可能一开始可能会提出一个大的问题。比如说,我们要去预测世界上的大屠杀它能不能发生,比如六个月内哪些地区可能发生种族大屠杀这样的事情。这样一个宏观的问题提出来以后,我们应该要哪些数据,或者说我们能够获取哪些数据,这本身就是一个巨大的问题。那么基于这些问题的话,我们搜集到的这些数据,比如说我们在互联网上扒了大量的这种时政新闻或者还有一些政府公开的数据以后,做了大量的数据收集工作。搜集工作以后,在这个阶段还并不能够确定每一个数据到底代表的是什么意义,它中间到底有多少信息,有多少价值,这些都是不太清楚的,所以这中间要做数据探索,做数据探索以后,我们可能又发现中间有很多子问题出来,这些子问题可能要去进一步探索,可能要建模,可能要回过头来重新探索数据,可能要做很多次很多次的这样的尝试迭代,最终才可能得到比较理想的结果,不可能一开始我就提出了一个假设,我就可以根据这个假设,很好的去设计一个非常受控的实验,或者说通过这个实验来得出一个质量非常高的数据,然后基于这个数据我们就可以得到一个很好的结果。数据科学通常不是这样的,或者典型的数据科学面临的要解决的问题,不是这样的问题。所以,这就是数据科学从方法论上来说跟传统的统计分析的这样一些方法有本质性的不同。

  虽然数据科学还在一个成长的过程中,但是它们一个基本的步骤还是可以做一些大致的划分,当然这个步骤并不是说每一个,对每一个问题我们都必须严格按照从零开始一直走到最后,从搜集数据开始一直走到行动。其实数据科学这个里面,实际上是说它每一步都可以产生价值,并不是需要走到行动那一步才可能产生最终的价值,但是中间的每一步也不是一定的必要的过程,根据问题的复杂性,还有数据的复杂性,和我们最终的问题,其中有些步骤是可以跳过去的。当然它有可能是说,走到最后一步又可能回到前面来,这些都是有可能的,但是我们从一般的工作流程来说,我们可以做一些大致的划分,重要的几个不同的工作,模块或者步骤,最基本的可能就是搜集数据,这是最重要的。其实现在大数据时代,我们社会上,或者说是我们的互联网上,或者移动互联网上,有很多公司或者政府或者各种组织,内部都有很多种数据,有些是不公开的,有些是公开的,有着大量的这样的数据。那么我们解决一个问题的时候,很重要面临的一个问题,我们就是需要去搜集这些数据。我们到底需要哪些数据,这是第一步,因为这是,没有数据的话,可能后面的工作是无米下锅的。所以这是第一步,搜集。搜集完了以后,因为搜集的数据可能是从各个渠道来的,它们的质量,它们每个数据里面的每个字段的意义都可能不太一样,这里面需要做大量的准备工作,可能要做数据的清洗,纠错规范化,甚至有缺失值的填充,很多很多这样的很细节的工作需要去做,做完这些工作以后,可能我们对数据还需有一个大致的了解,比如说这个数据量到底有多大,有多少条这样的数据,每一个数据有多少维度,每一个维度是怎么分布的,它有多少缺失,或者各种各样的一些统计性信息,帮助人们对数据有一个概览性的认识。但是这个认识其实只是说对数据的一些最基本的指标的认识,而不是对数据价值本身的认识。

  那么要探索数据到底有没有价值,就需要进行一个探索的工作,可能我们一开始并不清楚,比如说我们拿到了,很多人在淘宝上购买的行为。

  那我们怎么知道人在线上购物会有什么样不同的模式,或者说有几类不同的人群,一开始我们可能基于这个数据,数据量非常非常大庞大,不是根据人的肉眼可以看得过来的,我们借助一些数据探索的技术,比如说聚类,或者说是关联规则分析,我们去探查数据里面的一些洞察和一些特征出来。这里面可能发现一些特征的人群组,或者是发现一些异常的数据点,这样的话可以加深我们对数据的认识,也可以帮助我们进一步修正这个数据,发现数据的问题,在这个基础之上,我们可以对数据有一个很深的认识,我们可以基于这个认识对我们具体的问题我们可以选择合适的模型,或者说选择合适的技术来做预测。

  比如说预测广告的点击率,预测一个用户对某个物品是不是喜欢,或者预测某一个城市,某一个地区会不会发生犯罪,诸如此类的很多的问题,预测模型来解决。但是预测完了以后,但是很多人认为数据科学最终的目的就是做预测,做预测以后,我们就万事大吉了,所有问题都解决了,其实也不是这样子的,对于某些复杂的数据科学问题,预测还只是其中的一步,对于最终解决还有一些需要做的工作。

  比如说一个公司它有很多产品,它的新产品上市以后,它要做的很多策略,我怎么去做定价,因为定价高了可能利润高,单品的利润高,但是能买它的人群就减少了,但是它定的很低,可能没什么利润,但它卖的多,到底定什么样的价合适,首先的话我们需要解决的一个问题,就是预测问题,我们到底卖多少钱,它能有多少人来买,先把这个模型解决了,如果这个模型解决了以后是不是我们的问题就解决了呢?还不是的,因为可能我们同时上市的很多款产品,它们产品之间可能各有各的,内部就有一些竞争关系,虽然每一款产品,它们的价格跟最终的销售量预测模型我们建立好,但是最终得出一个所有商品最优的定价策略,可能并不是预测模型能够给我们回答的,所以这里面要牵涉到一个做优化的问题。

  我们在有了这些预测的结果以后的预测的模型的基础上,我们再根据一些其他的数据,或者尝试一些约束,我们可以用一些最优化的方法,来去计算出一个最好的定价策略或者是说可能这个模型过于复杂,我们没有办法用一般的计算机技术求解,那我们可能就需要做仿真的工作,我们来看看在不同的策略下可能会得到什么样的结果,然后经过很多人这样的仿真实验,我们再选取最好的一个结果。这么就是一个做优化的过程,但优化完了以后我们有很多的策略,但是最后它要产生价值,最重要的一块还是行动,这个行动就有很多,有线下的,我们怎么去保证人严格的执行这些,我们通过数据科学得来的决策方法,或者说在计算机上,比如说在推荐系统或者计算广告领域,我们学出了一些很好的模型和策略,那我们怎么让计算机系统高效的去执行,这里面也面临着很多这种行动方面的这样一些课题和问题,最终的挑战就是行动的挑战。这里讲的数据科学的基本步骤,基本上也就相当于给大家讲了数据科学的整个定义是什么,它是如何工作的一个基本的概念。下面我们可能会深入一下,跟数据科学相关的一些技术,

  首先一个,就是IT技术。为什么要提IT技术呢。因为正是因为有了这个IT技术的support,我们后面的这种分析才有可能得到高效的执行,所以我认为这种IT技术的发展,是数据科学到今天这一步的一个重要的基础,甚至是物理基础,所以这里有必要提一下。

  因为我们知道在传统数据领域的话,发展很多年了,从关系数据库提出以来,这个关系数据库的IT领域已经对数据的管理已经统治了很多年,一直到互联网兴起以后才有所撼动。传统的数据库,包括后来衍生出来的数据仓库,它们都是为了公司内部,某些企业公司内部,非常明确的一些业务需求去定出来的一些数据的表格格式,数据仓库的这样一种组织方式,这些基础设施对数据科学来说有没有作用,当然也是有作用的。但是它们本身的设计目的跟它们的组织方式实际上说是限制了数据科学来发挥威力,为什么?因为在数据仓库里面组织过的这些数据,实际上是从原始数据经过了很多加工、抽取,然后最终形成的这样一些数据块,这样的话,数据它的好处是说,它非常容易让人理解,非常容易去提取,非常容易查询,但它的问题就是说,在这个过程中损失了大量信息,因为数据是承载了大量的信息的,从信息论的角度来说,你对信息做任何一次转换,不管是什么样的转换,它中间的信息量只可能降低,而不可能提升的。

  如果我们的数据仓库为某一特定的目的去设计,这个问题并不明显,因为我们只是为了解决这个问题,我们从数据中抽取了需要的信息,但是数据科学它的出发点就不一样了,因为未来我们需要解决的问题可能不是说我们现在能预见到的,我们现在积累的数据,我们现在可能都不知道有什么用。那我现在怎么能够很好的来组织它,按照数据仓库的方式来组织,来面对一切未来可能的应用,这是做不到的,所以基于这样的原因,并且因为现今的数据量实在过于庞大,传统的数据库、数据仓库想要把这些数据很好的管理起来,从IT技术来说,也变的非常困难,所以就有人提出了数据湖的概念。这个数据湖的概念是什么意思呢?就是我们现在有各种各样的数据,但是我们不管它,我们不像数据库、数据仓库那样,有这么一个强迫症,我们需要把这个数据梳理的很干净,很好,有非常好的Metadata这些东西把它组织起来,不管怎么样有什么数据我就把它放进来,它就像一个湖水一样,它里面可能不是那么清洁,不是那么干净,但是不管怎么样,各种江河来的水我全部注入到里面。

  但是如果我们后面要做使用,那我们再从这个湖里面提取这个数据,这个图上面我们在左边列了一个水管,实际上这个水管就是水的入口,入口的话,它可能从IT技术上来讲,通过现今的一些流式计算的平台框架,或者是说这种消息处理的这种软件可以实时的,非常快速往湖里注入大量的数据,但数据注入以后它怎么存储,其实是依赖于这个我们现在非常流行的分布式文件系统,它们把这个数据作为一个一个文件,放在这个非常庞大的分布式文件系统中。但这个分布式文件系统从物理上又是由商用计算机集群来承载的,这个集群可能非常非常得庞大,有些互联网公司的内部集群可能至少是以万台计的,有些甚至是有十万台,这样的规模,这样的集群,这么多的数据就放在了这么大规模集群上面的分布式文件系统上面。它里面可以放各种不同格式的,各种不同来源的数据都放在里面。然后这个数据湖不会做任何的加工跟处理,但是它只是对数据湖的要求就是说,我们能够比较快速方便的能找到我们想要的数据,这是对数据湖的一个挑战。

  数据在数据湖里面怎么去利用,利用的话,现在有很多大数据上面的计算的工具,像Spark、Hadoop、Flink,但我列的这些都是目前比较著名的一些,其实在这个领域还有很多很多其他的这样一些技术,这里就不一一列举。

  其实在我看来,这些技术就有点像这个自来水厂,或者说是像矿泉水厂做的事情,它们要从湖水里面,把水吸取上来,做各种各样的加工处理,然后包装,然后再拿去售卖或者拿去做别的使用,那么这就是这个数据湖的出口。它这上面也有大量的大数据计算的技术,目前也是方兴未艾,在不断的发展过程中。
  首先主要是处理速度的不断追求,从最开始的Hadoop,到目前比较火的Spark。Spark前两天发布了它的正式的2.0版,号称是比它之前的版本能够快十倍以上。就这个技术在不断的快速的发展过程中,基于这样的一些IT设施和技术,我们才有可能去实现我们数据科学的一些有价值的应用。

  在这个IT技术之上,我们再来简要的介绍一下,几个数据科学常用的一些技术,分析技术,最基础的还是统计,统计的话还有衍生出来的机器学习这样一个领域,前面说了,可能还需要做优化,还需要做仿真都是有可能的,对这几块技术我这里做一个简要的介绍。

  上大学的时候,很多门学科都会学的,叫做概率论与统计这样的一门课程,其实这个里面前半部分讲概率,后半部分讲统计,其实统计学应该说大家都不算太陌生,最简单来说,我就数个数都算作统计。但是从统计学的角度来说,它主要做的两个事情,我个人总结,第一个是做参数估计,就是把数据拟合到我们假设或者给定的一个模型上,然后去估计这个数据最适配模型的参数,我们可能有不同的模型,有线性的模型,也可能有这种高斯的模型,或者泊松分布的模型,各种各样的模型,基于这样的模型上面,我们可能基于不同的数学假设上的估计方法,像什么最小二乘估计,极大似然估计,最大后验概率估计,贝叶斯估计等等这样的估计方法,去把这些参数或者是参数区间估计出来。
  另外,统计学做一个很重要的事情就是做这个假设检验。假设检验是说,我提出一个统计推断,那么这个统计推断是不是真实的,或者它本身不真实,那么我们通过一系列数据建一个模型来判断它是不是有统计上的显著性,来确定这个统计上是可以接受还是不可接受。这是统计学要做的事情。

  实际上统计学发展很多年以来,其实已经是很完善的学科了,但是当计算机出现以后,当然还不是大数据时代,只是当计算机出现以后它就面临很大挑战,因为计算机一出现,数据就变得大一些了,因为原来传统统计学解决的是什么问题,就是一到两个维度这样小规模的问题,可能几十个样本,几百个样本的问题。

  但是计算机出现以后可能马上就变成几千个,几万个样本,然后维度可能就变成十个,二十个,几十个这样的维度,然后在这种情况下,发现原来统计学在这些问题上就已经无能为力,很多东西就不可能得到靠谱的结果了,所以在这个情况下又催生出了机器学习这样一个领域。它可能很多要解决的问题还本身是统计学去解决的问题,比如说参数估计,我估计一个预测模型,一个回归模型。但它面临的数据的情况不一样,数据量变多了,维度变得更大,那么在原来的统计学模型已经不能解决问题了,现在只能通过一些别的办法来尝试去解决这些问题,所以这个机器学习呢,是伴随着计算机发展出现的新的一个学科,发展到现在变的是越来越重要。
  机器学习一般分成非监督学习,监督学习和增强学习。增强学习主要是应用在机器人领域,这个不多讲。非监督学习可能就是我给你一堆数据,我不告诉你是什么东西,你可能就从这个数据里面自己去看,去探索、去发现一些规律出来,这个通常的话是做聚类,或者说如果是图的数据我可以去做社区发现,也可以用来做一些异常检测。监督学习它用的就比较多了,一般做预测都是用监督学习,它可以做有些,比如时间序列的预报这样一个过程,也属于监督学习的范畴,还有一些做这个分类、做回归、做推荐,这些都是属于监督学习的范畴。

  目前机器学习发展的火热,也跟新的一门深度学习技术的发展有关系,深度学习技术本质上是神经网络的一套技术,这个技术本身也不新颖,但是随着目前大数据的发展,数据量足够大了,然后我们的计算能力也提高了,使得以前不可能做到的事情现在能够做到了,所以使得这个深度学习变得非常方兴未艾,它在很多领域解决了传统的方法已经解决不了的问题,或者说达不到的高度。像图象识别、语音识别这些东西这个领域上已经被深度学习占据统治地位了。而且深度学习有一个特点,它基本上涵盖非监督学习、监督学习、增强学习,它都能非常好的应用,这也是它比较神奇和吸引人的地方。目前的话,甚至深度学习的有些倡导者认为,深度学习将统一整个机器学习,当然这个话题可能是有一定的争议性。

  前面讲了,可能在某些情况下,我们在做数据科学的时候还需要一些优化的方法,其实这个概念上是比较简单的,就是说如果有一个在数学形式上给定的目标,和以及数学形式上给定的约束条件,我们怎么找到这样一个最大的元素或者方案,来满足这个目标和约束。这个图就是一个最简单的凸函数例子,我就是怎么在这个凸函数上找到它的极值点,最大的值那个点,这里面有很多很多的不同的优化方法,这也是一个非常大的领域,这里就不展开去讲了。

  还有一个就是仿真这个领域,可能是这个数据科学用的相对少一点的,但是我也认为是未来还有很大价值的一个东西。就像我们现在在做一些研究工作中,可能我们建了一些模型,这个模型到底好还是不好,我们可能需要去做大量的实验,但是做大量的实验,如果在实际实验是有很大的成本的,那我们就可以考虑做一些仿真的实验,尽可能的模拟一个真实的环境,让计算机来帮你做几千,几万次的这样一个仿真实验,让我们从中可以得到最好的结果。

  这是从成本角度考虑,另一方面是从数学上有些没有办法去做一些解析、解答的问题,它可能可以通过仿真的角度去做一些推演,比如说最典型的三体问题,我这个图就是三体问题的例子,这个东西因为它的不稳定性导致在数学上没有办法直接去做预测,所以说计算机可以做一些模拟懒看它未来的变化,这是仿真这个领域做的事情。

  讲完了这些技术的话,我们可以简要的看一些例子来讲数据科学。第一,它能创造什么价值?第二,它到底是怎么运作的?我讲一个我自己实实在在做过的一个例子,这个我们主要讲讲,数据科学能创造多大的价值,这个例子也是我在做之前是没有想象到能有这么好的效果。这个就是帮助为理财产品寻找潜在的客户。广义上来看,也可以看做一个营销的,或者说是做广告的一个过程。这个怎么做的呢?就是问题本身是说,比如这个产品已经有三千个存在的客户,那么我们想从我们现在的,我们想通过移动广告去获得更多的客户,把这个产品卖出去,那么我们可能就需要从十亿级别的设备或者用户、移动用户中去筛选潜在可能的用户,通过我们的一些大数据的技术和数据科学的一些方法,我们精挑细选最终26000多个潜在客户。

  然后我们通过移动广告的这样一个精准投放跟触达的一个方式,去触达了这个客户,然后我们获得了1600多个客户的响应,1600多个客户买了这些产品的这26000多个。好像这个转化率不是很高,26000个里面才有1600多个买了东西。但实际上说,跟传统的撒网的方式,普投的这种方式来比,其实它的效率是提高了60倍,就是原来可能千分之一的转化率,现在是到百分之六的转化率,这是一个非常大的提升,60倍提升。另外,就这1600多个人,我们就卖出了两个亿的理财产品,这个也是我们没有想到能够创造这么大的盈收的,人均也达到12万的额度,这个是很典型的一个数据科学在实践中,在我们商业中去创造巨大价值的一个例子。

  我下面需要讲一个,我认为目前来说是数据科学一个最典型最值得研究的一个案例,这个就是实时竞价广告的优化。为什么呢,因为它首先,它本身是一个非常大规模数据的问题,而且它要求很高的实时性,而且里面,实际上广告里面牵涉到很多的博弈方,它里面的问题也非常复杂,所以这个问题是非常有意思的。

  首先简要介绍一下实时竞价广告,这个图就是简要的介绍一下实时竞价广告的一个问题,现在不管是移动设备上,还是说在互联网上,一个页面或者出来一个页面的时候,它上面可能有广告位是预留的,但是这个广告位一开始并不直接贴上广告,而是它通过实时竞价的平台告诉这些要投广告的广告主或者广告主的代理机构,告诉它们,我这里有个这样的广告位,你们要不要来投,然后这些人愿意投的就来出价,出完价以后,谁价高者得,拿走以后来投这个广告。

  这里面牵扯很多的博弈方,里面有很多需要做数据科学,做优化的问题,我们今天考虑一个非常简化的问题,就是对于这个广告主或者广告主的代理机构而言,我怎么去获得最好投资回报,以最少的钱获得最高的点击数。在这个方面,我们对于这个问题最简单的就是说,如果能够以最低的价格买到那些高点击率的广告位,广告展示机会,显然我们的收益是比较高的,要实现这个就显然要牵涉两个问题,第一我们要知道,一个广告机会的价格会是什么样的,我们必须去预测它。因为当一个广告机会来的时候,它并不会直接你告诉你它的价格是多少,因为它是通过竞价形成的,如果我们为了得到这个广告位提了很高的价格这肯定是不合适的,如果我们价格太低,那我们又拿不到这个广告位,所以如果能够比较准确的计算这个广告的合适的价位出来,那么对于我们来优化我们的出价策略是非常有帮助的。

  那么第一步,我们有了这个广告位的价格以后,我们还要看这个广告位的点击率是多少,因为有些广告位可能,或者有些广告机会,它点击率会高一些,可能你有百分之一的点击率,但有一些的话可能只有万分之一的点击率,那么这样的话差别是非常大的。基于这两个的话,

  我们可以笼统的算出,就大家可以算出一个广告机会来了以后,它的这个平均的点击成本可能是多少,可能是五块钱、还是十块钱或者还是二十块钱。

  那么有了这个以后我们才能指导广告主或者广告的投放代理机构怎么去合理的去做出价。所以说这样一个大的问题可能就被拆成了三个子问题。当然我在这里把这个问题简化了,在实际中还有更多更复杂的一些挑战的问题,但是时间有限,也为了更明晰的来说明这个问题,我做的很大的简化。

  这里首先一个最核心的问题,点击率预测,首先因为它牵涉到很多方,它有很多方面的数据需要考虑,首先对于一个用户,对一个广告的受众,我怎么知道这个受众的情况,我怎么去拿到它相关的数据,拿到哪些数据是有用的,这些都是需要去尝试分析的。

  然后对于一个广告位,它本身也有很多特征,它是哪个网站的,它是什么展示形式,它有多大,它放在这个页面什么位置,都是需要考虑的东西。像这个广告本身也还有很多,它是什么类型的广告,广告的文案是什么样的,它的描述是什么样子的,甚至包括它质量是什么样子的,还有广告有素材,有很多图片,这些是不是也能拿出来帮我们,帮助我们来优化我们的广告,做点击率预测,它实际上牵涉的方面非常多,所以我们需要用各种的手段和方法去搜集、获取,有些可能是有一些大的生态内部,就本身可能,比如社交网络平台它本身就可能具有用户这样的人口属性,还有很多的兴趣爱好的数据,还有一些最基础的IP、地理位置数据可能也都有。

  有一些这些数据可能对于某些平台没有,它就会说通过DNP这种方式去获取这样的一些数据,获取来这些数据以后,因为最初这些数据并不是为了做广告而设计而生成的,它可能是因为别的目的而产生,而登记的,这里面可能就有一些不太符合我们最终要求的数据的情况,所以要做大量的清洗、规范化、纠错这些东西,来把这个数据的情况给改善,变得可用。在这一步可能就要引入一些比较高级的模型方法来处理数据了。

  比如说对于广告的素材,因为我之前做过一些广告优化,在这个领域里面有一个问题我们原来遇到过,就是广告本身具有的信息并不太多,尤其是这种展示广告,我仅仅知道它是一个女装的、童装的,还是一个什么类别的,有些最多只有一句话,它的信息非常少,因为它主要的信息都放到一张图片中去了,为了能够提取这个广告更多的信息,我们就采用深度学习的方法去提取广告素材图片里的这些特征出来。

  不管什么手段,反正把这些数据汇集起来以后,我们最终形成了这样的训练数据,形成了训练数据以后,我们可能要放到一些预测模型里面,一些大规模预测的模型里面。像这种一些树的模型,或者一些线性的模型,或者更高级的深度学习模型来做点击率的预估。

  在这个过程中,有一些模型本身的结果不一定是最好的,但是它训练出来的模型可以帮助我们重新调整这个数据,重新去抽取这个数据的特征,又可以使我们的数据质量得到进一步改善,可以做很多这样的工作,这就是一个点击率预测。我们通常需要做的一些基础的,一般的工作,其实它可能最大的工作可能是第一个数据的搜集、整理、处理这些工作上面。建模方面其实最大的挑战就在于它的数据量比较庞大,因为本身在一个大的广告平台一天的流量可能是几十个亿,而且它可能因为数据源很多,而且这些数据需要交叉,最终的维度可能是亿级别,千亿级别这样的维度,这个对机器学习算法本身带来很大的挑战。这块也是很有意思的,但今天不是我们讨论的重点。

  点击率预测完以后,其实我们还要预测广告的价格,当然广告的价格的话,它的整个流程类似于这个点击率预测,这个就不详细讲了,只是想强调一点,就是说,我们有了这两个以后是不是问题就解决了,出价决策的优化是不是就已经解决了,其实没有,一个简单的目标,在一天内某一个广告要在这个平台投放一万次,但是假设我们知道了一个广告成本是什么样的,我们能就解决这个问题吗?

  其实不是这样子的,为什么呢?因为我们不知道一天到底会有多少广告机会,而且每个广告机会到底是什么样子的,我们也没办法一开始就知道。如果我们知道,我们就选择最好的拿走就完了,但是实际情况不是这样的,而是因为广告机会随着时间线一点一点在出现的,而且出现的密度,每个时段的质量都不一样,所以我们一开始不可能直接就基于我们的点击率成本,就得能得到一个最好的结果,这就有点像一个经典的问题,我怎么走过一片麦田,怎么取到最高的麦穗的问题,我只能走一遍。其实本质上有很多时候不可能达到最优的结果,但是总得有一些策略去达到一个相对来说比较好的结果,这就需要引入一些最优化和仿真的方法。

  首先我们基于历史数据,我们来做一个在基于之前点击率预测和价格预测的这样一些结果,我们做一些最优化的模型,当然这个最优化的模型也可能需要基于一些不同的假设,可能我们就得出不同的出价策略的方案,有几个不同的方案,这个方案到底好不好,我们可能还需要拿到历史数据去做仿真,去做很多实验,去得到一个最优的方案出来,然后再到我们线上去真正执行。这就是简要的讲了一下整个实时竞价广告优化,广告主这边优化的一个数据科学工作方面,需要涉及的内容和方法流程。实际上可以看到,这些基本上就符合了数据科学的几个步骤。

  最后讲一下数据科学的未来,我这里分了几块,一个是技术方面,一个是算法方面,还一个是应用方面。技术方面本来是为了应对大数据发展的趋势,因为大数据产生越来越快,积累越来越多,这就要求了更强的实时处理能力,更强的分布式的计算能力,还有怎么去更高效的存储,更高效的管理这些异构的数据。

  还有一个重要的挑战,怎么去这样的工具平台去整合不同的数据孤岛,其实我们现在大数据面临一个很大的问题,我们可能有很多的脑洞,有很多的设想,但是因为实际情况,技术上或非技术上的原因,造成了这种数据孤岛的问题,使得数据科学很多情况下也是有心无力。所以从技术层面上,我们看到国外很多公司,也在做这样的努力和尝试,想把解决孤岛技术层面的问题尽量的去消除,这是技术层面。

  在算法层面,首先就是说,其实数据科学尤其最近几年的发展,其实非常蓬勃,很多开源社区提供了很多好用的开源的软件,但是现在还有什么重大的问题呢,就是说对于大数据,其实现在还是比较缺乏这样的大规模机器学习或者分析技术,这块我觉得是未来发展的一个重点。现在我们看到国外、国内也有一些这样的公司,或者学校也开始考虑去推出这样的技术或者平台,甚至做商业化。

  还有一个,泛泛的来说,就是人工智能这一块,就包括了深度学习这一块的进一步发展。一部分是它们算法本身的提高,另一部分,它的这个应用的场景,从我们原来服务器端的计算,可能慢慢向嵌入式发展,植入到手机中,或者是一些嵌入式设备中去,就把这个能力前置,这些东西也慢慢的在,有一些创业公司也在做这样的推进,也是未来的一个方向。

  还有的话,大规模复杂数据的可视化也是一个很重要的,对数据科学帮助很大的,因为人很难去理解很高维度的数据,怎么以更好的形式,把这个复杂的数据,能够把最核心的信息抽取出来,给人展示出来,这很有利于数据科学家去解决数据科学中的实际问题。这个可能也是未来需要发展的一个方向。

  这运用就很多了,其实列的这几个也只是我个人想到的一些,其实可能还包括了很多很多方面,现在本身就已经有很多的成功的应用,像计算广告、推荐、银行风控很多这方面的应用都有了,未来的话,可能像什么健康医疗,可能随着医疗数据的个人健康的这种智能穿戴设备的兴起,可能会收到很多这样的数据,而且随着医疗数据的开放,这两方面的数据做结合,可能产生很好多的解决方案,很多好的应用,实际上物联网也在蓬勃发展,工业的还有民用都在发展过程中,这个里面应该也会产生很多有意思的应用,甚至包括人力资源方面的应用,还有一些包括能够增进社会福利的,改善我们社会的,这些其实也有一些尝试。比如在美国有一些城市去用大数据去预测哪些地区会不会犯罪,或者说我们预测全球哪些地方6个月内会发生种族屠杀这样的东西,警方或者国际社会可以及时的介入去制止,所以它有些方面并不一定只是去说创造商业价值,可能会去创造更大的社会价值,未来不管是从技术、算法和应用层面,其实数据科学还有非常大的空间,非常广阔的未来,也是值得我们大家去努力的。

  谢谢大家,今天就介绍这些东西,很高兴跟大家分享我自己的一些见解,再次感谢《大数据名人讲堂》,谢谢各位。

  • 新闻
  • 军事
  • 财经农业
  • 社会法治
  • 生活健康
扫一扫
扫一扫,用手机继续阅读!
央视网新闻移动端
央视新闻客户端iPhone
央视新闻移动看!
CBox移动客户端
下载到桌面,观看更方便!




860010-1114010100
1 1 1