新闻产经轻工日化电器通讯仪器机械冶金矿产建筑建材石油化工食品医药电子电工能源电力交通运输农业环保图片手机版
当前位置:中国市场调查网>产业>科技>  正文

孙晗:发现数据挖掘的魅力

中国市场调查网  时间:07/21/2012 10:32:11   来源:艾瑞专栏

  数据挖掘,不知何时开始成为一个时髦的辞藻。似乎说出这四个字就是专业的象征,但究竟什么是数据挖掘呢?当然不是秀名词、堆方法。在此,尝试用三个通俗的例子,抛砖引玉的介绍数据挖掘:

  1. 甲每天中午都到同一个餐馆吃饭,连续吃了一周,每次都点同样的一道菜,当他再一次来到这餐馆时,突然换了另外一道菜。那么等这位顾客再一次光顾时,是应该推荐他之前每天都点的呢?还是推荐另外那道?抑或是其他什么?

  解读:数据挖掘可以理解为在获取更多资讯的同时,进行下一步的预测。然而,对于数据并不丰富的情况,数据挖掘则会因为资讯不足而难以实现。如同上例那样,这位顾客点什么菜,很有可能取决于天气、用餐时间、甚至是否存在特价菜等情况,而上述例子的描述中(实际的数据)显然没有提供这些要素,做出统计推断的风险过大,不能做出判断。

  2. 有一个暗箱,里面有若干个黑球和白球,某人从箱子中无放回的抽取了3次,每次都是黑球,这人想干什么?A.该人就是喜欢黑球,想收藏;B.该人一心想拿到白球,不信自己点背拿不到。该选择哪一个答案呢?

  解读:显然,对上题做出个选择最好的方式就是——随机的一猜。我们完全不知道这哥们为什么要拿球,更不知道他后面会不会再取,何谈判断?如果,存在着一种用户场景假设:连续抽取颜色一样的球会中奖,用户在碰运气。那么,显而易见可以判断出:该用户不会再抽取,因为对他而言,一切都已经结束。数据挖掘是基于场景假设,由目标进行驱动的统计分析,没有场景假设,即便能有数据上面的线索(如上例中连续3次同样结果),也不能得出对业务有帮助的推论。

  3. 有位朋友A很喜欢看电影,他罗列了自己喜欢看的50部电影。像这样的朋友有1000个,当然他们各自所罗列的电影不同。那么,该为A君推荐什么样的电影呢?思路(1):每部电影都有一个分类,基于某个枚举表,为用户推荐喜欢类型的电影。思路(2):用户所罗列的电影分别聚类,A君喜欢的可能会分成10类,而其他1000人所喜欢也会分类。为A君推荐其他1000人中分类与A最接近,且A没有观赏过的电影。你选择哪一个?

  解读:数据挖掘是一个利用大规模数据的动态过程,在大数据集下,模型不断的自我学习,使得算法精度不断提高,诚如上述所言的电影分享,1000个用户分别贡献的数据,在大数据集下进行分类模型的迭代更新,当精度达到并超过某一水准时,为用户提供同类别或类别接近的电影。人工维护的枚举表虽然会无比精准,但成本远非机器那样高效。如果把数据挖掘当做枚举表的对接,那么从根源上就有了偏差,没有发挥出大数据的功效。

  通过上述三个例子,我们可以如此总结数据挖掘:利用大数据集,在场景假设明确的情况下,动态的利用数据自学习来完善统计推断模型,以达到某一精度水平。

  当然,在更多时候,我们的数据基础是给定的,我们也要迫于管理层的压力或市场的压力,在没有把场景假设想明确就要开始干活,更有可能产品来不及迭代,来不及自学习就要为人民服务。 如此情况下,小数据集的尝试就变得非常有必要。用小规模数据下的模型,去说服管理层耐心的让团队找好铁锹,慢慢挖掘。