从数据到信息到决策-大数据-耕阁科技

从数据到信息到决策

3/22/2013 4:59:24 PM

俗话说，忘记历史就是背叛自己，今天这篇用此做开场再合适不过。

这一篇将根据一个虚拟的故事，来介绍如何通过历史数据来帮助一个销售人员发现规律信息从而辅助他来做一些决策信息。

本文的主角是Tim，Tim在一个销售部门，部门最近决定做新一轮销售计划，然后根据计划结束时，各个销售人员的销售业绩来进行KPI考核。

Tim的部门在确定了销售任务后，其它人很快的投入到店面的销售工作中去，而Tim则跑到了公司的IT维护部门，向IT 部门要了一份历史的客户数据。

此时已经有人在责怪Tim，说你一个销售不去外面跑业务，怎么跑到IT部门"不务正业"来了，而且，专门要以前的客户数据，居然不去不关心新客户。

其实，Tim还有一个搞IT的朋友，James，他是一位数据分析师，在零售行业也有一定的经验。Tim的第一个想法就是找 James给些建议。

平时两个人聊天的过程中，James给Tim讲了无数多次关于商业智能的知识。虽然Tim是搞销售的，但是受到James的经常灌输，自己对里面的知识也有了一些印象，比如，数据挖掘，当然这个概念对于搞销售的Tim来说简直就是天书，正所谓隔行如隔山，但是有一点他非常理解，那么就是：从数据到信息，也就是说，从数据中获取信息。

于是，销售任务一开始，Tim就跑到了IT部门要了这样一份数据，来看看James到底能从这里头得到什么样的信息，从而能帮助Tim更准确的知道因该给什么样的人推荐产品才比较靠谱。

James拿到Tim的数据之后，大概的浏览了一下：

数据的具体结构如下：

从这份数据中，James看到，里面包含了客户的性别，婚姻状况，年收入以及家庭相关的和教育等基本信息。其中最后一列关键信息，就是客户是否购买过产品。如果购买过就记为1，否则就记为0。

James拿过来这个Excel文件，首先做了一个关键影响因素分析。

根据这个工具，首先指定关注的列，就是客户是否购买了产品的标记：

这里选择BikeBuyer。

然后再点击Choose Columns to be used for analysis。

这里，James根据经验指定了需要分析的列。很明显，DataFirstPPurchase是没什么用的，James果断把这列剔除掉以免影响到分析的准确性。

然后系统会根据James的设置自动处理这些历史数据。

处理完毕后，系统生成了一份报告：

于是，James给Tim发了一封邮件：

Dear Tim,

我分析了你提供给我的数据，并且从数据里得到几点规则。

首先，关注没有车，有一个小孩，以及来自Pacific，还有平时上班路程不是太远的用户，他们很有可能是你的潜在客户。

此外，对于有两台车的客户，就不要去推荐了，从你们的业务记录来看这类客户购买产品的可能性实在不大。

还有小孩数量比较多，上班距离太远，超过65岁的成为你客户的可能性也很小。

以上。

Best wishes!

James.

某年某月某日

Tim收到这封邮件之后非常高兴，因为这样一下子就可以让他判断出一个新客户是否会购买产品，从而不会在本身就不会有购买需求这类客户身上花费太多时间，这样就能把精力投入到更多的目标客户中去。

不过很快，Tim又有了一个问题，就是单凭这样的判断太笼统，容易丢失部分极特殊的客户，所以Tim希望能自己根据客户的情况做更详细的判断。

收到Tim的这个请求之后，James在Excel中建立了一个挖掘计算器。

首先，点击预测计算工具。

在工具中设置需要预测的列。

点击Run，Excel通过SQL Server的分析服务开始处理数据。

数据处理完毕后，在Excel中生成了几张报告：

在第一份报告中，James得到了列表，里面标识了每个属性对一个未知客户会购买产品的影响程度。

在另外一份报告中，根据这份分析数据，包含一个动态的操作表格。

每一个属性的值都变成了一个下拉列表，各个属性的Impact影响值加在一起最后得出一个分数，这个分数如果达到一定的高度，那么就表明这个客户很有可能会购买产品。

于是，James把这个Excel文件发给了Tim，这样Tim就可以根据收集到的客户信息对应选择里面的项，然后通过计算知道用户是否是潜在客户。

这个文件帮了Tim不少的忙，也准确的识别了一些客户。但Tim也往往抱怨，在出去跑业务的过程中，电脑不是总带在身边，所以往往很难及时的做出判断。

James知道Tim的这个烦恼后，告诉他，你把第三份分析报告中的表格打印出来就可以了。

这个表格把每个属性的值都列了出来，并且它们对应的分数也在后面。Tim打印出来后，可以自己手动在上面做计算。

算好总分后，对比下面的分数，也就是说分数最起码要达到601才有可能是一个潜在客户。

于是，对于IT系统的操作不是很熟悉的Tim就可以每次对着这个单子来对新客户作出潜在客户的判断。

在这个故事里，James并没有用到什么太复杂的数据，通篇他只在用一个软件，就是Excel，Excel从2007版本开始通过SQL Server的功能扩充可以实现简单的数据挖掘功能，它通过SQL Server Analysis Services分析服务来生成临时的挖掘模型，通过样本数据以及挖掘模型和算法来发现数据中存在的一些规律，相关性等信息。

通过Excel对SQL Server数据挖掘功能的封装，使得用户即使不清楚数据挖掘的具体算法也可以实现数据挖掘的功能从而做挖掘预测分析来辅助决策，甚至都不需要用户了解什么样的挖掘模型算法适合解决什么样的问题，只需要关注Excel里所带的表分析工具就可以做简单的预测分析。

总之，数据挖掘，不是已不是数据分析师们的专属，有了Excel，你也可以。

在Excel中的使用数据挖掘，需要下载SQL Server Data Mining Tools Add-ins for Office。

其中Office 2010对应版本的下载页面是：

http://www.microsoft.com/en-us/download/details.aspx?id=29061

分别有对用不同的语言版本和x86和x64版本。

此外可以查看微软官方的Excel数据挖掘视频，虽然是英文版，但是有中文字幕：

http://msdn.microsoft.com/zh-cn/library/dd299412(v=sql.100).aspx

同时，针对购物篮这一应用场景，有我的另外一篇随笔：

使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能

http://www.cnblogs.com/aspnetx/archive/2013/02/25/2931603.html

这个系列中的前三篇用SQL Server Analysis Services到前端应用详细的介绍了如何实现一个商品推荐功能。

后两篇就是在Excel中如何实现这个推荐功能。

此外，如果你感兴趣，也可以下载文中提到的Excel数据样本文件自己尝试下这个功能：

http://files.cnblogs.com/aspnetx/DMINF.zip

这些样本数据都是来自微软官方的实力数据库Adventure Works。

上一遍：使用PowerPivot建立简单的分析模型
下一遍：信息的魅力