大数据时代,快数据(fast data)有望给企业带来新的机遇。智能手机、传感器和社交媒体产生了上百亿个数据节点,如果你没有能力对这些数据节点以及物联网作出响应,那快数据带来的商机将与你擦肩而过。
对于很多商业分析应用程序,快数据的分析和处理是大数据项目中不可避免的难题。每当数据科学家从他们的大数据集(静态的)挖掘出新内容时,业务人员立刻就会去想从中赚钱的方法,同样,动态数据中巨大的经济利益也会促使快数据在商业中受到更多的重视,相信未来快数据会在商业中发挥更大的作用。
TIBCO这个公司从字面上可以理解为“有信息总线的IT企业”,它旨在为各种企业系统(如股票市场和交易应用程序)之间提供高速、低延迟的连接。现在该公司致力于发展物联网(IoT)和快数据相关的技术,并将其作为自己的“两个第二优势”。
TIBCO市场部门高级总监告诉我们:“快数据首先要解决的是数据访问问题,即首先得访问到数据,现在我们正努力捕获所有不在防火墙保护范围内的数据,不管来自社交网络还是其他有API的来源。
例如,零售商使用BusinessWorks(该公司近期公布的旗舰版数据集成平台)可以通过客户的智能手机捕获客户地理位置数据,并且可以基于客户地理数据使用实时商品推荐系统。“通过了解潜在客户的信息,从他们的大数据中发现用户爱好、特征,然后向客户推荐他们有可能喜欢的牛仔裤品牌以及类似商品,将客户介绍到商店,基于对客户信息的掌握,交易成功率被大大提高了。
当挖掘社交媒体数据以获得分析见解时,速度是至关重要的。有一篇报道谈到过一个名字叫Blab的公司,该公司从社交媒体数据中提取信息,用以帮助广告商或公关公司作主题预测,判断哪些主题会有较好的传播效果(像病毒一样被传播和扩散)、哪些会石沉大海。
Ugam是另一家物联网公司,准确的说是一家分析应用开发商,这家总部在Texas的公司从物联网和快数据中发现了商机,它通过分析来源于社交网络的免费消费者数据,帮助零售商决定卖什么商品,以及将商品放在货架的什么位置。当然,数据的来源也很重要,因此需要慎重选择“监控”哪些社交网络。
Ugam首席创新官Mihir Kittur告诉我们:“实际上,当想要从客户那儿得到反馈来帮助商品定价、分类时,我们会觉得Twitter有点‘吵’,用户的抱怨与普通的不相关信息掺杂在一起,数据太杂乱了。不过,Ugam也发现当把产品评论、Google+、Facebook以及Pinterest的数据整合到一起,可以为产品定价和分类提供更好的支持。
零售业的高速发展为研究快数据理论、了解其获利能力提供了方便。但当考虑研究快数据为人们提供帮助时,没有哪个行业能比得上医疗行业,TIBCO的研究人员致力于构建快数据应用,从医院数字化设备产生的大量信息中发现潜在模式。
TIBCO的Been告诉我们:“我们的客户希望能将医疗设备产生的数据整合到一起,这样可以更早地诊断出疾病,更早地为病人提供正确的治疗方案,通过大数据技术挖掘数据中潜在的信息,了解疾病的传播,还可以通过对实时数据分析发现疾病的临床症状。”
虽然如今的Hadoop已成为大数据代名词,但Hadoop不可能解决一切大数据问题,尤其是针对快速数据来说。TIBCO对Hadoop就不太感冒,该公司的首席技术官Matt Quinn在公司上个年度用户会议上就告诫人们不要过分依赖“大象”——Hadoop。
Hadoop由于缺乏交互性和实时功能常常被人们抱怨,不过Hadoop也在努力地添加一些新的实时分析功能,也许将来Hadoop也能成为一个快数据平台,还有两个优秀的大数据技术也值得考虑——Apache Spark和Apache Storm。
Spark一直被看作MapReduce的替代者,获得了多方的追捧。Spark目前已成为Hadoop数据平台中重要的数据分析工具,相比MapReduce,Spark不仅更易于编写代码(支持Java、Python和Scala),而且速度更快,同时,Spark还为SQL(Shark)预先构建了hook函数,具有实时流媒体(Spark流)、机器学习(MLLib)和图处理(GraphX)等多种功能。
MapR作为Hadoop软件供应商,一直努力改进Hadoop技术以增强快数据的处理能力,MapR最近宣布了它与Databricks合作——将内存Apache Spark技术整合到Hadoop产品中,MapR的竞争对手Cloudera也将Spark加入了Hadoop中,Hortonworks则一直为Spark提供支持,预计在今年将为Spark提供全面的支持。
Storm在应对快数据处理方面具有优越的性能,使其具有很多追随者。很Spark一样,Storm为用户提供各类的语言支持,包括Ruby、Python、JavaScript、Perl、PHP。
LivePerson是一家使用Storm技术的公司,为用户提供基于Web的通信软件。在近期的一个视频中,Ido Shilon、LivePerson平台工程组的团队领导,解释了该公司如何重建其后端基础设施,以及如何使产品有更好的弹性等问题。
LivePerson实时系统的核心技术是Storm和Apache Kafka,还有Couchbase NoSQL数据库。作为其信息进程初始化的一部分,该公司致力于收集所有会话信息,比如网站用户来自哪儿,他们使用什么浏览器,他们访问过哪些页面等等,这些信息先通过Kafka流式处理,然后用Storm进行分析,最后以文档的形式存储在Couchbase数据库中。最终,这三款产品将构建出它们的“智慧库”,用于分析信息。
随着物联网的发展,应对快数据的困难将越来越大。物联网会给我们带来更多的快数据,机器产生的数据量会超出我们想象,而且这些数据既不直观也不易于使用,但这一切将为那些以数据驱动业务的公司带来更强的竞争力。谁先做好准备,谁就能在竞争中获得优势。