分享到:

《用数字来看某知名B2C网站的发展内幕和隐私》看电商的数据挖掘短板

[来源:] 2009-06-20 18:11:00 编辑:woyaofaya 点击:

今天看了【用数字来看某知名B2C网站的发展内幕和隐私】这篇帖子的评论,感觉电商大有可为,可为的方面不是说销售、赚钱的潜力,而是业务的管理方面,数据挖掘方面,感到许多电商没有做过传统快消行业,像CRM管理、数据挖掘、精准

今天看了【用数字来看某知名B2C网站的发展内幕和隐私】这篇帖子的评论,

感觉电商大有可为,可为的方面不是说销售、赚钱的潜力,而是业务的管理方面,数据挖掘方面,感到许多电商没有做过传统快消行业,像CRM管理、数据挖掘、精准营销在许多传统行业应用的已经很普遍了,怎么感觉到了电商这块好像是新大陆。。。

当然有许多成功的电商这方面做的不错,可以飘过。主要是给没有接触过这块的补一下课。。

按产品、渠道、SKU、组合、性别、价格、年龄、地域、促销等等分析,如著名的啤酒和尿布放在一起卖,卖场会员卡、银行卡根据用户不同年龄阶段、身份推不同产品等等。。。都是应用的好案例。

如果说一个电商前期靠推广、靠摸索、靠经验来发展,那么后期必然会进入数据挖掘阶段,这是电商做大和成熟的必修课。分析了一下派代上的电商对数据挖掘方面的情况,有以下几种:

1、刚接触电商,从来没有听说过数据挖掘与CRM;

2、对数据挖掘感兴趣,视为必杀绝招,就是对CRM这块依然神秘,每有这样文章出现,都惊为重量级干货;

3、在运营网站时,困扰自己的难题是如何提高转化率、如何提高单次购买金额、如何提高重复购买率,什么样的促销有效?如何做产品组合?如何定价?如何提高单个用户的贡献值?但对数据挖掘不入门,整日不得其法。

4、早就开始运用数据挖掘,但视为这是技术方面的活,与自己目前工作无关;

5、对数据挖掘已经运用的非常纯熟,但视为自己的竞争力,作为机密不对外泄露。

其实这中间存在一些误区:

1、像CRM管理、数据挖掘、精准营销在许多传统行业应用的已经很普遍了,这不是新内容;

2、数据挖掘不会是一些大电商的专有利器,这在以后会成为电商的标配;

3、数据挖掘不是技术活,他需要的仅是技术人员的模型,具体的分析、挖掘、发现问题、预测、利用等这都是网站运营的核心,是除推广外营销人员最重要的核心工作。


客户来了准备掏10元钱,但很多电商却只准备了如何让客户掏5元;或者,只知道如何让客户掏5元,不知道如何让客户掏10元。对一些上规模的电商来说,推广做得好,不如数据挖掘做得好。 


这其实是目前一些电商自己的一个巨大潜在需求,但自己就在门外转悠,入不了门。(呵呵,试想一下,连自己的潜在的、最迫切的需求都不能做好,又怎能做好客户的呢?).这是最需要数据挖掘的电商,需要点播一下的,这样的电商运用数据挖掘后是最容易上一个大台阶的。这也是衡量一个电商以后能否成功发展做大的标准,是电商能否适应以后商业发展的一个利器。也就是说,自己能不能剩下,就看自己能不能利用好自己的数据,管好自己的客户。

现在有些有眼光的电商已经开始向这方面转型,从粗放型规模型转到精细集约型,这是好现象,这是真正电商经营的核心,这是电商的内家功夫。


呵呵,看来我们电商的CRM要加强,否则这块将成为我们电商的短板,如何提高转化率,如何提高回头率、单次购买金额等,这都需要我们的数据分析——数据挖掘,否则浪费了时间、金钱和精力,还没有好结果。

我们做电商的都很实在,从来不看苦劳,只看功劳。只有功劳才能给企业带来效益,苦劳只是浪费企业资源。。。数据挖掘可是一件功劳哦

今天给大家补一下课:

什么是数据挖掘

 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。
  并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

数据挖掘能做什么

1)数据挖掘能做以下六种不同事情(分析方法): 
  · 分类 (Classification) 
  · 估值(Estimation)
  · 预言(Prediction) 
  · 相关性分组或关联规则(Affinity grouping or association rules) 
  · 聚集(Clustering) 
  · 描述和可视化(Description and Visualization) 
  · 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
  2)数据挖掘分类 
  以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 
  · 直接数据挖掘 
  目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 
  · 间接数据挖掘 
  目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。
  · 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 
  3)各种分析方法的简介 
  · 分类 (Classification) 
  首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
  例子:
  a. 信用卡申请者,分类为低、中、高风险 
  b. 分配客户到预先定义的客户分片 
  注意: 类的个数是确定的,预先定义好的 
  · 估值(Estimation) 
  估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。
  例子: 
  a. 根据购买模式,估计一个家庭的孩子个数 
  b. 根据购买模式,估计一个家庭的收入 
  c. 估计real estate的价值 
  一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。 
  · 预言(Prediction) 
  通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
  · 相关性分组或关联规则(Affinity grouping or association rules) 
  决定哪些事情将一起发生。 
  例子:
  a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则) 
  b. 客户在购买A后,隔一段时间,会购买B (序列分析) 
  · 聚集(Clustering) 
  聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 
  例子:
  a. 一些特定症状的聚集可能预示了一个特定的疾病
  b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 
  聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。 
  · 描述和可视化(Des cription and Visualization)
  是对数据挖掘结果的表示方式。

数据挖掘中的关联规则

1.什么是关联规则
  在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。 
  在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 
  按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 
  数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
   

2.1关联规则发掘技术在国内外的应用
  就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
  同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
  但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
   

分享到: