“啤酒与尿布”是一个真实的故事,发生在1990年代的沃尔玛大卖场,代表卖场的购物篮商品之间存在着某种特定的关联关系,挖掘并利用这种关联关系,可以使得实体零售门店充分;了解顾客的购物场景,为选品与品类管理、定价与调价、促销策略及评估、关联陈列、顾客行为聚类等提供了有效的数据依据。
我在2008年撰写了《啤酒与尿布-神奇的购物篮分析》(清华大学出版),开辟本专栏,是为了与大家探讨实体门店购物篮管理的理念、计算方法及案例,以及能够与相关软件企业合作,开发相关应用软件产品
MP:13901022781 微信同号
今日访问:506
总访问量:204581
2023年09月07日
评论数(0)Apriori算法在零售业的困境:
Apriori算法从1993年出现,30年来算法不断得到补充、修正、改善,应该说是一个非常成熟的算法了,但是令人尴尬的是,尽管Apriori算法位居数据挖掘十大明星算法之一,但是Apriori算法在零售业始终是雷声大雨点小,对于一个出现了30年的明星算法,这种局面让人感到尴尬。
Apriori算法范例80%以上都采取了超市购物篮,使用购物篮中的商品组合介绍关联规则的概念及算法,但令人尴尬的是,尽管很多数据分析师解释得头头是道,报表也做得很有说服力,但很少有零售界(尤其是超市)的运营者会对这些购物篮分析结果感兴趣。
很多零售业者可以接受“啤酒与尿布”的故事,但是不会接受将Apriori算法直接应用到日常运营管理中,因为他们看不到商品关联关系给门店业务带来的商业价值。
为什么会出现这种令人尴尬的状况?
Apriori算法在零售业(尤其是国内零售业)难以推广,有数据分析人员缺乏零售业务知识、Apriori算法的暴力遍历、关联规则的评估标准难以令人信服等原因,但是Apriori算法缺乏量化实践,也是导致Apriori算法陷入困境的原因之一。
数据分析界认为,以Apriori算法为代表的关联规则,其商业价值应该由关联规则的强度及有趣(strength and interestingness of association rules)二个部分组成。
Apriori算法采取支持度-置信度框架(support-confidence framework)对关联规则进行评分,评分高低对应了关联规则的强弱,高评分被认为是“强的”关联规则、低评分被认为是“弱的”关联规则,很多学者认为只要是“强的”关联规则,零售用户就完全应该接受,这是把零售业关联关系的商业价值过于理想化、也过于简化了!
Apriori算法是布尔型模型(Boolean Model),而零售业非常注重量化经营指标,如销售金额、销量、销售价格、购物篮金额都是重点经营指标,Apriori算法对这些经营指标予以忽略,把购物篮中商品的经营指标简化为布尔型,支持度-置信度指标是一种事务出现的概率,这种概率不能对应零售业的量化经营指标,没有量化描述,算法就不能得到零售业者的欢迎。
数据分析界某些人喜欢忽略指标的量化(Ignores Item Amount),规避复杂的商业问题,以此突出算法的强大,因此会有一些看上去很强大、但数值计算能力很弱的算法(Not a good algorithm for numeric data),国内的Apriori算法运用也大致也属于此类情况。
Apriori算法推出30年间,在理论层面获得了巨大的成功,但没有在国内零售界大面积落地应用,主要问题就在于量化分析实践的缺乏。