啤酒与尿布---神奇的购物篮分析

老高与购物篮分析

公告

“啤酒与尿布”是一个真实的故事,发生在1990年代的沃尔玛大卖场,代表卖场的购物篮商品之间存在着某种特定的关联关系,挖掘并利用这种关联关系,可以使得实体零售门店充分;了解顾客的购物场景,为选品与品类管理、定价与调价、促销策略及评估、关联陈列、顾客行为聚类等提供了有效的数据依据。

我在2008年撰写了《啤酒与尿布-神奇的购物篮分析》(清华大学出版),开辟本专栏,是为了与大家探讨实体门店购物篮管理的理念、计算方法及案例,以及能够与相关软件企业合作,开发相关应用软件产品

MP:13901022781 微信同号

统计

今日访问:231

总访问量:97123

负关联规则(Mining Negative Association Rule)挖掘

2023年10月19日

评论数(0)
负关联指的是一个事务的增加会导致另一个事件的减少,也被称为负模式(Negative Pattern),简单理解就是此消彼长的零和模式,负关联规则数据挖掘就是针对负关联的数据挖掘方法。
零售行业中负关联的商业价值:
商品之间的负关联关系代表了商品的互斥关系,互斥关系预示了商品之间的替代关系,零售业存在着大量的商品替代关系,商品替代大多数发生在同品类的商品之间,替代的商品基本功能相同,商品的品牌、价格、包装、特定属性(比如口味)存在差异,导致顾客在购买这类商品时容易发生替代购买,如西方发现60%的意大利面都具有负关联关系,代表了这些意大利面之间的互斥、替代关系。
商品负关联不是没有意义的关联关系,负关联关系对于零售业意义重大,有助于识别竞争商品(competing item)。当货架上存在着大量的可替代商品时,可以丰富顾客的购买选择,避免出现顾客放弃购买或单商品购物篮的情况出现。
购物篮中商品负关联关系的形成,有很多是顾客在货架前的冲动购买行为造成的,有些是商品是陈列方式导致的,如价格因素、品牌、口味、包装的切换因素。
商品之间的负关联关系对应的商业逻辑具有多样性,有些负关联关系需要鼓励、有些负关联关系需要逐渐剔除。
当购物篮中的替代商品之间出现了向上销售(Up-selling)时,此种负关联关系需要鼓励,这种负关联关系可以为门店带来较高的购物篮收益。
当购物篮中的替代商品之间出现了向下销售(Down-selling)时,此种负关联关系需要转换为正常的交叉销售(Cross-selling),因为向下销售的负关联关系会使得购物篮质量逐渐下降,门店的销售收益也会逐渐减少。
对于品牌商来说,当商品之间的替代效果(substitution effects)发生在品牌转换时(brand switching),品牌商不会欢迎这种替代效果,而零售商却无所谓,只要顾客手里的购物篮份额不丢失即可。
零售门店中负关联对应的消费行为,往往是一种顾客的取舍型消费行为,需要从大量的消费行为中挖掘及观察这种行为模式,并根据商业价值及顾客满意度,确定哪些负关联需要鼓励、哪些负关联需要避免。
负关联规则的数据挖掘:
负关联规则(Negative Associations)与负相关( Negative Correlations) 不是一回事,负关联规则指的是是事务之间此消彼长的频繁模式,而负相关是事务指标之间统计学意义的反向发展趋势。
商品负关联规则需要满足如下条件:
要分析事务是否为负关联,需要在整个的样本空间(购物篮集合中)找出这个此消彼长的模式,或者找出很少一起出现的频繁模式。
假定A、B是二个商品,在购物篮交易数据中都是频繁的,即购物篮中各自出现的次数(PI值)比较高,对应的支持度都较大,但是A、B很少同时出现,这二个商品很少出现在同一个购物篮中,说明A、B可能是负关联的。
如果A和B组成的模式支持度远远小于A的支持度与B的支持度的乘积、那么说明A、B是强负关联。
负关联规则的数据挖掘步骤:
全数据集合采取Apriori算法不现实:Apriori算法并不擅长挖掘商品之间的负关联规则,原因之一就是采取暴力遍历的方法,寻找频繁模式都很吃力,更别说去寻找非频繁项集,不仅会耗费算力、也会产生大量毫无价值的负关联规则。因此建议采取如下步骤:
1、采取相关性分析:在零售门店的数据分析中,要想挖掘商品之间的负关联关系,最便利的方法就是先行采取商品销售指标的相关性分析,相关性分析可以很便捷地找出商品之间销售指标的反向变化趋势,即所谓的负相关模式(negatively correlated pattern),统计学意义的负相关模式不代表事务之间的负关联模式,但是事务之间的负关联会表现为负相关,因此可以先采取相关性分析找出事务之间的负相关性(最佳的分析工具就是商品交叉弹性分析(Cross-Elasticities)),将具有销量交叉弹性的商品组合选取出来,作为后续的负关联规则数据挖掘的数据项集。
2、部分采取Apriori算法,对上述选取的购物篮数据项集采取关联规则数据挖掘方法,挖掘及验证商品之间的负关联规则,负关联的数据挖掘首先需要基于支持度定义(support-based definition),即必须满足一定的支持度规则(最小支持度:min_sup),这个支持度在零售业对应的是购物篮数量比例。
负关联模式的公式推演如下:
假定A、B是二个相互独立的事务。模式AUB是关联模式。
Sup(A U B)<sup(A)X sup(B)
代表 A和B组成的模式支持度小于A的支持度与B的支持度的乘积
则项集A和B是负关联。
3、最后是量化评估:经过商品交叉弹性分析、Apriori算法验证具有的负关联规则,不要仅仅依靠关联规则的指标强弱作为标准,而是必须经过量化指标的评估,才可以判断这种负关联模式的商业价值,比如使用购物篮销售金额(Cross-selling),判断负关联模式对应了向上销售(Up-selling)、还是向下销售(Down-selling),或者出现了放弃购物篮中商品组合的趋势,即由交叉销售(Cross-selling)转为单商品购物篮(Stand-alone或single-Selling),这些都需要采取量化指标对负关联规则进行商业价值评定。


文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+老高与购物篮分析。