啤酒与尿布---神奇的购物篮分析

老高与购物篮分析

公告

“啤酒与尿布”是一个真实的故事,发生在1990年代的沃尔玛大卖场,代表卖场的购物篮商品之间存在着某种特定的关联关系,挖掘并利用这种关联关系,可以使得实体零售门店充分;了解顾客的购物场景,为选品与品类管理、定价与调价、促销策略及评估、关联陈列、顾客行为聚类等提供了有效的数据依据。

我在2008年撰写了《啤酒与尿布-神奇的购物篮分析》(清华大学出版),开辟本专栏,是为了与大家探讨实体门店购物篮管理的理念、计算方法及案例,以及能够与相关软件企业合作,开发相关应用软件产品

MP:13901022781 微信同号

统计

今日访问:506

总访问量:204581

无量化、无管理----量化购物篮分析及关联规则之二

2023年09月26日

评论数(0)
二、购物篮量化分析的数据处理方法:
在进行量化购物篮分析时,需要对购物篮数据进行预处理,此时需要先行提取购物篮中商品的多维量化指标,对其挖掘包含的关联规则,这个过程称为预处理过程(Pre-Processing)。
1、连续型变量的离散化处理
零售业中的经营数据基本都是连续数值变量,Apriori算法只擅长对离散变量的处理,在没有新关联分析算法产生之前,量化关联分析需要将连续数值变量进行离散化处理。
连续变量的离散化处理,是将连续数值型变量转换为区间型的数值变量,也称为连续性离散化方法,这种方法将连续属性的邻近值分组,形成有限个区间交易数据的变量,在数据挖掘界也被称为粗分类(Categorization)处理,或被称为归类、分级、分组、分箱等,目的是减少交易数据类别的数量,减少分析对象的颗粒度,从而可以创建有意义的区间,得到更加健壮的模型。
购物篮的商品项目属性离散化,可以称为数据的连续属性和分类属性的二元化,为了使用类似Apriori算法从二元化数据中提取频繁项集,每个频繁项集确定一个“有趣”阈值区间,随后可以使用传统统计学的均值、中位数、方差或绝对偏差等统计量对目标属性在每个段内的分布进行汇总。
对购物篮的属性参数进行划分时,应该有数据分析人员与零售用户共同商量制定,此时需要注意的是:
如果区间太宽,比如将客单价的区间跨度太大,直接跨越到几十元,有可能缺乏置信度而丢失某些模式,因为此时尽管具有较高的支持度,但是因为较宽的区间导致规则的置信度都小于阈值,有些有效的关联规则被混淆在某些金额区间中。
或者如果区间太窄,比如将客单价的区间设置为几元一个档次,则可能因为缺乏支持度而丢失某些模式,此时的关联规则可能被过窄的购物篮金额区间所稀释,导致有意义的关联规则被淹没。
我们举例说明,在进行量化购物篮分析时,购物篮金额就是一个连续型变量,此时将购物篮金额这一连续变量变成离散型类别变量,例如将购物篮金额分为20-30元、30-40元、40-50元几个等间距宽度的邻近值类别(分组)变量。
或者将购物篮金额分为2个类别区间:
类别1:(30,70)元区间;
类别2:(90,120)元区间;
也可以按照等频度的方法,将购物篮金额按照出现的频度,分为2个类别:
高频度类别1(30、70);
低频度类别2(90,120);
这样可以将购物篮金额作为一个离散型变量,代入到Apriori算法的项集矩阵中,进行二个或三个指标的对比分析,在发现具有关联规则时,再次进行量化指标的分析。
由于这种方法事先设定好离散值的范围,因此也被称为静态离散化(static discretization),静态离散化主要应用于项目型量化关联规则项目。
动态离散化指的是在数据分析过程中,不需要事先设置好离散值的范围,动态调整离散值的区间、分类,这个方法主要应用于量化规则的软件产品化设计中,在此不在详细讲述。


文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+老高与购物篮分析。