在进行量化购物篮分析时,需要对购物篮数据进行预处理,此时需要先行提取购物篮中商品的多维量化指标,对其挖掘包含的关联规则,这个过程称为预处理过程(Pre-Processing)。
零售业中的经营数据基本都是连续数值变量,Apriori算法只擅长对离散变量的处理,在没有新关联分析算法产生之前,量化关联分析需要将连续数值变量进行离散化处理。
连续变量的离散化处理,是将连续数值型变量转换为区间型的数值变量,也称为连续性离散化方法,这种方法将连续属性的邻近值分组,形成有限个区间交易数据的变量,在数据挖掘界也被称为粗分类(Categorization)处理,或被称为归类、分级、分组、分箱等,目的是减少交易数据类别的数量,减少分析对象的颗粒度,从而可以创建有意义的区间,得到更加健壮的模型。
购物篮的商品项目属性离散化,可以称为数据的连续属性和分类属性的二元化,为了使用类似Apriori算法从二元化数据中提取频繁项集,每个频繁项集确定一个“有趣”阈值区间,随后可以使用传统统计学的均值、中位数、方差或绝对偏差等统计量对目标属性在每个段内的分布进行汇总。
对购物篮的属性参数进行划分时,应该有数据分析人员与零售用户共同商量制定,此时需要注意的是:
如果区间太宽,比如将客单价的区间跨度太大,直接跨越到几十元,有可能缺乏置信度而丢失某些模式,因为此时尽管具有较高的支持度,但是因为较宽的区间导致规则的置信度都小于阈值,有些有效的关联规则被混淆在某些金额区间中。
或者如果区间太窄,比如将客单价的区间设置为几元一个档次,则可能因为缺乏支持度而丢失某些模式,此时的关联规则可能被过窄的购物篮金额区间所稀释,导致有意义的关联规则被淹没。
我们举例说明,在进行量化购物篮分析时,购物篮金额就是一个连续型变量,此时将购物篮金额这一连续变量变成离散型类别变量,例如将购物篮金额分为20-30元、30-40元、40-50元几个等间距宽度的邻近值类别(分组)变量。
也可以按照等频度的方法,将购物篮金额按照出现的频度,分为2个类别:
这样可以将购物篮金额作为一个离散型变量,代入到Apriori算法的项集矩阵中,进行二个或三个指标的对比分析,在发现具有关联规则时,再次进行量化指标的分析。
由于这种方法事先设定好离散值的范围,因此也被称为静态离散化(static discretization),静态离散化主要应用于项目型量化关联规则项目。
动态离散化指的是在数据分析过程中,不需要事先设置好离散值的范围,动态调整离散值的区间、分类,这个方法主要应用于量化规则的软件产品化设计中,在此不在详细讲述。