基于Apriori算法的购物篮分析,采取了全程遍历扫描(Count all)算法,因此有时也被称为暴力遍历、或野蛮搜索。
一个具有15个项目集合的数据集,计算其中2个项目的随机组合频繁项集,产生的项目集合数值为:(215 ? 2) = 32 ,768。
假定一个小超市,拥有100个商品,每个商品都实现了销售,现在需要寻找3个商品的购物篮关联规则,就会有161,700个组合的可能。
一个标准的超市会有1万个商品,那么由二个商品构成( 2-item combinations)的商品组合就有5千万个,由三个商品构成(3-item combinations)的购物篮商品组合有100亿个。
沃尔玛大卖场有10-15万个商品,即使只计算某个月的购物篮数据,也是极其可怕的天文数字。
要想实现购物篮分析,首先必须减少购物篮的数据集合规模(reduce the dataset size),即限制购物篮分析的样本量。
限制购物篮数据的样本量,出发点可以由用户指定对哪些数据进行挖掘,而不是全部的数据,采取缩小计算范围(count some)的策略,也被称为基于约束条件的策略。
基于约束条件达到缩小搜索空间的数据挖掘策略,被称为基于约束条件的数据挖掘(Constraint-Based Mining),由此产生的关联规则被称为约束条件关联规则(Constrained Association Rules)。
基于约束条件的数据挖掘,需要基于用户定义的约束条件(User-Defined Patterns)进行,即应该在用户定义的约束条件指导下进行挖掘。
采取基于约束条件的数据挖掘,可以规避大多数门店不感兴趣的关联规则,聚焦显著且具有高价值的关联规则(research the high volume of trivial association rules),基于约束条件的挖掘策略可以大大减少购物篮的数量、加快购物篮分析的速度、并由于聚焦使得这些关联规则更加明显。
按照约束条件挖掘产生的关联规则,有时也被称为配置关联规则(Profiles Associations Rules), 即按照事先配置的约束条件寻找关联规则,被数据分析界认为属于一种量化分析方法,指的是提前对购物篮交易数据进行配置处理,也是一种数据前处理方法。
约束条件的选取大多基于分类算法或采取聚类技术,以此减少数据库规模。
? 支持度-置信度约束:指定规则的兴趣度阈值或统计度,如(min_support ≥3%, min_confidence ≥60%),这是最传统的购物篮约束条件选取方法。
? 限定分析的项目前提条件:比如限定购物篮中只有促销品、只有某种特定商品品类、或只有某种特定人群的标签商品、或特定销售时间段。
? 否定分析的项目前提条件:限制某些商品属性不能出现在购物篮中,比如购物篮中不能有特价商品、不能有咖啡、酸奶等商品等等,以此寻找特定的关联规则。
? 带权值的权值属性:常见的做法将购物篮金额、商品的价格或购买数量作为权值(或阈值),比如只选取购物篮金额在80元以上、或者商品价格为权值。
在进行购物篮分析时,可以从商品或品类入手限定数据库规模,比如特定商品、品类、促销品、新品、推荐品、拟淘汰品等为维度,对购物篮数据集合进行划分子集的方法,划分为不同的数据特征子集,减少数据库遍历的数据量。
? 特定商品、特定品类、特定品牌、或商品虚拟属性;按照指定的商品、商品品类、品牌,或者按照某种特定的商品属性,比如无糖、脱脂等属性进行选取。
? 销售排行Top-N方法:即按照销售排行选择商品,从而减少数据库的规模,Top-N销售排行是零售业喜爱的数据分析方法,选取热门商品作为约束条件进行购物篮分析,可以全面评估这些热门商品的购物篮表现。
? PI值排行:PI值反映了商品在购物篮的渗透率,PI值排行与商品销售排行可以联合使用,全面衡量商品被顾客之间的关注度。
? 促销商品:选取购物篮中含有促销商品的购物篮数据集合,作为促销预测、选品、评估的约束条件,促销是零售门店最基本的业务工作,选取促销品作为购物篮数据数据集合,可以从购物篮角度评估促销效果。
? 长尾商品:长尾商品其实就是门店中动销率最差的商品,有些长尾商品即使动销率很差,但具有特定的商业价值,需要确定长尾商品是否合理,需要进行单独的选取分析,有些长尾商品具有提升的空间,而有些只能淘汰。
? 购物篮量化指标选取:购物篮金额、商品价格、购物篮系数等指标也可以作为约束条件,比如发现客单价在100元以上或者购买数量不小于10,或商品单价(price < 10元)、客单价(sum > 100)等。
? 时间属性的约束条件:零售业是一个时间敏感行业,周期性和循环性都很强,因此国外将时间敏感关联规则被称为循环和日历关联规则(Cyclic and calendric association rules)。现实中很多商品关联规则只产生于特定的、时间窗口很短的时段,属于临时性规则(temporal rules),这些规则都对门店具有重大价值。