零售业的购物篮数据维度是最小零售单位(product level),即所谓的SKU级别,如果将这种最底层的商品单品直接进行购物篮分析,可能会出现数据颗粒度过于细小,商品之间的关联关系会被稀释,难以发现有意义的关联规则。
因此有时需要对购物篮中的商品进行品类层级提升,使得关联关系可以聚焦,提升品类层级的依据可以来自于门店的品类表或分类表。
商品分类在零售领域称为商品分层(Product Hierarchical)、或商品分类(Product taxonomy),对应的就是门店的商品品类目录(Product Categories)。
每家零售企业的分类方式都不同,但基本会有大分类、中分类、小分类、细分类等。
我们以某国际大型零售连锁企业为例,该连锁企业的分类分为三级(Complex 3 level assortments)。
首先,按照西方零售业的习惯,该企业将卖场划分为食品和非食品(food and non-food items)二大类别,这是最高一级的划分方法,不纳入品类表。
品类第一级,即大分类级别,被称为部门级别(department),也是卖场货架区域的布局依据,比如在食品大分类下,有酒水、饮料、烘培、冷冻食品、生鲜食品、粮食等部门或大分类级别。
第二级,即中分类级别,属于部门的下属管理单位,第二级会被称为品类(category)级别,比如酒水品类下的啤酒品类。
第三级,即小分类级别,是中分类的下属管理对象,比如中分类啤酒品类下的进口啤酒、国产啤酒等,小分类级别会对应货架上具体的区域,如在啤酒货架上,有国产355ml听装燕京啤酒、也有进口640ml瓶装嘉士伯啤酒。
当顾客的购物篮中有355ml听装燕京啤酒时,如果直接把355ml听装燕京啤酒进行分析,可能就会因为商品的层级划分太细、购物篮中商品关联关系被稀释。
假如将355ml听装燕京啤酒上升一级品类,归纳为“啤酒”品类,就可以找出“啤酒与尿布”的关联关系。
在零售数据分析领域,有时将商品层级调整称为“数据转轴”。
数据转轴是一种数据映射方法,即将较低层级的数据映射到高一层级的数据。
现在有一个购物篮,其中的商品构成为:{四川沙糖桔、500g红糖、瓶装燕京啤酒、猪肋排};
这样的商品数据颗粒度太细,可以分别转轴(表示为=>)为:
四川沙糖桔=>柑橘;500g红糖=>糖;瓶装燕京啤酒=>啤酒;猪肋排=>猪肉;
转轴后的购物篮商品组合为{柑橘,糖,啤酒,猪肉};