零售业是一个数据密集的行业(Retail is a data-intensive industry),用于关联分析的数据是POS机(Point-Of-Sales)产生的交易数据。
POS机产生的交易数据,也被称为Tickets data(交易票据数据)或Customer Transaction dataset(顾客交易数据集)。
POS机交易数据以销售小票为单位,一张销售小票对应一个顾客单次购买行为,也就是对应一个购物篮,如一家超市一天有1000个顾客买单,就会形成1000个购物篮。
每个零售业态都会有自己的购物篮形成规律,日本7-11便利店平日购物篮数量为800-1000个,节假日为1000-1200个,国内大型卖场日均购物篮数量为3000-5000个左右,节假日为7000-8000个左右。
在开始进行购物篮数据分析之前,先介绍几个零售业数据的常用名称;
1、Sku(stock-keeping unit):Sku编码是商品管理码,用于订货、进货、库存管理等,不能用于POS机的前端销售。
2、Upc(universal product code):指的是通用商品编码,是将SKU拆解到商品最小零售包装单位(MPQ:最小包装单位),Upc码含商品销售的基础信息,理论上讲是一品一码,一般也不做为POS机销售码。
3、 PLU(Price Look Up):商品销售编码,这是专供POS机销售时使用的商品编码,PLU码包含了商品的精简描述信息、实时有效价格及促销信息。
购物篮数据也被称为销售订单数据,一个完整的订单数据(见下图)由主表和明细表二个部分组成:
1、订单主表级(Master表、或称为购物篮主表:Market basket-level data):含表头、表尾二个部分,包含了订单数据中除商品销售清单外的所有数据。
? 订单信息:收银时间、订单流水号、订单状态、收银员等信息;
? 订单消费总金额(Total Value of the Basket):应收金额、订单商品数量、实付金额、找钱、折扣等;
? 会员信息:会员卡号、本次消费积分、累计积分等;
2、购物篮订单明细表级(Detail表、或交易级数据:Transtfor -level data):是一个购物篮中的商品销售列表部分,包含如下部分:
? 商品编码:标准条码或PLU编码,当条码以22、24等编码打头时,说明是称重生鲜类商品;
? 商品名称:此处的商品名称不是商品的标准名称,而是企业内部的精简商品名称。
? 销售数量(Quantity Purchased):除称重商品外基本都是整数。
? 销售价格:商品的实际价格(如果有折扣率、需要折算为净销售价格);
当订单数据中的销售数量、销售金额出现负值, 可能是退货、取消交易等操作,需要抵消相应销售数值。
在购物篮订单数据中,经常同时有单品折扣、整单折扣,当有整单折扣时,需要将Master表中的整单折扣额分摊到每个单品实际销售额,映射为单品折扣。