购物篮数据来自于POS机,POS机于1990年代开始在零售业普及,其间恰好是关系型数据库的商业化应用阶段,因此大多数购物篮数据都是基于关系型数据库的架构构建及存储,属于典型的结构化数据。
因此就会有这种现象 存在,即将一个购物篮数据分别存储在2个数据表单中:订单主表(Master)和订单明细表(Detail),二个表之间采取订单号(order_id)作为外键(foreign key)进行关联,形成一个完整的购物篮数据,一个购物篮数据对应了一个顾客的消费行为。
近年来由于Java语言及云端数据库的普及,有些POS软件采取了Json格式进行订单数据存储,将交易数据中的Master表与detail表合并,形成统一的Json数据包,Json数据包会产生冗余、但是便于编程,Json数据包属于半结构化数据,需要转换为结构化数据(semi-structured basket data to the structured format),才可以进行购物篮分析。
购物篮数据的离群点(Outlier):在进行购物篮数据分析时,会出现某些离群点数据,即超出正常状态的数值,比如某超市购物篮系数基本在在2-3件,假定出现了几个购物篮系数在30以上的购物篮,就可以认为是偶发性的离群点,予以剔除。但是有些离群点可能具有商业价值,比如门店附近新家庭的出现,导致某些购物篮的系数突然变大,此时需要予以特别关注。
在现实中,有些对于购物篮分析没有实际意义的数据项需要剔除,最常见的就是很多购物篮数据中会有塑料袋,而塑料袋对于购物篮分析没有实质上的价值,可以予以剔除。
零售业关联分析主要有三种基本类型,而三种分析类型对应的数据对象如下:
? 相关性分析:进行商品之间的相关性分析时,需要从购物篮数据的订单明细表提取商品销售数据,包含商品的名称、价格、销售数量等信息,将商品销售数据从购物篮订单明细中剥离拆开后进行合并汇总,一般汇总为销售日报形式。
? 购物篮分析:在进行传统购物篮分析时,使用的数据表需要从订单明细表中提取,此时不能拆开购物篮,需要以购物篮为基本分析单元,并根据分析目的、结合外部数据与隐含属性,对商品之间的关联规则进行挖掘。
时间序列关分析:时间系列关联分析的数据源要看序列分析的目的,如果是会员的购买行为,则需要订单主表(master级别),并需要带有订单时间戳数据,若进行顾客商品购物序列等分析,需要结合订单明细级别数据。