啤酒与尿布---神奇的购物篮分析

老高与购物篮分析

公告

“啤酒与尿布”是一个真实的故事,发生在1990年代的沃尔玛大卖场,代表卖场的购物篮商品之间存在着某种特定的关联关系,挖掘并利用这种关联关系,可以使得实体零售门店充分;了解顾客的购物场景,为选品与品类管理、定价与调价、促销策略及评估、关联陈列、顾客行为聚类等提供了有效的数据依据。

我在2008年撰写了《啤酒与尿布-神奇的购物篮分析》(清华大学出版),开辟本专栏,是为了与大家探讨实体门店购物篮管理的理念、计算方法及案例,以及能够与相关软件企业合作,开发相关应用软件产品

MP:13901022781 微信同号

统计

今日访问:407

总访问量:106080

零售关联分析(购物篮分析)的数据源及预处理(二)

2023年07月28日

评论数(0)
购物篮交易数据的格式、异常值及适应对象:
购物篮数据来自于POS机,POS机于1990年代开始在零售业普及,其间恰好是关系型数据库的商业化应用阶段,因此大多数购物篮数据都是基于关系型数据库的架构构建及存储,属于典型的结构化数据。
因此就会有这种现象 存在,即将一个购物篮数据分别存储在2个数据表单中:订单主表(Master)和订单明细表(Detail),二个表之间采取订单号(order_id)作为外键(foreign key)进行关联,形成一个完整的购物篮数据,一个购物篮数据对应了一个顾客的消费行为。
近年来由于Java语言及云端数据库的普及,有些POS软件采取了Json格式进行订单数据存储,将交易数据中的Master表与detail表合并,形成统一的Json数据包,Json数据包会产生冗余、但是便于编程,Json数据包属于半结构化数据,需要转换为结构化数据(semi-structured basket data to the structured format),才可以进行购物篮分析。
购物篮数据的离群点(Outlier):在进行购物篮数据分析时,会出现某些离群点数据,即超出正常状态的数值,比如某超市购物篮系数基本在在2-3件,假定出现了几个购物篮系数在30以上的购物篮,就可以认为是偶发性的离群点,予以剔除。但是有些离群点可能具有商业价值,比如门店附近新家庭的出现,导致某些购物篮的系数突然变大,此时需要予以特别关注。
在现实中,有些对于购物篮分析没有实际意义的数据项需要剔除,最常见的就是很多购物篮数据中会有塑料袋,而塑料袋对于购物篮分析没有实质上的价值,可以予以剔除。
零售关联分析的三种数据分析手段及对应的数据源:
零售业关联分析主要有三种基本类型,而三种分析类型对应的数据对象如下:
? 相关性分析:进行商品之间的相关性分析时,需要从购物篮数据的订单明细表提取商品销售数据,包含商品的名称、价格、销售数量等信息,将商品销售数据从购物篮订单明细中剥离拆开后进行合并汇总,一般汇总为销售日报形式。
? 购物篮分析:在进行传统购物篮分析时,使用的数据表需要从订单明细表中提取,此时不能拆开购物篮,需要以购物篮为基本分析单元,并根据分析目的、结合外部数据与隐含属性,对商品之间的关联规则进行挖掘。
时间序列关分析:时间系列关联分析的数据源要看序列分析的目的,如果是会员的购买行为,则需要订单主表(master级别),并需要带有订单时间戳数据,若进行顾客商品购物序列等分析,需要结合订单明细级别数据。


文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+老高与购物篮分析。