啤酒与尿布---神奇的购物篮分析

老高的购物篮分析

公告

“啤酒与尿布”是一个真实的故事,发生在1990年代的沃尔玛大卖场,代表卖场的购物篮商品之间存在着某种特定的关联关系,挖掘并利用这种关联关系,可以使得实体零售门店充分;了解顾客的购物场景,为选品与品类管理、定价与调价、促销策略及评估、关联陈列、顾客行为聚类等提供了有效的数据依据。

我在2008年撰写了《啤酒与尿布-神奇的购物篮分析》(清华大学出版),开辟本专栏,是为了与大家探讨实体门店购物篮管理的理念、计算方法及案例,以及能够与相关软件企业合作,开发相关应用软件产品

MP:13901022781 微信同号

统计

今日访问:132

总访问量:306007

2024年01月03日

案例:“京东的复购数据模型”京东商城可以精确计算消费者的购买周期,例如尿不湿可以精确到消费者使用的的型号、一天用几片、什么时间用完,在周期性复购商品用完之前,京东可以为用户进行推送服务,提醒用户及时购买。京东平台根据不同品类的用户行为、对应的购买周期,制定了如下的不同品类用户行为周期表(表4-8),根据这个表,京东平台可以与厂家制定相应的促销计划,比如想要对吸尘器进行促销,就可以寻找过去30天内浏览、搜索过吸尘器、扫地机器人、除螨仪的顾客群体,直接对这个顾客群体进行营销策略就可以收到很好的效果。人群用..

2023年12月13日

三、序列关联模式的数据源、处理方式及算法思路零售序列关联分析的数据源依然是购物篮数据,在进行序列关联分析时,需要对购物篮数据进行如下处理:1、简单序列的购物篮数据处理:一般认为购物篮中商品排列顺序就是简单序列,而Apriori算法中的购物篮数据是有着严格的前后顺序,即所谓“前件(antecedent)”、“后件(consequent)”之分,这是因为关联关系具有方向性,比如购物篮{全脂牛奶、面包},将商品顺序颠倒过来,关联关系也会发生变化。在进行购物篮分析时,需要明确商品的前后顺序,那么,可以按照销售小票中的商品顺序作为商品..

2023年12月05日

序列关联的含义、分析方法:序列模式(SequentialPattern)指的是事件发生具有前后顺序,零售业存在着大量的序列模式,有些序列模式是随机的、无意义的,有些序列模式有规则可循、且具有商业价值,序列规则分析(SequenceRulesAnalysis)就是寻找具有商业价值的序列规则,零售业中常见的序列模式就是顾客购买序列模式(CustomerShoppingSequencePatterns),主要分析项目是序列购物篮分析(Sequentialmarketbasketanalysis),也称为序列关联分析。序列模式中的“序列”指的是时间序列,在零售业可能是消费者在场内一次购买行为的购物篮商..

2023年11月17日

三、约束条件与特定用途的业务宽表:由于零售门店中购物篮数据极其庞大,而购物篮分析往往具有特定的分析对象,因此可以按照购物篮分析的目的,将购物篮数据库简化为特定的中间数据库,这种中间数据库按照业务分析的目的,也可以被称为业务宽表,业务宽表按照业务用途对中间数据集进行命名,每个业务宽表只会针对特定的业务分析需求,因此业务宽表都是临时性数据库。业务宽表有事务型业务宽表,周期性快照业务宽表、累计快照业务宽表几种类型。事务型业务宽表是按照业务事实提取数据库,比如某次促销活动的业务宽表,周期性快照业务宽表指..

2023年11月07日

一、基于约束条件的关联规则挖掘:基于Apriori算法的购物篮分析,采取了全程遍历扫描(Countall)算法,因此有时也被称为暴力遍历、或野蛮搜索。一个具有15个项目集合的数据集,计算其中2个项目的随机组合频繁项集,产生的项目集合数值为:(215−2)=32,768。假定一个小超市,拥有100个商品,每个商品都实现了销售,现在需要寻找3个商品的购物篮关联规则,就会有161,700个组合的可能。一个标准的超市会有1万个商品,那么由二个商品构成(2-itemcombinations)的商品组合就有5千万个,由三个商品构成(3-itemcombinations)的购物篮商品组合..

2023年10月19日

负关联指的是一个事务的增加会导致另一个事件的减少,也被称为负模式(NegativePattern),简单理解就是此消彼长的零和模式,负关联规则数据挖掘就是针对负关联的数据挖掘方法。零售行业中负关联的商业价值:商品之间的负关联关系代表了商品的互斥关系,互斥关系预示了商品之间的替代关系,零售业存在着大量的商品替代关系,商品替代大多数发生在同品类的商品之间,替代的商品基本功能相同,商品的品牌、价格、包装、特定属性(比如口味)存在差异,导致顾客在购买这类商品时容易发生替代购买,如西方发现60%的意大利面都具有负关联关系,代..

2023年10月13日

在关联分析中,有一种关联现象是被大量的有意无意进行忽略的,即零关联及负关联。我们依然以零售场所的关联现象、即购物篮分析为例进行讲解。一、单商品购物篮:零售门店中存在着大量只有一个商品的购物篮,就是所谓的单商品购物篮(Single-selling),几乎所有数据分析书籍都会建议,在进行购物篮分析时,将这些单商品购物篮的数据清除,因为这些购物篮中不会包含任何关联规则。这是一种错误的做法,单商品购物篮中隐含了大量的缺失机会(MissingOpportunity),如果不对单购物篮现象进行研究、找出丢失的购物篮商品,长此以往,门店就要..

2023年10月09日

2、量化购物篮分析的商品维度选择:购物篮分析的单维度与单维关联规则:这里提及的维度,指的是购物篮中商品项目维度,传统购物篮分析只选取商品名称一个维度进行分析,比如在购物篮数据中中只提取啤酒、尿布的品类名称,这种维度选取方法称为单维度,对应关联规则也被称为单维关联规则。单维关联规则基本都是对应了布尔型关联规则。比如购买(X,“牛奶”)→购买(X,“面包”);关联规则为牛奶→面包,是典型的布尔型关联规则;单维量化关联规则在零售业的实际意义并不大,因为即使发现了有商业价值的关联规则,也无法落实到具体的量化指标..

2023年09月26日

二、购物篮量化分析的数据处理方法:在进行量化购物篮分析时,需要对购物篮数据进行预处理,此时需要先行提取购物篮中商品的多维量化指标,对其挖掘包含的关联规则,这个过程称为预处理过程(Pre-Processing)。1、连续型变量的离散化处理零售业中的经营数据基本都是连续数值变量,Apriori算法只擅长对离散变量的处理,在没有新关联分析算法产生之前,量化关联分析需要将连续数值变量进行离散化处理。连续变量的离散化处理,是将连续数值型变量转换为区间型的数值变量,也称为连续性离散化方法,这种方法将连续属性的邻近值分组,形成有限..

2023年09月22日

一、量化购物篮分析的概念:现代管理学之父彼得·德鲁克曾经说过:“无量化,无管理”、以及“先量化,后决策”,指明了量化管理在企业经营及决策中的意义。量化管理可以大幅减少经营的不确定性,而量化管理的依据来自于量化的经营指标。传统的购物篮分析结果为布尔型关联规则(Booleanassociationrules),不能反映商业的财务与经营等实用指标。商业数据分析只有布尔型关联规则是不够的,商业数据分析需要量化的关联规则。量化关联规则(QuantitativeAssociationrule),指的是数据分析中事务之间的关联规则描述了量化经营指标。零售业的量..

2023年09月19日

一、关联规则的品类归属与商业价值在进行购物篮分析时,有一种有效地判断关联规则价值的方法,就是观察商品的关联规则是发生在同品类、还是跨品类。比如同时发现了百威啤酒与嘉士伯啤酒、百威啤酒与帮宝适尿布之间的关联规则,哪一组的关联规则价值更高?百威啤酒与嘉士伯啤酒都是同一个品类。百威啤酒与帮宝适尿布不属于同一个品类。在零售领域,跨品类商品关联规则的商业价值一定大于同品类商品之间的关联规则。比如百威啤酒与帮宝适尿布之间关联规则的商业价值会大于百威啤酒与嘉士伯啤酒之间的关联规则。这是因为,跨品类的商品之间相..

2023年09月15日

关联规则评估(AssociationRuleEvaluation)零售业是一个数据密集的行业,购物篮分析的目的是为了发现有趣的规则(Tofindinterestingrules),购物篮分析可以发现大量的关联规则,有些关联规则只是重现了商业常识,有些关联规则则隐含了一些规则和模式(hiddenrulesandpatterns),有些是偶发、不可重复且没有商业价值的噪音,如何确定这些关联规则的商业价值,这就是下面提及的实用关联规则评估。数据分析界认为,关联规则的评估(Associationruleevaluation)由关联规则指标的强弱决定,除此之外,还应该加上关联规则是否“有趣”(intere..

2023年09月13日

我们以Groceries数据集为例,表3-3为Groceries数据集的关联分析表,我们以此为例,说明支持度-置信度-提升度指标的量化困境。表格中lhs代表关联规则的左侧、rhs代表关联规则的右侧,按照购物篮分析的定义,lhs(左侧)代表主分析商品,rhs(右侧)代表被关联商品。第一行代表盆栽植物(potplants)与全脂牛奶(wholemilk)的支持度(support)为6.9%,置信度(confidence)为40%,提升度(lift)为1.56.第二行代表意大利面(pasta)与全脂牛奶(wholemilk)的支付度为6%,置信度为40%,提升度为1.58。其他数据以此类推;lhsrhssupportconfidence..

2023年09月07日

Apriori算法在零售业的困境:Apriori算法从1993年出现,30年来算法不断得到补充、修正、改善,应该说是一个非常成熟的算法了,但是令人尴尬的是,尽管Apriori算法位居数据挖掘十大明星算法之一,但是Apriori算法在零售业始终是雷声大雨点小,对于一个出现了30年的明星算法,这种局面让人感到尴尬。Apriori算法范例80%以上都采取了超市购物篮,使用购物篮中的商品组合介绍关联规则的概念及算法,但令人尴尬的是,尽管很多数据分析师解释得头头是道,报表也做得很有说服力,但很少有零售界(尤其是超市)的运营者会对这些购物篮分析结果感兴..

2023年09月04日

关联规则的图形化>plot(last.rules,control=list(jitter=2,col=rev(brewer.pal(9,"Greens")[4:9])),shading="lift")#对上述关联规则绘制散点图#表示散点图上颜色深浅的度量是lift,jitter=2(增加抖动值),col是调色板,默认是100个颜色的灰色调色板,brewer.pal(n,name):创建调色板:n表示该调色板内总共有多少种颜色;name表示调色板的名字。这里使用Green这块调色板,引入9颜色。#结果显示为图3-7图3-7特定条件的关联规则散点图#散点图显示了规则的分布,大部分规则的support在0.1以内,Confidence在0-0.8以内。&..

2023年08月31日

对Groceries数据进行关联分析#size函数和itemFrequency函数都是arules包中的函数,前者是计算购物篮中出现过的商品次数,后者是为了计算每种商品出现的次数(频率)>basketSize<-size(Groceries)#计算Groceries的购物篮商品系数>sum(basketSize)#显示如下:[1]43367#说明在9835个购物篮中,169个商品共出现了43367次;>itemFreq<-itemFrequency(Groceries)#计算Groceries中169个商品在购物篮中出现的频次>itemFreq[1:5]#列出交易数据中五个商品出现的频次分布。#显示结果为:frankfurtersausageliverloafhammeat0.05897..

2023年08月28日

下面以最常用的R语言为例,解析Apriori算法的基本分析思路。R语言中关于关联分析的开发包非常丰富,有arulesCBA、arulesNBminer、Opusminer、RKEEL、arulesSequences、RSarules等,这里主要以基础的arules、arulesViz等开发包及其包含的Groceries数据集为示范,介绍Apriori算法的关联分析步骤。下面范例使用的是Rversion4.1.2(RStudio)开发环境。1、#载入算法包及购物篮数据库>install.packages("arules")#安装Apriori算法程序包>install.packages("arulesViz")#安装Apriori算法可视化开发包>library(arul..

2023年08月21日

Apriori算法生成的关联规则包含三个指标:支持度(Support)、置信度(Confidemce)、提升度(Lift),一般使用支持度-置信度二个指标判断事务之间关联关系的强弱,因此也被称为支持度-置信度框架(Support-ConfidenceFramework)。如何判断一个购物篮数据集合中,那些商品之间是强关联、那些是弱关联,Apriori算法方法是,对于支持度和置信度都设置一个最小值,即设置一个筛选条件(阈值),以此判断事务之间关联关系的强弱,对于上面的5个购物篮,可以设置支持度最小值为30%,置信度的最小值为50%,那么{苹果、牛奶}的关联关系就是强,..

2023年08月16日

Apriori算法介绍相关性分析擅长寻找二组或多组线性变量之间的数据表现,但如果分析的多组事务不属于线性变量,而属于布尔型事务项集,就需要采取关联分析法,最典型算法就是购物篮分析。购物篮分析算法有很多,最著名的是Apriori算法。Apriori算法是由Agrawal和R.Srikant于1994年提出来的,是一种关联分析经典算法,至今依然是数据分析领域十大明星算法之一,可见其功能之强大。Apriori名称来自于拉丁语,也有人写成A-priori,意思是“来自以前”,指的是根据过去频繁发生项目集合的先验知识,预测后续的事务关联关系。Aprori算法主要用于..

2023年08月10日

我们以R语言的Apriori算例库中,arules包中自带的Groceries数据集为例,介绍购物篮分析的数据分层方法。Groceries数据集来自一个现实中真实存在的欧洲超市,是其经营一个月的购物篮数据,共包含9835次交易,由169个商品完成销售,按照一个月30天计算,该超市每天平均为328笔交易,根据Groceries数据集的交易笔数、商品品类构成,应该是一家社区型小型食品超市。从Groceries数据集提供的TOP20商品销售列表(见下图)可以看出,前20个出现次数最多的商品都是食品,销售排行依次为全脂牛奶、蔬菜、面包、苏打水、酸奶等,也印证了这是一家小..