关联规则挖掘笔记
Updated:
Contents
对连续数据进行关联分析的方法:
1.离散化方法
2.基于统计学方法
3.非离散方法
概念分层的特点:
位于层次结构较下层的项可能没有足够的支持度,不适用概念分层可能会丢失有趣的模式;
概念分层的较低层发现的规则过于特殊,可能不如较高层次的规则令人感兴趣;
出于较高层次的项比出于较低层次的项趋向于具有较高的支持度;
概念分层的引入增加了关联分析的计算时间;
概念分层的引入可能产生冗余规则。
规则提升度:置信度/后项支持度
置信差:置信度-后项支持度
置信率:1-min(提升度,1/提升度)
支持度的缺点在许多潜在的有意义的模式由于包含支持度小的项而被删除;
置信度的缺陷在于度量忽略了规则后件中项集的支持度;
兴趣因子的局限性;
相关分析的值实际就是卡方,相关分析系数把项在事务中同时出现和同时不出现视为同等重要,适合分析对称的二元变量,另一个局限是,当样本大小成比例变化时,它不能保持不变。
度量:{反演性(判断度量是否对称);零加性(增加无关事务后是否对原有关联有影响;缩放性(行/列的缩放操作)}
辛普森悖论:
while (A=1 or A=0) X[A][B=1][C=0] / X[A][B=1] > X[A][B=0][C=0] / X[A][B=0][C=all] ,//在A=1或者A=0的情况下,即B=1会提高C=0的出现率
but without A, X[B=1][C=0] / X[B=1] > X[B=0][C=0] / X[B=0][C=all] //即不考虑A的情况下,B=1会降低C=0的出现率。