西部数码网站管理助手破解版,湖南电商网站建设,网站开发要什么软件有哪些,深圳大公司一、#xff08;30分#xff09;设最小支持度阈值为0.2500, 最小置信度为0.6500。对于下面的规则模板和信息表找出R中的所有强关联规则#xff1a;
S∈R#xff0c;P#xff08;S#xff0c;x #xff09;∧ Q#xff08;S#xff0c;y #xff09; Gpa#xf…一、30分设最小支持度阈值为0.2500, 最小置信度为0.6500。对于下面的规则模板和信息表找出R中的所有强关联规则
S∈RPSx ∧ QSy GpaSw [ s, c ] 其中PQ ∈{ Major, Status Age }.
MajorStatusAgeGpaCountArtsGraduateOldGood50ArtsGraduateOldExcellent150ArtsUndergraduateYoungGood150Appl_scienceUndergraduateYoungExcellentScienceUndergraduateYoungGood100
解答 样本总数为500最小支持数为500*0.25 125。 在Gpa取不同值的情形下分别讨论。 1Gpa Good
MajorStatusAgeCountArtsGraduateOld50ArtsUndergraduateYoung150ScienceUndergraduateYoung100
频繁1项集L1 {Major Arts:200; StatusUndergraduate: 250; Age Young:250} -----10分 频繁2项集的待选集C2{Major ArtsStatus Undergraduate:150; Major ArtsAgeYoung:150StatusUndergraduate, AgeYoung:250 } 频繁2项集L2C2
(2) Gpa Excellent
MajorStatusAgeCountArtsGraduateOld150Appl_scienceUndergraduateYoung50
频繁1项集L1 {Major Arts:150; StatusGraduate: 150; Age Old:250} 频繁2项集的待选集C2{Major ArtsStatus Graduate:150; Major ArtsAgeOld:150StatusGraduate, AgeOld:150 } 频繁2项集L2C2
考察置信度 Major(S,Arts)^Status(S,Undergraduate)Gpa(S,Good) [s150/5000.3000, c150/1501.0000] Major(S, Arts)^Age(S,Young)Gpa(S, Good)[s150/5000.3000, c150/1501.0000] Status(S,Undergraduate)^Age(S,Young)Gpa(S,Good) [s250/5000.5000, c250/3000.8333] Major(S, Arts)^Status(S,Graduate)Gpa(S, Excellent)[s150/5000.3000, c150/2000.7500] Major(S, Arts)^Age(S,Old)Gpa(S, Excellent)[s150/5000.3000, c150/2000.7500] Status(S,Graduate)^Age(S,Old)Gpa(S,Excellent) [s150/5000.3000, c150/2000.7500]
因此所有强关联规则是 Major(S,Arts)^Status(S,Undergraduate)Gpa(S,Good) [s150/5000.3000, c150/1501.0000] Major(S, Arts)^Age(S,Young)Gpa(S, Good)[s150/5000.3000, c150/1501.0000] Status(S,Undergraduate)^Age(S,Young)Gpa(S,Good) [s250/5000.5000, c250/3000.8333] Major(S, Arts)^Status(S,Graduate)Gpa(S, Excellent)[s150/5000.3000, c150/2000.7500] Major(S, Arts)^Age(S,Old)Gpa(S, Excellent)[s150/5000.3000, c150/2000.7500] Status(S,Graduate)^Age(S,Old)Gpa(S,Excellent) [s150/5000.3000, c150/2000.7500]
二、30分设类标号属性 Gpa 有两个不同的值 即{ Good, Excellent } , 基于信息增益利用判定树进行归纳分类。
解答 定义P: Gpa Good N: Gpa Excellent 任何分割进行前,样本集的熵为:
pnI(p,n)3002000.97095
I(p,n)-0.6log2(0.6) –0.4log2(0.4) 0.97095
考虑按属性Major分割后的样本的熵
MajorpiniI(pi,ni)Arts2001500.98523Appl_science0500Science10000
E(Major) 350/500*0.98523 0.68966
I(p,n)-(4/7)log2(4/7) –(3/7)log2(3/7) 0.98523
考虑按属性Status分割后的样本的熵
StatuspiniI(pi,ni)Graduate501500.81128Undergraduate250500.65002
E(Status) 200/5000.81128300/5000.65002 0.71452
考虑按属性Age分割后的样本的熵
AgepiniI(pi,ni)Old501500.81128Young250500.65002
E(Age) E(Status) 0.71452
各属性的信息增益如下: Gain(Major) 0.97095-0.68966 0.28129 Gain(Status) Gain(Age) 0.97095-0.71452 0.25643
比较后,由于Gain(Major)的值最大,按照最大信息增益原则,按照属性Major的不同取值进行第一次分割. 分割后,按照Major的不同取值,得到下面的3个表:
(1)Major Arts
StatusAgeGpaCountGraduateOldGood50GraduateOldExcellent150UndergraduateYoungGood150
考虑按属性Status分割后的样本的熵
StatuspiniI(pi,ni)Graduate501500.81128Undergraduate15000
E(Status) 200/350*0.81128 0.46359
考虑按属性Age分割后的样本的熵
StatuspiniI(pi,ni)Old501500.81128Young15000
E(Age) E(Status) 0.46359
由于E(Age) E(Status)可按照属性Status的不同取值进行第二次分割。分割后按照Status的不同取值得到下面的2个表
(1.1) Status Graduate
AgeGpaCountOldGood50OldExcellent150
由于表中属性Age的取值没有变化停止分割。按照多数投票原则该分支可被判定为GpaExcellent。 1.2Status Undergraduate
StatusAgeGpaCountUndergraduateYoungGood150
在这种情形下,所有样本的Gpa属性值都相同.停止分割. 2Major Appl_Science
StatusAgeGpaCountUndergraduateYoungExcellent50
在这种情形下,所有样本的Gpa属性值都相同.停止分割. 3MajorScience
StatusAgeGpaCountUndergraduateYoungGood100
在这种情形下,所有样本的Gpa属性值都相同.停止分割. 综合以上分析,有以下的判定树: Major--------- Arts ----------Status-------Graduate ------Excellent \ ______Undergraduate______Good _______Appl_Science_______________________Excellent __________Science______________________Good
小 tricks
计算信息熵的代码
import mathdef entropy(probabilities):total sum(probabilities)probabilities [p / total for p in probabilities]entropy 0for p in probabilities:if p 0:entropy - p * math.log2(p)return entropyprobabilities [100,100,150]#计算100 100 150的信息熵result entropy(probabilities)
print(信息熵:, result)