欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

Python --深入淺出Apriori關聯分析算法(二) Apriori關聯

系統 2101 0

上一篇我們講了關聯分析的幾個概念,支持度,置信度,提升度。以及如何利用Apriori算法高效地根據物品的支持度找出所有物品的頻繁項集。

  • Python --深入淺出Apriori關聯分析算法(一)

這次呢,我們會在上次的基礎上,講講如何分析物品的關聯規則得出關聯結果,以及給出用 apyori 這個庫運行得出關聯結果的代碼。

一. 基礎知識

上次我們介紹了幾個關聯分析的概念,支持度,置信度,提升度。這次我們重點回顧一下置信度和提升度:

置信度(Confidence) :置信度是指如果購買物品A,有較大可能購買物品B。計算方式是這樣:

置信度( A -> B) = (包含物品A和B的記錄數量) / (包含 A 的記錄數量)

舉例:我們已經知道,(牛奶,雞蛋)一起購買的次數是兩次,雞蛋的購買次數是4次。那么置信度Confidence(牛奶->雞蛋)的計算方式是Confidence(牛奶->雞蛋)=2 / 4。
提升度(Lift) :提升度指當銷售一個物品時,另一個物品銷售率會增加多少。計算方式是:

提升度( A -> B) = 置信度( A -> B) / (支持度 A)

舉例:上面我們計算了牛奶和雞蛋的置信度Confidence(牛奶->雞蛋)=2/4。牛奶的支持度Support(牛奶)=3 / 5,那么我們就能計算牛奶和雞蛋的支持度Lift(牛奶->雞蛋)=0.83

當提升度(A->B)的值大于1的時候,說明物品A賣得越多,B也會賣得越多。而提升度等于1則意味著產品A和B之間沒有關聯。最后,提升度小于1那么意味著購買A反而會減少B的銷量

舉個例子,有了這個指標,你就能看出賣越多的漢堡就會賣越多的番茄醬。但賣越多的沐浴露,則可能香皂的銷量會下降。

二. 關聯規則

我們前面已經用Apriori得到頻繁項集了。那么我們就可以在頻繁項集的基礎上,找到這里面的關聯規則。而計算關聯規則所用到的,就是我們上面所說的 置信度和提升度

這里有一點要注意,當我們發現置信度(A->B)很高的時候,反過來的值置信度(B->A)不一定很高。

一個物品的關聯結果是非常多的。但好在,我們上一節學習了Apriori思想。運用在置信度上也是合適的:

如果一個關聯結果的置信度低,那么它的所有超集的置信度也低

這樣一來,我們就能節省很多的計算量。

三. Apriori關聯規則實戰

我們還是用mlxtend庫,根據上一篇找到的頻繁項集,計算出它們的關聯規則。在此之前,還是先介紹一下相應API的參數。

          
            association_rules(df, metric="confidence",
                      min_threshold=0.8,
                      support_only=False):

參數介紹:
- df:這個不用說,就是 Apriori 計算后的頻繁項集。
- metric:可選值['support','confidence','lift','leverage','conviction']。
里面比較常用的就是置信度和支持度。這個參數和下面的min_threshold參數配合使用。
- min_threshold:參數類型是浮點型,根據 metric 不同可選值有不同的范圍,
    metric = 'support'  => 取值范圍 [0,1]
    metric = 'confidence'  => 取值范圍 [0,1]
    metric = 'lift'  => 取值范圍 [0, inf]
support_only:默認是 False。僅計算有支持度的項集,若缺失支持度則用 NaNs 填充。
          
        

完整代碼如下:

          
            import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

#設置數據集
dataset = [['牛奶','洋蔥','肉豆蔻','蕓豆','雞蛋','酸奶'],
        ['蒔蘿','洋蔥','肉豆蔻','蕓豆','雞蛋','酸奶'],
        ['牛奶','蘋果','蕓豆','雞蛋'],
        ['牛奶','獨角獸','玉米','蕓豆','酸奶'],
        ['玉米','洋蔥','洋蔥','蕓豆','冰淇淋','雞蛋']]
        
te = TransactionEncoder()
#進行 one-hot 編碼
te_ary = te.fit(records).transform(records)
df = pd.DataFrame(te_ary, columns=te.columns_)
#利用 Apriori 找出頻繁項集
freq = apriori(df, min_support=0.05, use_colnames=True)

#導入關聯規則包
from mlxtend.frequent_patterns import association_rules
#計算關聯規則
result = association_rules(freq, metric="confidence", min_threshold=0.6)

          
        

這里我們根據置信度來計算,找出置信度大于0.6的關聯規則。

計算結果如下:

          
               antecedents      consequents        antecedent support              consequent support       support           confidence      lift       leverage            conviction 
0         (洋蔥)        (蕓豆)                    0.6                         1.0                0.6                 1.00          1.00          0.00                  inf   
1         (蕓豆)        (洋蔥)                    1.0                         0.6                0.6                 0.60          1.00          0.00             1.000000   
2         (洋蔥)        (雞蛋)                    0.6                         0.8                0.6                 1.00          1.25          0.12                  inf   
3         (雞蛋)        (洋蔥)                    0.8                         0.6                0.6                 0.75          1.25          0.12             1.600000   
4         (蕓豆)        (牛奶)                    1.0                         0.6                0.6                 0.60          1.00          0.00             1.000000   
5         (牛奶)        (蕓豆)                    0.6                         1.0                0.6                 1.00          1.00          0.00                  inf   
6         (酸奶)        (蕓豆)                    0.6                         1.0                0.6                 1.00          1.00          0.00                  inf   
7         (蕓豆)        (酸奶)                    1.0                         0.6                0.6                 0.60          1.00          0.00             1.000000   
8         (蕓豆)        (雞蛋)                    1.0                         0.8                0.8                 0.80          1.00          0.00             1.000000   
9         (雞蛋)        (蕓豆)                    0.8                         1.0                0.8                 1.00          1.00          0.00                  inf   
10    (洋蔥, 蕓豆)        (雞蛋)                  0.6                         0.8                 0.6                 1.00         1.25           0.12                 inf  
11    (洋蔥, 雞蛋)        (蕓豆)                  0.6                         1.0                 0.6                 1.00         1.00           0.00                 inf  
12    (雞蛋, 蕓豆)        (洋蔥)                  0.8                         0.6                 0.6                 0.75         1.25           0.12            1.600000  
13        (洋蔥)    (雞蛋, 蕓豆)                  0.6                         0.8                 0.6                 1.00         1.25           0.12                 inf  
14        (蕓豆)    (洋蔥, 雞蛋)                  1.0                         0.6                 0.6                 0.60         1.00           0.00            1.000000  
15        (雞蛋)    (洋蔥, 蕓豆)                  0.8                         0.6                 0.6                 0.75         1.25           0.12            1.600000  
          
        

我們可以發現,除了置信度(confidence),提升度(lift)外,還有兩個指標,leverage和conviction。這兩個用得比較少,和置信度,提升度也有些類似,就不展開說了。

既然返回的結果是Dataframe,那么就可以很方便得用pandas的排序方法找出置信度或提升度高的物品組合,方法如下:

DataFrame.sort_values

比如上面例子中要找出最大的置信度,用

result.sort_values(by = 'confidence',ascending=False,axis=1)

上面例子中我們可以發現,{洋蔥 -> 雞蛋,蕓豆} 的置信度是 1.00 ,而它們的提升度是 1.25 。這說明買了洋蔥的人很可能會再購買 1.25 份的 {雞蛋,蕓豆} 。所以可以讓它們放到一起出售。

OK,相信通過這個前面的介紹和這次的這個例子,已經能夠明白Apriori算法的原理以及如何使用它。當然Apriori只能算是關聯挖掘算法中比較基礎的一個,還有其他的關聯挖掘算法,比如FP-growth,以后有機會再介紹吧。

對了,我從網上找了個關聯分析的數據和大概針對這個數據寫了個小的demo代碼。
Python --深入淺出Apriori關聯分析算法(二) Apriori關聯規則實戰_第1張圖片

數據是超市的購物清單,大概有7500條,足夠我們來運算分析了。

我把數據和我寫的一點點demo代碼放在我的公眾號中了,關聯公眾號: 哈爾的數據城堡 ,回復“apriori”(不需要雙引號),就能獲得下載鏈接了。

以上~


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 这里只有精品视频 | 日韩在线视屏 | 一区二区三区毛片 | 国产毛片a级 | 亚洲天堂免费视频 | 欧美日韩一区二区三 | 欧美大片一区二区三区 | 美女用震蛋叫爽的视频95视频 | 亚洲性69影院在线观看 | youjizz欧美 | 亚洲中出 | 日日摸夜夜爽日日摸视频 | 欧美大片网站 | 日本一级特黄a大片在线 | 激情五月色播五月 | 无码国产精品成人午夜视频 | 黄色免费av| 三人弄娇妻高潮3p视频 | 婷婷色在线 | 香蕉福利久久福利久久香蕉 | 日韩在线免费 | 亚洲精品美女久久久 | 国产一区二 | 亚洲国产中文字幕 | 精品欧美一区二区在线观看 | 日韩三级网 | 天天人人精品 | 色黄网站在线观看 | 我爱我色成人网 | 久色乳综合思思在线视频 | 午夜一级毛片 | 国产精品久久久久久久久免费 | 久草热久草在线 | 午夜国产亚洲精品一区 | 久久精品国产免费看久久精品 | 亚洲国产精品久久久久久网站 | 免费观看欧美一级片 | 天天干com| 欧美理论影院在线观看免费 | 国产成人视屏 | 亚洲色图欧美色 |