欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

用Python分析2000款避孕套,得出這些有趣的結(jié)論

系統(tǒng) 1884 0

到現(xiàn)在為止,我們的淘寶教程已經(jīng)寫到了第四篇,前三篇分別是:

  • 第一篇:Python模擬登錄淘寶,詳細(xì)講解如何使用requests庫登錄淘寶pc端。
  • 第二篇:淘寶自動(dòng)登錄2.0,新增Cookies序列化,教大家如何將cookies保存起來。
  • 第三篇:Python爬取淘寶商品避孕套,教大家如何爬取淘寶pc端商品信息。

今天,我們來看看淘寶系列的第四篇

我們?cè)谏弦黄臅r(shí)候已經(jīng)將淘寶數(shù)據(jù)爬取下來了,但是并沒有做數(shù)據(jù)分析。所以今天這篇文章就是教大家如何去分析數(shù)據(jù),得出一些有用的結(jié)論!

Python語言相比其他語言的優(yōu)勢(shì)在哪里?豬哥認(rèn)為是 數(shù)據(jù)分析 人工智能 這兩大塊,而且這兩個(gè)方向需求會(huì)慢慢增大,所以那些想學(xué)習(xí)Python卻不知道要朝著哪個(gè)目標(biāo)學(xué)習(xí)的同學(xué)可以考慮往這兩個(gè)方向發(fā)展!

一、分析目標(biāo)

數(shù)據(jù)分析之前我們需要清楚的知道自己想要分析什么東西,也就是先搞清楚我們的目標(biāo)。在公司可能是公司財(cái)報(bào)、用戶增量變化、產(chǎn)品受歡迎程度、一些報(bào)表等等。

那我們今天的目標(biāo)有哪些呢?我們來看看:

  1. 分析避孕套標(biāo)題高頻關(guān)鍵字
  2. 分析避孕套標(biāo)題高頻關(guān)鍵字 與 商品數(shù)量關(guān)系
  3. 分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均銷量關(guān)系
  4. 分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均售價(jià)關(guān)系
  5. 分析避孕套商品價(jià)格區(qū)間分布關(guān)系
  6. 分析避孕套商品銷量區(qū)間分布關(guān)系
  7. 分析避孕套商品價(jià)格區(qū)間 與 平均銷量關(guān)系
  8. 分析避孕套商家數(shù)量全國分布關(guān)系
  9. 分析避孕套商家全國平均銷量關(guān)系

注意: 以上數(shù)據(jù)分析全部基于上次爬取的2500款淘寶商品(默認(rèn)排序),并不代表淘寶所有避孕套商品!

二、分析實(shí)現(xiàn)

有了明確的目標(biāo)之后,我們就要開始技術(shù)選型。

首先數(shù)據(jù)處理的庫這個(gè)很好確定,基本就是 numpy pandas 這兩個(gè)必備的庫,所以大家首先確保已經(jīng)安裝了這兩個(gè)庫。

然后數(shù)據(jù)可視化庫呢?這么多可視化庫該怎么選?如果你不知道怎么選,那豬哥給你推薦: pyecharts 這個(gè)由中國人開發(fā)的可視化庫,想要什么類型的圖在下面文檔里面找就行。

中文文檔:https://pyecharts.org/#/zh-cn/intro
源碼地址:https://github.com/pyecharts/pyecharts

最后技術(shù)選型完畢,我們就可以開始正式的敲代碼分析了。(分析的標(biāo)題將和上面的分析目標(biāo)一一對(duì)應(yīng))

0.數(shù)據(jù)清洗

在我們數(shù)據(jù)分析之前,我們需要對(duì)數(shù)據(jù)進(jìn)行清洗。因?yàn)閺奶詫毰廊∠聛淼臄?shù)據(jù)并不是標(biāo)準(zhǔn)的數(shù)據(jù),比如:商品銷量,爬取下來的數(shù)據(jù)是: 2.5萬+人付款 ,我們需要將它轉(zhuǎn)為: 25000(整型) ,這樣才方面后面的處理!

我們先來看看從淘寶爬取的原始數(shù)據(jù),看看那些數(shù)據(jù)需要清洗
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第1張圖片
根據(jù)使用庫的經(jīng)驗(yàn)豬哥認(rèn)為有兩列數(shù)據(jù)需要清洗:1、銷量轉(zhuǎn)成整型 2、地區(qū)轉(zhuǎn)成只包含省份,具體如何清洗我們直接看代碼吧!
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第2張圖片
大家可以看到最后豬哥又從新生成了一個(gè)excel文件,目的就是不去污染原始數(shù)據(jù), 因?yàn)樵紨?shù)據(jù)非常重要 ,所以我們?cè)谝院蟮臄?shù)據(jù)處理中要盡量保存好原始數(shù)據(jù),多備份幾個(gè)都不多余!

1.分析避孕套標(biāo)題高頻關(guān)鍵字

數(shù)據(jù)清洗完畢之后,我們就可以開始分析了。

分析標(biāo)題高頻關(guān)鍵字這都是老生常談的一個(gè)流程,也就是使用jieba分詞,然后統(tǒng)計(jì)詞頻,最后生成一個(gè)詞云圖,我相信經(jīng)??簇i哥公眾號(hào)的同學(xué)看都看膩了吧,這種小功能閉著眼睛都會(huì)了。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第3張圖片
十幾行代碼就搞定了,我們來看看效果圖吧
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第4張圖片
分析結(jié)論:

  1. 從整體看商家取名偏愛情趣二字
  2. 從材質(zhì)看尿酸的最多
  3. 從功能看顆粒、螺紋的較多

ps:別問豬哥最中意哪個(gè)詞,問就是 延時(shí) 。

2.分析避孕套標(biāo)題高頻關(guān)鍵字 與 商品數(shù)量關(guān)系

上面我們只看到大概哪些功能受歡迎,如果需要看具體的數(shù)據(jù)怎么辦呢?

我們就來統(tǒng)計(jì)一下包含這些高頻關(guān)鍵詞的商品數(shù)據(jù)數(shù)量吧,代碼講解在圖片下方,下同!
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第5張圖片
我們?nèi)∽罡哳l的20個(gè)關(guān)鍵字,然后遍歷所有數(shù)據(jù)的標(biāo)題中是否包含其中關(guān)鍵字,如果包含則該關(guān)鍵字的value就+1。來看看生成的柱狀圖效果吧!
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第6張圖片
分析結(jié)論:

  1. 包含情趣二字的商品有1150款,占到總數(shù)(2500款+)的46%。
  2. 前三甲是:情趣、尿酸、顆粒

ps:豬哥有個(gè)疑問想請(qǐng)教各位老司機(jī):這個(gè) 免洗 是咋玩的?

3.分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均銷量關(guān)系

這個(gè)分析有意思了,就相當(dāng)于用戶更喜歡哪種功能或者材質(zhì)的套套。

用Python分析2000款避孕套,得出這些有趣的結(jié)論_第7張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第8張圖片
高頻關(guān)鍵字與平均銷量分析數(shù)據(jù)的實(shí)現(xiàn)方法是,同樣遍歷所有數(shù)據(jù)的標(biāo)題,如果包含某個(gè)關(guān)鍵字,則把該項(xiàng)數(shù)據(jù)的銷量放在關(guān)鍵字的value中(一個(gè)list),統(tǒng)計(jì)完后再對(duì)每個(gè)關(guān)鍵字的value進(jìn)行求平均值,最后再根據(jù)平均銷量排序。來看看效果吧!

用Python分析2000款避孕套,得出這些有趣的結(jié)論_第9張圖片
分析結(jié)論:

  1. 螺紋功能平均銷量最高,大家的最愛
  2. 功能平均銷量前三分別是:螺紋、顆粒、狼牙
  3. 小號(hào)竟然上榜,哈哈

ps:有很多同學(xué)問:為什么不是超???超薄自己是爽了,可女朋友呢?

4.分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均售價(jià)關(guān)系

分析完大家喜歡的功能,再來分析下這些功能的價(jià)格如何?哪些功能的避孕套比較貴呢?
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第10張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第11張圖片
高頻關(guān)鍵字 與 平均售價(jià)關(guān)系分析原理與上面是相似的,使用的同一個(gè)方法,只不過是將原來的銷量換成價(jià)格,來看看效果圖吧!
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第12張圖片
分析結(jié)果:

  1. 可以看到前排幾個(gè)基本都是關(guān)于材質(zhì)的
  2. 凝膠、透明質(zhì)、免洗這三項(xiàng)均價(jià)最貴,超過100大洋

ps:類似凝膠、透明質(zhì)、免洗的哪位老司機(jī)用過,和一般的有啥區(qū)別?

5.分析避孕套商品價(jià)格區(qū)間分布關(guān)系

商品的標(biāo)題和功能差不多分析完了,我們來分析下價(jià)格吧!
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第13張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第14張圖片
豬哥人為的對(duì)價(jià)格進(jìn)行了劃分,一共分為:'0-20', '21-40', '41-60', '61-80', '81-100', '101-120', '121-150', '151-200', '200以上'這9個(gè)區(qū)間,然后對(duì)數(shù)據(jù)切割、統(tǒng)計(jì)、排序,最后分別生成柱狀圖和餅圖。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第15張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第16張圖片
分析結(jié)論:

  1. 價(jià)格區(qū)間在21-40的商品最多為778款,大約占比31%。
  2. 價(jià)格在一百以內(nèi)與超過一百的商品比大概為7:1

ps:沒想到還有這么多超過100塊的,我想問下200塊價(jià)格的套套是啥感覺?

6.分析避孕套商品銷量區(qū)間分布關(guān)系

分析完價(jià)格當(dāng)然是分析銷量區(qū)間了

用Python分析2000款避孕套,得出這些有趣的結(jié)論_第17張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第18張圖片
銷量區(qū)間分布分析實(shí)現(xiàn)原理:認(rèn)為為銷量分區(qū),大概分為:'一千以內(nèi)', '一千到五千', '五千到一萬', '一萬到五萬', '五萬到十萬', '十萬以上',這六個(gè)區(qū)間,然后同上方法進(jìn)行統(tǒng)計(jì)、排序最后可視化。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第19張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第20張圖片
分析結(jié)論:

  1. 銷量在1000以內(nèi)的最多,大概占比90%
  2. 銷量過萬的一共也才10款,說明爆款真的很少
  3. 有一款套套銷量竟然超過10萬

ps:想知道那款超過10萬銷量的避孕套商品信息嗎?關(guān)注豬哥微信公眾號(hào)「裸睡的豬」回復(fù):爆款套套,即可查看!

7.分析避孕套商品價(jià)格區(qū)間 與 平均銷量關(guān)系

假如你是一個(gè)避孕套賣家,新推出一款避孕套,你想知道價(jià)格定為多少銷量才會(huì)比較高呢?

這時(shí)候我們就可以通過分析價(jià)格與商品的銷量關(guān)系,用實(shí)際的數(shù)據(jù)來定價(jià),這也正是數(shù)據(jù)分析的價(jià)值之一。

用Python分析2000款避孕套,得出這些有趣的結(jié)論_第21張圖片
商品價(jià)格區(qū)間 與 平均銷量關(guān)系分析實(shí)現(xiàn)原理是:使用pandas自動(dòng)分區(qū)將價(jià)格劃分為12個(gè)分區(qū),然后對(duì)銷量數(shù)據(jù)分組、求平均值,來看看可視化之后的效果。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第22張圖片
分析結(jié)論:

  1. 定價(jià)在31.9-39這個(gè)區(qū)間平均銷量最高,為893
  2. 定價(jià)在10元以內(nèi)的銷量竟然高居第二

ps:誰用過10以內(nèi)一盒的套套,出來走走

8.分析避孕套商家數(shù)量全國分布關(guān)系

標(biāo)題、價(jià)格、銷量都分析過了,最后我們還分析下商家位置的數(shù)據(jù)。

分析的目標(biāo)是統(tǒng)計(jì)全國各省避孕套商家數(shù)量,然后做成熱力圖和柱狀圖。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第23張圖片
統(tǒng)計(jì)商家數(shù)量還是比較簡單,因?yàn)槲覀冎霸跀?shù)據(jù)清洗的時(shí)候已經(jīng)只保留了省份數(shù)據(jù),所以直接value_counts()就可以的到想要的數(shù)據(jù),看看效果如何!
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第24張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第25張圖片
分析結(jié)論:

  1. 避孕套商家前三甲:廣東、上海、浙江

ps:貴州四周都有賣套套的,為何就它沒有?難道和地理有關(guān)?

9.分析避孕套商家全國平均銷量關(guān)系

分析完商家數(shù)后,我們來看看各省的平均銷量吧。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第26張圖片
商家全國平均銷量關(guān)系分析實(shí)現(xiàn)原理:我們新創(chuàng)建一個(gè)透視表并對(duì)銷量求平均值,然后再排序,最后生成熱力圖和柱狀圖。
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第27張圖片
用Python分析2000款避孕套,得出這些有趣的結(jié)論_第28張圖片

分析結(jié)論:

  1. 出乎意料的是山西39個(gè)商家平均銷量竟然是第一為1535。

ps:為何山西平均銷量是第一?原因是啥真想不通

三、總結(jié)

通過上面的數(shù)據(jù)分析,我們得到了一些有趣的結(jié)論:

  1. 用戶偏愛螺紋、顆粒、狼牙等功能
  2. 凝膠、透明質(zhì)、免洗這三項(xiàng)均價(jià)最貴,超過100大洋
  3. 價(jià)格區(qū)間在21-40的商品最多為778款,大約占比31%
  4. 銷量在1000以內(nèi)的最多,大概占比90%
  5. 定價(jià)在31.9-39這個(gè)區(qū)間平均銷量最高,為893
  6. 避孕套商家數(shù)量前三甲:廣東、上海、浙江
  7. 山西省平均銷量最高為山西

通過上述分析結(jié)果,如果豬哥作為一個(gè)避孕套商家,想要推出一款產(chǎn)品,設(shè)置標(biāo)題帶螺紋、顆粒、狼牙,價(jià)格設(shè)置在31.9-39元,這樣可能會(huì)更暢銷一些。

數(shù)據(jù)分析作為一把利刃,能讓你看見別人看不見的事物,如果使用得當(dāng)完全可以作為你創(chuàng)業(yè)的一個(gè)重要支點(diǎn)!

最后豬哥再送你一句忠告:想學(xué)數(shù)據(jù)分析,一定要學(xué)好pandas!!!

獲取源碼:關(guān)注微信公眾號(hào)「裸睡的豬」回復(fù): 分析套套 即可獲?。?


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 激情男女视频 | 九九久久精品这里久久网 | 国产精品久久久久久亚洲伦理 | 日韩av片在线免费观看 | 8mav福利视频在线播放 | 君岛美绪一区二区三区 | 国产精品视屏 | 日韩亚洲一区二区三区 | 精品一区二区电影 | 午夜精品久久久久久久99蜜桃i | 欧美成人精品不卡视频在线观看 | 久久久国产精品视频 | 日韩中文一区 | 日韩精品欧美一区二区三区 | 日韩欧美精品在线 | 青草视频网 | 国产精品免费一区二区三区都可以 | 污视频在线网站 | 成人免费毛片aaaaaa片 | 91久久久久 | 免费1级片 | 免费无遮挡很爽很污很黄 | 精品视频一区二区三区四区 | 国产免费又色又爽又黄的网站 | 久久精品欧美 | 亚洲午夜网未来影院 | 欧美日视频 | 香蕉久久久久久 | 欧美在线观看一区 | 午夜在线免费观看 | 黄色av.com| 亲爱的热爱的电视剧免费观看 | 亚洲午夜精品一区二区三区 | 日本熟妇无码波多野1223 | a级片视频网站 | 91精品视频在线播放 | 久久99深爱久久99精品 | 欧美精品一二三 | 成人毛片免费视频播放 | 午夜影视在线观看免费完整高清大全 | 国产91在线 | 欧美 |