本文結(jié)構(gòu)如下:
Part 1. 數(shù)據(jù)獲取
數(shù)據(jù)集簡介數(shù)據(jù)集在kaggle官網(wǎng)公開數(shù)據(jù)庫中下載下來的,是Supply Chain Shipment Pricing Data(Dataset about Supply Chain),數(shù)據(jù)包括了商品名稱、訂單國家、運輸方式、到貨日期、數(shù)量、單價、重量、保險等類目??偣?3列類目共10324條記錄。
數(shù)據(jù)來源數(shù)據(jù)項目
Part 2. 提出問題1、針對訂單記錄,無法了解每個國家的訂單情況,統(tǒng)計各個國家的訂單量2、統(tǒng)計top10國家的訂單總金額3、對數(shù)據(jù)進行基礎描述統(tǒng)計,了解大概情況。
4、統(tǒng)計各類運輸方式的訂單量
Part 3. 清洗數(shù)據(jù)
接下來進入正式的數(shù)據(jù)清洗步驟,數(shù)據(jù)清洗是一個反復的過程;若增加了新的函數(shù),還要檢查下是否產(chǎn)生了錯誤值,并針對性地解決。
3.1導入數(shù)據(jù)
數(shù)據(jù)行列數(shù)
因數(shù)據(jù)列名太多,系統(tǒng)會省略部分顯示,因此用option函數(shù)顯示出所有列名
選取分析(上篇)所需要的數(shù)據(jù)列
修改列名稱為中文名,方便閱讀
查詢各列數(shù)據(jù)的空值情況,經(jīng)查詢導入的原始數(shù)據(jù)無空值記錄
查看數(shù)據(jù)類型,發(fā)現(xiàn)ID為整形,需改為字符串類型,實際交付日期和交貨記錄日期為字符串類型,需改為日期類型
修改后,方可對日期進行統(tǒng)計。
#轉(zhuǎn)換類型后,一些無法轉(zhuǎn)換為日期類型的數(shù)據(jù)會產(chǎn)生空值,這次將刪除空值的行,刪除后數(shù)據(jù)為9964行
對數(shù)據(jù)按貨日期排降序,生成一份新數(shù)據(jù)。
Part4. 數(shù)據(jù)分析及可視化
4.1數(shù)據(jù)的描述性統(tǒng)計分析圖中單價最小值為0,需要調(diào)整數(shù)據(jù),保留最小單價大于0的數(shù)據(jù)
從圖中可看出,訂單數(shù)量平均值為18612,均價0.59美元。價格房差是2.29。四分位是0.46.單價最大是41.68,最小值0.01。
4.2top10國家的訂單量分析圖中可看出,訂單量最大的是南非,總共有1364條記錄,其次是尼日利亞1158,公司的客戶大部分都是以非洲國家客戶。
4.3統(tǒng)計訂單總金額
第一步: 在原數(shù)據(jù)新增新增一列類目,‘訂單金額’
訂單金額=訂單數(shù)量*單價
第二步,求‘訂單金額’的總合
4.4分類統(tǒng)計top10各個國家的訂單總額
由圖可看出,尼日利亞的訂單金額最大,同時訂單量排名第二,說明尼日利亞的客戶是我們最需要維護的客戶。