不會程式設計也能做專業資料分析嗎?
資料分析究竟是什麼鬼?
不會HPCC也不會Hadoop
只會Excel可以嗎?——答案是,可以!
對於非科班出身的人來說,Excel就是最接地氣的資料分析工具。Excel中有自帶的資料分析工具箱,只不過預設情況下,這個工具箱不在選單欄中,要自己把它找出來哦!
在Excel工具箱中有多個資料分析,有相關係數、協方差、指數平滑等。看到這些名稱先別暈,其實這些工具的使用方法很簡單。不信?那麼今天就來看看,這幾種常用工具的作用及具體使用方法。
使用 Excel 的資料分析工具箱, 需要進行載入, 否則無法在軟體工具欄列表中找到它。載入方法是, 選擇【檔案】 選單中的【選項】 選項, 開啟【Excel 選項】 對話方塊, 如左下圖所示, 然後在左側窗格中選擇【載入項】 選項, 再單擊【轉到】 按鈕。在開啟的【載入項】 對話方塊中選中【分析工具庫】 覈取方塊, 最後單擊【確定】 按鈕即可, 如右下圖所示。
1.方差分析
Excel 工具庫中的方差分析工具可以分析一個或多個因素在不同水平下對總體的影響。其使用方法比較簡單, 下面以單因素方差分析為例進行講解。
某廣告公司有 5 位設計師, 為了客觀地評估每個設計師作品的客戶認可度, 讓 6 位評估者對設計師的作品進行打分, 滿分為 10 分。評估者在評估作品時, 不能看到設計師的姓名, 對每位設計師的作品進行 3 次評分。評分結果出來後, 需要對這 6 位評估者的評分是否存在顯著性差異進行分析,其步驟如下。
步驟 01 對統計到的資料進行處理, 否則無法使用方差分析功能。下圖第一張表所示為統計到的原始資料,並對資料進行平均分計算。然後將每位設計師對應的平均分複製到另一張表中,如下圖第二張表所示。
步驟 02 啟動方差分析。單擊【資料】選項卡下的【資料分析】按鈕, 開啟【資料分析】對話方塊, 選擇【方差分析:單因素方差分析】 選項, 如下圖所示。
步驟 03 設定方差分析對話方塊。在【方差分析:單因素方差分析】 對話方塊中, 設定【輸入區域】 為步驟 01 中的第二張表所在的區域範圍;因為該表資料每一列為一位設計師的平均得分組, 所以在【分組方式】中選中【列】 單選按鈕;選中【標誌位於第一行】 覈取方塊, 可以顯示設計師的姓名;【輸出區域】可以設定為表格的任意空白處, 如下圖所示。
步驟 04 檢視分析結果。最後得到的分析結果如下圖所示。方差分析結果分為以下兩部分。第一部分是總括部分, 這裡需要關注【方差】 值的大小, 值越小越穩定。從下圖資料中可以看出, 評估者在給設計師曾躬評分時最不穩定, 方差值為 0.47, 說明這位設計師的評分結果有較大的波動, 為了客觀起見,可以重新讓評估者給這位設計師評分。第二部分是方差分析部分, 這裡需要關注 P 值大小, P 值越小代表區域越大。如果 P 值小於 0.05, 就有繼續深入分析的必要。如果 P 值大於 0.05, 說明所有組別都沒有差別, 不用進行深入分析和比較。在下圖中, P 值為 0.279, 大於 0.05, 說明評估者對設計師作品進行評分時, 不存在顯著的差異, 其評分結果是比較客觀的。
2.移動平均
Excel 中的移動平均工具和指數平滑工具一樣, 也是計算未來值的一種工具, 通過分析變數的時間發展趨勢進行預測。其計算原理是, 通過時間的推進, 依次計算一定期數內的平均值, 形成平均值時間序列, 從而反映物件的發展趨勢, 實現未來值預測。用移動平均工具計算未來值的思路如下圖所示。
從思路中可以看出, 用移動平均工具計算未來值, 關鍵在於間隔數的設定。間隔數表示在求平均值時所取平均值的個數, 如間隔數為 3, 表示取前 3 個數的平均值。
用移動平均工具計算未來值的具體操作步驟如下。
步驟 01 設定間隔計算平均值。現有一份 2000—2017 年的推廣成本資料, 需要預算 2018 年的成本費用。開啟【移動平均】 對話方塊, 設定資料區域, 並設定【間隔】 為“2”, 如下圖所示。用同樣的方法, 計算出間隔數為 3 和 4 時的平均值。
步驟 02 確定最佳間隔數。3 種間隔設定情況下的移動平均值計算結果如下圖所示, 從圖中可以明顯看出最左邊間隔數為 2 時, 誤差最小。
步驟 03 計算未來值。當確定平均間隔數為 2 後, 就可以利用計算出來的移動平均值資料計算 2018 年的成本費用了。方法是用 2016年和 2017年的移動平均值資料之和除以 2, 即(3.95 4.65)/2=4.3, 如下圖所示。
3.描述統計
在進行資料分析時, 面對一組資料, 通常要先對資料進行基本的描述統計, 瞭解資料的概況,從而發現更多的內部規律, 方便選擇下一步分析方向。對資料進行描述統計, 需要描述的方面包括資料的頻數分析、 集中趨勢分析、 離散程度分析、 資料分佈等。對資料進行多方面的描述分析, 可以用 Excel 的描述統計工具一次性完成, 具體操作步驟如下。
步驟 01 分析設定。某公司通過微店引流銷售商品, 現統計了一年(12 個月) 中微信文章閱讀量、 收藏量及購物量的資料。如下圖所示, 開啟【描述統計】 對話方塊, 設定資料區域, 並選中【彙總統計】 覈取方塊。
步驟 02 檢視統計結果。此時便根據資料生成了描述統計結果, 如右圖所示, 圖中顯示了閱讀量、 收藏量、購物量的資料概況, 包括平均數、 中位數、 最大和最小值等描述統計結果。
4.排位與百分比排位
在進行資料分析時, 通常需要分析各資料的排名情況。例如, 對銷售資料進行分析時, 面對成百上千種商品的銷量資料, 要想按照銷量從大到小的排名進行分析, 就可以使用 Excel 分析工具中的排位與百分比排位工具來完成。
使用排位與百分比排位工具分析資料, 會生成一個資料表, 表中包含銷量資料中各資料的順序排位和百分比排位, 目的是分析各物件數值的相對位置關係, 具體操作步驟如下。
步驟 01 分析設定。某網店在統計每日銷售資料時, 針對不同的商品統計了一份銷量資料, 現在需要分析銷量資料的排名。如下圖所示, 開啟【排位與百分比排位】 對話方塊, 設定資料區域。
步驟 02 檢視分析結果。如下圖所示, 使用排位與百分比排位功能後, 會生成一個資料表。其中,【點】 表示該商品在原表格中的位置點數;【排位】 表示對應商品的銷量排位;【百分比】 表示對應商品的銷量百分比排位。例如, 銷量為 957 的商品, 在表格中是第 5 個位置;銷量為 957 的商品, 百分比為 100.00%, 表示它的銷量數值大小超過了 100% 的商品。又如, 銷量為 857 的商品, 百分比為91.60%, 表示它的銷量數值大小超過了 91.6% 的商品。
5.抽樣
在資料分析時, 當樣本資料太多, 只需要抽取部分資料代表整體資料進行分析時, 為了保證所抽取的結果沒有人為的選擇偏好, 可以用 Excel 的抽樣工具進行資料樣本抽取。
抽樣資料以所有原始資料為樣本來源, 從中建立一個樣本資料組。抽樣的方法有兩種:一種是週期抽取, 適合於原始資料呈週期性趨勢分佈時使用;另一種是隨機抽取, 適合於原始資料數量太多時使用。這兩種方法都能保證抽取的樣本具有代表性。下面以隨機抽樣的方法為例進行講解。
步驟 01 抽樣設定。某企業需要分析今年生產的商品資料, 由於商品較多, 不能全部分析, 因此選擇抽取 10種商品進行分析。如下圖所示, 在開啟的【抽樣】 對話方塊中進行抽樣設定。
步驟 02 檢視抽樣結果。最後成功抽取的 10 個樣本資料如下圖所示。這 10 個樣本完全隨機抽取, 不存在人為因素的偏差, 可以代表整體商品進行分析。