用excel做迴歸曲線
一、什麼是迴歸分析法
“迴歸分析”是解析“注目變數”和“因於變數”並明確兩者關係的統計方法。此時,我們把因子變數稱為“說明變數”,把注目變數稱為“目標變數址(被說明變數)”。
清楚了迴歸分析的目的後,下面我們以迴歸分析預測法的步驟來說明什麼是迴歸分析法:
1.根據預測目標,確定自變數和因變數明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。
2.建立迴歸預測模型依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立迴歸分析方程,即迴歸分析預測模型。
3.進行相關分析什麼是迴歸分析法迴歸分析是對具有因果關係的影響因素(自變數)和預測物件(因變數)所進行的數理統計分析處理。只有當變數與因變數確實存在某種關係時,建立的迴歸方程才有意義。因此,作為自變數的因素與作為因變數的預測物件是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行迴歸分析必須要解決的問題。進行相關分析,一般要求出相關關係,以相關係數的大小來判斷自變數和因變數的相關的程度。
4.檢驗迴歸預測模型,計算預測誤差迴歸預測模型是否可用於實際預測,取決於對迴歸預測模型的檢驗和對預測誤差的計算。迴歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。
5.計算並確定預測值利用迴歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。
二回歸分析的目的
迴歸分析的目的大致可分為兩種:
第一,“預測”。
預測目標變數,求解目標變數y和說明變數(x1,x2,…)的方程。
y=a0 b1x1 b2x2 … bkxk 誤差(方程A)
把方程A叫做(多元)迴歸方程或者(多元)迴歸模型。a0是y截距,b1,b2,…,bk是迴歸係數。當k=l時,只有1個說明變數,叫做一元迴歸方程。根據最小平方法求解最小誤差平方和,非求出y截距和迴歸係數。若求解迴歸方程.分別代入x1,x2,…xk的數值,預測y的值。
第二,“因子分析”。
因子分析是根據迴歸分析結果,得出各個自變數對目標變數產生的影響,因此,需要求出各個自變數的影響程度。
希望初學者在閱讀接下來的文章之前,首先學習一元迴歸分析、相關分析、多元迴歸分析、數量化理論I等知識。
根據最小平方法,使用Excel求解y=a bx中的a和b。那麼什麼是最小平方法?
分別從散點圖的各個資料標記點,做一條平行於y軸的平行線,相交於圖中直線(如下圖)
平行線的長度在統計學中叫做“誤差”或者‘殘差”。誤差(殘差)是指分析結果的運算值和實際值之間的差。
接這,求平行線長度曲平方值。可以把平方值看做邊長等於平行線長度的正方形面積(如下圖)
最後,求解所有正方形面積之和。確定使面積之和最小的a(截距)和b(迴歸係數)的值(如下圖)。
使用Excel求解迴歸方程;“工具”→“資料分析”→“迴歸”,具體操作步驟將在後面的文章中具體會說明。
三、迴歸分析案例
接著上節的迴歸分析的目的,我們來根據一個二手車的例項來繼續說迴歸分析。
二手車價格的決定因素有:空調型別有無附加品(TV導航導航SR、天窗、空氣囊LD TV AW) 行駛距離,顏色車檢剩餘有效月數、評分拍賣會地點等。
在這14個因子(說明變數)中,最影響價格(目標變數)的是什麼?最不影響價格的是什麼?通過定量求出影響度,然後根據多個因子(說明變數)預測二手車價格(目標變數)。
可以用方程2表示。二手車價格“這個目標變數資料,既(“空調型別(AC WC)” “有無TV導航”、 、“行駛距離”、 。車檢剩餘有效月數”, “評分”)。
混合模型
混臺模型是指因子巾既包含定性資料也包含定量資料的模型。在混臺模型中.把“空調”、 “TV導航”等定性因子叫做專案,把資料群(空調的“AC”,“WAC”,TV導航的“有”、“無”)叫做類別。
接下來,根據表l進行迴歸分析。
這節我們主要告訴大家迴歸分析前,我們需要先根據自己的思維來了解分析,把這些需要注意的先分析出來,這樣對我們接下來的迴歸分析有很大的幫助。
四、Excel迴歸分析需要注意的事項
經過上節,我們瞭解了迴歸分析前,我們要先通過思維分析出來需要注意的事項,那麼今天接著上一節的課來了解下Excel迴歸分析需要注意的事項。包含的定性資料,不能直接使用Excel分析,需要將其轉換成虛擬變數(也叫O,1資料)。例如, “空調(AC、WAC)”的資料,“AC”用“1”,“WAC"用“O”表示。同樣地,“導航(有導航、無導航)”的資料, “有導航”用“1”, “無導航”用“O”表示。表1是根據這種方法轉換的(0,1)資料表。
直接使用Excel的對錶1進行迴歸分析時,運算結果不理想。理由如下;
表1
以“導航”為例,各行
“有導航” “無導航”=1
此式成立。把公式變形,
“有導航”=1-“無導航”
所以“有導航”是“0”或是“1”,由“無導航。自動決定。
線性代數中發生秩(矩陣秩)虧時,不能正確求出必要的逆矩陣。因此也不能求出迴歸係數。
由於上述原因,進行迴歸分析時,需要從各個專案中刪除—列因子(表2)。
表2
根據表2的資料進行迴歸分析,操作步驟如下:
1、“工具”一“資料分析”
2、在彈出的“資料分析”對話方塊中選擇“迴歸”,單擊“確定”(圖1)。
圖13、點選“迴歸”對話方塊的“Y值輸入區域”,選擇“二手車價格”的列資料,包括專案名稱;接著點選“X值輸入區域”,選擇從“AC”到“中國、四國、九州”的區域,包括專案名稱;選中。標誌”,單擊“確定”。(圖2)
圖2系統彈出錯誤資訊,不能進行迴歸分析(圖3)。這是因為Excel迴歸自由度的最大上限是16(P62小知識)。這裡的迴歸自由度是22,因此不能進行迴歸分析。
圖3
統計學中經常出現“自由度”,即有效資訊的數量。
前面已經提到,在Excel的迴歸分析中,迴歸自由度的最大上限是16。迴歸自由度在(多重)迴歸分析、數量化理論|、混合模型中具有不同意義。表3是對迴歸自由度的不同意義的總結。
表3
五、分兩次進行迴歸分析
我們在前面提到過,當迴歸自由度在17以上時,Excel無法進行迴歸分析,那麼就需要分兩次進行迴歸分析。第一次,把“空調”、“TV導航”、“導航”、“SR”、“天窗”、“空氣囊”、“LD”、“TV”、“AW”作為說明變數(表1),第二次,把“顏色”、“拍賣會地點”、“行駛距離”、“車檢剩餘有效月數”、“評分”作為說明變數(表2),目標變數都是“二手車價格”。
表1
表2對錶1、表2進行迴歸分析。迴歸分析的結果分別如表3、表4所示(具體操作步驟將在下一節詳細說明)。
表3
表4
內容來源:Excel學習網
【燈塔大資料】微信公眾號介紹:中國電信北京研究院通過大資料技術創新,自主研發了業內領先的“燈塔”大資料行業應用創新平臺,燈塔面向市場研究、廣告營銷、商業地理、金融徵信、人力資源等諸多行業領域,提供零售研究、消費者研究、店鋪選址、精準營銷、泛義徵信,背景調查等服務,助力企業在大資料時代揚帆遠航。
微信公眾號【燈塔大資料】關鍵字回覆資訊:
回覆【雲端計算產業趨勢分析】 下載分析報告PPT
回覆【高峰論壇】 根據編號下載高峰論壇PPT資料
回覆【主論壇】 檢視《中國電信燈塔大資料高峰論壇》視訊回放
回覆【技術論壇】 收看技術分論壇視訊回放
回覆【推薦系統】 下載程式程式碼
回覆【 燈塔 】 檢視更多關鍵字回覆下載