多項式回歸可以讓我們用線性回歸的方法來擬合非常複雜的函數,甚至是非線性函數。
同樣以房價例子為例:
在使用線性回歸時,你可以自己創造額外的特徵,以圖為例,你可以將長與寬這兩個特徵相乘後得到一個新的特徵:房子面積,現在將這個房子面積當作唯一特徵。
一個與「選擇特徵」這個想法密切相關的概念就是多項式回歸。
以下圖的data set為例,一次函式是一條直線,不太適合擬合此data set,你可能會選擇一個二次函數(quadratic function)當作model去擬合data,但是二次函數會有問題,因為最後這條線會向下降,而我們不太會認為房子的價格再高到一定程度後又會跌回來。因此我們可能會轉而使用一個三次函數,三次函數比較合適,因為這條線最後不會向下跌。
所以我們應該如何將三次函數的model與我們的data擬合呢?只要修改一下多元回歸中的演算法即可輕易達成。
對於特徵我們給出一些定義:
x1 = 房子面積
x2 = 房子面積的平方
x3 = 房子面積的立方
最終把這三個特徵應用到三次函數model中即可與data進行擬合。然而,如果你用這種方式選擇特徵,「特徵縮放」就變得很重要了(也就是特徵值要除以其最大值減最小值)。
最後的例子,是你該如何選擇真正要使用的特徵。有時不一定只能選三次函數,也可以選平方根,效果也不錯。
沒有留言:
張貼留言