ANALISIS REGRESI : PEMILIHAN MODEL TERBAIK
Jika antar variabel prediktor saling berkorelasi satu sama lain, dikatakan terjadi kasus multicolinear. Hal ini karena beberapa variabel prediktor tidak significant berada dalam model valaupun sesungguhnya variabel tersebut berhubungan sangat erat dengan variabel respon Y. Untuk mendapatkan model yang diinginkan terdapat dua pertimbangan dalam pembentukan model, diantaranya:
1. Agar persamaan regresi bermanfaat untuk tujuan prediksi, serigkali diinginkan model yang memuat sebanyak-banyaknya variabel X (prediktor) yang mempengaruhi variabel Y (respon)
2. Karena pertimbangan biaya untuk mendapatkan informasi, maka digunakan sesedikit mungkin variabel X (prediktor) yang mempengaruhi variabel Y (respon)
Untuk itu dibutuhkan metode untuk dapat mengakomodasikan dua kepentingan di atas dengan cara Selecting the best regression equation. Berikut ini adalah cara-cara yang sering digunakan dalam memilih model terbaik.
5.1. Best Subset Model
Memilih semua subset (model) yang terbaik yang memenuhi kriteria diatas.
Kriteria yang digunakan adalah:
R2 terbesar
MS residual terkecil
Cp yang mendekati jumlah parameter
Dengan menggunakan Minitab lakukan langkah berikut :
Stat > Regression > Best Subsets
Dialog box items :
Respons : Masukkan kolom yang memuat variabel respon Y
Free predictors : masukkan yang memuat variabel –variabel prediktor X (maksimum 31 variabel)
Predictors in all models : pilih kolom-kolom yang memuat variabel yang ingin dimasukkan dalam model. Kolom-kolom ini tidak boleh terdaftar dalam Free predictors. Jika anda menganalisis data dengan lebih dari 15 variabel prediktor, pertimbangkan termasuk variabel prediktor ini dalam rangka mengurangi jumlah free variables dan mempercepat proses perhitungan
Metode Stepwise, Backward Elimination dan Forward Selection merupakan suatu metode untuk mengurangi kemungkinan adanya muktikolinearitas dari persamaan/model yang dihasilkan.
5.2.1 Stepwise Regression
Regresi stepwise melibatkan dua jenis proses yaitu: forward selection dan backward elimination. Teknik ini dilakukan melalui beberapa tahapan. Pada masing-masing tahapan, kita akan memutuskan variabel mana yang merupakan prediktor terbaik untuk dimasukkan ke dalam model. Variabel ditentukan berdasarkan uji-F, variabel ditambahkan ke dalam model selama nilai p-valuenya kurang dari nilai kritik α (biasanya 0,15). Kemudian variabel dengan nilai p-value lebih dari nilai kritik α akan dihilangkan. Proses ini dilakukan terus menerus hingga tidak ada lagi variabel yang memenuhi kriteria untuk ditambahkan atau dihilangkan.
Model dalam regresi Stepwise adalah:
Y = β0 + β1X1 + β2X2 + β3X3 + …. + βnXn
Sedangkan Hipotesis yang digunakan dalam Regresi Stepwise adalah:
H0 : β1, β2, β3 = 0
Dengan hipotesis alternatif adalah:
Ha : β1, β2, β3 ≠ 0
Ilustrasi:
Berikut ini adalah data gaji manajer pada 10 perusahaan besar, dengan regresi stepwise kita dapat memilih variabel mana saja dari daftar berikut yang signifikan dalam mempengaruhi besarnya gaji para manajer tersebut:
No. | Y | X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 | X10 |
1 | 15 | 3 | 15 | 1 | 200 | 22 | 1 | 40 | 22 | 0 | 5 |
2 | 16 | 4 | 14 | 1 | 250 | 23 | 1 | 39 | 21 | 0 | 7 |
3 | 16 | 9 | 14 | 0 | 150 | 23 | 1 | 38 | 22 | 0 | 12 |
4 | 16 | 8 | 11 | 0 | 200 | 23 | 1 | 52 | 22 | 1 | 12 |
5 | 16 | 8 | 18 | 1 | 140 | 24 | 1 | 36 | 21 | 0 | 14 |
6 | 16 | 12 | 13 | 0 | 260 | 24 | 1 | 54 | 22 | 1 | 16 |
7 | 16 | 7 | 12 | 0 | 300 | 23 | 1 | 49 | 21 | 0 | 17 |
8 | 16 | 13 | 14 | 0 | 150 | 23 | 1 | 40 | 21 | 0 | 5 |
9 | 16 | 25 | 16 | 1 | 200 | 23 | 1 | 45 | 22 | 0 | 6 |
10 | 9 | 19 | 19 | 0 | 240 | 23 | 1 | 48 | 22 | 1 | 9 |
Dimana:
Y = gaji manajer (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi
X1 = masa kerja (tahun)
X2 = masa pendidikan (tahun)
X3 = bonus (1 jika ada, dan 0 jika tidak ada)
X4 = Jumlah karyawan yang diawasi (orang)
X5 = Aset perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi
X6 = dewan direksi (1 jika ada, dan 0 jika tidak ada)
X7 = umur (tahun)
X8 = keuntungan perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi
X9 = tanggung jawab internasional (1 jika ada, dan 0 jika tidak)
X10 = total penjualan perusahaan 12 bulan terakhir (dalam milyar)
Hipotesis:
H0 = H0 : β1, β2, β3 = 0
Ha : β1, β2, β3 ≠ 0
Langkah pengerjaan dengan SPSS adalah dengan memilih Analyze – Regression – Linear, kemudian masukkan variabel dependen maupun independennya.
Model dibuat dengan memasukkan variabel prediktor satu persatu (secara
bertahap) mulai dari variabel X yang memiliki korelasi tinggi
Langkah-langkahnya:
1. Cari variabel X yang berkorelasi paling tinggi dengan Y, kemudian buat regresinya
2. Pemilihan variabel berikutnya adalah variabel yag memiliki korelasi parsial terbesar dengan Y dan buat model dengan memasukkan variabel tersebut.
3. Uji parameter yang telah ada di dalam model
4. Begitu seterusnya ulangi langkah 2-3 sampai diperoleh model terbaik
5.2.2 Backward Elimination
Membuat model dengan memasukkan semua variabel kemudian dikeluarkan satu persatu dengan melakukan pengujian terhadap parameter –parameternya dengan menggunakan partial F test. Nilai partial F-test (FL) terkecil dibandingkan dengan F0 table:
•Jika FL < F0, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variable tersebut
•Jika FL>F0, maka proses dihentikan dan persamaan terakhir tersebut yang digunakan/dipilih.
5.2.3 Forward Selection
Forward Selection merupakan salah satu metode pemodelan (pembangunan model linier) untuk menemukan kombinasi peubah yang “terbaik” dari suatu gugus peubah. Dalam Prosedur Forward selection, sekalinya variable masuk kedalam persamaan maka tidak bisa dihilangkan.
Selain itu, Forward selection dapat berarti memasukkan variabel bebas yang memiliki korelasi yang paling erat dengan variabel tak bebasnya (variabel yang paling potensial untuk memiliki hubungan linier dengan Y). kemudian secara bertahap memasukkan variabel bebas yang potensial berikutnya dan nanti akan terhenti sampai tidak ada lagi variabel bebas yang potensial.
Kelebihan dan Kekurangan Forward Selection
1. Kelebihan prosedur Forward selection diantaranya sebagai berikut:
a. Metode forward, backward, dan stepwise merupakan alternative untuk mengurangi kemungkinan adanya multikolinearitas dalam model yang dihasilkan.
b. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas.
2. Kelemahan prosedur Forward Selection adalah diantaranya;
a. Lama dalam penghitungan , karena harus menghitung satu-satu dari peubah yang ada, dari peubah yang memiliki F tersebar.
b. Dalam metode ini, ada kemungkinan untuk memasukkan lebih banyak variable yang tidak begitu signifikan ke dalam model dibanding metode backward dan stepwise, karena MSE yang dihasilkan forward akan lebih kecil yang menyebabkan nilai Fobs besar.
c. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas.
Prosedur Forward Selection
Prosedur forward selection dimulai dengan sebuah persamaan yang terdiri dari suku konstanta, tidak terdiri dari predictor variable. Variable pertama yang masuk ke dalam persamaan adalah variable yang memiliki simple correlation tertinggi dan signifikan dengan variable Y. Jika koefisien regresi signifikan berbeda dari 0 maka tetap dipakai dalam persamaan, dan dilakukan pencarian variable kedua. Variable yang masuk ke dalam persamaan sebagai variable kedua adalah variable yang memiliki korelasi tertinggi kedua dan masih signifikan dengan Y. kemudian koefisien regresi dari variable kedua diuji. Jika signifikan, maka dilakukan pencarian terhadap variable ketiga dengan cara yang sama. Prosedur dihentikan saat pemasukan variable terakhir tidak memiliki koefisien regresi dan tidak signifikan atau semua variable masuk dalam persamaan. Koefisien regresi yang signifikan dari variable terakhir dilihat dari uji-t dari persamaan terakhir.
Langkah-langkah Forward Selection;
1. Mulai dengan tidak ada predictor variable (model hanya berisi konstanta),
2. Untuk semua predictor variable tidak dalam model, pilih satu variable dengan nilai p-value terkecil dan kurang dari taraf nyata α.
3. Ulangi langkah b) hingga tidak terdapat predictor variable yang dapat ditambahkan ke dalam model.
Dengan menggunakan Minitab lakukan langkah berikut:
Stat > Regression > Stepwise>Methods
Dalog box items
Stepwise (forward and backward) : pilih standard stepwise regression
Predictor in initial model : masukkan variable prediktor. Variabel ini akan dikeluarkan jikap-value lebih besar dari alpha to enter value (Jika ingin mempertahankan variabel tertentu dalam model abaikan nilaip-value dan enter variabel tersebut dalam Predictor to include in every model dalam box utama)
Alpha to enter : tetapkan nilai α untuk memasukkan variable dalam model
Alpha to remove : tetapkan nilai α untuk mengeluarkan variable dalam model
Forward selection : pilih Forward selection
Alpha to enter : tetapkan nilai α untuk memasukkan variable dalam model
Backward elimination
Alpha to remove : tetapkan nilai α untuk mengeluarkan variable dalam model
Force : masukkan variabel prediktor yang tidak ingin dikeluarkan dari model
CONTOH SOAL:
DATA
A sociologist investigating the recent upward shift in homicide trends throughout the
United States studied the extent to wich the homicide rate per 100.000 population (Y) is
associated with population size (X1), the percent of families with yearly incomes less than
$5,000, and the rate of unemployment (X3). Data are provided in the table for a
hypotetical sampel of 20 cities.
City | X1 | X2 | X3 | Y |
1 | 587 | 16.5 | 6.2 | 11.2 |
2 | 643 | 20.5 | 6.4 | 13.4 |
3 | 635 | 26.3 | 9.3 | 40.7 |
4 | 692 | 16.5 | 5.3 | 5.3 |
5 | 1248 | 19.2 | 7.3 | 24.8 |
6 | 643 | 16.5 | 5.9 | 12.7 |
7 | 1964 | 20.2 | 6.4 | 20.9 |
8 | 1531 | 21.3 | 7.6 | 35.7 |
9 | 713 | 17.2 | 4.9 | 8.7 |
10 | 749 | 14.3 | 6.4 | 9.6 |
11 | 7895 | 18.1 | 6.0 | 14.5 |
12 | 762 | 23.1 | 7.4 | 26.9 |
13 | 2793 | 19.1 | 5.8 | 15.7 |
14 | 741 | 24.7 | 8.6 | 36.2 |
15 | 625 | 18.6 | 6.5 | 18.1 |
16 | 854 | 24.9 | 8.3 | 28.9 |
17 | 716 | 17.9 | 6.7 | 14.9 |
18 | 921 | 22.4 | 8.6 | 25.8 |
19 | 595 | 20.2 | 8.4 | 21.7 |
20 | 3353 | 16.9 | 6.7 | 25.7 |
SOAL:
Carilah model regresi terbaik antara Y, X1, X2, X3 pada taraf uji 5% dan 10% dengan
menggunakan step:
a. stepwise regression
b. backward elimination
Jawab :
A. Stepwise regression (regresi bertatar)
Langkah 1. Matriks Korelasi
X1 | X2 | X3 | Y | |
X1 | 1 | |||
X2 | -0.16378 | 1 | ||
X3 | -0.23341 | 0.815418 | 1 | |
Y | -0.0671 | 0.839778 | 0.864841 | 1 |
Dari matriks di atas variable X3 paling tinggi nilai korelasinya dengan variable respon Y, rx3y = 0.865. Dengan demikian, variable X3 yang pertama dimasukkan ke dalam persamaan regresi.
Sumber variasi | Df | SS | MS | Fhit | F.05 | F.10 | R2 |
Regresi X3 | 1 | 1387.59972 | 1387.69972 | 53.41 | 4.41 | 3.01 | 0.75 |
Residu | 18 | 467.602282 | 25.98 | ||||
Total | 19 | 1855.202 |
Uji F secara keseluruhan untuk variabel X3 menunjukkan bahwa persamaan regresi ini nyata secara statistik dengan R2 = 0.75.
Langkah 2: Menghitung koefisien korelasi parsial orde ke-1 untuk memilih variabel selanjutnya (X1 dan X2)
ryx1|x3 = 0.276047
(ryx1|x3 )2= 0.076202
(ryx2|x3 )2= 0.2144123
Dari perhitungan di atas, tampak bahwa koefisien korelasi parsial variabel X2 paling
tinggi, sehingga variabel X2 dimasukkan ke dalam model.
Langkah 3 : mengevaluasi model Y = f(X3,X2)
Analisis Varians Regresi Parsial
Sumber variasi | Df | SS | MS | Fhit | F.05 | F.10 | R2 |
Regresi (X3,X2,X1) | 3 | 1518,145 | 506.0483 | 24.02 | 3.24 | 2.46 | 0.8183 |
R(X1| X2, X3) | 1 | 30.28554 | 30.28554 | 1.44 | 4.49 | 3.05 | |
R(X2| X1, X3) | 1 | 94.91292 | 94.91292 | 4.51 | 4.49 | 3.05 | |
R(X3| X1, X2) | 1 | 200.3465 | 200.3465 | 9.51 | 4.49 | 3.05 | |
Residu | 16 | 337.1571 | 21.06607 | ||||
Total | 19 | 1855.202 | 97.54221 |
Dari ketiga nilai F-parsial, baik pada taraf nyata 5% maupun taraf nyata 10%, ternyata variabel X3 yang terkecil dan tidak signifikan, sehingga harus dikeluarkan dari persamaan. Dengan demikian, variabel yang terpilih adalah X2 dan X3dan prosedur regresi bertahap selesai, dengan persamaan akhir :
Persamaan Y = f(X3, X2):
Y = -34.0725 + 1.223931 X2 + 4.398936 X3,
R2 = 80.2%
II. Metode Backward Elimination (BE)
Langkah 1 : Bentuk persamaan lengkap dan analisis varians tertera di
bawah ini :
Evaluasi model Persamaan Y = f(X3,X2,X1)
Yest= -36.76492528 + 0.000762937 X1 + 1.192174211 X2 + 4.719821372 X3
Analisis Varian Regresi Parsial
Sumber variasi | Db | JK | RJK | Fhit | F.05 | F.10 | R2 |
Regresi (X3,X2,X1) | 3 | 1518,145 | 506.0483 | 24.02 | 3.24 | 2.46 | 0.8183 |
R(X1| X2, X3) | 1 | 30.28554 | 30.28554 | 1.44 | 4.49 | 3.05 | |
R(X2| X1, X3) | 1 | 94.91292 | 94.91292 | 4.51 | 4.49 | 3.05 | |
R(X3| X1, X2) | 1 | 200.3465 | 200.3465 | 9.51 | 4.49 | 3.05 | |
Residu | 16 | 337.1571 | 21.06607 | ||||
Total | 19 | 1855.202 | 97.54221 |
Dari tabel Analisis Varians F-Parsial, tampak bahwa Variabel X1 mempunyai Nilai F-
parsial terkecil dan tidak nyata, sehingga harus dikeluarkan dari model.
Langkah 2 : mengevaluasi model tanpa menyertakan Variabel X3 :
Y = f(X2, X3)
Analisis Varians Regresi Parsial
Sumber variasi | Df | SS | MS | Fhit | F.05 | F.10 | R2 |
Regresi (X3,X2) | 2 | 1487,145 | 743.9297 | 34.43 | 3.59 | 2.46 | 0.802 |
R(X2|X3) | 1 | 100.2597 | 100.2597 | 3.64 | 4.45 | 3.03 | |
R(X3|X2) | 1 | 179.5199 | 179.5199 | 8.31 | 4.45 | 3.03 | |
Residu | 17 | 367.3426 | 21.60839 | ||||
Total | 19 | 1855.202 | 97.54221 |
Model Persamaan baru Y = f(X3,X2):
Y = -34.0725 + 1.223931 X2 + 4.398936 X3,
R2 = 80.20%
Model persamaan ini nyata dengan Nilai F hitung keseluruhan 34.3* (nyata baik pada
taraf 5% maupun pada taraf 10%) dengan nilai koefisien determinan, R2 = 80.2% dan
nyata. Nilai F-parsial variabel X3 dan X2 juga nyata, sehingga kedua variabel tersebut
harus dipertahankan. Karena tidak terdapat lagi variabel yang dikeluarkan dari Model, maka persamaan akhir Regresi dengan pendekatan langkah mundur adalah:
Y = -34.0725 + 1.223931 X2 + 4.398936 X3,
R2 = 80.20%
Kesimpulan :
Dari Kedua cara pemilihan model regresi terbaik, ternyata untuk kasus sosial di atas
semuanya konsisten. Hanya Variabel X2 (pendapatan keluarga) dan X3(tingkat
pengangguran) saja yang terpilih dan nyata memberikan kontribusi dalam
menentukan tinggi rendahnya Y (Laju bunuh diri)
12 komentar:
ciie..
g sengaja blogwalking..
eh, nemu punya jeng erna ^^
nice information. share lbih banyak yak :)
eh jeng bitha,
hahaha..
iseng.iseng sharing ilmu. nambah ilmu^^
kaaa tanya donk, tu di langkkah 2 metode stepwisenya gimana ya caranya? saya belum mengerti, trimakasih sebelumnya
wadu, ma'af yaa baru buka blog skrg :(
km ada buku panduan eviews tak?, disitu bisa dibaca lebih jelas ttg metode ini. :)
tolong kirim ke email saya dong arief_gress46@yahoo.com
lagi ngerjain TA ni,kalau ada buku tentang uji asumsi klasik tlong minta filenya
k; tanya donk, metode stepwisenya bagai mana caranya ??? saya tdk ngerti.. trims sebelumnya.
izin ambil ya,, :)
kak mau tanya. jika ternyata ketika di beckward trnyata smua variabel ke remove gimana ya????
Kak saya mau tanya dong. Ada ebook tntg forward selection gak kk? Kalo ada blh share gak kk .terima kasih kk
Kak ada buku tntg forward selection gak??
Kak mau tanya kelebihan menggunakan metode backward itu apa yaa
jika dengan metode selection (forward/backward/stepwise), manakah yang cenderung sering di pilih dalam menganalisis? jika jwbn sama saja, kenapa perlu ada 3 metode tsb? Ada juga metode (none) ataupun (enter) dalam regresi logistik. Mankah yg seharusnya tepat digunakan dalam analisis tsb?
Posting Komentar