note: model regresi terbaik : stepwise regression, backward elimination, dan forward selection

ANALISIS REGRESI : PEMILIHAN MODEL TERBAIK

Jika antar variabel prediktor saling berkorelasi satu sama lain, dikatakan terjadi kasus multicolinear. Hal ini karena beberapa variabel prediktor tidak significant berada dalam model valaupun sesungguhnya variabel tersebut berhubungan sangat erat dengan variabel respon Y. Untuk mendapatkan model yang diinginkan terdapat dua pertimbangan dalam pembentukan model, diantaranya:

1. Agar persamaan regresi bermanfaat untuk tujuan prediksi, serigkali diinginkan model yang memuat sebanyak-banyaknya variabel X (prediktor) yang mempengaruhi variabel Y (respon)

2. Karena pertimbangan biaya untuk mendapatkan informasi, maka digunakan sesedikit mungkin variabel X (prediktor) yang mempengaruhi variabel Y (respon)

Untuk itu dibutuhkan metode untuk dapat mengakomodasikan dua kepentingan di atas dengan cara Selecting the best regression equation. Berikut ini adalah cara-cara yang sering digunakan dalam memilih model terbaik.

5.1. Best Subset Model

Memilih semua subset (model) yang terbaik yang memenuhi kriteria diatas.

Kriteria yang digunakan adalah:

R² terbesar

MS residual terkecil

Cp yang mendekati jumlah parameter

Dengan menggunakan Minitab lakukan langkah berikut :

Stat > Regression > Best Subsets

Dialog box items :

Respons : Masukkan kolom yang memuat variabel respon Y

Free predictors : masukkan yang memuat variabel –variabel prediktor X (maksimum 31 variabel)

Predictors in all models : pilih kolom-kolom yang memuat variabel yang ingin dimasukkan dalam model. Kolom-kolom ini tidak boleh terdaftar dalam Free predictors. Jika anda menganalisis data dengan lebih dari 15 variabel prediktor, pertimbangkan termasuk variabel prediktor ini dalam rangka mengurangi jumlah free variables dan mempercepat proses perhitungan

5.2. Stepwise, Eliminasi Backward and Forward Selection Regression

Metode Stepwise, Backward Elimination dan Forward Selection merupakan suatu metode untuk mengurangi kemungkinan adanya muktikolinearitas dari persamaan/model yang dihasilkan.

5.2.1 Stepwise Regression

Regresi stepwise melibatkan dua jenis proses yaitu: forward selection dan backward elimination. Teknik ini dilakukan melalui beberapa tahapan. Pada masing-masing tahapan, kita akan memutuskan variabel mana yang merupakan prediktor terbaik untuk dimasukkan ke dalam model. Variabel ditentukan berdasarkan uji-F, variabel ditambahkan ke dalam model selama nilai p-valuenya kurang dari nilai kritik α (biasanya 0,15). Kemudian variabel dengan nilai p-value lebih dari nilai kritik α akan dihilangkan. Proses ini dilakukan terus menerus hingga tidak ada lagi variabel yang memenuhi kriteria untuk ditambahkan atau dihilangkan.

Model dalam regresi Stepwise adalah:

Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + …. + β_nX_n

Sedangkan Hipotesis yang digunakan dalam Regresi Stepwise adalah:

H₀ : β₁, β₂, β₃ = 0

Dengan hipotesis alternatif adalah:

H_a : β₁, β₂, β₃ ≠ 0

Ilustrasi:

Berikut ini adalah data gaji manajer pada 10 perusahaan besar, dengan regresi stepwise kita dapat memilih variabel mana saja dari daftar berikut yang signifikan dalam mempengaruhi besarnya gaji para manajer tersebut:

No.	Y	X1	X2	X3	X4	X5	X6	X7	X8	X9	X10
1	15	3	15	1	200	22	1	40	22	0	5
2	16	4	14	1	250	23	1	39	21	0	7
3	16	9	14	0	150	23	1	38	22	0	12
4	16	8	11	0	200	23	1	52	22	1	12
5	16	8	18	1	140	24	1	36	21	0	14
6	16	12	13	0	260	24	1	54	22	1	16
7	16	7	12	0	300	23	1	49	21	0	17
8	16	13	14	0	150	23	1	40	21	0	5
9	16	25	16	1	200	23	1	45	22	0	6
10	9	19	19	0	240	23	1	48	22	1	9

Dimana:

Y = gaji manajer (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi

X1 = masa kerja (tahun)

X2 = masa pendidikan (tahun)

X3 = bonus (1 jika ada, dan 0 jika tidak ada)

X4 = Jumlah karyawan yang diawasi (orang)

X5 = Aset perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi

X6 = dewan direksi (1 jika ada, dan 0 jika tidak ada)

X7 = umur (tahun)

X8 = keuntungan perusahaan (dalam logaritma natural = ln) *lihat bab normalisasi data dengan transformasi

X9 = tanggung jawab internasional (1 jika ada, dan 0 jika tidak)

X10 = total penjualan perusahaan 12 bulan terakhir (dalam milyar)

Hipotesis:

H₀ = H₀ : β₁, β₂, β₃ = 0

H_a : β₁, β₂, β₃ ≠ 0

Langkah pengerjaan dengan SPSS adalah dengan memilih Analyze – Regression – Linear, kemudian masukkan variabel dependen maupun independennya.

Model dibuat dengan memasukkan variabel prediktor satu persatu (secara

bertahap) mulai dari variabel X yang memiliki korelasi tinggi

Langkah-langkahnya:

1. Cari variabel X yang berkorelasi paling tinggi dengan Y, kemudian buat regresinya

2. Pemilihan variabel berikutnya adalah variabel yag memiliki korelasi parsial terbesar dengan Y dan buat model dengan memasukkan variabel tersebut.

3. Uji parameter yang telah ada di dalam model

4. Begitu seterusnya ulangi langkah 2-3 sampai diperoleh model terbaik

5.2.2 Backward Elimination

Membuat model dengan memasukkan semua variabel kemudian dikeluarkan satu persatu dengan melakukan pengujian terhadap parameter –parameternya dengan menggunakan partial F test. Nilai partial F-test (F_L) terkecil dibandingkan dengan F₀ table:

•Jika F_L < F₀, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variable tersebut

•Jika F_L>F₀, maka proses dihentikan dan persamaan terakhir tersebut yang digunakan/dipilih.

5.2.3 Forward Selection

Forward Selection merupakan salah satu metode pemodelan (pembangunan model linier) untuk menemukan kombinasi peubah yang “terbaik” dari suatu gugus peubah. Dalam Prosedur Forward selection, sekalinya variable masuk kedalam persamaan maka tidak bisa dihilangkan.

Selain itu, Forward selection dapat berarti memasukkan variabel bebas yang memiliki korelasi yang paling erat dengan variabel tak bebasnya (variabel yang paling potensial untuk memiliki hubungan linier dengan Y). kemudian secara bertahap memasukkan variabel bebas yang potensial berikutnya dan nanti akan terhenti sampai tidak ada lagi variabel bebas yang potensial.

Kelebihan dan Kekurangan Forward Selection

1. Kelebihan prosedur Forward selection diantaranya sebagai berikut:

a. Metode forward, backward, dan stepwise merupakan alternative untuk mengurangi kemungkinan adanya multikolinearitas dalam model yang dihasilkan.

b. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas.

2. Kelemahan prosedur Forward Selection adalah diantaranya;

a. Lama dalam penghitungan , karena harus menghitung satu-satu dari peubah yang ada, dari peubah yang memiliki F tersebar.

b. Dalam metode ini, ada kemungkinan untuk memasukkan lebih banyak variable yang tidak begitu signifikan ke dalam model dibanding metode backward dan stepwise, karena MSE yang dihasilkan forward akan lebih kecil yang menyebabkan nilai Fobs besar.

c. Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas.

Prosedur Forward Selection

Prosedur forward selection dimulai dengan sebuah persamaan yang terdiri dari suku konstanta, tidak terdiri dari predictor variable. Variable pertama yang masuk ke dalam persamaan adalah variable yang memiliki simple correlation tertinggi dan signifikan dengan variable Y. Jika koefisien regresi signifikan berbeda dari 0 maka tetap dipakai dalam persamaan, dan dilakukan pencarian variable kedua. Variable yang masuk ke dalam persamaan sebagai variable kedua adalah variable yang memiliki korelasi tertinggi kedua dan masih signifikan dengan Y. kemudian koefisien regresi dari variable kedua diuji. Jika signifikan, maka dilakukan pencarian terhadap variable ketiga dengan cara yang sama. Prosedur dihentikan saat pemasukan variable terakhir tidak memiliki koefisien regresi dan tidak signifikan atau semua variable masuk dalam persamaan. Koefisien regresi yang signifikan dari variable terakhir dilihat dari uji-t dari persamaan terakhir.

Langkah-langkah Forward Selection;

1. Mulai dengan tidak ada predictor variable (model hanya berisi konstanta),

2. Untuk semua predictor variable tidak dalam model, pilih satu variable dengan nilai p-value terkecil dan kurang dari taraf nyata α.

3. Ulangi langkah b) hingga tidak terdapat predictor variable yang dapat ditambahkan ke dalam model.

Dengan menggunakan Minitab lakukan langkah berikut:

Stat > Regression > Stepwise>Methods

Dalog box items

Stepwise (forward and backward) : pilih standard stepwise regression

Predictor in initial model : masukkan variable prediktor. Variabel ini akan dikeluarkan jikap-value lebih besar dari alpha to enter value (Jika ingin mempertahankan variabel tertentu dalam model abaikan nilaip-value dan enter variabel tersebut dalam Predictor to include in every model dalam box utama)

Alpha to enter : tetapkan nilai α untuk memasukkan variable dalam model

Alpha to remove : tetapkan nilai α untuk mengeluarkan variable dalam model

Forward selection : pilih Forward selection

Alpha to enter : tetapkan nilai α untuk memasukkan variable dalam model

Backward elimination

Alpha to remove : tetapkan nilai α untuk mengeluarkan variable dalam model

Force : masukkan variabel prediktor yang tidak ingin dikeluarkan dari model

CONTOH SOAL:

DATA

A sociologist investigating the recent upward shift in homicide trends throughout the

United States studied the extent to wich the homicide rate per 100.000 population (Y) is

associated with population size (X1), the percent of families with yearly incomes less than

$5,000, and the rate of unemployment (X3). Data are provided in the table for a

hypotetical sampel of 20 cities.

City	X1	X2	X3	Y
1	587	16.5	6.2	11.2
2	643	20.5	6.4	13.4
3	635	26.3	9.3	40.7
4	692	16.5	5.3	5.3
5	1248	19.2	7.3	24.8
6	643	16.5	5.9	12.7
7	1964	20.2	6.4	20.9
8	1531	21.3	7.6	35.7
9	713	17.2	4.9	8.7
10	749	14.3	6.4	9.6
11	7895	18.1	6.0	14.5
12	762	23.1	7.4	26.9
13	2793	19.1	5.8	15.7
14	741	24.7	8.6	36.2
15	625	18.6	6.5	18.1
16	854	24.9	8.3	28.9
17	716	17.9	6.7	14.9
18	921	22.4	8.6	25.8
19	595	20.2	8.4	21.7
20	3353	16.9	6.7	25.7

SOAL:

Carilah model regresi terbaik antara Y, X1, X2, X3 pada taraf uji 5% dan 10% dengan

menggunakan step:

a. stepwise regression

b. backward elimination

Jawab :

A. Stepwise regression (regresi bertatar)

Langkah 1. Matriks Korelasi

	X1	X2	X3	Y
X1	1
X2	-0.16378	1
X3	-0.23341	0.815418	1
Y	-0.0671	0.839778	0.864841	1

Dari matriks di atas variable X3 paling tinggi nilai korelasinya dengan variable respon Y, r_x3y= 0.865. Dengan demikian, variable X₃ yang pertama dimasukkan ke dalam persamaan regresi.

Sumber variasi	Df	SS	MS	F_hit	F_.05	F_.10	R²
Regresi X3	1	1387.59972	1387.69972	53.41	4.41	3.01	0.75
Residu	18	467.602282	25.98
Total	19	1855.202

Uji F secara keseluruhan untuk variabel X₃ menunjukkan bahwa persamaan regresi ini nyata secara statistik dengan R² = 0.75.

Langkah 2: Menghitung koefisien korelasi parsial orde ke-1 untuk memilih variabel selanjutnya (X₁ dan X₂)

r_yx1|x3 = 0.276047

(r_yx1|x3 )2= 0.076202

(r_yx2|x3 )2= 0.2144123

Dari perhitungan di atas, tampak bahwa koefisien korelasi parsial variabel X₂paling

tinggi, sehingga variabel X₂ dimasukkan ke dalam model.

Langkah 3 : mengevaluasi model Y = f(X₃,X₂)

Analisis Varians Regresi Parsial

Sumber variasi	Df	SS	MS	F_hit	F_.05	F_.10	R²
Regresi (X₃,X₂,X₁)	3	1518,145	506.0483	24.02	3.24	2.46	0.8183
R(X₁\| X₂, X₃)	1	30.28554	30.28554	1.44	4.49	3.05
R(X₂\| X₁, X₃)	1	94.91292	94.91292	4.51	4.49	3.05
R(X₃\| X₁, X₂)	1	200.3465	200.3465	9.51	4.49	3.05
Residu	16	337.1571	21.06607
Total	19	1855.202	97.54221

Dari ketiga nilai F-parsial, baik pada taraf nyata 5% maupun taraf nyata 10%, ternyata variabel X₃ yang terkecil dan tidak signifikan, sehingga harus dikeluarkan dari persamaan. Dengan demikian, variabel yang terpilih adalah X₂ dan X₃dan prosedur regresi bertahap selesai, dengan persamaan akhir :

Persamaan Y = f(X₃, X₂):

Y = -34.0725 + 1.223931 X₂ + 4.398936 X₃,

R² = 80.2%

II. Metode Backward Elimination (BE)

Langkah 1 : Bentuk persamaan lengkap dan analisis varians tertera di

bawah ini :

Evaluasi model Persamaan Y = f(X3,X2,X1)

Yest= -36.76492528 + 0.000762937 X₁ + 1.192174211 X₂ + 4.719821372 X₃

Analisis Varian Regresi Parsial

Sumber variasi	Db	JK	RJK	F_hit	F_.05	F_.10	R²
Regresi (X3,X2,X1)	3	1518,145	506.0483	24.02	3.24	2.46	0.8183
R(X1\| X2, X3)	1	30.28554	30.28554	1.44	4.49	3.05
R(X2\| X1, X3)	1	94.91292	94.91292	4.51	4.49	3.05
R(X3\| X1, X2)	1	200.3465	200.3465	9.51	4.49	3.05
Residu	16	337.1571	21.06607
Total	19	1855.202	97.54221

Dari tabel Analisis Varians F-Parsial, tampak bahwa Variabel X₁ mempunyai Nilai F-

parsial terkecil dan tidak nyata, sehingga harus dikeluarkan dari model.

Langkah 2 : mengevaluasi model tanpa menyertakan Variabel X₃ :

Y = f(X_2,X₃)

Analisis Varians Regresi Parsial

Sumber variasi	Df	SS	MS	F_hit	F_.05	F_.10	R²
Regresi (X₃,X₂)	2	1487,145	743.9297	34.43	3.59	2.46	0.802
R(X₂\|X₃)	1	100.2597	100.2597	3.64	4.45	3.03
R(X₃\|X₂)	1	179.5199	179.5199	8.31	4.45	3.03
Residu	17	367.3426	21.60839
Total	19	1855.202	97.54221

Model Persamaan baru Y = f(X₃,X₂):

Y = -34.0725 + 1.223931 X₂ + 4.398936 X₃,

R² = 80.20%

Model persamaan ini nyata dengan Nilai F hitung keseluruhan 34.3* (nyata baik pada

taraf 5% maupun pada taraf 10%) dengan nilai koefisien determinan, R² = 80.2% dan

nyata. Nilai F-parsial variabel X₃ dan X₂ juga nyata, sehingga kedua variabel tersebut

harus dipertahankan. Karena tidak terdapat lagi variabel yang dikeluarkan dari Model, maka persamaan akhir Regresi dengan pendekatan langkah mundur adalah:

Y = -34.0725 + 1.223931 X₂ + 4.398936 X₃,

R² = 80.20%

Kesimpulan :

Dari Kedua cara pemilihan model regresi terbaik, ternyata untuk kasus sosial di atas

semuanya konsisten. Hanya Variabel X₂ (pendapatan keluarga) dan X3(tingkat

pengangguran) saja yang terpilih dan nyata memberikan kontribusi dalam

menentukan tinggi rendahnya Y (Laju bunuh diri)

12 komentar:

oryzabitha mengatakan... 20 Maret 2011 pukul 00.10

ciie..

g sengaja blogwalking..
eh, nemu punya jeng erna ^^

nice information. share lbih banyak yak :)
Nanos mengatakan... 24 Maret 2011 pukul 11.19

eh jeng bitha,
hahaha..
iseng.iseng sharing ilmu. nambah ilmu^^
efrimidori mengatakan... 2 November 2012 pukul 22.18

kaaa tanya donk, tu di langkkah 2 metode stepwisenya gimana ya caranya? saya belum mengerti, trimakasih sebelumnya
Nanos mengatakan... 4 Desember 2012 pukul 16.21

wadu, ma'af yaa baru buka blog skrg :(
km ada buku panduan eviews tak?, disitu bisa dibaca lebih jelas ttg metode ini. :)
arief gress mengatakan... 24 Desember 2012 pukul 11.49

tolong kirim ke email saya dong arief_gress46@yahoo.com
lagi ngerjain TA ni,kalau ada buku tentang uji asumsi klasik tlong minta filenya
Unknown mengatakan... 16 April 2014 pukul 08.55

k; tanya donk, metode stepwisenya bagai mana caranya ??? saya tdk ngerti.. trims sebelumnya.
Ceria Bisa mengatakan... 31 Mei 2014 pukul 09.56

izin ambil ya,, :)
Unknown mengatakan... 22 Mei 2016 pukul 23.52

kak mau tanya. jika ternyata ketika di beckward trnyata smua variabel ke remove gimana ya????
Unknown mengatakan... 2 November 2018 pukul 06.12

Kak saya mau tanya dong. Ada ebook tntg forward selection gak kk? Kalo ada blh share gak kk .terima kasih kk
Unknown mengatakan... 2 November 2018 pukul 06.13

Kak ada buku tntg forward selection gak??
Unknown mengatakan... 23 Maret 2021 pukul 23.29

Kak mau tanya kelebihan menggunakan metode backward itu apa yaa
Her Kartoredjo mengatakan... 5 Juli 2021 pukul 12.12

jika dengan metode selection (forward/backward/stepwise), manakah yang cenderung sering di pilih dalam menganalisis? jika jwbn sama saja, kenapa perlu ada 3 metode tsb? Ada juga metode (none) ataupun (enter) dalam regresi logistik. Mankah yg seharusnya tepat digunakan dalam analisis tsb?