Son konular

Regresyon Analizi Nedir - Regresyon Analizi Hakkında Bilgi

SoruCevap

Yeni Üye
Çözümler
1
Tepkime
58
Yaş
36
Coin
256,936
Regresyon Analizi Nedir - Regresyon Analizi Hakkında - Regresyon Analizi Tanımı



Regresyon analizi, iki ya da daha çok değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edilinebilinir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanilması teklif edilmiş ise de [1] Türk ekonometriciler arasında bu kullanım yaygın değildir.

Örneğin, bir ziraatçı buğday verimi ve gübre miktarı arasındaki ilişkiyi, bir mühendis, basınç ve sıcaklık, bir ekonomist gelir düzeyi ve tüketim harcamaları, bir eğitimci öğrencilerin devamsızlık gösterdiği gün sayıları ve başarı dereceleri arasındaki ilişkiyi bilmek isteyebilir. Regresyon, iki (ya da daha çok) değişken arasındaki doğrusal ilişkinin fonksiyonel şeklini, biri bağımlı diğeri bağımsız değişken olarak bir dogru denklemi olarak , göstermekle kalmaz, değişkenlerden birinin değeri bilindiğinde diğeri hakkında kestirim yapılmasını sağlar. Genellikle bu iki (veya cok) değişkenlerin hepsinin niceliksel olcekli olmasi zorunluluğu vardır.

Regresyonda, değişkenlerden biri bağımlı diğerleri bağımsız değişken olmalıdır. Buradaki mantık eşitliğin solunda yer alan değişkenin sağında yer alan değişkenlerden etkilenmesidir. Sağda yer alan değişkenlerse diğer değişkenlerden etkilenmemektedir. Burada etkilenmemek matematiksel anlamda bu değişkenleri bir doğrusal denkleme koyduğumuzda etki yapması anlamındadır. Çoklu doğrusallık, ardışık bağımlılık sorunları kastedilmemektedir.

Regresyon analizinin tarihi

Regresyon yönteminin ilk şekli en küçük kareler prensibidir ve ilk olarak Adrien Marie Legendre tarafından 1805de ortaya atılmıştır [2]. Hemen takiben 1809da C.F. Gauss [3] aynı yöntemi açıklamıştır. En küçük kareler terimi Legendre tarafından moindres carr
s olarak kullanılmış, ancak Gauss aynı yöntemi 1795den beri kullandığını iddia etmiştir. Legendre ve Gauss bu yöntemi astronomik gözlemlerden uydularının güneş etrafındaki yörüngelerini tesbit etmek için kullanırken ortaya çıkartmışlardır. 1748de Eüler'in aynı problem üzerinde uğraştığı, fakat başarı sağlayamadığı bilinmektedir. En küçük kareler kuramınıda sonraki gelişme Gauss'in 1821de yayınladığı bir makelede ortaya çıkartılmış[4] ve bu yayında Gauss sonradan kendi adı verilen Gauss-Markov teoreminin bir şeklini açıklamıştır.

Regresyon terimi 19. yüzyılda İngiliz istatistikçisi Francis Galton tarafından bir biyolojik inceleme için ortaya atılmıştır. Bu incelemenin ana konusu kalıtım olup, aile içinde baba ve annenin boyu ile çocukların boyu arasındaki bağlantıyı araştırmakta ve çocukların boylarının bir nesil içinde eski ata nesillerinin ortalamasına geri döndüklerini yani bir nesil içinde ortalamaya geri dönüş olduğu inceleme konusudur. Galton geri dönüş terimi için ilk yazısında İngilizce olarak reversion terimi kullanmışsa da sonradan aynı anlamda olan regression sözcüğü kullanmıştır.[5];[6] Bu çalışmalarında Galton istatistiksel 'regresyon' kavramını ve yöntemini de geliştirmiştir. Udny Yüle ve Karl Pearson bu yöntemi daha geniş genel istatistiksel alanlara uygulayıp geliştirmişlerdir..[7][8]. Bu yazılarda bağımlı ve bağımsız değişkenlerin normal dağılım gösterdiği varsayılmaktadır. Bu kısıtlayıcı varsayım R.A. Fisher 1922 ve 1925de yayınlar ile sadece bağımlı değişkenin koşullu dağılımının normal olduğu hallere uygulanmak üzere daha genişletilmiştir.[9][10]).

Bu kavramları ve yöntemleri genel olarak, kalıtım konusu dışında "ortalamaya geri dönüş" ile hiçbir ilgisi olmayan konularda, kullanan istatistikçiler regresyon terimini kullanmakta devam etmişlerdir. Zamanımızda, bu terim, kavram ve yöntemin Galton'un konusu ile bütün ilişkisi yok olmuştur ve artık regresyon terimi doğrusal bağlantı bulunması ve eğri uydurma ile eş anlamlar vermektedir.

Temeldeki varsayımlar

Doğrusal regresyon yöntemini kullanmak için temelde şu varsayımların bulunduğu kabul edilmektedir:

Çıkarımsal yöntem olduğu için kullanılan iki değişkenli örneklemin ya istatistiksel rastgele örneklem olduğu ya da anakütleyi çok iyi temsil ettiği bilinmektedir.
Bağımlı değişken içinde hata bulunmaktadır. Bu hatanın bir rassal değişken olduğu ve ortalama hatanın sıfır olduğudur. Sistematik hata da bulunması mümkündür ama bu hatanın incelemeye alınması regresyon analizi kapsamı dışındadır.
Bağımsız değişken hatasızdır. Eğer bağımsız değişkende hata bulunduğu varsayılırsa özel bir yöntem şekli olan değişkenler-içinde-hata modeli teknikler kullanılarak model kurulmalıdır.
Hatalar zaman içinde ve kendi aralarında birbirine bağımlı değildir. Bu eşvaryanslılık veya homoskedastisite varsayımı adı ile anılır. Eger bu varsayim uygun degilse ağırlıklı en küçük kareler yöntemi uygulanabilir.
Hata varyansı sabittir ve veriler arasında hiç değişmediği varsayılır. Buna otokorelasyon veya serisel korelasyon bulunmaması varsayımı adı verilir.
Hataların varyans-kovaryans matrisinin çapraz elamanları sabit hata varyansı olur ve matrisin diğer çapraz dışı elemanları 0 olur.
Eğer çoklu regresyon analizi yapılıyor ve uc veya daha cok parametre icin kestirim isteniyorsa, bağımsız değişkenlerin birbirleri ile bağlantısının olmaması gereklidir. Buna çoklu doğrudaşlık (multicolliearity) olmaması varsayımı adı verilir.
Hatalar bir normal dağılım gösterir. Eğer bu hataların normalliği varsayımı uygun değilse genelleştirilmiş doğrusal model uygulanabilir.

Doğrusal regresyon

Anakütle doğrusal regresyon modeli

Doğrusal regresyonda, anakütle model belirlenmesine göre bağımlı değişken yi parametrelerin bir doğrusal birleşiği olur. Dikkat edilirse parametrelerden bahis edilmektedir, çünkü bağımsız değişkenlerin bir doğrusal bileşiği olması gerekli değildir. Örneğin, tek bir bağımsız değişkenli (xi) ve iki parametreli (β0 ve β1):
dogru:



Burada εi bir hata terimidir ve i alt-indeksleri bir belirlenmiş mümkün gözlemi ifade eder. Ayrıca εi, i'nci gözlemin regresyon doğrusuna olan uzaklığını ifade etmekte olup ortalaması 0 ve varyansı σ2 olan bir normal dağılış gösterir.

Çoklu doğrusal regresyonda iki veya daha çok sayıda bağımsız değişken veya bağımsız değişken fonksiyonu bulunur. Örneğin, önce verilmiş olan regresyon modeli yeni bir terim xi2 eklenerek degistirilirse; şu anakütle çoklu doğrusal regresyon modeli ortaya çıkar:
parabol:



Denklemin sağ tarafındaki bağımsız değişken için bir ikinci derece (kuadratik) ifade bulunmasına rağmen bu model hala doğrusal regresyon modelidir; çünkü üç tane parametre, yani β0, β1 ve β2 ile çoklu değişkenli dogrusaldır.
Daha genel çoklu doğrusal regresyon modelinde p tane bağımsız değişken olduğu varsayılır ve anakütle modeli şöyle ifade edilir:



veya biraz daha kısa olarak



İki Değişkenli regresyon katsayı kestirimleri

Anakütleden bir rastgele örneklem elde edilirse, bu βi anakütle parametreleri için örneklem tahminleri



bulunur ve şu örneklem doğrusal regresyon denklemi elde edilir:



Burada ei terimi örneklemden elde edilen artık olur; ve

olur.

Bu örneklem regresyon denkleminin kestirimini elde etmenin yöntemi adi en küçük kareler (Ordinary least squares) olarak adlandırılır. Bu yönteme göre parametre kestirimleri artıkların kare toplamının minimum (en küçük) değerini bulmakla elde edilir. Artıklar minimum toplamı AKT şudur:



Bu fonksiyonun minimum değerini bulmak her parametre ile birinci kısımsal türevi alınarak sıfıra eşitlenir. Böylece her kısimsal türeve göre bir denklem elde edilir. Örneğin iki parametreli doğrusal regresyon için iki değişkenli iki denklem elde edilir. Bu simultane denklem sitemine normal denklemler adı verilir ve bu simultane denklemler sistemi birlikte çözülüp her anakütle parametresi için bir kestrim değeri bulunur.

İki parametreli basit doğrusal regresyon için iki anakütle parametre kestirimleri olan



şu normal denklemlerin birlikte çözülmesi ile elde edilir:



Burada bütün toplamlar i=1 den i=n kadardır ve örneklem toplamları, toplam kareleri ve toplam karşı çarpımı ile elde edilirler.

Bu iki değiskenli iki doğrusal denklem için çeşitli çözüm yolları vardır. Burada Cramer'in kuralı kullanılıp şu ifade elde edilir:





burada



Böylece iki parametreli doğrusal regresyon icin en küçük kareler parametre tahminleri için formüller şöyledir:



a ve



Burada



x gözlem degerlerinin ortalaması ve



ise y gözlem değerlerinin ortalamasıdır.

Çok değişkenli regresyon katsayı kestirimleri

Çok değişkenli regresyon için regresyon katsyısı kestrimi de iki değişkenli regresyon hâli gibi en küçük kareler yöntemi ile yapılır. Bu demektir ki kestirmde ortaya çıkacak artıkların karelerinin toplamı minimize edilecektir. Artıklar ri olur ve minimize edilecek objektif fonksiyon soyle ifade edilir:



Her bir artık, gözlemi yapılan bir değer ile kestirim modelini kullanarak elde edilen bir kestirim değeri arasındaki farktır:



En küçük kareler yöntemine göre S, toplam artıklar karesi, minimize edilecektir. Belirli koşullar gecerli ise, elde edilecek parametre kestrimleri (Gauss-Markov teoremine göre) en küçük varyans gösteren kestirim ve hatta maksimum değişirlilik özelliği gösteren dogrusal kestirim olabilirler.
Anakütle regresyon katsayılarının kestirim regresyon katsayıları için bir ^ (şapka) notasyonu kullanılanılır: yani

.

Genellikle çok değişkenli regresyon için normal denklemler şöyle ifade edilir



Matris notasyonu kullanılırsa, normal denklemler şöyle yazılabilir:



Eğer XTX matrisi singuler değilse

,

Bu doğru uydurma tahminleridir.

Hatalar varyansı ve toplam kareler

Anakütle hatalarının normal dağılım gösterdiğine dair bir diğer varsayımı da kullanarak incelemeci önce hatalar varyansı ve toplam kareler değerlerini bulur ve bunları kullanarak tahmin edilen denklem ve parametreler uzerinde çıkarımsal istatistik sonuçlara varabilir.
Anakütle hata teriminin sabit bir varyansı bulunduğu varsayımına göre, hatalar varyansı kestirimi şöyle bulunur:



Bu ifadeye regresyon için kare kök ortalama hata karesi adı verilir. Parametre kestirimleri için standart hata şöyle bulunur:



Örneklem veri serisinin değişebilirliği değişik toplam kareler suretiyle ifade edilebilirler.

Tüm toplam kareler (örneklem varyansına orantılı olur):
.
Regresyon toplam kareler: Bazan açıklanan toplam kareler diye anılır.

Toplam hatalar karesi: Artıklar toplam karesi olarak da isimlendirilir.


Bir regresyon modeli için parametreler, en küçük kareler yöntemi kullanılarak, tahmin edildikten sonra regresyon kontrol etme yöntemleri (yani çıkarımsal kontrol) uygulamak gerekir. Bunlar bulunan tahmin edilmiş genel doğrusal denklemin örnekleme uyum iyiliği sınaması ve kestirimci regresyon katsayılarının tektek istatistiksel anlamlılığını sınamak veya güvenlik aralığı sağlamak olarak özetlenir.

Kestirim denklemin genel uyum iyiliğinin çıkarımsal kontrolu

Tahmin edilen doğrusal regresyon denkleminin genel olarak örnekleme uygun olup olmadığı için uygulanan çıkarımsal istatistik işlemleri iki türde olabilir:

belirleme katsayısı yani R-kare değerinin bulunması;
regresyon denklemine F-sınaması uygulaması.

Bu iki çıkarımsal kontrol aynı konunun çıkarımsal kontrolu için kullanılır: tahmin regresyon denkleminin tümünün uygun olup olmadığı. Bu nedenle iki yöntemden tek birini kullanmak yeterlidir. Buna rağmen birçok pratik analizde her iki çıkarımsal analiz de kullanılmaktadır; çünkü ikisinde hesaplanması için nerede ise aynı yöntem kullanılır ve eger istatistik veya ekonometrik kompüter paketi kullanılırsa her iki yöntem için gerekli sonuçlar birlikte verilir.

Belirleme katsayısı yani R-kare (R2) değeri

Belirleme katsayısı yani (R2) ) R-kare) için en genel tanımlama förmülü sudur:
. yani (1-toplam hatalar karesi) ile (tüm toplam kareler) oranı; veya (1-Artıklar toplam karesi) ile (tüm toplam kareler) oranı.
Çıkarımsal analizde R-kare değeri bulunur ve bulunan değer doğru hesaplanmışsa 0 ile 1 arasında olmalıdır. Yapılan bu analiz ceşitli hallerde açıklanabilir:

Eğer sadece iki değiskenli (Y ve X0) regresyon analizi yapılıyorsa, geometrik olarak X-Y düzeyinde doğrusal regresyon tahmini bu düzeyde olan noktalara en-küçük-kareler prensibine göre en iyi uyan bir doğru uydurmaktır. Eğer bütün noktalar bu tahmin edilen doğru üzerinde ise tahmin edilen doğru uyumu bu veri noktaları için hiç hatasızdır ve veri noktalari doğrudan hiç ayrılık göstermez. Hat varyasyonu bu halde sıfır olur. Bu veri noktaları tahmin edilen doğrudan uzaklaştıkca hatalar varyasyonu çoğalmaktadır.
Üç değişkenli (Y ve X1 ve X2 değişkenli) çoklu regresyonda ise tahmin edilen bir üç boyutlu düzeydir. Eger bu düzey veri noktalarına tam olarak uyarsa bütün veri noktaları tahmin edilen düzey üstüne düşerler. Veri noktaları tahmin edilen düzey etrafında dağılmaya başlarlarsa, hatalar varyasyonu artmaya başlar.
Üç değişkenden daha çoklu değişkenli regresyon analizi ise grafik olarak verilemez; çok boyutlu uzayı gösterir ve tahmin edilen regresyon katsayıları ise bu cok boyutlu uzayda bir hiper-düzey ortaya çıkartır ve bu hiper-düzeyden ayrılmalar hata varyasyonudur.
Genel olarak:

Eğer R2 değeri sıfıra yakınsa, uyum iyiliği uygun olmadığı kabul edilir. Bu sonuc ortaya cikarsa toplanan verilere kullanilan modelin uygun olmadigi sonucu cikarilir ve bu uygunsuzluk modelinin degistirilmesini gerektirir. Bu demektir ki model ile aciklanan varyasyon tum varyansyonu %0ini aciklamakta ve geometrik olarak orneklem verileri regresyon ile elde edilen hiperduzeyin etrafina cok dagilmis olarak bulunmaktadirlar. Bu cikarima varilirsa bu basamaga kadar yapilmis olan analizin bir kenara birakilmasi ve diger bir modelin bulunup kullanilmasi gerekir.
Eğer R2 değeri bire yakınsa, uyum iyiliği uygun olduğu sonucu çıkarılır. Geometrik olarak cok degisken boyutlu uzayda, orneklem veri noktalarinin hepsi uzayda dagilma gostermeyip hemen hepsi regresyon ile elde edilen hiperduzey uzerinde bulunmaktadir. Bu halde çıkarımsal kontrol analizinin diğer basamağına geçilir.
F-testi [değiştir]

Regresyon denklem uyum iyiliği için F-testi için sıfır hipotez (H0) anakutle model katsayilarinin hepsinin degerinin 0a esit oldugudur. Yani sifir hipotez gercekse hesap ile elde edilen katsayi kestirimlerinin hepsi anakütle için 0dir yani hiçbir etki ve bağlantı anlamı vermez. Bu basamaga kadar yapilmis olan analizin bir kenara birakilmasi ve diger bir modelin bulunup kullanilmasi gerekir. Eğer sıfır hipotez red edilirse regresyon kestirimleri genellikle uygundur ve cikarimsal kontrol analizine devam edilir.

Kestirimi yapılan her tek regresyon parametresinin değerinin çıkarımsal kontrolu

Yani bu tahmin edilmiş standart hataları kullanarak her tek anakütle regresyon parametresi hakkında kestirim güvenlik aralıkları kurabilir ve hipotez sınamaları yapılabilir.

İnterpolasyon ve ekstrapolasyon

Regresyon modelleri kullanarak kestirim yapılmak istenirse, bağımsız değişken olan x değişken veri değerleri verilirse bağımlı değişken y için kestrim değerleri (fi) tahmin etmek icin kullanabilirler.

Eğer bu kestirim, modeli kurmak için kullanılan x değişken değerleri için yapılıyorsa, bu işlem interpolasyon olarak adlandırılır. Eğer kestirim modeli kurmak için kullanılan bağımsız değişken değerlerinin dışındaki değerler ile yapılırsa, ekstrapolasyon olarak adlandırılır ve ekstrapolasyon çok daha yanlı olabilir.

Diğer yaklaşımlar

Ağırlıklı en küçük kareler yöntemi

En küçük kareler yontemi kullanılırken yapılan temel varsayımlarindan biri hata terimi varyanslarının birbirine esit olduğudur. Eğer gozlem hataları birbirine esit olmayan hata terimi varyanslari gosteriyorlarsa, en küçük kareler yonteminin bu onemli varsayımı ihlal edilmis olur ve en küçük kareler yontemi ile elde edilen regresyon kestirimleri anlamlı olmayabilir. Bu sorunu cozumlemek icin her gozleme ayrı agırlık vererek en küçük kareler yontemi uygulamak imkânı vardır ve bu genellestirmeye ağırlıklı en küçük kareler adı verilir. Ağırlıklı En Küçük Kareler Yöntemi,değişkenlere ağırlık vererek veya değişkenlerin önem derecesini değiştirerek uygulanan en küçük kareler yöntemidir.

Değişkenlerde-hatalar modeli

En küçük kareler yontemi kullanılırken yapılan temel varsayımlarından biri de gozlem hatalarının yalnizca bağımlı değiskenlerde yapıldığı ve bağımsız değiskende gozlem hatası bulunmadığıdır. Eğer bağımlı değiskende hata bulundugu ve bunun elde edilen regresyon kestirim değerlerine cok etki yaptıgı bilinirse, degiskenlerde-hatalar-modeli veya diğer ismi ile total en kucuk kareler modeli ve bu modelle iliskili kestirim yontemleri kullanılabilir.

Genelleştirilmiş doğrusal model

Eğer anakütle regresyon modeli icindeki hatalar icin olasılık dağılım fonksiyonu bir normal dağılım gostermiyorsa genelleştirilmiş doğrusal model kullanılabilir. Bu halde hatalarin olasılık dağılım fonksiyonu ussel dağılım, gamma dağılımı, ters Gauss tipi dağılım, Poisson dağılımı, binom dağılım, multinom dağılım vb. olabilir.

Güçlü regresyon

Ayrık bağımlı değişken

Doğrusal olmayan regresyon

Eger degiskenler hakkinda kutrulan teori dolayisiyla anakutle modeli parametrelri ile dogrusal degilse, kestirim yapilirken toplam kareleri tekrarlama usulu kullanarak minimize edilmesi gerekir. Bu kullanilan tekrarlama yontemi bir cok karisik sorunlar ortaya cikarir. Bunlarain ozet olarak incelemsi icin doğrusal olmayan regresyon#Dogrusal olmayan ve dogrusal en kucuk kareler arasindaki farklar maddesine bakiniz.
 
Üst Alt