Uzayın boyutunu küçültme yöntemleri. Boyut Azaltımına Giriş

Bölüm 13. ANA BİLEŞEN YÖNTEMİ

13.1. Boyut azaltma probleminin özü ve bunu çözmek için çeşitli yöntemler

Araştırma ve pratik istatistiksel çalışmalarda, araştırılan birçok nesnenin (ülkeler, şehirler, işletmeler, aileler, hastalar, teknik veya çevresel sistemler) her birinde kaydedilen işaretlerin toplam sayısının çok büyük olduğu durumlarla uğraşmak gerekir; yüz veya daha fazla. Ancak mevcut çok değişkenli gözlemler

doğru zamanda kullanılabilmesi için istatistiksel olarak işlenmesi, anlaşılması veya bir veri tabanına girilmesi gerekmektedir.

Bir istatistikçinin, gözlemlerin (13.1) her birini, önemli ölçüde daha az (daha) sayıda bileşen içeren bazı yardımcı göstergelerin bir Z vektörü biçiminde sunma arzusu, öncelikle aşağıdaki nedenlerden kaynaklanmaktadır:

başlangıç ​​verilerinin (13.1) özel olarak seçilmiş üç boyutlu bir uzaya, bir düzleme veya bir sayı doğrusuna yansıtılmasıyla elde edilen görsel temsiline (görselleştirme) duyulan ihtiyaç (Bölüm IV bu tür problemlere ayrılmıştır);

elde edilen istatistiksel sonuçların hesaplanmasını ve yorumlanmasını basitleştirme ihtiyacı nedeniyle, çalışılan modellerin kısa ve öz olma arzusu;

(13.1) türündeki dizilerin özel bir veritabanına kaydedilmesi ve saklanmasından bahsediyorsak, depolanan istatistiksel bilgilerin hacmini önemli ölçüde sıkıştırma ihtiyacı (bilgi içeriğinde gözle görülür kayıplar olmadan).

Bu durumda, yeni (yardımcı) özellikler orijinal olanlar arasından seçilebilir veya bir dizi başlangıç ​​karakteristiğine dayalı bazı kurallara göre, örneğin bunların doğrusal kombinasyonları gibi belirlenebilir. oluştururken yeni sistem ikincisinin özellikleri, Utah'ta en büyük bilgi içeriği (belirli bir anlamda), karşılıklı korelasyonsuzluk, ilk veri kümesinin geometrik yapısında en az bozulma vb. gibi çeşitli gereksinimler dayatıyorum. Değişkene bağlı olarak Bu gerekliliklerin resmi spesifikasyonunun ardından (aşağıya bakınız ve ayrıca Bölüm IV'e bakınız), şu veya bu boyutluluk azaltma algoritmasına ulaşıyoruz. Analiz edilen sistemin çok sayıda başlangıç ​​​​durumu göstergesinden (davranış, çalışma verimliliği) önemli ölçüde daha az sayıda en bilgilendirici değişkene geçiş olasılığını belirleyen en az üç ana tür temel ön koşul vardır. Bu, öncelikle birbiriyle yüksek düzeyde ilişkili özellikler tarafından sunulan bilgilerin kopyalanmasıdır; ikincisi, bir nesneden diğerine geçerken çok az değişen özelliklerin bilgi içeriğinin eksikliği (özelliklerin düşük "değişkenliği"); üçüncüsü, belirli kriterlere göre toplama, yani basit veya "ağırlıklı" toplama olasılığı.

Resmi olarak, yeni bir özellik kümesine geçiş görevi (bilgi içeriğinde minimum kayıpla) şu şekilde tanımlanabilir. Başlangıç ​​değişkenlerinin bazı p-boyutlu vektör fonksiyonları olsun ve -boyutlu özellikler sisteminin bilgilendiriciliğinin belirli bir ölçüsü olsun. Fonksiyonelin spesifik seçimi, çözülmekte olan gerçek problemin özelliklerine bağlıdır ve temel alınır. olası kriterlerden biri: orijinal dizide yer alan bilgilerin orijinal özelliklere göre korunmasını en üst düzeye çıkarmayı amaçlayan otomatik bilgi verme kriteri; ve diğer bazı (harici) göstergelere göre bu dizide yer alan bilgilerin "sıkıştırılmasını" en üst düzeye çıkarmayı amaçlayan dış bilgi içeriği kriteri.

Görev, başlangıç ​​göstergelerinin kabul edilebilir dönüşümlerinin F sınıfında bulunan Z özelliklerinin bir dizisini belirlemektir;

Bu ifadenin (bilgi içeriği ölçüsünün spesifik seçimini belirleyen) ve kabul edilebilir dönüşümlerin sınıfını belirleyen spesifikasyonunun bir veya başka versiyonu, boyutsallığın azaltılması için spesifik bir yönteme yol açar: temel bileşen yöntemi, faktör analizi, parametrelerin aşırı gruplandırılması, vesaire.

Bunu örneklerle açıklayalım.

13.1.1. Temel bileşen yöntemi (bkz. § 13.2-§ 13.6).

Kabul edilebilir F dönüşümlerinin bir sınıfı olarak, başlangıç ​​göstergelerinin tüm olası doğrusal ortogonal normalleştirilmiş kombinasyonlarını tanımlarsa, araştırmacının geleceği ilk temel bileşenler olacaktır;

(burada) matematiksel beklentidir ve boyutlu göstergeler sisteminin bilgi içeriğinin bir ölçüsü olarak ifade

(burada D, daha önce olduğu gibi, karşılık gelen rastgele değişkenin varyansını hesaplama işleminin işaretidir).

13.1.2. Faktör analizi (bkz. Bölüm 14).

Bilindiği gibi (bkz. § 14.1), faktör analizi modeli, başlangıç ​​göstergeleri arasındaki bağlantıların yapısını, her birinin davranışının istatistiksel olarak aynı sözde ortak faktörler kümesine bağlı olduğu gerçeğiyle açıklar;

burada - genel faktörün başlangıç ​​göstergesi üzerindeki "yükü" - kalan "özel" rastgele bileşen ve - ikili olarak korelasyonsuzdur.

F, belirtilen kısıtlamaları dikkate alarak ve boyutlu göstergeler sisteminin bilgi içeriğinin bir ölçüsü olarak tüm olası doğrusal kombinasyonların sınıfı olarak tanımlanırsa, bir değer seçileceği ve ardından optimizasyonun çözümleneceği ortaya çıktı. problem (13.2), faktör analizi modelindeki ortak faktörler vektörü ile örtüşmektedir. İşte başlangıç ​​göstergelerinin korelasyon matrisi; göstergelerin korelasyon matrisi A matrisinin Öklid normudur.

13.1.3. Özelliklerin aşırı gruplandırılması yöntemi (bkz. madde 14.2.1).

İÇİNDE Bu method ilk göstergelerin toplamının böyle bir bölünmesinden bahsediyoruz verilen numara Bir gruba ait olan özelliklerin göreceli olarak güçlü bir şekilde ilişkili olduğu gruplarda, bir gruba ait olan özellikler ise farklı gruplar zayıf korelasyonlu olacaktır. Aynı zamanda, birbiriyle güçlü bir şekilde ilişkili başlangıç ​​​​göstergelerinden oluşan her bir grubun, doğal olarak kendi grubunun özellikleriyle yakın korelasyon içinde olması gereken bir yardımcı "sonuç" göstergesiyle değiştirilmesi sorunu çözüldü. Tüm normalleştirilmiş doğrusal kombinasyonları, başlangıç ​​göstergelerinin kabul edilebilir F dönüşümlerinin bir sınıfı olarak tanımladıktan sonra, fonksiyonel değeri (S ve ) maksimize ederek bir çözüm arıyoruz.

değişkenler arasındaki korelasyon katsayısı nerede.

13.1.4. Çok boyutlu ölçeklendirme (bkz. Bölüm 16).

Bazı durumlarda ve özellikle ilk istatistiksel verilerin özel araştırmalar, anketler, uzman değerlendirmeleri kullanılarak elde edildiği durumlarda, birincil gözlem unsurunun vektör tarafından tanımlanan nesnenin durumu değil, karakteristik olduğu durumlar olabilir. sayılara göre iki nesnenin (veya işaretin) ikili yakınlığının (uzaklığının)

Bu durumda, araştırmacı, ilk istatistiksel veri dizisi olarak, (nesnelerin ikili yakınlık özellikleri dikkate alınırsa) veya (özelliklerin ikili yakınlık özellikleri dikkate alınırsa) bir boyut matrisine sahiptir.

burada nicelikler ya nesneler (özellikler) i arasındaki mesafeler olarak ya da bu mesafelerin sırasını belirten sıralar olarak yorumlanır. Çok boyutlu ölçeklendirmenin görevi, nesnelerimizi (özelliklerimizi) böyle bir boyutlu uzaya "daldırmaktır", yani, analiz edilen nesne noktaları (veya nokta özellikleri) kümesinin başlangıç ​​geometrik konfigürasyonunun () kullanılarak belirtilmesini sağlayacak şekilde koordinat eksenlerini seçmektir. Şekil 13.1) veya (13.5)'in, karşılıklı ikili uzaklıkların ortalama "bozulma derecesi" kriteri açısından en az çarpık olduğu ortaya çıkacaktır.

Yeterli olanlardan biri genel şemalarçok boyutlu ölçeklendirme kritere göre belirlenir

burada - orijinal uzaydaki nesneler arasındaki mesafe, - daha düşük boyutta istenen uzaydaki aynı nesneler arasındaki mesafe - belirli değerlerin seçimi araştırmacının takdirine bağlı olan serbest parametrelerdir.

İstenilen özellikler kümesi Z'nin bilgi içeriğinin ölçüsünü, örneğin orijinal nokta kümesinin geometrik yapısının yukarıda belirtilen bozulma derecesinin tersi olarak belirledikten sonra, bu sorunu genel formülasyona indirgeriz (13.2) ), varsayarak

13.1.5. Diskriminant analizi modellerinde en bilgilendirici göstergelerin seçimi (bkz. § 1.4; 2.5).

Yukarıdaki işlevler, karşılık gelen özellik sisteminin otomatik bilgilendiriciliğinin ölçüleridir. Şimdi dış bilgi içeriğine ilişkin kriterlere örnekler verelim. Özellikle, diskriminant analizi şemasındaki nesnelerin bu göstergelere göre doğru sınıflandırılması açısından göstergeler sisteminin bilgi içeriğiyle ilgileneceğiz. Bu durumda, yalnızca bir dizi başlangıç ​​​​göstergesinin temsilcilerinin dikkate alınabileceği gerekliliklerine dayanarak kabul edilebilir dönüşümler F sınıfını tanımlarız;

Orijinal setten en bilgilendirici göstergeleri belirleme problemini çözerken ortak bir ilk tez, belirli bir boyuttaki göstergelerin vektörünün daha bilgilendirici olduğu, farklı şekillerde tanımlanan olasılık dağılımı yasalarındaki farkın ne kadar büyük olduğu ifadesidir. Söz konusu sınıflandırma problemindeki sınıflar. Özellik vektörünün sayılarla sınıflardaki olasılık dağılımını tanımlayan yasalara ikili farklılıkların bir ölçüsünü eklersek, o zaman en bilgilendirici göstergelerin değerini maksimuma çıkarma koşulundan belirleyerek yukarıdaki prensibini resmileştirebiliriz.

Olasılık dağılımı yasaları arasındaki farkın en yaygın kullanılan ölçüleri, bilgi türü mesafesi (Kullback mesafesi, Mahalanobis mesafesi) ve ayrıca "değişim mesafesi"dir (daha fazla ayrıntı için bkz.

13.1.6. Regresyon modellerinde en bilgilendirici değişkenlerin seçimi (bkz.).

Regresyon tipi bağımlılıklar oluştururken temel konulardan biri göreceli olarak tanımlanmasıdır. küçük sayı değişkenler (sonuçta ortaya çıkan karakteristik özellik y'nin davranışını en önemli şekilde etkileyen önsel kümeden.

Dolayısıyla, önceki paragrafta olduğu gibi, F sınıfı, başlangıçtaki faktör argümanları kümesinden seçilen tüm olası değişken kümelerinden oluşur ve biz, bu tür kümelerin dış bilgi içeriği kriteriyle ilgileniyoruz. Türü genellikle çoklu bir belirleme katsayısı kullanılarak belirlenir - y göstergesi ile bir dizi değişken arasındaki yakın bağlantının derecesinin bir özelliği. Bu durumda, sabit bir boyut için değişkenler kümesi açıkça en bilgilendirici olarak kabul edilecektir. (y göstergesinin davranışını tanımlamanın doğruluğu açısından), eğer bu setteki bilgi içeriği ölçüsünün değeri maksimuma ulaşırsa.

Bölüm 5'teki materyalin incelenmesi sonucunda öğrenci:

Bilmek

  • boyutluluk azaltmanın temel kavramları ve görevleri:
  • özellik uzayını dönüştürme sorununu çözmeye yönelik yaklaşımlar;

yapabilmek

  • standartlaştırılmış ortogonal özelliklere geçmek için temel bileşenler yöntemini kullanın;
  • özellik alanının boyutunu azaltırken verinin bilgi içeriğindeki azalmayı değerlendirmek;
  • nesneleri incelemek için en uygun çok boyutlu ölçekleri oluşturma problemini çözmek;

sahip olmak

  • uygulamalı istatistiksel analiz problemlerinin çözümü için boyut azaltma yöntemleri;
  • Dönüştürülen özellik uzayındaki değişkenleri yorumlama becerisi.

Boyutsallığın azaltılmasına ilişkin temel kavramlar ve sorunlar

İlk bakışta, bir model oluşturmak için çalışma nesneleri hakkında onları karakterize eden bir dizi özellik biçiminde ne kadar fazla bilgi kullanılacaksa o kadar iyidir. Ancak çok fazla bilgi veri analizinin etkinliğini azaltabilir. Hatta "boyutsallığın laneti" diye bir terim bile var. (boyutsallığın seyri), yüksek boyutlu verilerle çalışmanın sorunlarını karakterize etmek. Boyutluluğu şu veya bu şekilde azaltma ihtiyacı, çeşitli istatistiksel problemlerin çözülmesiyle ilişkilidir.

Bilgi vermeyen özellikler ek bir gürültü kaynağıdır ve model parametrelerinin tahmin edilmesinin doğruluğunu etkiler. Ek olarak, çok sayıda özelliğe sahip veri kümeleri, ilişkili değişken gruplarını içerebilir. Bu tür özellik gruplarının varlığı, modelin özelliklerini bozabilecek ve parametrelerinin tahmin kalitesini etkileyebilecek bilgilerin kopyalanması anlamına gelir. Verinin boyutu ne kadar yüksek olursa, algoritmik işlenmesi sırasındaki hesaplama miktarı da o kadar yüksek olur.

Bunun için kullanılan değişkenlerin prensibine göre özellik uzayının boyutunun azaltılmasında iki yön ayırt edilebilir: mevcut başlangıç ​​kümesinden özelliklerin seçilmesi ve orijinal verileri dönüştürerek yeni özelliklerin oluşturulması. İdeal olarak, azaltılmış veri temsilinin, verinin doğasında bulunan boyutla eşleşen bir boyuta sahip olması gerekir. (içsel boyutluluk).

İncelenen olguyu karakterize eden en bilgilendirici özelliklerin araştırılması, orijinal değişkenlerin dönüştürülmesini gerektirmeyen, sorunun boyutunun azaltılmasına yönelik açık bir yöndür. Bu, modeli daha kompakt hale getirmenize ve bilgi vermeyen özelliklerin müdahale edici etkisinden kaynaklanan kayıpları önlemenize olanak tanır. Bilgilendirici özelliklerin seçimi, tüm orijinal değişkenler kümesinden en iyi alt kümenin bulunmasından oluşur. “En iyi” kavramının kriterleri şunlardan biri olabilir: yüksek kaliteÖzellik uzayının belirli bir boyutu veya belirli bir kalitede bir model oluşturmanın mümkün olduğu en küçük veri boyutu için modelleme.

Yaratılış problemine doğrudan çözüm en iyi model genellikle aşırı derecede emek yoğun görünen, tüm olası özellik kombinasyonlarını aramakla ilişkilidir. Bu nedenle, kural olarak, özelliklerin doğrudan veya tersine seçimine başvururlar. Doğrudan seçim prosedürlerinde değişkenler, modelin gerekli kalitesi elde edilene kadar başlangıç ​​kümesinden sırayla eklenir. Orijinal özellik alanının sıralı olarak azaltılmasına (ters seçim) yönelik algoritmalarda, en az bilgilendirici değişkenler, modelin bilgi içeriğinde kabul edilebilir bir azalma elde edilene kadar kademeli olarak kaldırılır.

Özelliklerin bilgi içeriğinin göreceli olduğu dikkate alınmalıdır. Seçim, kendisini oluşturan değişkenlerin toplam bilgi içeriğini değil, bir dizi özelliğin yüksek bilgi içeriğini sağlamalıdır. Bu nedenle, özellikler arasında bir korelasyonun varlığı, ortak bilgilerin çoğaltılması nedeniyle genel bilgi içeriğini azaltır. Dolayısıyla halihazırda seçilmiş olanlara yeni bir özellik eklemek, içerdiği ölçüde bilgi içeriğinde artış sağlar. kullanışlı bilgi, önceden seçilen değişkenlerde eksik. En basit durum, seçim algoritmasının son derece basit bir şekilde uygulandığı karşılıklı ortogonal özelliklerin seçilmesidir: değişkenler bilgi içeriklerine göre sıralanır ve bu sıralamadaki ilk özelliklerin bileşimi kullanılır, bu da belirtilen bilgi içeriğini sağlar .

Özellik seçim yöntemlerinin uzayın boyutunu küçültmeye yönelik sınırlamaları, gerekli özelliklerin kaynak verilerde doğrudan var olduğu varsayımıyla ilişkilidir ve bu genellikle yanlıştır. Boyutsallığın azaltılmasına yönelik alternatif bir yaklaşım, özelliklerin azaltılmış bir dizi yeni değişkene dönüştürülmesini içerir. Başlangıçtaki özelliklerin seçiminin aksine, yeni bir özellik uzayının oluşumu, genellikle orijinal özelliklerin fonksiyonu olan yeni değişkenlerin yaratılmasını içerir. Doğrudan gözlemlenemeyen bu değişkenlere genellikle gizli denir veya gizli. Oluşturma işlemi sırasında bu değişkenlere diklik gibi çeşitli kullanışlı özellikler verilebilir. Uygulamada, orijinal özellikler genellikle birbirine bağlıdır, bu nedenle uzaylarının dik bir alana dönüştürülmesi, incelenen nesnelerle ilgili bilgilerin kopyalanmasının hiçbir etkisinin olmadığı yeni koordinatlar-işaretler üretir.

Nesneleri yeni bir ortogonal özellik uzayında haritalamak, bu nesneler arasındaki farklar açısından her özelliğin kullanışlılığını görselleştirme yeteneği yaratır. Yeni bazın koordinatları, söz konusu gözlemler için kendileri için değerlerin dağılımını karakterize eden dağılıma göre sıralanırsa, o zaman küçük dağılım değerlerine sahip bazı özelliklerin pratik açıdan yararsızlığı açıkça ortaya çıkar, çünkü Bu özelliklere dayalı nesneler, daha bilgilendirici değişkenlerdeki farklılıklarıyla karşılaştırıldığında pratik olarak ayırt edilemez. Böyle bir durumda orijinal özellik uzayının yozlaşması olarak adlandırılan durumdan söz edebiliriz. k değişkenler ve bu uzayın gerçek boyutu T orijinalinden daha az olabilir (m< k).

Özellik alanının azaltılmasına, verinin bilgi içeriğinde belirli bir azalma eşlik eder, ancak kabul edilebilir azaltma düzeyi önceden belirlenebilir. Özellik çıkarma, bir dizi orijinal değişkeni daha düşük boyutlu bir uzaya yansıtır. Özellik alanını iki veya üç boyuta sıkıştırmak veri görselleştirmesi için yararlı olabilir. Bu nedenle, yeni bir özellik alanı oluşturma süreci genellikle daha küçük bir dizi gerçekten bilgilendirici değişkene yol açar. Bunlara dayanarak, daha az sayıda en bilgilendirici özelliğe dayalı olarak daha yüksek kaliteli bir model oluşturulabilir.

Orijinal değişkenlere dayalı yeni değişkenlerin oluşturulması, gizli anlamsal analiz, veri sıkıştırma, sınıflandırma ve örüntü tanıma için kullanılarak öğrenme süreçlerinin hızını ve verimliliğini artırır. Sıkıştırılmış veriler genellikle daha fazla analiz ve modelleme için kullanılır.

Özellik alanı dönüşümü ve boyutsallığın azaltılmasının önemli bir uygulaması, ölçülen özellik değerlerine dayalı sentetik gizli kategorilerin oluşturulmasıdır. Bu gizli özellikler, incelenen olgunun bazı genel özelliklerini karakterize edebilir, gözlemlenen nesnelerin belirli özelliklerini bütünleştirerek bütünleyici göstergelerin oluşturulmasını mümkün kılar. farklı seviyeler Bilginin genelleştirilmesi.

Regresyon modeli katsayı tahminlerinin varyansının "şişmesine" yol açan, orijinal özelliklerdeki bilgilerin kopyalanması probleminin incelenmesinde özellik alanı azaltma yöntemlerinin rolü önemlidir. Yeni, ideal olarak ortogonal ve anlamlı şekilde yorumlanabilir değişkenlere geçiş, kaynak verilerin çoklu doğrusallık koşullarında etkili bir modelleme aracıdır.

Orijinal özellik uzayını ortogonal bir uzaya dönüştürmek, sınıflandırma problemlerini çözmek için uygundur, çünkü Öklid mesafesi veya Öklid mesafesinin karesi gibi nesneler arasındaki belirli yakınlık veya fark ölçümlerinin makul bir şekilde uygulanmasına olanak tanır. Regresyon analizinde temel bileşenleri kullanarak bir regresyon denklemi oluşturmak çoklu doğrusallık problemini çözmemize olanak sağlar.

Makine öğrenimi, bilgisayarların açık programlamaya ihtiyaç duymadan insanlar gibi "öğrenmesine" olanak tanıyan bir öğrenme alanından başka bir şey değildir.

Tahmine dayalı modelleme nedir: Tahmine dayalı modelleme, belirli tahminlere dayalı olarak sonuçları tahmin etmemizi sağlayan olasılıksal bir süreçtir. Bu tahmin ediciler temel olarak nihai çıktının, yani modelin çıktısının belirlenmesinde devreye giren işlevlerdir.

Boyutsallık azalması nedir?

Makine öğrenimi sınıflandırma problemlerinde genellikle son sınıflandırmanın yapıldığı çok fazla faktör vardır. Bu faktörler temel olarak özellik adı verilen değişkenlerdir. Ne kadar çok özellik olursa, eğitim setini görselleştirmek ve üzerinde çalışmak o kadar zor olur. Bazen bu işlevlerin çoğu birbiriyle ilişkilidir ve bu nedenle gereksizdir. Boyut azaltma algoritmalarının devreye girdiği yer burasıdır. Boyut azaltma, dikkate alınan öğelerin sayısını azaltma işlemidir. rastgele değişkenler bir dizi ana değişken elde ederek. Bu, özellik seçimi ve özellik çıkarma olarak ikiye ayrılabilir.

Makine öğrenimi ve tahmine dayalı modellemede boyutluluğun azaltılması neden önemlidir?

Boyut azaltmanın sezgisel bir örneği, basit bir e-posta sınıflandırma problemi kullanılarak tartışılabilir; E-posta spam olsun ya da olmasın. Bu, olup olmadığı gibi çok sayıda özelliği içerebilir. e-posta genel başlık, e-postanın içeriği, e-postanın bir şablon kullanıp kullanmadığı vb. Ancak bu özelliklerin bazıları örtüşebilir. Başka bir durumda, hem neme hem de yağışa bağlı bir sınıflandırma sorunu tek bir temel özellikte yoğunlaştırılabilir. çünkü yukarıdakilerin her ikisi de oldukça ilişkilidir. Dolayısıyla bu tür problemlerde fonksiyon sayısını azaltabiliriz. Üç boyutlu bir sınıflandırma problemini hayal etmek zordur, oysa iki boyutlu bir sınıflandırma problemi basit iki boyutlu bir uzaya, tek boyutlu bir problem ise basit bir çizgiye eşlenebilir. Aşağıdaki şekil, 3B özellik alanının iki 1B özellik alanına bölündüğü ve daha sonra korelasyonlu oldukları tespit edilirse özelliklerin sayısının daha da azaltılabileceği bu konsepti göstermektedir.

Boyut Azaltma Bileşenleri

Boyutsallığın azaltılmasının iki bileşeni vardır:

  • Öznitelik Seçimi: Bu bölümde, sorunu modellemek için kullanılabilecek daha küçük bir alt küme elde etmek amacıyla orijinal değişken veya fonksiyon kümesinin bir alt kümesini bulmaya çalışıyoruz. Bu genellikle üç yolu içerir:
    1. Filtre
    2. sarıcı
    3. uygulandı
  • Özellik çıkarma: Bu, yüksek boyutlu bir uzaydaki veriyi daha düşük bir boyuta, yani daha düşük numaralı bir uzaya indirger. boyutlar.

Boyut Azaltma Yöntemleri

Boyutsallığın azaltılması için kullanılan çeşitli teknikler şunları içerir:

  • Temel Bileşen Analizi (PCA)
  • Doğrusal Diskriminant Analizi (LDA)
  • Genelleştirilmiş Diskriminant Analizi (GDA)

Boyut azaltma, kullanılan yönteme bağlı olarak doğrusal veya doğrusal olmayan olabilir. Temel doğrusal yöntem Temel bileşen analizi veya PCA olarak adlandırılan analiz aşağıda tartışılmaktadır.

Temel bileşenler Analizi

Bu yöntem Karl Pearson tarafından tanıtıldı. Daha yüksek boyutlu bir uzaydaki veriler daha düşük boyutlu bir uzaydaki verilerle eşleşirken, daha düşük boyutlu uzaydaki verilerin varyansının maksimuma çıkarılması gerektiği koşuluyla çalışır.

Aşağıdaki adımları içerir:

  • Verilerin kovaryans matrisini oluşturun.
  • Bu matrisin özvektörlerini hesaplayın.
  • En büyük özdeğerlere karşılık gelen özvektörler, orijinal verilerdeki varyansın çoğunu kurtarmak için kullanılır.

Bu nedenle elimizde daha az özvektör kalıyor ve bu süreçte bir miktar veri kaybı yaşanmış olabilir. Ancak en önemli sapmaların kalan özvektörler tarafından korunması gerekir.

Boyut Azaltmanın Faydaları

  • Bu, veri sıkıştırmaya yardımcı olur ve dolayısıyla depolama alanını azaltır.
  • Bu hesaplama süresini azaltır.
  • Ayrıca varsa gereksiz özelliklerin kaldırılmasına da yardımcı olur.

Boyut Azaltımının Dezavantajları

  • Bu, bazı veri kaybına neden olabilir.
  • PCA, bazen istenmeyen bir durum olan değişkenler arasında doğrusal korelasyonlar bulma eğilimindedir.
  • Ortalama ve kovaryansın veri setlerini tanımlamak için yeterli olmadığı durumlarda PCA başarısız olur.
  • Uygulamada kaç temel bileşenin takip edilmesi gerektiğini bilemeyebiliriz, bazı genel kurallar geçerlidir.

Bu makale tarafından sağlanmıştır Anannei Uberoi. Eğer GeeksforGeeks gibiyseniz ve katkıda bulunmak istiyorsanız, katkıda bulunmak.geeksforgeeks.org adresini kullanarak veya makaleyi postayla göndererek de bir makale yazabilirsiniz. [e-posta korumalı]. Makalenizin şu adreste göründüğünü görün: ana sayfa GeeksforGeeks ve diğer ineklere yardım edin.

  • İstatistik, makine öğrenmesi ve bilgi teorisinde boyutluluk azaltma, ana değişkenlerin elde edilerek değişken sayısının azaltılmasından oluşan bir veri dönüşümüdür. Dönüşüm, özellik seçimi ve özellik çıkarma olarak ikiye ayrılabilir.

Ilgili kavramlar

Literatürde sözler

– giriş verilerinin yüklenmesi ve ön işlenmesi, – uyarıcı materyallerin manuel ve otomatik olarak işaretlenmesi (ilgi alanlarının seçimi), – ardıl temsil matrisinin hesaplanması için algoritma, – gerekli giriş değişkenlerinin değerleri ile genişletilmiş bir veri tablosunun oluşturulması sonraki analiz, – yöntem Boyutsal küçülmeözellik alanı (temel bileşen yöntemi), - yorumlanabilir bileşenlerin seçilmesi için bileşen yüklerinin görselleştirilmesi, - bir karar ağacının eğitilmesi için algoritma, - bir ağacın tahmin yeteneğini değerlendirmek için algoritma, - bir karar ağacının görselleştirilmesi.

İlgili Kavramlar (devam)

Spektral kümeleme teknikleri, daha düşük boyutlu alanlarda kümeleme öncesinde boyutsallık azaltma gerçekleştirmek için veri benzerlik matrisinin spektrumunu (özdeğerlerini) kullanır. Benzerlik matrisi girdi olarak sağlanır ve verilerdeki her nokta çiftinin göreceli benzerliğine ilişkin niceliksel tahminlerden oluşur.

Spektral yöntemler, muhtemelen Hızlı Fourier Dönüşümünü içeren, belirli diferansiyel denklemlerin sayısal çözümü için uygulamalı matematikte kullanılan bir teknikler sınıfıdır. Buradaki fikir, diferansiyel denklemlerin çözümünü bazı "temel fonksiyonların" toplamı olarak yeniden yazmak (Fourier serilerinin sinüzoidlerin toplamı olması gibi) ve ardından diferansiyel denklemi mümkün olan en iyi şekilde karşılamak için toplamdaki katsayıları seçmektir.

Matematiksel analiz (klasik matematiksel analiz) - “sonsuz küçük analiz” adı verilen tarihsel bölüme karşılık gelen bir dizi matematik dalları, diferansiyel ve integral hesabı birleştirir.

Diferansiyel evrim (İng. diferansiyel evrim) - çok boyutlu bir yöntem matematiksel optimizasyon Stokastik optimizasyon algoritmaları sınıfına ait olan (yani rastgele sayılar kullanarak çalışır) ve genetik algoritmaların bazı fikirlerini kullanır, ancak onlardan farklı olarak ikili koddaki değişkenlerle çalışmayı gerektirmez.

Ayrık elemanlar yöntemi (DEM, İngilizce Ayrık elemanlar yönteminden), hareketi hesaplamak için tasarlanmış bir sayısal yöntemler ailesidir. büyük miktar moleküller, kum taneleri, çakıl, çakıl taşları ve diğer granüler ortamlar gibi parçacıklar. Yöntem ilk olarak 1971 yılında Cundall tarafından kaya mekaniği problemlerini çözmek için uygulanmıştır.

Veri azaltma

Analitik teknolojilerde veri boyutluluğunun azaltılması, verinin analize ve yorumlamaya en uygun forma dönüştürülmesi sürecini ifade eder. Bu genellikle hacimlerinin azaltılması, kullanılan özelliklerin sayısının ve anlam çeşitliliğinin azaltılmasıyla sağlanır.

Analiz edilen veriler, üzerinde çalışılan iş süreçlerinin bağımlılıklarını ve kalıplarını yeterince yansıtmadığında çoğunlukla eksik kalır. Bunun nedenleri şunlar olabilir: yetersiz miktar gözlemler, nesnelerin temel özelliklerini yansıtan işaretlerin yokluğu. Bu durumda veri zenginleştirme uygulanır.

Verilerin fazla olduğu durumlarda ise boyut azaltımı uygulanır. Artıklık, bir analiz probleminin aynı verimlilik ve doğruluk düzeyinde ancak daha küçük bir veri boyutu kullanılarak çözülebildiği durumlarda ortaya çıkar. Bu, sorunu çözmenin süresini ve hesaplama maliyetlerini azaltmanıza, verileri ve analiz sonuçlarını kullanıcı için daha yorumlanabilir ve anlaşılır hale getirmenize olanak tanır.

Daha küçük bir örnek boyutundan karşılaştırılabilir kalitede bir çözüm elde edilebiliyorsa, veri gözlemlerinin sayısının azaltılması kullanılır, böylece hesaplama ve zaman maliyetleri azalır. Bu özellikle ölçeklenemeyen algoritmalar için geçerlidir; burada kayıt sayısındaki küçük bir azalma bile hesaplama süresinde önemli bir kazanç sağlar.

Sorunun yüksek kalitede çözümü için gerekli bilgilerin belirli bir özellik alt kümesinde yer aldığı ve bunların tamamının kullanılmasının gerekli olmadığı durumlarda, özellik sayısını azaltmak mantıklıdır. Bu özellikle ilişkili özellikler için geçerlidir. Örneğin, "Yaş" ve "İş Tecrübesi" özellikleri aslında aynı bilgileri taşıdığından bunlardan biri hariç tutulabilir.

Özellik sayısını azaltmanın en etkili yolu faktör analizi ve temel bileşenler yöntemidir.

Özellik değerlerinin çeşitliliğinin azaltılması, örneğin veri temsilinin doğruluğu aşırı ise ve modelin kalitesini bozmadan gerçek değerler yerine tamsayılar kullanılabiliyorsa mantıklıdır. Ancak bu, verilerin kapladığı bellek miktarını ve hesaplama maliyetlerini azaltacaktır.

Boyut azaltmanın bir sonucu olarak elde edilen veri alt kümesi, sorunu belirli bir doğrulukla çözmek için gereken kadar bilgiyi orijinal kümeden miras almalı ve veri azaltmanın hesaplama ve zaman maliyetleri, bundan elde edilen faydaların değerini düşürmemelidir.

Azaltılmış bir veri kümesinden oluşturulan analitik bir modelin işlenmesi, uygulanması ve anlaşılması, orijinal kümeden oluşturulan bir modele göre daha kolay olmalıdır.

Boyut azaltma yöntemini seçme kararı, çözülmekte olan problemin özellikleri ve beklenen sonuçların yanı sıra sınırlı zaman ve hesaplama kaynakları hakkındaki ön bilgiye dayanmaktadır.