VERİ MADENCİLİĞİ Dersi Kümeleme Analizi soru cevapları:

Toplam 20 Soru & Cevap
PAYLAŞ:

#1

SORU:

Veri madenciliği yöntemleri nelerdir?


CEVAP:

Veri sayısının büyüklüğüne bağlı olarak ve istenilen amaçlara göre bazı özel analiz algoritmaları geliştirilmiştir. Veri Madenciliği Yöntemleri sınıflandırma, kümeleme ve birliktelik kuralları olarak ele alınabilir.


#2

SORU:

Veri madenciliği yönteminin sınıflandırma grubu içerisinde kullandığı teknikler nelerdir?


CEVAP:

Veri madenciliği yönteminin sınıflandırma grubu içerisinde en sık kullandığı teknik “karar ağaçları”dır. Aynı zamanda lojistik regresyon, diskriminant analizi, sinir ağları ve fuzzy setleri de sıklıkla kullanılmaktadır.


#3

SORU:

Kümeleme analizinin amacı nedir?


CEVAP:

Kümeleme analizinin amacı, gruplanmamış verileri benzerliklerine göre sınıflandırmak ve araştırmacıya özetleyici bilgiler elde etmede yardımcı olmaktır.


#4

SORU:

Birliktelik kuralları nedir?


CEVAP:

Birliktelik Kuralları, veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan yöntemler veri madenciliği yöntemleridir. Özellikle pazarlama alanında uygulanmaktadır (Pazar sepet analizleri). Bu yöntemler birlikte olma kurallarını belirli olasılıklarla ortaya koymaktadır.


#5

SORU:

Kümeleme analizi nasıl işlemektedir?


CEVAP:

Çok değişkenli istatistik yöntemleri arasında yer alan, çok sayıda ve karmaşık yapıdaki veri setinde verileri gruplandırmak ve oluşan grupları karşılaştırmak amacıyla kullanılan kümeleme analizi, uygulaması kolay ve sonuçlarının anlaşılır olması nedeniyle sıkça başvurulan bir yöntemdir. Veri madenciliğinin bir alt türü olan bu yöntemde veriler uzaklık ve benzerliklerine göre kümelere ayrılmakta, kümeler arasındaki farklılıklar ve bu farklılıkların nedenleri üzerinde durulmaktadır. Analiz sonucunda birbirine en çok benzeyen birimler aynı kümelerde toplanmaktadır.


#6

SORU:

Kümeleme analizinin amacı nedir?


CEVAP:

Kümeleme analizinin temel amacı, hangi kümeye ait olduğu bilinmeyen bir grup verinin, sınıflandırılarak anlamlandırılmasıdır. Dolayısıyla kümeleme analizi birimleri ya da değişkenleri temel özelliklerine göre sınıflandırmak için kullanılmaktadır. Kısaca kümeleme analizinin genel amacının benzer olanları farklı olandan ayırmak olduğu ifade edilebilir.


#7

SORU:

Kümeleme analizi varsayımları nelerdir?


CEVAP:

Kümeleme analizi uygulama aşamasında temel varsayımlar gerektirmemektedir. Ancak analizde kullanılacak olan değişkenlerin seçiminde hassas davranılması gerekmektedir. Değişkenler arasındaki çoklu bağlantıya ve aşırı gözlemlere dikkat edilmelidir.


#8

SORU:

Kümeleme analizinin aşamaları nelerdir?


CEVAP:

Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Bunlar; veri matrisinin oluşturulması, benzerlik veya uzaklık matrislerinin hesaplanması, kümelemede esas alınacak yöntemlerin belirlenmesi ve elde edilen sonuçların yorumlanmasıdır.


#9

SORU:

Kümeleme analizinde birim ya da değişkenler arasındaki uzaklıkları hesaplamak için kullanılan uzaklık ölçüleri nelerdir?


CEVAP:

Kümeleme analizinde birim ya da değişkenler arasındaki uzaklıkları hesaplamak için en sık kullanılan uzaklık ölçüsü Öklid uzaklığıdır. Bu uzaklık ölçüsü dışında birimler ya da değişkenler arasındaki uzaklık değerlerinden faydalanarak kümelerin oluşturulmasında kullanılan farklı uzaklık ölçüleri de vardır. Bunlar; Karesel Öklid uzaklığı, Pearson ve karesel Pearson uzaklığı, Manhattan (City-Blok) Uzaklığı, Korelasyon katsayısı ve korelasyon uzaklığı, Açısal uzaklık (cosine measure), Binary Öklid uzaklığı, Gamma benzerlik ölçüsü, Jaccard benzerlik ölçüsü, Minkowski uzaklığı, Mahalonobis uzaklığı, Hotelling T2 Uzaklığı, Canberra Uzaklık ölçüsüdür.


#10

SORU:

KÜmeleme yöntemleri nelerdir?


CEVAP:

Kümeleme yöntemleri; uzaklık (distance), benzerlik (similarity) ya da farklılık (dissimilarity) matrisinden yararlanarak birimleri ya da değişkenleri kendi içinde homojen ve kendi aralarında heterojen uygun kümelere ayırırken, kümeleri belirlemede izledikleri yaklaşımlara göre iki temel alt gruba ayrılırlar. Bunlar; Aşamalı kümeleme yöntemleri (Hierarchical Cluster Analysis Methods) ve Aşamalı olmayan kümeleme yöntemleri (Nonhierarchical Cluster Analysis Methods) olarak ele alınmaktadır.


#11

SORU:

Aşamalı kümeleme yöntemleri nelerdir?


CEVAP:

Aşamalı kümeleme yöntemleri, veri matrisinde bulunan birimlerin ya da değişkenlerin analizin başlangıç aşamasında kaç küme oluşturduğuna ve küme elemanlarını belirlemede başlangıçta hangi kriterin seçildiğine göre iki temel gruba ayrılır. Bunlar; Birleştirici aşamalı kümeleme yöntemleri (Agglomerative hierarchical clustering prosedures) ve Ayırıcı aşamalı kümeleme yöntemleridir (Divisive hierarchical clustering prosedures).


#12

SORU:

Dendrogram nedir?


CEVAP:

Kümeleme analizinde sonuçlar dendrogram (ağaç diyagramı) adı verilen grafiksel yöntemle sunulurlar. Dendrogramlarda bağlantılar, uzaklıklar ve birimlerin bağlanma düzeyleri bir ağaç biçiminde ele alınarak şekillendirilir ve kümelenme süreci bu şekilde ayrıntılı bir biçimde özetlenir. Genellikle dendrogramlar; x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırılırlar.


#13

SORU:

Birleştirici aşamalı kümeleme yöntemleri nelerdir?


CEVAP:

Birleştirici aşamalı kümeleme yöntemlerinde, birimlerin birbirleri ile birleştirilmesinde farklı yöntemler kullanılmaktadır. Bunlardan sıklıkla kullanılan ve genel kabul görmüş olanları aşağıdaki gibi sayılabilir.

  • Tek Bağlantı Kümeleme Yöntemi (TekBKY, SINGLE Linkage [SLINK], En Yakın Komşuluk, Nearest Neighbour Method)
  • Tam Bağlantı Kümeleme Yöntemi (TamBKY, COMPLETE linkage Method [CLINK], Furthest Neighbor Method)
  • Ortalama Bağlantı Kümeleme Yöntemi (OrtBKY, AVERAGE Linkage Method, [ALINK])
  • McQuitty Bağlantı Kümeleme Yöntemi (McQuitty linkage Method)
  • Küresel Ortalama Bağlantı Kümeleme Yöntemi (KOBKY, CENTROID linkage Method)
  • Medyan Bağlantı Kümeleme Yöntemi (MBKY, MEDIAN linkage Method)
  • Ward Bağlantı Kümeleme Yöntemi (WBKY, WARD linkage Method, En Küçük Varyans Kümeleme Yöntemi)

#14

SORU:

R Programında tek bağlantı kümeleme yöntemi le veri setine ilişkin uzaklık matrisini bulmak için yapılması gereken nedir?


CEVAP:

Veri setine ilişkin uzaklık matrisini bulmak için dist.x=dist(x,method=”euclidean”) komutu kullanılır. Bu komut yardımıyla x veri setinde birimler arasındaki Öklid uzaklıkları hesaplanır ve hesaplanan uzaklıklar dist.x matrisine atanır.


#15

SORU:

Aşamalı olmayan kümeleme yöntemlerinin amacı nedir?


CEVAP:

Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemlerdir. Aşamalı kümelemede hem birimler hem de değişkenler birbirleriyle farklı benzerlik düzeylerinde kümeler oluştururken, aşamalı olmayan kümeleme yöntemlerinde sadece birimler kümelenmektedir. Birbirleri ile benzer birimlerin aynı kümede toplanması koşuluyla veri setindeki n birimin k sayıda kümeye ayrılması amaçlanmaktadır.


#16

SORU:

k-Medyanlar Yönteminin özellikleri nelerdir?


CEVAP:

Medyan değerlerine ait vektörleri küme merkezi olarak kullanan k merkezli algoritmadır. Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılmaktadır. Bu yöntemde de uzaklık ölçüsü seçimi keyfi olarak gerçekleştirilebilir, ancak yakınsamanın sağlanıp sağlanmadığı mutlaka göz önünde bulundurulmalıdır. Bu algoritmada, Manhattan uzaklık ölçüsü en sık tercih edilen kümelenme ölçütüdür.


#17

SORU:

k-ortalamalar yöntemi ile küme sayısını belirlemek için kullanılabilecek yaklaşımlar nelerdir?


CEVAP:

Birimlerin k-ortalamalar yöntemi ile kümelenmesi için uzaklık matrisi ya da benzerlik matrisi hesaplamak gerekmemektedir. Verilerin kümelenmesinde kullanılacak olan küme sayısını önceden belirlemek yeterlidir. Küme sayısını belirlemek için ise farklı yaklaşımlar bulunmaktadır. Bunlar;

  • Aşamalı kümeleme yöntemlerinden elde edilen dendrogramları inceleyerek karar vermek,
  • Olasılıklı olarak başlangıç noktalarını rassal olarak belirlemek,
  • Ardışık olarak (Küme sayısı 2, 3, 4, ..., k biçiminde) her seferinde küme sayısını bir artırarak oluşan kümelemede birimlerin hangi kümeye ait olduğuna ilişkin küme üyeliklerini belirlemek. Yeni veri yapısına Ayırma (Discriminant) Analizi uygulamak ve en yüksek önemliliği bulunan Wilk’s Lamda değerine sahip olan küme sayısını, uygun kümeleme olarak kabul etmek,
  • İlk nb birimin değişkenlere ait ortalamalarını başlangıç ortalama vektörü olarak ele alıp birimleri bu kümelere atama yaklaşımlarından birini seçmek,
  • Farklı rastgele başlatma konfigürasyonları seçerek küme sayısını bulmak, mümkündür.

#18

SORU:

Ayırıcı aşamalı kümeleme yöntemi ile birleştirici aşamalı kümeleme yönteminin farkı nedir?


CEVAP:

Ayırıcı aşamalı kümeleme yöntemi, Birleştirici aşamalı kümelemenin tersidir. Birleştirici yönteme ilişkin sonuçlardan ayrıcı yönteme ilişkin sonuçlar da elde edilebilir. Aşamalı kümeleme yöntemlerinde, birimlerin benzerlikleri yüzde yüze yakınsarken (similarityà%100), farklılıkları sıfıra doğru yakınsar (dissimilarity à0).


#19

SORU:

En uzak komşuluk nedir?


CEVAP:

Tam Bağlantı Kümeleme Yöntemi; Maksimum Yöntem, Sıralama Tip Analizi (Rank Order Typical Analysis), En Uzak Komşu Analizi (Furthest Neighbor Analysis), Çap Yöntemi isimleriyle de anılmaktadır. TamBK yöntemi, TekBK yönteminin aksine en uzak komşu niteliğine sahip birimleri birbirleriyle birleştirerek küme oluşturmayı içermektedir. Yani bu yöntem en uzak komşuluk olarak da bilinmektedir.


#20

SORU:

Aşamalı olmayan kümeleme yöntemlerinin daha çok büyük veri setlerine uygulanmasının nedeni nedir?


CEVAP:

Aşamalı kümeleme yöntemleri daha çok küçük veri setleri için uygundur. Buna karşılık aşamalı olmayan kümeleme yöntemleri ise daha çok büyük veri setlerine uygulanmaktadır. Bunun nedeni aşamalı olmayan kümeleme yöntemlerinde başlangıçta benzerlik ve uzaklık matrislerinin hesaplanmamasıdır. Ayrıca aşamalı olmayan kümeleme yöntemleri veri setinde bulunan aşırı uç değerlerden daha az etkilenmektedir.