Veri Madenciliği Final 3. Deneme Sınavı
Toplam 20 Soru1.Soru
Küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şekli hangi kümeleme yöntemidir?
Tek Bağlantı Kümeleme Yöntemi |
McQuitty Bağlantı Kümeleme Yöntemi |
Ward Bağlantı Kümeleme Yöntemi |
Tam Bağlantı Kümeleme Yöntemi |
k-ortalamalar Yöntemi |
Bu yöntem, küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şeklidir. Küme içi varyansın minimum olduğu kümeler belirlenir ve bu doğrultuda kümeler oluşturulur. Minimum varyans yöntemi olarak da bilinen bu yaklaşım, bir kümede yer alan bir birimin, aynı kümenin içinde bulunan birimlerden ortalama uzaklığını dikkate almaktadır. Küme bağlantılarından ziyade küme içi kareler toplamı dikkate alınmaktadır. Bu yöntem, az birimli kümeleri birleştirme eğilimindedir. Ayrıca bu yöntemin birbirine eşit sayıda birim içeren kümeler oluşturma gibi bir eğilimi de vardır. Bundan dolayı, araştırmacının kümelerdeki birim sayılarının benzer (yakın) olduğu beklentisi durumunda bu yönteme başvurması önerilmektedir. Aşırı değerlerden etkilenmektedir.
2.Soru
Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralına ne denir?
Veri madenciliği |
Pazar sepeti analizi |
İlişki kuralları |
İlginç kural |
Enteresan kural |
Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralına ilginç kural denir.
3.Soru
Bir banka müşteri veritabanında yer alan müşterilerin kredi riskleri kümesi R={iyi, kötü, kötü, iyi, iyi, kötü, iyi, iyi, kötü, iyi} olarak verilmiş olsun. Buna göre C1 iyi sonucunu, C2 kötü sonucunu temsil etmek üzere, risk niteliğinin olasılık dağılımı aşağıdakilerden hangisidir?
PR={6/10, 4/10} |
PR={4/10, 6/10} |
PR={10/6, 10/4} |
PR={10/4, 10/6} |
PR={6/100, 4/100} |
R={iyi, kötü, kötü, iyi, iyi, kötü, iyi, iyi, kötü, iyi} listesinde 6 adet iyi, 4 adet kötü değeri vardır. C1=iyi, C2=kötü olarak verilmiştir. Bu durumda
PR={6/10, 4/10}
olacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.
4.Soru
Veri setine ilişkin uzaklık matrisini bulmak için aşağıda verilen komutlardan hangisi kullanılır?
>table(x$Ülke,results$cluster) |
>plot(h,labels=x$Ülke) |
>results$size |
>x=read.csv(“c:/ulkeler.txt”) |
ist.x=dist(x,method=”euclidean”) |
Veri setine ilişkin uzaklık matrisini bulmak için dist.x=dist(x,method=”euclidean”) komutu kullanılır.
5.Soru
Seçeneklerden hangisi web madencilğinin uygulama alanlarından birisidir?
Bankacılık |
Pazarlama |
Hukuk |
Sigorta |
Güvenlik soruşturması |
Güvenlik soruşturması bir web madenciliği uygulama alanıdır. Diğer alanlar veri madenciliği uygulama alanlarındandır.
6.Soru
aşağıdakilerden hangisi veri madenciliği sürecine ilişkin adımlardan biri değildir?
Verinin elde edilmesi |
Verinin saklanması ve yönetim |
Veri erişiminin sağlanması |
Verinin analiz edilmesi |
verilerin sosyal ağlarda tartışılması |
verilerin sosyal ağlarda tartışılması
7.Soru
'En basit karar ağacı oluşturma algoritmasıdır ve ayırma kriteri olarak kazanç ölçütünden yararlanılmaktadır' olarak tanımlanan algoritma aşağıdakilerden hangisinde doğru verilmiştir?
C4.5 |
CART |
CHAID |
ID3 |
QUEST |
ID3 algoritması en basit karar ağacı oluşturma algoritmasıdır. Ayırma kriteri olarak kazanç ölçütünden yararlanılmaktadır.
8.Soru
Karar ağacı ile sınıflandırma sonucu iki küme oluşmuştur. Birinci kümenin olasılığı 0.57 ise, ikinci kümenin olasılığı kaçtır?
0.57 |
0.33 |
0.27 |
0.43 |
1 |
Karar ağaçlarının son düğümleri yani yaprak düğümler sınıfları belirtir. Bu sınıfların olasılık değerleri toplamı 1'dir. Bu nedenle ikinci kümenin olasılık değeri, 1-0.57=0.43
Doğru cevap D şıkkıdır.
9.Soru
Aşağıdakilerden hangisi K-Ortalamalar Kümeleme Yönteminde küme sayısını belirlemek için kullanılan yaklaşımlardan biri değildir?
Kümenin en küçük ve en büyük değeri arasındaki farkı eşit aralığa bölmek |
Aşamalı kümeleme yöntemlerinden elde edilen dendrogramları inceleyerek karar vermek, |
Olasılıklı olarak başlangıç noktalarını rassal olarak belirlemek, |
İlk nb birimin değişkenlere ait ortalamalarını başlangıç ortalama vektörü olarak ele alıp birimleri bu kümelere atama yaklaşımlarından birini seçmek, |
Farklı rastgele başlatma konfigürasyonları seçerek küme sayısını bulmak, |
K-Ortalamalar Kümeleme Yöntemi sadece birimleri kümelemekte kullanılan bir yöntemdir.
Birimlerin k-ortalamalar yöntemi ile kümelenmesi için uzaklık matrisi ya da benzerlik matrisi hesaplamak gerekmemektedir. Verilerin kümelenmesinde kullanılacak olan küme sayısını önceden belirlemek yeterlidir. Küme sayısını belirlemek için ise farklı yaklaşımlar bulunmaktadır. Bunlar;
Aşamalı kümeleme yöntemlerinden elde edilen dendrogramları inceleyerek karar vermek,
Olasılıklı olarak başlangıç noktalarını rassal olarak belirlemek,
Ardışık olarak (Küme sayısı 2, 3, 4, ..., k biçiminde) her seferinde küme sayısını bir artırarak oluşan kümelemede birimlerin hangi kümeye ait olduğuna ilişkin küme üyeliklerini belirlemek. Yeni veri yapısına Ayırma (Discriminant) Analizi uygulamak ve en yüksek önemliliği bulunan Wilk’s Lamda değerine sahip olan küme sayısını, uygun kümeleme olarak kabul etmek,
İlk nb birimin değişkenlere ait ortalamalarını başlangıç ortalama vektörü olarak ele alıp birimleri bu kümelere atama yaklaşımlarından birini seçmek,
Farklı rastgele başlatma konfigürasyonları seçerek küme sayısını bulmak,
Bu nedenle doğru yanıt a) seçeneğidir
10.Soru
Aşağıdakilerden hangisi veri dönüştürme işlemlerinden birisi değildir?
Düzeltme |
Bir araya getirme |
Genelleme |
Özellik oluşturma |
Veri küpü birleştirme |
Veri dönüştürme işlemleri düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma biçiminde sıralanır. Bu yüzden doğru cevap E olmaktadır.
11.Soru
R'ye excel verisi aktarımı hangi komut yardımıyla yapılmaktadır?
dim() |
head() |
read.csv() |
help() |
library() |
R’ye aktarılmak için hazır durumdadır. Aktarım için read.csv() fonksiyonundan yararlanılır.
12.Soru
Bir rassal değişkenin seçtiğimiz modele göre parametrelerinin yerine konulması ile elde edilen değere ne denir?
Kestirim |
Parametre |
Örnekleme |
İndeks |
seçim |
Kestirim, bir rassal değişkenin seçtiğimiz modele göre parametrelerinin yerine konulması ile elde edilen değerdir.
Doğru cevap A şıkkıdır.
13.Soru
Bir alışveriş veritabanından oluşturulacak ilişki kuralları içerisinden işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralına ne denir?
Destek ölçütü kuralı |
Güven ölçütü kuralı |
İlk ölçüt kuralı |
İlginç kural |
Sonuç kural |
Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı ilginç kural olarak tanımlanabilir.
14.Soru
Aşağıdakilerden hangisi aşamalı olmayan kümeleme yöntemleri arasındadır?
Ortalama Bağlantı Kümeleme Yöntemi |
k-Medoidler Kümeleme Yöntemi |
Tam Bağlantı Kümeleme Yöntemi |
McQuitty Bağlantı Kümeleme Yöntemi |
Tek Bağlantı Kümeleme Yöntemi |
Aşamalı olmayan Kümeleme Yöntemleri arasında en yaygın kullanılan yöntem K-ortalamalar kümeleme (k-means clustering, MacQueens’ Method) yöntemidir. Bu yön-tem birçok istatistik hazır yazılımda bulunmaktadır. Bunun dışında Medoid kümeleme ve Fuzzy kümeleme gibi aşamalı olmayan kümeleme yöntemleri de bulunmaktadır.
15.Soru
Veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan veri madenciliği yöntemleri seçeneklerden hangisidir?
Sınıflandırma |
Karar ağaçları |
Kümeleme analizi |
Lojistik regresyon |
Birliktelik kuralları |
Birliktelik Kuralları, veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan yöntemler veri madenciliği yöntemleridir. Özellikle pazarlama alanında uygulanmaktadır (Pazar sepet analizleri). Bu yöntemler birlikte olma kurallarını belirli olasılıklarla ortaya koymaktadır.
16.Soru
Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Aşağıdakilerden hangisi bu algoritmalardan biri değildir?
QUEST |
SLIQ |
C4.5 |
ID3 |
ARENA |
Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Bu algoritmalara örnek olarak ID3, C4.5, CART, CHAID, QUEST, SLIQ, SPRINT ve MARS verilebilir. ARENA bu algoritmalardan biri değildir.
Doğru cevap E şıkkıdır.
17.Soru
Tam bağlantı kümeleme yönteminde uzaklıklar aşağıdaki hangi eşitlikle hesaplanmaktadır?
dmj=min (dkj, dlj) |
dmj=maks (dkj, dlj) |
dmj= (Nkdkj + Nldlj)/Nm |
dmj= (dkj + dlj)/2 |
dmj= (Nkdkj + Nldlj)/Nm- NkNldk1/N2m |
Bu yöntem, en uzak komşuluk olarak da bilinmektedir. Tek bağlantı kümeleme yöntemine çok benzemekle birlikte bu yöntemdeki tek farklılık oluşturulan her kümedeki eleman çiftleri arasındaki uzaklığın maksimum olanının ele alınmasıdır.
Bu yönteme tam bağlantı kümeleme yöntemi denmesinin nedeni, bir küme içindeki tüm birimlerin birbirlerine maksimum uzaklık veya minimum yakınlığa bağlı olmasıdır (Şekil 7.5). Tam bağlantı tekniğindeki uzaklıklar,
dmj=maks (dkj, dlj)
biçiminde hesaplanmaktadır.
Bu nedenle doğru yanıt a) seçeneğidir
18.Soru
R dilinde yazılmış olan aşağıdaki kullanıcı tanımlı fonksiyon dikkate alındığından aşağıdaki seçeneklerden hangisindeki ifade doğru değildir?
> ozetle<-function(veri)
{ # BU FONKSİYON VERİNİN ÖZETLEYİCİ İSTATİSTİKLERİNİ HESAPLAR VE GÖRÜNTÜLER
+ozet<-summary(veri)
+sapma<-var(veri)
+return(ozet,sapma)
+}
Fonksiyonun dışarıdan verilen parametresi “ozet” değişkeninde tutulmaktadır. |
Fonksiyonun dışarıdan verilen parametresi “veri” değişkeninde tutulmaktadır. |
Fonksiyon “ozet” ve “sapma” değerlerini döndürmektedir. |
Fonksiyon “veri” değeri üzerinde “summary” ve “var” işlemlerini gerçekleştirmektedir. |
Fonksiyonun adı “özetle” dir. |
R yazılımında hazır yazılmış fonksiyonlar bazen analizler için yeterli olmayabilir. Bu tür durumlar için kullanıcılar kendi fonksiyonlarını yazabilirler. R yazılımında bu işlem function (parametreler) komutu yardımıyla gerçekleştirilir. Yukarıdaki örnekte “özetle” fonksiyonunun parametresi “veri” değişkendir. Bu nedenle doğru yanıt a) seçeneğidir.
19.Soru
Birleştirici kümeleme yöntemlerinde ortalamalar üzerinden yapılan kümeleme yöntemleri düşünüldüğünde hangisi dışarıda kalır?
Ortalama Bağlantı Kümeleme Yöntemi |
Küresel Ortalama Bağlantı Kümeleme Yöntemi |
McQuitty Bağlantı Kümeleme Yöntemi |
Medyan Bağlantı Kümeleme Yöntemi |
Tek Bağlantı Kümeleme Yöntemi |
Tek bağlantı kümeleme yöntemi yakınlığa dayanan bir kümeleme yöntemidir.
20.Soru
Aşağıdakilerden hangisi veya hangileri nitel verilerde kullanılan ayırma kriteri belirleme metotlarından biridir?
I-Entropi indeksi
II-Twoing indeksi
III-En Küçük Kareler Sapması yöntemi
I |
I-II |
I-III |
III |
I-II-III |
Düğümün temsil ettiği, dolayısı ile ayırma işlemini en iyi şekilde gerçekleştirecek olan niteliğin seçilmesi, başka bir ifadeyle ayırma kriterinin belirlenmesi için çeşitli ölçüler geliştirilmiştir. Bu ölçüler, niteliğin veri tipine göre değişiklik göstermektedir. Nitel veri için Entropi İndeksi, Gini İndeksi, Sınıflandırma Hatası İndeksi ve Twoing ölçüleri kullanılır.
Ek olarak Twoing ölçüsünün sıralı ölçekle ölçülmüş değişkenlerin bulunduğu veri için Ordered Twoing bulunmaktadır. Nicel veriler için ise En Küçük Kareler Sapması yöntemi en sık kullanılan ölçüdür.
Doğru cevap B şıkkıdır.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ