Veri Madenciliği Final 7. Deneme Sınavı
Toplam 12 Soru1.Soru
Sınıflandırma ve regresyon ağacı oluşturabilmek için R’de yüklenmesi gereken paket aşağıdakilerden hangisidir?
rpart |
stats |
lsa |
scrime |
arules |
R ile sınıflandırma ve regresyon ağacı oluşturabilmek için rpart paketinin R’de kurulu olması gerekmektedir. Eğer kurulu değilse, Paketler menüsünden Paket Kur seçeneği seçilerek kurulur. Kurulum bittikten sonra, paketin hafızaya yüklenmesi için, yine aynı menüde bulunan Paket Yükle seçeneği yardımıyla veya library(rpart) komutu yardımıyla rpart paketi hafızaya yüklenebilir.
Bu nedenle doğru yanıt a) seçeneğidir.
2.Soru
>library(rpart)
>agac<-rpart(formula=RİSK~BORÇ+GELİR+STATÜ,data=veri[,2:5],method=“class”)
>agac
n= 45
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 45 22 iyi (0.5111111 0.4888889)
2) STATÜ=ücretli 28 12 iyi (0.5714286 0.4285714)
4) GELİR=düşük 13 4 iyi (0.6923077 0.3076923) *
5) GELİR=yüksek 15 7 kötü (0.4666667 0.5333333) *
3) STATÜ=işveren 17 7 kötü (0.4117647 0.5882353) *
Yukarıda verilen, sınıflandırma ve regresyon ağacı oluşturmak amacıyla kullanılan R komutları kümesinde (*) ile işaretlenen düğümler aşağıdakilerden hangisidir?
Yaprak düğüm |
Kök düğüm |
İç düğüm |
Sınıflayıcı nitelik |
Ayırıcı düğüm |
Verilen R komutu sonucu komut diziliminin en son satırında yer alan agac değişkeni bize elde edilen sonuçları göstermektedir. Sonuçlara göre, sırasıyla düğüm numarası (node), düğümü yaratan ayırıcı niteliğin tanımı (split), düğümdeki kayıt sayısı (n), düğümdeki kayıp kayıt sayısı (loss), düğüm için yapılan sınıf kestirimi (yval) ve ilgili düğümde yer alan kayıtların sınıflayıcı nitelik değerlerinin olasılıkları (yprob) yer almaktadır. “*” ile işaretlenen düğümler yaprak düğümleri ifade etmektedir.
Bu nedenle doğru yanıt a) seçeneğidir.
3.Soru
Seçeneklerden hangisi birleştirici kümeleme analizi yöntemlerinden birisi değildir?
Tam Bağlantı Kümeleme Yöntemi |
Ortalama Bağlantı Kümeleme Yöntemi |
Küresel Ortalama Bağlantı Kümeleme Yöntemi |
Medyan Bağlantı Kümeleme Yöntemi |
Çok Bağlantı Kümeleme Yöntemi |
Birleştirici aşamalı kümeleme yöntemlerinde, birimlerin birbirleri ile birleştirilmesinde
farklı yöntemler kullanılmaktadır. Bunlardan sıklıkla kullanılan ve genel kabul görmüş
olanları aşağıdaki gibi sayılabilir.
• Tek Bağlantı Kümeleme Yöntemi (TekBKY, SINGLE Linkage [SLINK], En Yakın
Komşuluk, Nearest Neighbour Method)
• Tam Bağlantı Kümeleme Yöntemi (TamBKY, COMPLETE linkage Method
[CLINK], Furthest Neighbor Method)
• Ortalama Bağlantı Kümeleme Yöntemi (OrtBKY, AVERAGE Linkage Method,
[ALINK])
• McQuitty Bağlantı Kümeleme Yöntemi (McQuitty linkage Method)
• Küresel Ortalama Bağlantı Kümeleme Yöntemi (KOBKY, CENTROID linkage
Method)
• Medyan Bağlantı Kümeleme Yöntemi (MBKY, MEDIAN linkage Method)
• Ward Bağlantı Kümeleme Yöntemi (WBKY, WARD linkage Method, En Küçük
Varyans Kümeleme Yöntemi)
4.Soru
Seçeneklerden hangisi web madenciliği veri türlerinden birisi değildir?
İçerik |
Yapı |
Sunucu |
Kullanım |
Kullanıcı profili |
Web madenciliğinde kullanılan verileri dört başlıkta incelenir. İçerik verisi, yapı verisi, kullanım verisi ve kullanıcı profil verisidir.
5.Soru
Aşağıdakilerden hangisinin belirlenmesinde, pazar sepeti analiz’inin çıktıları rol oynamaz?
Müşterilerin kişisel tercihlerinin belirlenmesi |
Birlikte satışa sunulacak ürünlerin belirlenmesi |
Ürün satış raflarının düzenlenmesi |
Promosyon ürünlerin belirlenmesi |
Ürün fiyatlarının belirlenmesi |
Pazar sepeti analizi, müşterilerin daha önceden yapmış oldukları alışverişlerinden oluşan veritabanından her bir alışverişinde birlikte almış olduğu ürünler arasındaki ilişkilerden yola çıkılarak müşterilerin alışveriş alışkanlıklarının belirlenmesidir. Bu sayede müşterilerin kişisel tercihlerinin belirlenmesi, birlikte satışa sunulacak ürünlerin belirlenmesi, ürün satış raflarının tasarlanması ve promosyon düzenlemeleri gibi satışı artırmaya yönelik çalışmalar daha doğru bir şekilde yapılabilmektedir.
6.Soru
Bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültünün temizlenmesi süreci aşağıdaki veri dönüştürme işlemlerinden hangisine aittir?
Düzeltme |
Bir araya getirme |
Genelleme |
Normalleştirme |
Özellik oluşturma |
Bazı durumlarda orijinal veri kümelerindeki özellikler gerekli enformasyonu içerdiği halde veri madenciliği algoritmaları için uygun yapıda olmayabilirler. Bu durumda orijinal özelliklerinden oluşturulan bir veya daha fazla yeni özellik orijinal özelliklerden daha faydalı olabilir. Veri dönüşümünde verilerin veri madenciliği için uygun formlara dönüştürülmesi düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma işlemleriyle gerçekleştirilir.
- Düzeltme; bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültünün temizlenmesidir.
- Bir araya getirme; veriler bir araya getiren gruplama fonksiyonları kullanılarak gerçekleştirilir. Günlük temelde bulunan bir veri özelliğinin aylık temele dönüştürülmesi örnek verilebilir.
- Genelleme; düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesidir. Örneğin; yaş gibi sayısal verilerin kategorik olan genç, orta yaşlı veya yaşlı gibi değerlere dönüştürülmesi ya da cadde isimlerinden oluşan kategorik verilerin şehir veya ülke şeklinde daha yüksek kavramlara dönüştürülmesidir.
- Normalleştirme veya standartlaştırma; bir değişkenin standartlaştırılması veya normalleştirilmesi yaygın olarak kullanılan veri dönüşüm tekniğidir. Veri madenciliği terminolojisinde her iki terim birbiri yerine kullanılmaktadır. Ancak buradaki normalleştirme terimi, istatistikte kullanılan bir değişkenin normal dağılmış bir değişkene dönüştürülmesi ile karıştırılmamalıdır. Standartlaştırma veya normalleştirmenin amacı sayısal veri değerlerinin küçük bir bölgede yer alması için ölçeklenmesidir. Normalleştirilmiş veriler sınıflama için kullanılan yapay sinir ağları algoritmalarının öğrenme aşamasının hızlanmasına yardım edecektir. Kümeleme gibi mesafe ölçümlerine dayalı algoritmalarda normalleştirilmiş verilerin kullanılması faydalı olacaktır.
- O¨zellik oluşturma; yeni özellikler madencilik sürecine yardımcı olmak için verilen özellikler kümesinden oluşturulur ve düzenlenir. Özellik oluşturma karar ağacı algoritmaları sınıflama için kullanıldığında bölümleme problemini azaltmaya yardımcı olabilir. Yükseklik ve genişlik özelliklerinden alan özelliğinin oluşturulması bu duruma bir örnek olarak verilebilir
Bu nedenle doğru yanıt a) seçeneğidir.
7.Soru
Küme elemanları arasındaki en küçük uzaklık değeri temel alınarak kümelerin
oluşturulması esasına dayanan aşamalı birleştirici kümeleme yöntemi hangisidir?
Tam Bağlantı Kümeleme Yöntemi |
Tek Bağlantı Kümeleme Yöntemi |
Medyan Bağlantı Kümeleme Yöntemi |
Ward Bağlantı Kümeleme Yöntemi |
Ortalama Bağlantı Kümeleme Yöntemi |
Literatürde en yakın komşuluk olarak da bilinen tek bağlantı kümeleme yöntemi,
uzaklık matrisini kullanarak birbirine en yakın (uzaklık değerleri en küçük) birim ya da
değişkenleri birleştirerek kümelerin oluşmasını sağlamaktadır.
8.Soru
Karar vericinin içinde bulunduğu karar verme probleminde ortaya çıkabilecek tüm durumları ve karar vericinin karşılaşabileceği tüm senaryoları bir arada gösterebilen bir grafiksel yaklaşıma ne ad verilir?
Karar ağaçları |
Sınıflandırıcı |
Ayırıcı |
Sınıflayıcı |
Karar verme |
Karar ağaçları, karar vericinin içinde bulunduğu karar verme probleminde ortaya çıkabilecek tüm durumları ve karar vericinin karşılaşabileceği tüm senaryoları bir arada gösterebilen bir grafiksel yaklaşımdır.
Bu nedenle doğru yanıt a) seçeneğidir.
9.Soru
Aşağıdakilerden hangisi web içerik madenciliğinde kullanılan yöntemlerden birisi değildir?
Kümeleme Analizi |
Otomatik Öğrenme |
İlişki Kuralları |
Özel Algoritmalar |
İstatiksel Yöntemler |
Kümeleme Analizi web içerik madenciliğinde kullanılan yöntemlerden birisi değildir.
10.Soru
Aşağıdakilerden hangisi veri indirgemede kullanılan yöntemlerden biri değildir?
Ondalık ölçekleme |
Veri küpü birleştirme |
Boyut İndirgeme |
Veri Sıkıştırma |
Büyük Sayıların İndirgenmesi |
Veri İndirgeme
Oldukça karmaşık olan ve çok büyük veri kümelerinin madenciliğinin yapılması çok uzun zaman aldığından bu tür verilerin olduğu gibi alınarak analiz edilmesi uygulanabilir ve pratik olmamaktadır. Bu nedenle veri indirgeme yöntemleri çok daha küçük hacimde indirgenmiş veri kümelerinin oluşturulması için kullanılır. Veri indirgeme işlemi sonrası elde edilen veri seti üzerinde uygulanan madencilik sonucu verinin tamamından elde edilen sonuçtan çok farklı olmamalıdır. Veri indirgeme yöntemleri aşağıdaki bölümlerde açıklanmıştır.
Veri Küpü Birleştirme
Veri madenciliğinin veri kaynağının bir Online Analitik Süreç (OLAP:On Line Analytical Processing) sistemi olması durumunda ihtiyaç duyulan verilerin ön hesaplama ve özetlenmesi daha hızlı gerçekleştirilebilir. Veri küpleri çok boyutlu birleştirilmiş verileri saklar. Bazı durumlarda tüm verinin veri madenciliği algoritmalarında işlenmesi yerine özet bilgilerin kullanılması gerekebilir. Bu durumda OLAP küplerinin sağladığı özetleme fonksiyonlarından faydalanılabilir. Aylık satış fiyatlarının yıllık temelde daha küçük veri seti haline dönüştürülmesi örnek olarak verilebilir. Boyut İndirgeme Veri kümeleri analizle ilgisi olmayan veya gereksiz yüzlerce özellik içerebilir. Gereksiz olan özelliklerin indirgenmesi bir başka deyişle boyut indirgeme pek çok veri madenciliği algoritmasının daha verimli çalışmasını, daha anlaşılabilir bir modelin oluşturulmasını, verilerin daha kolay görselleştirilmesini ve veri madenciliği algoritmaları için gerekli olan işlemci süresi ve hafızasını azaltır.
Veri Sıkıştırma
Veri sıkıştırmada veri kodlama veya dönüşümleri asıl verinin indirgenmiş veya sıkıştırılmış gösterimini elde etmek için uygulanır. Asıl veri herhangi bir enformasyon kaybı olmaksızın sıkıştırılmış veriden tekrar elde edilebiliyorsa o zaman veri sıkıştırma işlemi “kayıpsız” (lossless) olarak nitelendirilir. Bundan başka asıl verinin gerçeğe yakın bir değeri oluşturulabilirse o zaman veri sıkıştırma kayıplı (lossy) olarak nitelendirilir. Metin verilerin sıkıştırılmasında kullanılan algoritmalar kayıpsız sıkıştırma yöntemleri olmalarına rağmen verinin sınırlı olarak işlenmesine neden olurlar. Bu nedenle daha yaygın ve etkili olan kayıplı yöntemler tercih edilir.
Büyük Sayıların İndirgenmesi
Verilerde yer alan büyük sayların daha küçük şekilleri seçilerek veri hacminin indirgenmesi için uygulanan yöntemlerdir. Veri hacmi parametrik veya parametrik olmayan yöntemler kullanılarak indirgenir. Parametrik yöntemlerde gerçek veri yerine sadece veri parametreleri saklanır ve sıkıştırılan veriyi tahmin etmek için bir model kullanılır. Parametrik olmayan veri indirgeme yöntemlerine histogramlar, kümeleme ve örnekleme gösterilebilir
Bu nedenle doğru yanıt a) seçeneğidir.
11.Soru
Aşağıdakilerden hangisi Apriori algoritmasının temel yaklaşımıdır?
Eğer k nesneden oluşan nesne setleri kümesi en büyük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar. |
Eğer k nesneden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar. |
Eğer k ve l nesnelerinden oluşan nesne setleri kümesi en büyük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar. |
Eğer k ve l nesnelerinden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar. |
Eğer k nesneden oluşan nesne setleri kümesi en büyük destek kriterini sağlıyorsa, bu kümenin alt kümeleri en büyük destek kriterini sağlar. |
Apriori algoritmasının temel yaklaşımı, "Eğer k nesneden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar."dır. Doğru cevap B'dir.
12.Soru
Veritabanlarında bilgi keşfi süreci adımları düşünüldüğünde verilerin toplanması, birleştirilmesi, temizlenmesi ve yeniden yapılandırılması işlemleri hangi adımda gerçekleştirilir?
Amacın Tanımlanması |
Veriler Üzerinde Ön İşlemlerin Yapılması |
Modelin Kurulması ve Değerlendirilmesi |
Modelin Kullanılması ve Yorumlanması |
Modelin İzlenmesi |
Veriler üzerindeki ön işlemler genel olarak;
• Verilerin toplanması ve birleştirilmesi,
• Verilerin temizlenmesi,
• Verilerin yeniden yapılandırılması
biçiminde sınıflandırılabilir.