Veri Madenciliği Final 6. Deneme Sınavı

Toplam 20 Soru
PAYLAŞ:

1.Soru

Karar ağaçlarında kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması amacıyla yapılan işleme ne denir?


Çoklu bağıntı azaltma

Ağırlıklandırma

Serpme

Budama

Standartlaştırma


2.Soru

Aprio algoritmasının 1. adımının üçüncü aşaması aşağıdakilerden hangisidir?


I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirle- nir ve belirlenen her bir nesne seti için destek değerleri hesaplanır.

Hesaplanan destek değerleri içerisinden destek eşik değeri olarak verilen 0,50 değerinin üzerinde destek değerine sahip nesne setlerinden bir nesneli sık görülen nesne kümesi L1 oluşturulur.

Giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur.

2 adet nesne içeren nesne setleri için hesaplanan destek değerleri içerisinden verilen destek eşik değeri 0,50 değerine eşit veya üzerinde destek değerine sahip nesne setlerinden iki nesneli sık görülen nesne setleri kümesi L2 oluşturulur.

L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alın- mak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur. Ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır.


3.Soru

Destek ({Pirinç, Barbunya}?{Turşu})=0,60  olarak hesaplanmış ise aşağıdakilerden hangisi doğrudur?


Pirinç ve barbunya alanlar %40 olasılıkla turşu da alırlar.

Pirinç ve barbunya alanlar beraberinde turşu da almışlardır.

Pirinç ve barbunya alanların %60’ı turşu da almıştır.

Pirinç ve barbunyanın birlikte alındığı alışverişlerin %60’ında turşu da alınmıştır.

Pirinç ve barbunya alma olasılığı, sadece turşu alma olasılığından %60 daha fazladır.


4.Soru

Bir karar ağacında bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, çıkartılmasına karar verilen dalın içerdi­ği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştü­rülmesi işlemine ne ad verilir?


Karar ağacı budama

Karar ağacı modelini test etme

Çapraz doğrulama

Eğitim verisi elde etme

Maliyet karmaşıklığını azaltma


5.Soru

Bir banka müşteri veritabanında yer alan BORÇ, GELİR, STATÜ niteliklerine göre müşterinin RİSK durumu belirlenmek istenmektedir. H entropi değeri olmak üzere, BORÇ niteliği ile ayırma yapılması istendiğinde elde edilen kazanç aşağıdaki eşitliklerden hangisi ile hesaplanır?


Kazanç(BORÇ, RİSK) =H(RİSK) - H(BORÇ, RİSK)

Kazanç(RİSK, BORÇ) =H(RİSK) - H(RİSK, BORÇ)

Kazanç(BORÇ) =H(RİSK) - H(BORÇ)

Kazanç(BORÇ, RİSK) =H(RİSK) / H(BORÇ, RİSK)

Kazanç(BORÇ, RİSK) =H(RİSK) * H(BORÇ, RİSK)


6.Soru

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketin kurulu olması gerekmektedir?


digest

curl

colorspace

car

rpart


7.Soru

Kümeleme analizinde sonuçların bağlantılar, uzaklıklar ve birimlerin bağlanma düzey­lerinin bir ağaç biçiminde ele alınarak ayrıntılı bir biçimde özetlendiği; genellikle x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırıldığı; değişkenlerin ya da birimlerin hangi aşamada ve hangi uzaklık ya da benzerlik düzeyinde bir araya gelerek küme oluşturduklarının ayrıntılı biçimde görüldüğü grafiksel yöntem aşağıdakilerden hangisidir?


Dendrogram

Cluster

Manhattan (City-Block) uzaklığı

Farklılık matrisi

Plot


8.Soru

Bir alışveriş veri­tabanından oluşturulacak ilişki kuralları arasından daha önceden keşfedilmemiş ve eyleme dönük, bir başka ifadeyle uygulanabilir işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı aşağıdakilerden hangisidir?


İlginç kural

Güçlü kural

Güven ölçütü

Destek eşik değeri

Kaldıraç ölçütü


9.Soru

Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılan yöntem aşağıdakilerden hangisidir?


Ortalama Bağlantı Kümeleme Yöntemi

k-medyanlar Yöntemi

k-ortalamalar Yöntemi



k-medoidler Yöntemi

Tek Bağlantı Kümeleme Yöntemi


10.Soru

aşağıdakilerden hangisinde web madenciliğinde veri kaynaklarından biri değildir?


İçerik verisi

Yapı verisi

Kullanım verisi

Kullanıcı profil verisi

kullanıcı erişim izni


11.Soru

Veri madenciliği ile karşılaştırıldığında Web madenciliğine ilişkin verilen seçeneklerden hangisi yanlıştır?


Bilgiler yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış formlarından elde edildiği için geniş bir veritabanından bilgi sağlanır.

Veritabanı 1 milyon iş içerir ve işleme süreci uzundur.

Veri gizli değildir. Sadece kayıt dosyalarına erişebilmek için izin gerekir.

Web sayfalarının karmaşıklığı, webin büyüklüğü, bilginin bağlantısı, bilginin dinamikliği, kullanıcı iletişiminin çeşitliliği gibi zorlukları bulunmaktadır.

URL’ler izlenerek veriye erişilebilinmesi, olayların ve URL’lerin çeşitliliği ve verilerin büyük bir kısmı kullanılmadan kalması dezavantajlarıdır.


12.Soru

Başlangıçta veri setinde bulunan tüm birimlerin bir küme oluşturduğunu kabul ederek analize başlamayı amaçlayan kümeleme analizi yaklaşımı hangisidir?


Aşamalı olmayan kümeleme analizi

Birleştirici aşamalı kümeleme analizi

Ayırıcı aşamalı kümeleme analizi

Karar ağaçları

Dendogram


13.Soru

Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemler hangisidir?


Dendogram

Karar ağaçları

Ayırıcı aşamalı kümeleme analizi

Aşamalı olmayan kümeleme analizi

Birleştirici aşamalı kümeleme analizi


14.Soru

Web sitelerinde var olan metinsel verinin derlenmesi ve sınıflandırılması işlemi olarak tanımlanan web madenciliği türü hangisidir?


Atıf analizi

İnternette arama ve bağlantı köprüleri

Bilgi keşfi

Kısa metin işleme

Web arama


15.Soru

R yazılımında lsa paketindeki cosine() fonksiyonu neyi elde etmede kullanılır?


Karl Pearson uzaklığı

Jaccard uzaklığı

Korelasyon uzaklığı

Basit eşleştirme uzaklığı

Açısal benzerlik


16.Soru

Soru 1:  Aşağıdakilerden hangisi veri madenciliği sürecinin temel adımlarından biri değildir?


Verinin elde edilmesi

Verinin saklanması ve yönetimi

Veri erişiminin sağlanması

Verinin analiz edilmesi

Bilgi seçimi ve ön işleme


17.Soru

Aşağıdakilerden hangisi ilişki kuralı oluşturabilmek için geliştirilen algoritmalardan biri değildir?


CSS

AIS

SETM

FP-Growth

Eclat


18.Soru

Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemi veri madenciliği yöntemlerinden hangisidir?


Birliktelik kuralları

Kümeleme

Sınıflandırma

Lojistik regresyon

Diskriminant analizi


19.Soru

Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Seçeneklerden hangisi bu aşamalardan birisi değildir? 


Veri matrisinin oluşturulması

Benzerlik matrisinin hesaplanması

Kümelemede esas alınacak yöntemlerin belirlenmesi

Strateji matrisinin oluşturulması

Elde edilen sonuçların yorumlanması


20.Soru

Kümeleme yöntemlerinin uygulanmasındaki amaç aşağıdakilerden hangisidir?


Küme içi homojenlik arttırılırken kümeler arası homojenliğin azaltılması amaçlanır.

Küme içi homojenlik azaltılırken kümeler arası homojenliğin artırılması amaçlanır.

Kümeler ara­sındaki farklılıkları ve kümeler içi benzerlikleri en düşük düzeye indirmektir.

Kümeler ara­sındaki farklılıklar azaltılırken kümeler içi farklılıkları en yüksek düzeye çıkarmaktır.

Kümeler ara­sındaki benzerlikler artırılırken kümeler içi farklılıkları en yüksek düzeye çıkarmaktır.