Veri Madenciliği Final 6. Deneme Sınavı

1.Soru

Karar ağaçlarında kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması amacıyla yapılan işleme ne denir?

Çoklu bağıntı azaltma

Ağırlıklandırma

Serpme

Budama

Standartlaştırma

2.Soru

Aprio algoritmasının 1. adımının üçüncü aşaması aşağıdakilerden hangisidir?

I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirle- nir ve belirlenen her bir nesne seti için destek değerleri hesaplanır.

Hesaplanan destek değerleri içerisinden destek eşik değeri olarak verilen 0,50 değerinin üzerinde destek değerine sahip nesne setlerinden bir nesneli sık görülen nesne kümesi L1 oluşturulur.

Giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur.

2 adet nesne içeren nesne setleri için hesaplanan destek değerleri içerisinden verilen destek eşik değeri 0,50 değerine eşit veya üzerinde destek değerine sahip nesne setlerinden iki nesneli sık görülen nesne setleri kümesi L2 oluşturulur.

L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alın- mak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur. Ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır.

3.Soru

Destek ({Pirinç, Barbunya}?{Turşu})=0,60 olarak hesaplanmış ise aşağıdakilerden hangisi doğrudur?

Pirinç ve barbunya alanlar %40 olasılıkla turşu da alırlar.

Pirinç ve barbunya alanlar beraberinde turşu da almışlardır.

Pirinç ve barbunya alanların %60’ı turşu da almıştır.

Pirinç ve barbunyanın birlikte alındığı alışverişlerin %60’ında turşu da alınmıştır.

Pirinç ve barbunya alma olasılığı, sadece turşu alma olasılığından %60 daha fazladır.

4.Soru

Bir karar ağacında bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesi işlemine ne ad verilir?

Karar ağacı budama

Karar ağacı modelini test etme

Çapraz doğrulama

Eğitim verisi elde etme

Maliyet karmaşıklığını azaltma

5.Soru

Bir banka müşteri veritabanında yer alan BORÇ, GELİR, STATÜ niteliklerine göre müşterinin RİSK durumu belirlenmek istenmektedir. H entropi değeri olmak üzere, BORÇ niteliği ile ayırma yapılması istendiğinde elde edilen kazanç aşağıdaki eşitliklerden hangisi ile hesaplanır?

Kazanç(BORÇ, RİSK) =H(RİSK) - H(BORÇ, RİSK)

Kazanç(RİSK, BORÇ) =H(RİSK) - H(RİSK, BORÇ)

Kazanç(BORÇ) =H(RİSK) - H(BORÇ)

Kazanç(BORÇ, RİSK) =H(RİSK) / H(BORÇ, RİSK)

Kazanç(BORÇ, RİSK) =H(RİSK) * H(BORÇ, RİSK)

6.Soru

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketin kurulu olması gerekmektedir?

digest

curl

colorspace

car

rpart

7.Soru

Kümeleme analizinde sonuçların bağlantılar, uzaklıklar ve birimlerin bağlanma düzeylerinin bir ağaç biçiminde ele alınarak ayrıntılı bir biçimde özetlendiği; genellikle x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırıldığı; değişkenlerin ya da birimlerin hangi aşamada ve hangi uzaklık ya da benzerlik düzeyinde bir araya gelerek küme oluşturduklarının ayrıntılı biçimde görüldüğü grafiksel yöntem aşağıdakilerden hangisidir?

Dendrogram

Cluster

Manhattan (City-Block) uzaklığı

Farklılık matrisi

Plot

8.Soru

Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından daha önceden keşfedilmemiş ve eyleme dönük, bir başka ifadeyle uygulanabilir işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı aşağıdakilerden hangisidir?

İlginç kural

Güçlü kural

Güven ölçütü

Destek eşik değeri

Kaldıraç ölçütü

Yanıt Açıklaması:

İlgilenilen problemde ilişki kurallarını belirlemede kullanılacak nesneler kümesinin eleman sayısı arttıkça bu nesneler aracılığı ile oluşturulacak kural sayısı da katlanarak artmaktadır. Dolayısıyla bu kurallar içerisinden belirli ölçütler kullanmak suretiyle bilgi üretmek amacıyla kullanılmayacak, önemsiz kuralların elenmesi gerekir. Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı ilginç kural olarak tanımlanabilir. Bir ilişki kuralının ilginç kural olarak değerlendirilebilmesi için,

Daha önceden keşfedilmemiş
Eyleme dönük, bir başka ifadeyle uygulanabilir

olması gerekir. Bir ilişki kuralının uygulanabilir olup olmadığı, ilgilenilen problemin amacı doğrultusunda konunun uzmanı olan karar verici tarafından verilen subjektif bir karardır. Dolayısıyla bir ilişki kuralının “ilginç kural” olarak değerlendirilmesi, problemin amacına ve karar vericinin tutumuna bağlı olarak değişebilmektedir. Elde edilen bir ilişki kuralı bir karar verici tarafından ilginç olarak değerlendirilirken, bir diğer karar verici tarafından ilginç olarak değerlendirilmeyebilir.

Bir ilişki kuralının “ilginç”liği, kişiden kişiye değişiklik gösterebilen yani subjektif bir karar olmasına rağmen, bu kararın verilebilmesi için verilerden elde edilebilecek ilişki kurallarının bilimsel veya objektif ölçütler aracılığı ile de elenmesi beklenir. İlginç kuralların belirlenebilmesi amacıyla kullanılan başlıca objektif ölçütler destek ve güven ölçütleridir. İlişki kurallarının elenerek sayılarının azaltılmasında çoğu zaman destek ve güven temel ölçütleri yeterli olmasına karşın bazı durumlarda yapılan eleme sonucunda elde edilen kural sayısı da arzu edilenden fazla olabilir. Bu gibi durumlarda ilave ölçütlere gereksinim duyulur. Bu amaçla geliştirilen birçok ölçüt mevcuttur. Bu ölçütler içerisinde en yaygın kullanılanı öncül ve sonuç nesne setleri arasındaki korelasyonu hesaba katan kaldıraç ölçütüdür.

Bu nedenle doğru yanıt a) seçeneğidir.

9.Soru

Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılan yöntem aşağıdakilerden hangisidir?

Ortalama Bağlantı Kümeleme Yöntemi

k-medyanlar Yöntemi

k-ortalamalar Yöntemi

k-medoidler Yöntemi

Tek Bağlantı Kümeleme Yöntemi

10.Soru

aşağıdakilerden hangisinde web madenciliğinde veri kaynaklarından biri değildir?

İçerik verisi

Yapı verisi

Kullanım verisi

Kullanıcı profil verisi

kullanıcı erişim izni

11.Soru

Veri madenciliği ile karşılaştırıldığında Web madenciliğine ilişkin verilen seçeneklerden hangisi yanlıştır?

Bilgiler yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış formlarından elde edildiği için geniş bir veritabanından bilgi sağlanır.

Veritabanı 1 milyon iş içerir ve işleme süreci uzundur.

Veri gizli değildir. Sadece kayıt dosyalarına erişebilmek için izin gerekir.

Web sayfalarının karmaşıklığı, webin büyüklüğü, bilginin bağlantısı, bilginin dinamikliği, kullanıcı iletişiminin çeşitliliği gibi zorlukları bulunmaktadır.

URL’ler izlenerek veriye erişilebilinmesi, olayların ve URL’lerin çeşitliliği ve verilerin büyük bir kısmı kullanılmadan kalması dezavantajlarıdır.

12.Soru

Başlangıçta veri setinde bulunan tüm birimlerin bir küme oluşturduğunu kabul ederek analize başlamayı amaçlayan kümeleme analizi yaklaşımı hangisidir?

Aşamalı olmayan kümeleme analizi

Birleştirici aşamalı kümeleme analizi

Ayırıcı aşamalı kümeleme analizi

Karar ağaçları

Dendogram

13.Soru

Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemler hangisidir?

Dendogram

Karar ağaçları

Ayırıcı aşamalı kümeleme analizi

Aşamalı olmayan kümeleme analizi

Birleştirici aşamalı kümeleme analizi

14.Soru

Web sitelerinde var olan metinsel verinin derlenmesi ve sınıflandırılması işlemi olarak tanımlanan web madenciliği türü hangisidir?

Atıf analizi

İnternette arama ve bağlantı köprüleri

Bilgi keşfi

Kısa metin işleme

Web arama

15.Soru

R yazılımında lsa paketindeki cosine() fonksiyonu neyi elde etmede kullanılır?

Karl Pearson uzaklığı

Jaccard uzaklığı

Korelasyon uzaklığı

Basit eşleştirme uzaklığı

Açısal benzerlik

16.Soru

Soru 1: Aşağıdakilerden hangisi veri madenciliği sürecinin temel adımlarından biri değildir?

Verinin elde edilmesi

Verinin saklanması ve yönetimi

Veri erişiminin sağlanması

Verinin analiz edilmesi

Bilgi seçimi ve ön işleme

17.Soru

Aşağıdakilerden hangisi ilişki kuralı oluşturabilmek için geliştirilen algoritmalardan biri değildir?

CSS

AIS

SETM

FP-Growth

Eclat

18.Soru

Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemi veri madenciliği yöntemlerinden hangisidir?

Birliktelik kuralları

Kümeleme

Sınıflandırma

Lojistik regresyon

Diskriminant analizi

19.Soru

Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Seçeneklerden hangisi bu aşamalardan birisi değildir?

Veri matrisinin oluşturulması

Benzerlik matrisinin hesaplanması

Kümelemede esas alınacak yöntemlerin belirlenmesi

Strateji matrisinin oluşturulması

Elde edilen sonuçların yorumlanması

20.Soru

Kümeleme yöntemlerinin uygulanmasındaki amaç aşağıdakilerden hangisidir?

Küme içi homojenlik arttırılırken kümeler arası homojenliğin azaltılması amaçlanır.

Küme içi homojenlik azaltılırken kümeler arası homojenliğin artırılması amaçlanır.

Kümeler arasındaki farklılıkları ve kümeler içi benzerlikleri en düşük düzeye indirmektir.

Kümeler arasındaki farklılıklar azaltılırken kümeler içi farklılıkları en yüksek düzeye çıkarmaktır.

Kümeler arasındaki benzerlikler artırılırken kümeler içi farklılıkları en yüksek düzeye çıkarmaktır.