Veri Madenciliği Final 6. Deneme Sınavı
Toplam 20 Soru1.Soru
Karar ağaçlarında kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması amacıyla yapılan işleme ne denir?
Çoklu bağıntı azaltma |
Ağırlıklandırma |
Serpme |
Budama |
Standartlaştırma |
Budama bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemidir. Bu işlem, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesine dayanır. Böylece, kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması hedeflenir.
Doğru cevap D şıkkıdır.
2.Soru
Aprio algoritmasının 1. adımının üçüncü aşaması aşağıdakilerden hangisidir?
I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirle- nir ve belirlenen her bir nesne seti için destek değerleri hesaplanır. |
Hesaplanan destek değerleri içerisinden destek eşik değeri olarak verilen 0,50 değerinin üzerinde destek değerine sahip nesne setlerinden bir nesneli sık görülen nesne kümesi L1 oluşturulur. |
Giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur. |
2 adet nesne içeren nesne setleri için hesaplanan destek değerleri içerisinden verilen destek eşik değeri 0,50 değerine eşit veya üzerinde destek değerine sahip nesne setlerinden iki nesneli sık görülen nesne setleri kümesi L2 oluşturulur. |
L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alın- mak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur. Ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır. |
Üçüncü aşamada, L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alın- mak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur. Ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır. Doğru cevap E'dir.
3.Soru
Destek ({Pirinç, Barbunya}?{Turşu})=0,60 olarak hesaplanmış ise aşağıdakilerden hangisi doğrudur?
Pirinç ve barbunya alanlar %40 olasılıkla turşu da alırlar. |
Pirinç ve barbunya alanlar beraberinde turşu da almışlardır. |
Pirinç ve barbunya alanların %60’ı turşu da almıştır. |
Pirinç ve barbunyanın birlikte alındığı alışverişlerin %60’ında turşu da alınmıştır. |
Pirinç ve barbunya alma olasılığı, sadece turşu alma olasılığından %60 daha fazladır. |
Bir A nesne setinin destek değeri, A nesne setindeki nesnelerin veritabanındaki işlemler içerisindeki bulunma olasılığını ifade eder ve P (A) şeklinde gösterilir. Destek değeri [0,1] aralığında değer alır ve yüzde olarak yorumlanır. Elde edilen destek değeri alışverişlerin yüzde kaçında söz konusu nesnelerin birlikte alınmış olduğunu ifade eder. Bu soruda ise pirinç ve barbunya alanların %60’ının turşu da aldığı yorumu yapılabilir.
4.Soru
Bir karar ağacında bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesi işlemine ne ad verilir?
Karar ağacı budama |
Karar ağacı modelini test etme |
Çapraz doğrulama |
Eğitim verisi elde etme |
Maliyet karmaşıklığını azaltma |
Budama bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemidir. Bu işlem, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesine dayanır. Böylece, kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması hedeflenir. Kısaca ifade etmek gerekirse, karar ağacının en iyi duruma getirilmesi işlemidir. Budama işlemi, gerekli görülmesi hâlinde, büyümesi önceden belirlenmiş olan durma kriterine göre sonlandırılmış karar ağacına uygulanabileceği gibi, durma kriterini daha esnek tanımlayarak ağacın olabildiğince büyümesi sağlandıktan sonra, en iyi duruma getirmek için de kullanılabilir. Budama, özellikle çok az sayıda kayıt bulunduran yaprak düğümlerin kesilmesi bakımından önemlidir. Ancak, çok fazla budanmış bir karar ağacı ise, örnek uzayı hakkında yeterli bilgi sağlamayacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.
5.Soru
Bir banka müşteri veritabanında yer alan BORÇ, GELİR, STATÜ niteliklerine göre müşterinin RİSK durumu belirlenmek istenmektedir. H entropi değeri olmak üzere, BORÇ niteliği ile ayırma yapılması istendiğinde elde edilen kazanç aşağıdaki eşitliklerden hangisi ile hesaplanır?
Kazanç(BORÇ, RİSK) =H(RİSK) - H(BORÇ, RİSK) |
Kazanç(RİSK, BORÇ) =H(RİSK) - H(RİSK, BORÇ) |
Kazanç(BORÇ) =H(RİSK) - H(BORÇ) |
Kazanç(BORÇ, RİSK) =H(RİSK) / H(BORÇ, RİSK) |
Kazanç(BORÇ, RİSK) =H(RİSK) * H(BORÇ, RİSK) |
T hedef niteliğini X niteliğine göre bölerek elde edilen bilgiyi ölçmek için kazanç ölçütünden yararlanılır ve hesaplama için izleyen eşitlik kullanılır.
Kazanç(X, T) = H(T) ? H(X, T)
Bu nedenle doğru yanıt a) seçeneğidir.
6.Soru
R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketin kurulu olması gerekmektedir?
digest |
curl |
colorspace |
car |
rpart |
R ile sınıflandırma ve regresyon ağacı oluşturabilmek için rpart paketinin R’de kurulu olması gerekmektedir.
7.Soru
Kümeleme analizinde sonuçların bağlantılar, uzaklıklar ve birimlerin bağlanma düzeylerinin bir ağaç biçiminde ele alınarak ayrıntılı bir biçimde özetlendiği; genellikle x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırıldığı; değişkenlerin ya da birimlerin hangi aşamada ve hangi uzaklık ya da benzerlik düzeyinde bir araya gelerek küme oluşturduklarının ayrıntılı biçimde görüldüğü grafiksel yöntem aşağıdakilerden hangisidir?
Dendrogram |
Cluster |
Manhattan (City-Block) uzaklığı |
Farklılık matrisi |
Plot |
Kümeleme analizinde sonuçlar dendrogram (ağaç diyagramı) adı verilen grafiksel yöntemle sunulurlar. Dendrogramlarda bağlantılar, uzaklıklar ve birimlerin bağlanma düzeyleri bir ağaç biçiminde ele alınarak şekillendirilir ve kümelenme süreci bu şekilde ayrıntılı bir biçimde özetlenir. Genellikle dendrogramlar; x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırılırlar.
Dendrogramlarda değişkenlerin ya da birimlerin hangi aşamada ve hangi uzaklık ya da benzerlik düzeyinde bir araya gelerek küme oluşturdukları ayrıntılı biçimde görülmektedir.
Bu nedenle doğru yanıt a) seçeneğidir
8.Soru
Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından daha önceden keşfedilmemiş ve eyleme dönük, bir başka ifadeyle uygulanabilir işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı aşağıdakilerden hangisidir?
İlginç kural |
Güçlü kural |
Güven ölçütü |
Destek eşik değeri |
Kaldıraç ölçütü |
İlgilenilen problemde ilişki kurallarını belirlemede kullanılacak nesneler kümesinin eleman sayısı arttıkça bu nesneler aracılığı ile oluşturulacak kural sayısı da katlanarak artmaktadır. Dolayısıyla bu kurallar içerisinden belirli ölçütler kullanmak suretiyle bilgi üretmek amacıyla kullanılmayacak, önemsiz kuralların elenmesi gerekir. Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı ilginç kural olarak tanımlanabilir. Bir ilişki kuralının ilginç kural olarak değerlendirilebilmesi için,
- Daha önceden keşfedilmemiş
- Eyleme dönük, bir başka ifadeyle uygulanabilir
olması gerekir. Bir ilişki kuralının uygulanabilir olup olmadığı, ilgilenilen problemin amacı doğrultusunda konunun uzmanı olan karar verici tarafından verilen subjektif bir karardır. Dolayısıyla bir ilişki kuralının “ilginç kural” olarak değerlendirilmesi, problemin amacına ve karar vericinin tutumuna bağlı olarak değişebilmektedir. Elde edilen bir ilişki kuralı bir karar verici tarafından ilginç olarak değerlendirilirken, bir diğer karar verici tarafından ilginç olarak değerlendirilmeyebilir.
Bir ilişki kuralının “ilginç”liği, kişiden kişiye değişiklik gösterebilen yani subjektif bir karar olmasına rağmen, bu kararın verilebilmesi için verilerden elde edilebilecek ilişki kurallarının bilimsel veya objektif ölçütler aracılığı ile de elenmesi beklenir. İlginç kuralların belirlenebilmesi amacıyla kullanılan başlıca objektif ölçütler destek ve güven ölçütleridir. İlişki kurallarının elenerek sayılarının azaltılmasında çoğu zaman destek ve güven temel ölçütleri yeterli olmasına karşın bazı durumlarda yapılan eleme sonucunda elde edilen kural sayısı da arzu edilenden fazla olabilir. Bu gibi durumlarda ilave ölçütlere gereksinim duyulur. Bu amaçla geliştirilen birçok ölçüt mevcuttur. Bu ölçütler içerisinde en yaygın kullanılanı öncül ve sonuç nesne setleri arasındaki korelasyonu hesaba katan kaldıraç ölçütüdür.
Bu nedenle doğru yanıt a) seçeneğidir.
9.Soru
Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılan yöntem aşağıdakilerden hangisidir?
Ortalama Bağlantı Kümeleme Yöntemi |
k-medyanlar Yöntemi |
k-ortalamalar Yöntemi |
k-medoidler Yöntemi |
Tek Bağlantı Kümeleme Yöntemi |
k-Medyanlar Yöntemi
Medyan değerlerine ait vektörleri küme merkezi olarak kullanan k merkezli algoritmadır. Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılmaktadır. Bu yöntemde de uzaklık ölçüsü seçimi keyfi olarak gerçekleştirilebilir, ancak yakınsamanın sağlanıp sağlanmadığı mutlaka göz önünde bulundurulmalıdır. Bu algoritmada, Manhattan uzaklık ölçüsü en sık tercih edilen kümelenme ölçütüdür.
10.Soru
aşağıdakilerden hangisinde web madenciliğinde veri kaynaklarından biri değildir?
İçerik verisi |
Yapı verisi |
Kullanım verisi |
Kullanıcı profil verisi |
kullanıcı erişim izni |
kullanıcı erişim izni
11.Soru
Veri madenciliği ile karşılaştırıldığında Web madenciliğine ilişkin verilen seçeneklerden hangisi yanlıştır?
Bilgiler yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış formlarından elde edildiği için geniş bir veritabanından bilgi sağlanır. |
Veritabanı 1 milyon iş içerir ve işleme süreci uzundur. |
Veri gizli değildir. Sadece kayıt dosyalarına erişebilmek için izin gerekir. |
Web sayfalarının karmaşıklığı, webin büyüklüğü, bilginin bağlantısı, bilginin dinamikliği, kullanıcı iletişiminin çeşitliliği gibi zorlukları bulunmaktadır. |
URL’ler izlenerek veriye erişilebilinmesi, olayların ve URL’lerin çeşitliliği ve verilerin büyük bir kısmı kullanılmadan kalması dezavantajlarıdır. |
Veritabanının 1 milyon iş içermesi ve işleme süreci uzun olması veri madenciliği ölçeğidir. Web madenciliğinde ölçek sunucu veritabanı 10 milyon iş içermesine rağmen işleme süreci kısadır.
12.Soru
Başlangıçta veri setinde bulunan tüm birimlerin bir küme oluşturduğunu kabul ederek analize başlamayı amaçlayan kümeleme analizi yaklaşımı hangisidir?
Aşamalı olmayan kümeleme analizi |
Birleştirici aşamalı kümeleme analizi |
Ayırıcı aşamalı kümeleme analizi |
Karar ağaçları |
Dendogram |
Ayırıcı (divisive) aşamalı kümeleme yöntemlerinde, başlangıçta veri setinde bulunan tüm birimlerin bir küme olduğu varsayılarak analize başlanır. Diğer bir ifadeyle işlem, birleştirici aşamalı kümeleme yönteminde olan aşamaların tam tersine işler. İlk olarak tüm birimleri içeren büyük bir küme ele alınır. İzleyen aşamalarda en farklı (uzak) birimler birbirinden ayrılarak daha küçük kümeler oluşturulur. Bu aşamalar her birim kendi başına farklı bir küme oluşturuncaya kadar devam eder. Veri setinde bulunan n birimi sırasıyla aşamalı olarak 1 küme, 2 küme, 3 küme, ... , n-r küme, n-3 küme, n-2 küme, n-1 küme, n kümeye ayırmayı amaçlayan bir yaklaşımdır.
13.Soru
Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemler hangisidir?
Dendogram |
Karar ağaçları |
Ayırıcı aşamalı kümeleme analizi |
Aşamalı olmayan kümeleme analizi |
Birleştirici aşamalı kümeleme analizi |
Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemler aşamalı olmayan kümeleme analizi yöntemleridir.
14.Soru
Web sitelerinde var olan metinsel verinin derlenmesi ve sınıflandırılması işlemi olarak tanımlanan web madenciliği türü hangisidir?
Atıf analizi |
İnternette arama ve bağlantı köprüleri |
Bilgi keşfi |
Kısa metin işleme |
Web arama |
Kısa metin işleme, web sitelerinde var olan metinsel verinin derlenmesi ve sınıflandırılması işlemi olarak tanımlanabilir. Konuya göre dokümanların sınıflandırılmasında ve web sayfalarının alt kategorilere ayrılmasında kullanılan algoritmalar bütünüdür. Kısa metinlerin en bilindik uygulaması arama motorlarının kullanıcıya sunduğu aranılan kelimeyi tamamlayıcı nitelikte olan “ilgili aramalar” uygulamasıdır. Kısa metin işleme algoritmaları, klasik metin işleme yaklaşımlarından farklı olarak çok daha az sayıda kelimenin analiz edilmesi temeli üzerine kurulan algoritmalardır.
15.Soru
R yazılımında lsa paketindeki cosine() fonksiyonu neyi elde etmede kullanılır?
Karl Pearson uzaklığı |
Jaccard uzaklığı |
Korelasyon uzaklığı |
Basit eşleştirme uzaklığı |
Açısal benzerlik |
R ile Açısal benzerlik değerini hesaplayabilmek için lsa paketinde yer alan cosine() fonksiyonundan yararlanılır. Bu nedenle doğru cevap E olmaktadır.
16.Soru
Soru 1: Aşağıdakilerden hangisi veri madenciliği sürecinin temel adımlarından biri değildir?
Verinin elde edilmesi |
Verinin saklanması ve yönetimi |
Veri erişiminin sağlanması |
Verinin analiz edilmesi |
Bilgi seçimi ve ön işleme |
Bilgi seçimi ve ön işleme;veri madenciliği sürecinin temel adımlarından biri değildir.
17.Soru
Aşağıdakilerden hangisi ilişki kuralı oluşturabilmek için geliştirilen algoritmalardan biri değildir?
CSS |
AIS |
SETM |
FP-Growth |
Eclat |
CSS, bir yazılım dilidir. Geliştirilen algoritmalardan biri değildir. Doğru cevap A'dır.
18.Soru
Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemi veri madenciliği yöntemlerinden hangisidir?
Birliktelik kuralları |
Kümeleme |
Sınıflandırma |
Lojistik regresyon |
Diskriminant analizi |
Kümeleme, veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir. Kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır. Uygulamada çok sayıda kümeleme yöntemi kullanılmaktadır. Bu yöntemler, değişkenler arasındaki benzerliklerden ya da farklılıklardan yararlanarak bir veri setini alt kümelere ayırmak için kullanılmaktadır. Kümeleme analizinin amacı, gruplanmamış verileri benzerliklerine göre sınıflandırmak ve araştırmacıya özetleyici bilgiler elde etmede yardımcı olmaktır.
19.Soru
Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Seçeneklerden hangisi bu aşamalardan birisi değildir?
Veri matrisinin oluşturulması |
Benzerlik matrisinin hesaplanması |
Kümelemede esas alınacak yöntemlerin belirlenmesi |
Strateji matrisinin oluşturulması |
Elde edilen sonuçların yorumlanması |
Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Bunlar; veri matrisinin oluşturulması, benzerlik veya uzaklık matrislerinin hesaplanması, kümelemede esas alınacak yöntemlerin belirlenmesi ve elde edilen sonuçların yorumlanmasıdır.
20.Soru
Kümeleme yöntemlerinin uygulanmasındaki amaç aşağıdakilerden hangisidir?
Küme içi homojenlik arttırılırken kümeler arası homojenliğin azaltılması amaçlanır. |
Küme içi homojenlik azaltılırken kümeler arası homojenliğin artırılması amaçlanır. |
Kümeler arasındaki farklılıkları ve kümeler içi benzerlikleri en düşük düzeye indirmektir. |
Kümeler arasındaki farklılıklar azaltılırken kümeler içi farklılıkları en yüksek düzeye çıkarmaktır. |
Kümeler arasındaki benzerlikler artırılırken kümeler içi farklılıkları en yüksek düzeye çıkarmaktır. |
Kümeleme yöntemleri; uzaklık (distance), benzerlik (similarity) ya da farklılık (dissimilarity) matrisinden yararlanarak birimleri ya da değişkenleri kendi içinde homojen ve kendi aralarında heterojen uygun kümelere ayırırken, kümeleri belirlemede izledikleri yaklaşımlara göre iki temel alt gruba ayrılırlar. Bunlar; Aşamalı kümeleme yöntemleri (Hierarchical Cluster Analysis Methods) ve Aşamalı olmayan kümeleme yöntemleri (Nonhierarchical Cluster Analysis Methods) olarak ele alınmaktadır. Her iki yöntemde de ortak amaç kümeler arasındaki farklılıkları ve kümeler içi benzerlikleri en yüksek düzeye çıkarmaktır. Yani, küme içi homojenlik arttırılırken kümeler arası homojenlik ise azaltılmaktadır. Hangi tekniğin kullanılacağı küme sayısına bağlı olmakla birlikte her iki tekniğin birlikte kullanılması çok daha yararlıdır. Böylece hem sonuçları hem de iki tekniğin hangisinin daha uygun sonuçlar verdiğini karşılaştırmak mümkün olmaktadır. Bu iki yöntem dışında ileri sürülmüş bir takım kümeleme algoritmaları varsa da bu yöntemler yaygın kullanımı olan yöntemler değildir.
Bu nedenle doğru yanıt a) seçeneğidir
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ