Veri Madenciliği Final 2. Deneme Sınavı
Toplam 20 Soru1.Soru
Bir kaydı, önceden tanımlanmış çeşitli sınıflardan birine atayan bir modelin uygulanması işlemi aşağıdakilerden hangisidir?
Sınıflandırma |
Sınıf kestirimi |
Sınıflayıcı |
Karar problemi |
Ayırıcı belirleme |
Sınıflandırma, bir kaydı, önceden tanımlanmış çeşitli sınıflardan birine atayan bir modelin uygulanması işlemi olarak tanımlanabilir. Sınıflandırma yapabilmek için, girdi olarak nitelik değerlerinden oluşan örnek kayıt yığını ve karşılık gelen bir sınıf verilmelidir. Sınıflandırma modeli ise, mevcut olan nitelik değerleri ile yeni bir kaydın sınıfının kestirimini yapar ve sınıflayıcı olarak adlandırılır.
Karar ağaçları, veri madenciliğinde karşılaşılan sınıflandırma problemlerinin çözümü için en sık başvurulan mantıksal yaklaşım yöntemidir.
Bu nedenle doğru yanıt a) seçeneğidir.
2.Soru
> library(“arules”)
> verideğişkeni <- list(…)
> işlemdeğişkeni <- as(verideğişkeni, “transactions”)
> sonuçdeğişkeni <- apriori(işlemdeğişkeni, parameter = list(supp=destekdeğeri, conf=güvendeğeri, minlen=3))
> inspect(sonuçdeğişkeni)
Yukarıda verilen, ilişki kuralları belirleme amacıyla oluşturulmuş R komutları kümesinde liste şeklinde girilmiş olan işlem verilerinin apriori() fonksiyonu ile işlenebilmesi için gereken veri dönüşümünün yapıldığı atama komutu hangisidir?
> işlemdeğişkeni <- as(verideğişkeni, “transactions”) |
> inspect(sonuçdeğişkeni) |
> sonuçdeğişkeni <- apriori(işlemdeğişkeni, parameter = list(supp=destekdeğeri, conf=güvendeğeri, minlen=3)) |
> verideğişkeni <- list(…) |
> library(“arules”) |
R ile ilişki kuralı oluşturabilmek için arules paketinin R’de kurulması ve hafızaya yüklenmesi gerekir. arules paketi içerisinde yer alan apriori() fonksiyonu yardımıyla güçlü ilişki kuralları oluşturulur.
https://cran.r-project.org/web/packages/arules/
apriori() fonksiyonunun temel parametreleri ilişki kurallarının oluşturulabilmesi için elde edilen tüm işlemleri (alışverişleri) barındıran veri değişkenini ifade eden data ve özellikle destek ve güven eşik değerleri vb. kısıtlamalara ilişkin eşik değerlerinin belirlendiği parameter’dır. Veri girişi standart veri girişlerinden herhangi birisi ile yapılabilir. Ancak girilen verinin apriori() fonksiyonu ile işlenebilmesi için işlemlerden oluşan veritabanı formatına dönüştürülmesi gerekir. Veri dönüşümü için help(“transactions”) komutundan ve fonksiyon ile ilgili yardım için ise, help(“apriori”) komutundan yararlanılabilir.
Örnek 4 için apriori() fonksiyonu yardımıyla dört işlemden oluşan veritabanından destek eşik değeri 0,50 ve güven eşik değeri 0,75 olan güçlü ilişki kurallarının elde edilmesine ilişkin komut dizisi ve hesaplama sonucu izleyen biçimde ortaya çıkacaktır.
> library(“arules”)
> v e r i < - l i s t ( c ( “ M a k a r n a ” , ” A y r a n ” , ” E t ” ) , c(“Peynir”,”Ayran”,”Tavuk”), c(“Makarna”,”Peynir”,”Ayran ”,”Tavuk”), c(“Peynir”,”Tavuk”))
> islem <- as(veri, “transactions”)
> kurallar <- apriori(islem, parameter = list(supp=0.50, conf=0.75, minlen=3))
> inspect(kurallar)
lhs rhs support confidence lift
1 {Ayran, Peynir} ? {Tavuk} 0.5 1 1.333333
2 {Ayran, Tavuk} ? {Peynir} 0.5 1 1.333333
Verilen komut dizisinin dördüncü satırınındaki “islem <- as(veri, “transactions”)” komutu, liste şeklinde girilmiş olan işlem verilerinin apriori() fonksiyonu ile işlenebilmesi için gereken veri dönüşümünün yapıldığı atama komutudur. Komut dizisinin en altında elde edilen “kurallar” değişkeni dört adet işlem içeren veritabanı üzerinden oluşturulan, destek değeri en az 0,50 ve güven değeri en az 0,75 olan güçlü ilişki kurallarını ve bu kuralların hesaplanan sırasıyla destek, güven ve kaldıraç değerlerini vermektedir. R aracılığı ile elde edilen güçlü ilişki kuralları ve bu kuralların hesaplanan destek, güven ve kaldıraç değerlerinin Örnek 4’ün çözümünde elde edilen sonuçlar ile aynı olduğu görülmektedir.
Bu nedenle doğru yanıt a) seçeneğidir.
3.Soru
Müşterilerin daha önceden yapmış oldukları alışverişlerinden oluşan veritabanından her bir alışverişinde birlikte almış olduğu ürünler arasındaki ilişkilerden yola çıkılarak müşterilerin alışveriş alışkanlıklarının belirlenmesi yöntemi aşağıdakilerden hangisidir?
Pazar sepeti analizi |
Benzerlik ölçülerini belirleme |
Uzaklık ölçülerini belirleme |
Web madenciliği |
Regresyon ağaçları |
Pazar sepeti analizi, müşterilerin daha önceden yapmış oldukları alışverişlerinden oluşan veritabanından her bir alışverişinde birlikte almış olduğu ürünler arasındaki ilişkilerden yola çıkılarak müşterilerin alışveriş alışkanlıklarının belirlenmesidir. Bu sayede müşterilerin kişisel tercihlerinin belirlenmesi, birlikte satışa sunulacak ürünlerin belirlenmesi, ürün satış raflarının tasarlanması ve promosyon düzenlemeleri gibi satışı artırmaya yönelik çalışmalar daha doğru bir şekilde yapılabilmektedir.
Bu nedenle doğru yanıt a) seçeneğidir.
4.Soru
Karar ağaçlarında her biri bir sınıfı temsil eden ve karar ağacının son bölümü olan düğüm aşağıdakilerden hangisidir?
Yaprak düğüm |
Kök düğüm |
Son düğüm |
İç düğüm |
T düğümü |
Karar ağaçlarında her biri bir sınıfı temsil eden ve karar ağacının son bölümü olan düğüm yaprak düğümdür.
Doğru cevap A şıkkıdır.
5.Soru
Aşağıdakilerden hangisi Kümeleme Analizinin bir aşaması değildir?
Ayırma kriterlerinin belirlenmesi |
Veri matrisinin oluşturulması |
Benzerlik veya uzaklık matrislerinin hesaplanması |
Kümelemede esas alınacak yöntemlerin belirlenmesi |
Elde edilen sonuçların yorumlanması |
Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Bunlar; veri matrisinin oluşturulması, benzerlik veya uzaklık matrislerinin hesaplanması, kümelemede esas alınacak yöntemlerin belirlenmesi ve elde edilen sonuçların yorumlanmasıdır.
Bu nedenle doğru yanıt a) seçeneğidir
6.Soru
Çoğu teknikte olduğu gibi karar ağacı oluşturulurken de, veritabanının bir kısmı modeli oluşturmak için kullanılırken, kalan kısım ise oluşturulan modelin test edilebilmesi için ayrılır. Veriyi ikiye ayırmanın amacı, kullanılan karar ağacı algoritmasının ortaya çıkardığı sınıflandırmanın test için saklanan veri ile tekrar denenerek, elde edilen sonuçlar arasında anlamlı bir farklılık olup olmadığının tespit edilmesidir. Aşağıdakilerden hangisi bu amaca yönelik olarak kullanılan tekniklerden biri değildir?
Çapraz-doğrulama tekniği |
Hold-out tekniği |
Out-come tekniği |
Tekrarlı hold-out tekniği |
Bootstrap tekniği |
Çoğu teknikte olduğu gibi karar ağacı oluşturulurken de, veritabanının bir kısmı modeli oluşturmak için kullanılırken, kalan kısım ise oluşturulan modelin test edilebilmesi için ayrılır. Veriyi ikiye ayırmanın amacı, kullanılan karar ağacı algoritmasının ortaya çıkardığı sınıflandırmanın test için saklanan veri ile tekrar denenerek, elde edilen sonuçlar arasında anlamlı bir farklılık olup olmadığının tespit edilmesidir. Bu tespit, elde edilen modelin performansını ölçen bir tespittir. Bu amaca yönelik olarak kullanılan tekniklerden bazıları hold-out tekniği, tekrarlı hold-out (repeated hold-out) tekniği, çapraz-doğrulama (cross-validation) tekniği ve bootstrap tekniğidir.
Doğru cevap C şıkkıdır.
7.Soru
"Bağlantıların ortaya çıkarılması ve bunun bir kural olarak değerlendirilmesi ilişki analizi ile mümkün olmaktadır."
Yukarıdaki ilişki analizine literatürde ne ad verilmektedir?
Veri tabanı |
Pazar sepeti analizi |
İlişki analizi |
İlişki kuralları analizi |
Veri analizi |
Bağlantıların ortaya çıkarılması ve bunun bir kural olarak değerlendirilmesi ilişki analizi ile mümkün olmaktadır. Buna da literatürde pazar sepeti analizi denmektedir. Doğru cevap B'dir.
8.Soru
Büyük veri kümeleri içerisinde belirli veriler arasındaki ilişkileri bulan ve olayların birlikte gerçekleşme ihtimallerini geçmiş verileri analiz edip ortaya koyarak geleceğe yönelik çalışmaları destekleyen veri madenciliği yöntemi aşağıdakilerden hangisidir?
İlişki kuralları |
Karar ağaçları |
Kümeleme analizi |
Sosyal medya madenciliği |
Benzerlik ve uzaklık ölçüleri |
İlişki kuralları, veri madenciliğinin tanımlayıcı modellerinden birisidir. Büyük veri kümeleri içerisinde belirli veriler arasındaki ilişkileri bulan ve olayların birlikte gerçekleşme ihtimallerini geçmiş verileri analiz edip ortaya koyarak geleceğe yönelik çalışmaları destekleyen veri madenciliği yöntemine ilişki kuralları denilmektedir. Genel olarak ilişki kuralları sayesinde büyük miktarlardaki veriler arasından ilginç birliktelik örüntüleri keşfedilerek karar verme, pazarlama ve iş yönetimi vb. gibi konularda birçok fayda sağlanmaktadır. İlişki kuralları; ekonomi, eğitim, e-ticaret, pazarlama, iletişim ve sağlık gibi birçok sektörde geniş kullanıma sahip veri madenciliğinin özel bir uygulama alanıdır.
Bu nedenle doğru yanıt a) seçeneğidir.
9.Soru
Aşağıdakilerden hangisi veri madenciliğinde kullanılan tanımlayıcı modellerden biridir?
Karar ağaçları |
Tanımlayıcı istatistik |
Zaman serisi analizi |
Hatayı geri yayma |
Bayes sınıflandırması |
Veri madenciliğinde kullanılan modeller; tahmin edici modeller ve tanımlayıcı modeller olmak üzere temelde iki başlık altında incelenebilir. Tahmin edici modeller; regresyon, sınıflandırma, karar ağaçları, Bayes sınıflandırması, hatayı geri yayma, karar destek makineleri, k-en yakın komşu, yapay sinir ağları, genetik algoritmalar, zaman seri analizi ve diğer metotlar olarak öne çıkmaktadır. Tanımlayıcı modeller ise, kümeleme, birliktelik kuralları, sıra örüntü analizi, özetleme, tanımlayıcı istatistik, istisna analizi ve diğer metotlardır.
10.Soru
İlginç olarak nitelendirilen ve bilgi üretmek amacıyla kullanılacak bir ilişki kuralının belirlenebilmesi için kullanılan ilk ölçüt hangisidir?
Kaldıraç |
Güven |
Apriori Algoritması |
Destek |
Destek eşik değeri |
İlginç olarak nitelendirilen ve bilgi üretmek amacıyla kullanılacak bir ilişki kuralının belirlenebilmesi için kullanılan ilk ölçüt destektir. Doğru cevap D'dir.
11.Soru
10 nesneli bir set içerisinden bir nesnenin destek değeri ne olur?
0,01 |
0,4 |
0,3 |
0,1 |
0,2 |
Bir A nesne setinin destek değeri, aslında P(A)’dır. Yani A nesne setinin gözlenme olasılığıdır.
12.Soru
'Problemde bulunan her bir nitelik için karar ağacında yer alan ve böylece niteliğin test edilmesini sağlayan' aşağıdakilerden hangisidir?
seçenek |
düğüm |
dal |
sınıf |
seviye |
Problemde yer alan her bir nitelik için karar ağacında bir düğüm yer alır. Böylece niteliğin test edilmesi garanti altına alınır.
13.Soru
Seçeneklerden hangisi web verisinin özelliklerinden birisidir?
Veri miktarının küçük olması |
Veri yapısının homojen olması |
Durağan olması |
Yapılandırılmış olması |
Verilerin dağınık olması |
Web verisi özellikleri aşağıdaki gibi sıralanır.
Web ortamındaki veri miktarı aşırı büyüklüktedir.
Web ortamındaki veri dağınık ve heterojen bir yapıdadır.
Web ortamındaki veri yapılandırılmamıştır.
Web ortamındaki veri dinamiktir.
14.Soru
"C¸eşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde ........... faydalanılır."
Aşağıdakilerden hangisi boş bırakılan yere getirilmesi gereken uygun kavramdır?
"C¸eşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde ........... faydalanılır."
Aşağıdakilerden hangisi boş bırakılan yere getirilmesi gereken uygun kavramdır?
Matrix |
Mantık fonksiyonları |
List nesneleri |
Temel komutlar |
Length |
C¸eşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde List Nesnelerinden faydalanılır.
15.Soru
I. Aşamalı kümeleme yöntemlerinden elde edilen dendrogramları inceleyerek karar
vermek,
II. Olasılıklı olarak başlangıç noktalarını rassal olarak belirlemek,
III. Farklı rastgele başlatma konfigürasyonları seçerek küme sayısını bulmak
Yularıdakilerden hangisi ya da hangileri küme sayısını belirlemek için kullanılan yaklaşımlardandır?
I-II-III |
II-III |
Yalnız -I |
I-III |
Yalnız II |
İfadelerin tamamı küme sayısını belirlemede kullanılan yaklaşımlarındandır.
16.Soru
Bir ilişki kuralında, destek ve güven değerleri ile O ilişki kuralına ilişkin ne ölçümlenebilir?
Nesneler Kümesi |
İlginç ilişki kuralı |
İlişki kuralının gücü |
Nesne Seti |
Nesne Veri Tabanı |
Bir ilişki kuralının gücü, o kural için hesaplanacak destek ve güven değerleri ile ölçümlenebilir.
17.Soru
aşağıdakilerden hangisi veri erişimi dönemine(1980) ilişkin kullanılan teknolojilerden biridir?
Veri ambarları |
Çok büyük veritabanları |
Gelişmiş algoritmalar |
Veri ambarları |
Yapı sorgu dili (SQL) |
Yapı sorgu dili (SQL)
18.Soru
aşağıdakilerden hangisi veri madenciliği döneminde (2000) kullanılan tekniklerden biridir?
Manyetik bantlar |
Diskler |
Çok boyutlu veritabanları |
Devasa ölçekli veritabanı |
Gelişmiş algoritmalar |
Gelişmiş algoritmalar
19.Soru
Aşağıdakilerden hangisi veri madenciliği uygulama alanlarından değildir?
Bankacılık |
İmalat |
Sağlık |
E-Devlet |
Hukuk |
E-Devlet veri madenciliği uygulama alanlarından birisi değildir.
20.Soru
m = 6 adet nesne içeren bir I = {a, b, c, d, e, f} nesneler kümesinden farklı nesne sayılarına sahip, oluşturulması mümkün tüm nesne setlerinin sayısı kaçtı?
60 |
61 |
62 |
63 |
64 |
2m kuralı ve boş kümeyi formülasyondan çıkartmak ilkeleri göz önünde tutulduğunda 26 – 1: 63 olarak bu sorunun cevabı karşımıza çıkar.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ