Veri Madenciliği Final 5. Deneme Sınavı
Toplam 20 Soru1.Soru
Günümüzde aşağıdakilerden en çok hangisi 'karşılaşılan seçeneklerin sayısını arttırdığı gibi karar verme işleminin de hızlı bir şekilde yerine getirilmesini' zorunlu hâle getirmektedir?
içgüdüler ve eğilimler |
hızlı yaşam şartları |
insan ilişkileri |
ekonomik şartlar |
eğitim olanaklarının artması |
Günümüzün hızlı yaşam şartları, karşılaşılan seçeneklerin sayısını arttırdığı gibi karar verme işleminin de hızlı bir şekilde yerine getirilmesini zorunlu hâle getirmektedir.
2.Soru
'Bir veri yığınındaki düzensizliğin, rassallığın miktarını ölçmek için kullanılan bir ölçü' olarak tanımlanan aşağıdakilerden hangisinde doğru verilmiştir?
ayırma kriteri |
kestirim |
entropi |
yaprak düğüm |
karar ağacı |
Entropi, bir veri yığınındaki düzensizliğin, rassallığın miktarını ölçmek için kullanılan bir ölçüdür.
3.Soru
Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemine ne ad verilir?
Kümeleme |
Veri madenciliği |
Birliktelik kuralları |
Sinir ağları |
Diskriminant analizi |
Kümeleme, veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir.
4.Soru
Karar ağacının oluşturulmasında kök ve iç düğümlerde ayırma işlemini en iyi şekilde gerçekleştirecek olan niteliğin belirlenmesi işlemine ne ad verilir?
Ayırma kriterinin belirlenmesi |
Durma kriterinin belirlenmesi |
Yaprak düğümüne ait sınıfın belirlenmesi |
Sınıflandırma işleminin yapılması |
Olası karar ağaçlarının oluşturulması |
Karar ağaçlarını, sınıflandırma probleminin çözümlenmesinde kullanırken iki adıma ihtiyaç duyulur. Bu adımlar,
- Karar ağacının oluşturulması
- Veritabanında yer alan her bir kaydın (ti) sınıflandırmasının yapılması
şeklindedir. Karar ağacının oluşturulması sürecinde karşılaşılabilecek en önemli sorun, kök ve iç düğümlerde hangi niteliklerin yer alacağının tespit edilmesidir. Çünkü, sınırlı sayıda kayıttan oluşan bir veri yığını için olası tüm karar ağaçlarını oluşturmak ve bunların arasından en uygunu seçmek oldukça zor olacaktır. Bu nitelik, ayırma işlemini gerçekleştiren en iyi nitelik olacaktır ve ayırma kriteri olarak adlandırılır. Ayırma kriteri olarak öyle bir nitelik seçilmelidir ki diğer nitelikler ile karşılaştırıldığında en iyi ayırıcı nitelik olmalıdır. Karar ağacı oluşturulduktan sonra, her bir kayıt bu karar ağacının kök düğümden başlayarak, geçtiği her düğümdeki sorunun yönlendirmesine göre bir yaprak düğüme ulaşır ve böylece sınıflandırma işlemi tamamlanmış olur.
Bu nedenle doğru yanıt a) seçeneğidir.
5.Soru
Akademik olarak yazarlar ile yayınları arasındaki ilişkiyi kurmak için yapılan analiz türü seçeneklerden hangisidir?
Atıf analizi |
İnternette arama ve bağlantı köprüleri |
Bilgi keşfi |
Kısa metin işleme |
Web arama |
Atıf analizi, akademik olarak yazarlar ile yayınları arasındaki ilişkiyi kurmak için yapılan
alıntıları inceleyen bir araştırma alanıdır. Bir yayın başka bir yayından alıntı yaptığında bu iki yayın arasında bir ilişki veya bağlantı kurulmuş olur. Dolayısıyla atıf analizinde de bu bağlantılar incelenerek yayınların önem düzeyleri ortaya konulmaya çalışılır.
Günümüzde bir yayının önemini belirleyen en önemli ölçü “impact factor” yani etki faktörüdür. Ortak atıf ve bibliyografik eşleme, HITS algoritmasını temel alan ve atıf analizinde dokümanların kümelenmesinde kullanılan benzerlik ölçüleridir.
6.Soru
5 nesne seti içerisinden 3 tane nesne içeren küme sayısı kaçtır?
10 |
12 |
8 |
6 |
14 |
formülü üzerinden
5!/3!*2!=10 nesne kümesi oluşturulur.
7.Soru
A⇒B şeklinde ifade edilen bir ilişki kuralı için kaldıraç değeri aşağıdaki eşitliklerden hangisi ile hesaplanır?
Kaldıraç (A⇒ B)= Güven(A⇒ B) / Destek(B) |
Kaldıraç (A⇒ B)= Güven(A⇒ B) / Destek(A) |
Kaldıraç (A⇒ B)= Destek(A⇒ B) / Güven(B) |
Kaldıraç (A⇒ B)= Güven(A⇒ B) * Destek(B) |
Kaldıraç (A⇒ B)= Destek(A⇒ B) / Destek(B) |
İlişki kuralı oluşturmak için kullanılan algoritmalarının hepsi ilişki kuralı oluşturmada destek ve güven eşik değerlerini kullanır. Belirlenen destek ve güven eşik değerleri, güçlü olmayan birçok kuralın gereksiz yere elde edilmesini engellemesine rağmen, bazı durumlarda değerlendirilmesi gereken güçlü kural sayısı yine de fazla olabilmektedir. Böyle durumlarda ortaya çıkan güçlü kurallar içerisinden bir seçim yapabilmek ya da güçlü kuralları önem sırasına göre sıralamak ve problemin amacına en uygun ilişki kuralını belirleyebilmek için ilave kısıtlamalar kullanmak gerekmektedir. Bunlar içerisinden en çok kullanılan ölçüt ise, öncül(A) ve sonuç(B) nesne setleri arasındaki ilişkinin(korelasyonun) belirlenmesi temeline dayanarak hesaplanan kaldıraç(lift) değeridir. A⇒B şeklinde ifade edilen bir ilişki kuralı için kaldıraç değeri, A ve B nesne setlerinin istatistiksel olarak bağımsız oldukları varsayımı altında, kuralın güven değerinin sonucun (B’nin) destek değerine oranı şeklinde elde edilir ve
Kaldıraç (A⇒ B)= Güven(A⇒ B) / Destek(B) = Destek(A∪ B) / Destek(A) * Destek(B)
eşitliği yardımıyla hesaplanır. Oluşturulan güçlü ilişki kuralının ilginç yani bilgi üretme- de kullanılabilir bir kural olup olmadığının bir ölçüsü olarak hesaplanan kaldıraç değeri [0,∞) arasında değer alır ve yüzde olarak ifade edilir. Hesaplanan kaldıraç değerinin,
- Kaldıraç (A⇒B)<1 olması, A ve B nesne setleri arasında ters yönlü (negatif) bir ilişki olduğunu,
- Kaldıraç (A⇒B)=1 olması, A ve B nesne setleri arasında ilişki olmadığını
- Kaldıraç (A⇒B)>1 olması, A ve B nesne setleri arasında aynı yönlü (pozitif) bir ilişki olduğunu ifade eder.
Kaldıraç değeri, öncül (A) nesne setinin gözlendiği durumlarda sonuç(B) nesne setinin olasılığındaki değişim hakkında bilgi verir.
Bu nedenle doğru yanıt a) seçeneğidir.
8.Soru
m=7 adet nesne içeren bir nesneler kümesinden k=3 içeren nesne kümelerinin sayısı kaçtır?
30 |
35 |
45 |
55 |
70 |
M adet nesne içeren bir I nesneler kümesinden ilişki kuralı oluşturmada kullanılabilecek k tane nesne içerek kümelerin sayısı adet olarak karşımıza çıkar. Dolayısıyla formülü kullandığımızda formülasyonundan sonucu 35 olarak elde ederiz.
9.Soru
Aşağıda verilenlerden hangisi verilerin standardize edilmesi ve belirli aralıklardaki değerlere dönüştürülmesi için kullanılan yöntemler arasında yer almaz?
z skorlarına dönüştürme |
-1≤x≤1 aralığına dönüştürme |
Ortalama değer -1 olacak şekilde dönüştürme |
0≤x≤1 aralığına dönüştürme |
Serideki maksimum değer 1 olacak şekilde dönüştürme |
Verilerin standardize edilmesi ve belirli aralıklardaki değerlere dönüştürülmesi için en çok kullanılan yöntemler; z skorlarına dönüştürme, -1≤x≤1 aralığına dönüştürme, 0≤x≤1 aralığına dönüştürme, serideki maksimum değer 1 olacak şekilde dönüştürme, ortalama değer 1 olacak şekilde dönüştürme, standart sapma 1 olacak şekilde dönüştürme yöntemleridir.
10.Soru
Uzaklık matrisini kullanarak birbirine en yakın (uzaklık değerleri en küçük) birim ya da değişkenleri birleştirerek kümelerin oluşmasını sağlayan; m ve j kümeleri arasındaki uzaklığın dmj=min (dkj, dlj) eşitliği ile hesaplanan kümele yöntemi aşağıdakilerden hangisidir?
Tek Bağlantı Kümeleme Yöntemi |
Tam Bağlantı Kümeleme Yöntemi |
Ortalama Bağlantı Kümeleme Yöntemi |
McQuitty Bağlantı Kümeleme Yöntemi |
Küresel Ortalama Bağlantı Kümeleme Yöntemi |
Literatürde en yakın komşuluk olarak da bilinen tek bağlantı kümeleme yöntemi, uzaklık matrisini kullanarak birbirine en yakın (uzaklık değerleri en küçük) birim ya da değişkenleri birleştirerek kümelerin oluşmasını sağlamaktadır. Bu yöntemin ilk aşamasında uzaklık matrisindeki en yakın (en küçük uzaklık) iki birim dikkate alınarak ilk küme oluşturulur. İkinci aşamada ise bir sonraki en küçük uzaklık belirlenir ve ilk oluşturulan kümeye bu birim ya da değişken eklenir ya da bu birim ile iki birimden oluşan yeni bir küme oluşturulur. İşlem, tüm birimler bir kümeye yerleşinceye kadar devam eder. Birleştirme yapılırken kümelerin eleman sayısının birden fazla olması koşulu yoktur. Tek bir birim de bir küme oluşturabilir. Bu yöntemde, m ve j kümeleri arasındaki uzaklık;
dmj=min (dkj, dlj)
biçiminde hesaplanmaktadır.
Bu nedenle doğru yanıt a) seçeneğidir
11.Soru
Seçeneklerden hangisi internet ortamından yararlı bilginin keşfi için, web madenciliği sürecinin temel adımlarından birisi değildir?
Kaynak tespiti |
Bilgi seçimi ve ön işleme |
Genelleştirme |
Bütünleştirme |
Analiz |
İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel
adımda ele alabiliriz.
1. Kaynakların Tespiti
2. Bilgi Seçimi ve Ön İşleme
3. Genelleştirme
4. Analiz
12.Soru
I. sqrt
II. matrix
III. read.fwf
IV. scan
Yukarıdakilerden hangileri hazır veri okuma fonksiyonlarındandır?
I ve II |
II ve III |
I ve III |
Yalnız III |
III ve IV |
C¸oğunlukla veri setleri başka programlardan hazır olarak elde edilirler. Verinin R yazılımına okutulabilmesi için bir kaç farklı teknik bulunmaktadır. Bu işlem için kullanılabilecek fonksiyonlar sırasıyla; scan() düşük seviyeli veri okutma işlemi, read.table() dosyalardan formatlanmış data frame elde edilmesi işlemi, read.fwf() belirgin bir genişlik tanımlanmış veri dosyalarından okuma işlemi, read.csv() değişkenlerin virgülle ayrıldığı dosyalardan okuma işlemi olur.
13.Soru
Uzaklık matrisini kullanarak birbirine en yakın (uzaklık değerleri en küçük) birim ya da değişkenleri birleştirerek kümelerin oluşmasını sağlayan kümeleme yöntemi hangisidir?
Tek Bağlantı Kümeleme Yöntemi |
Ortalama Bağlantı Kümeleme Yöntemi |
Tam Bağlantı Kümeleme Yöntemi |
Ward Bağlantı Kümeleme Yöntemi |
McQuitty Bağlantı Kümeleme Yöntemi |
Literatürde en yakın komşuluk olarak da bilinen tek bağlantı kümeleme yöntemi, uzaklık matrisini kullanarak birbirine en yakın (uzaklık değerleri en küçük) birim ya da değişkenleri birleştirerek kümelerin oluşmasını sağlamaktadır. Bu yöntemin ilk aşamasında uzaklık matrisindeki en yakın (en küçük uzaklık) iki birim dikkate alınarak ilk küme oluşturulur. İkinci aşamada ise bir sonraki en küçük uzaklık belirlenir ve ilk oluşturulan kümeye bu birim ya da değişken eklenir ya da bu birim ile iki birimden oluşan yeni bir küme oluşturulur. İşlem, tüm birimler bir kümeye yerleşinceye kadar devam eder.
14.Soru
'Karar ağaçlarını sınıflandırma probleminin çözümlenmesinde adımlar kullanılır. Bu süreçte karşılaşılabilecek en önemli sorun, kök ve iç düğümlerde hangi niteliklerin yer alacağının tespit edilmesidir. Olası tüm karar ağaçlarını oluşturmak ve bunların arasından en uygunu seçmek oldukça zordur.' Bu durumda aşağıdakilerden hangisi kullanılır?
kestirim |
ayırma kriteri |
değişken tablosu |
sınıflandırma |
veritabanı |
Karar ağaçlarını, sınıflandırma probleminin çözümlenmesinde kullanırken iki adıma ihtiyaç duyulur. Bu adımlar,
1. Karar ağacının oluşturulması
2. Veritabanında yer alan her bir kaydın sınıflandırmasının yapılması
Bu süreçte karşılaşılabilecek en önemli sorun, kök ve iç düğümlerde hangi niteliklerin yer alacağının tespit edilmesidir. Çünkü, sınırlı sayıda kayıttan oluşan bir veri yığını için olası tüm karar ağaçlarını oluşturmak ve bunların arasından en uygunu seçmek oldukça zor olacaktır. Bu nitelik, ayırma işlemini gerçekleştiren en iyi nitelik olacaktır ve ayırma kriteri olarak adlandırılır.
15.Soru
Aşağıdakilerden hangisi aşamalı olmayan kümeleme yöntemlerinden biri değildir?
k-Medyanlar Yöntemi |
K-ortalamalar yöntemi |
k-Medoidler Yöntemi |
Tam Bağlantı Kümeleme Yöntemi |
k-Ortalamalar Yönteminin Uygulanması |
Tam Bağlantı Kümeleme Yöntemi aşamaşı kümeleme yöntemlerinden biridir.
16.Soru
m=3 içeren bir nesneler kümesinden kaç tane ilişki kuralı oluşturulabilir?
7 |
10 |
13 |
16 |
19 |
M adet nesne içeren bir I nesneler kümesinden toplamda 3m-2m+1+1 adet ilişki kuralı oluşturulabilir. Bu soruda 33 – 23+1 + 1=10 sonucuna ulaşılır.
17.Soru
Başlangıçta veri setinde bulunan tüm birimlerin farklı birer küme oluşturduğunu kabul ederek analize başlamayı amaçlayan kümeleme analizi yaklaşımı hangisidir?
Ayırıcı aşamalı kümeleme analizi |
Dendogram |
Karar ağaçları |
Birleştirici aşamalı kümeleme analizi |
Aşamalı olmayan kümeleme analizi |
Birleştirici (agglomerative) aşamalı kümeleme yöntemleri, başlangıçta veri setinde bulunan tüm birimlerin farklı birer küme oluşturduğu kabul edilerek analize başlanır. Veri setinde bulunan n birimi aşamalı olarak sırasıyla; n küme, n-1 küme, n-2 küme, ..., n-r küme, ..., 3 küme, 2 küme, 1 kümeye yerleştirmeyi amaçlayan bir yaklaşımdır. Bu yöntemde, her birim başlangıçta tek başına farklı birer küme olarak kabul edilir. Daha sonra birbirleri ile yüksek derecede benzerlik gösteren iki birim, bir küme oluşturur. Bir sonraki adımda bu kümeye farklı benzerlik düzeylerinde diğer birimler eklenerek birimlerin tamamı bir kümede toplanacak biçimde birbirleri ile bağlanırlar(birleştirilirler, kümelenirler).
18.Soru
7 adet nesne içeren bir sette sık görülen nesne seti toplam ilişki sayısı kaçtır?
128 |
127 |
126 |
63 |
64 |
k adet nesne içeren bir sık görülen nesne seti Lk şeklinde gösterilir. Lk’nın elemanları kullanılarak oluşturulacak toplam ilişki kuralı sayısı 2k-2 tanedir. Buradan doğru cevap: 126
19.Soru
Veri madenciliğinde işlenmemiş ham verinin yapısında bulunan ve onu değersizleştiren hataları ve sorunları ortadan kaldırarak analize hazır duruma getirilmesi amacıyla yapılan işlemler bütününe verilen isim aşağıdakilerden hangisidir?
Veri hazırlama |
Veri şekillendirme |
Veri ölçekleme |
Veri düzenleme |
Veri işleme |
Toplanan ham veri diğer bir deyişle işlenmemiş verinin veri madenciliğinde analize hazır duruma getirilmesi amacıyla yapılan işlemler bütününe veri hazırlama adı verilir. Literatürde veri hazırlamayla ilgili izlenmesi gereken aşamalar araştırmacıdan araştırmacıya göre farklı isimler ve farklı sayıda aşamalar olarak verilse de sonuçta amaç hepsinde aynıdır. Verinin hazırlanmasındaki amaç ham verinin yapısında bulunan ve onu değersizleştiren hataları ve sorunları ortadan kaldırmaktır.
Bu nedenle doğru yanıt a) seçeneğidir.
20.Soru
Minimum değeri 120 maksimum değeri 440 olan bir değişkenin, 200 değerinin enk-enb normalleştirme yöntemine göre dönüşümü sonucu kaçtır?
-0,1 |
-0,40 |
0,25 |
0,50 |
0,75 |
X veri değeri ise; (X-Xmin)/(Xmax-Xmin)=(200-120)/(440-120)=80/320=0,25
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ