Veri Madenciliği Ara 8. Deneme Sınavı
Toplam 20 Soru1.Soru
Aşağıda verilenlerden hangisi, kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan yaklaşımlardan birisi değildir?
Kayıp veri içeren kaydı veri kümesinden çıkarmak |
Kayıp verilerin olduğu düşünülen dosyayı silmek |
Kayıp verilerin hepsi için aynı veriyi girmek |
Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi: |
Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesi |
Kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan
yaklaşımlar:
- Kayıp veri içeren kaydı veri kümesinden çıkarmak
- Kayıp verileri tek tek yazmak:
- Kayıp verilerin hepsi için aynı veriyi girmek
- Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi:
- Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesi:
2.Soru
X* : Dönüştürülmüş değeri, X: Gözlem değerini, Xenk: Verideki en küçük gözlem değeri ve Xenb: Verideki en büyük değeri ifade ettiğine göre Enk-Enb Normalleştirme dönüşümü için aşağıdaki formüllerden hangisi kullanılır?
X – Xenk X*= ----------------- Xenb – Xenk |
X – Xenk X*= ----------------- Xenk – Xenb |
X – Xenb X*= ----------------- Xenb – Xenk |
Xenk – X X*= ----------------- Xenb – Xenk |
Xenb – X X*= ----------------- Xenb – Xenk |
Orijinal veri üzerinde doğrusal bir dönüşüm yapan bu yöntem veri içindeki en büyük ve en küçük sayısal değerin belirlenerek diğer değerleri buna uygun bir şekilde dönüştürülmesiyle yapılır. Enk-Enb normalleştirme sonucunda veri sıfır (en küçük değer) ile bir (en büyük değer) arasında sayısal bir değere dönüşür. Dönüştürme için aşağıdaki eşitlikten yararlanılır.
X – Xenk
X*= -----------------
Xenb – Xenk
Bu eşitlikte; X* : Dönüştürülmüş değeri X: Gözlem değerini Xenk: Verideki en küçük gözlem değeri Xenb: Verideki en büyük değeri ifade eder.
Bu nedenle doğru yanıt a) seçeneğidir.
3.Soru
R yazılımında iki sayının toplamını (örneğin 72+45) hesaplamak için komut satırına yazılması gereken ifade aşağıdakilerden hangisidir?
> 72 + 45 |
> 72 + 45 ? |
> 72 + 45 = ? |
> ? 72 + 45 |
> 72 + 45 > ? |
Herhangi bir atama yapılması ya da matematiksel bir ifadenin hesaplanması için en basit komutlar olarak meydana çıkan komutlar grubudur. Örneğin; R Console’da
> 72+45
komutu yazılarak Enter’a basıldığında
[1] 117
sonucu ekranda görüntülenecektir. Matematiksel işlemin hemen sonucunu elde etmek yerine sonuçlar herhangi bir değişkene de atanabilir. Bu atama işlemi için “değişken <- işlem” yapısı kurulmalıdır. Örneğin önceki toplam x gibi bir değişkene atanmak istenirse > x <- 72+45 komutunun verilmesi yeterli olacaktır. Yeni bir atama yapılmadığı sürece x değişkeni bu toplamın sonucundan oluşacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.
4.Soru
I. Regresyon
II. Kümeleme
III. İstisna analizi
IV. Genetik algoritmalar
Yukarıdakilerden hangileri veri madenciliğinde kullanılan tahmin edici modellerdendir?
I ve III |
II ve III |
I ve IV |
III ve IV |
Yalnız IV |
Veri madenciliğinde kullanılan modeller; tahmin edici modeller ve tanımlayıcı modeller olmak üzere temelde iki başlık altında incelenebilir. Tahmin edici modeller; regresyon, sınıflandırma, karar ağaçları, Bayes sınıflandırması, hatayı geri yayma, karar destek makineleri, k-en yakın komşu, yapay sinir ağları, genetik algoritmalar, zaman seri analizi ve diğer metotlar olarak öne çıkmaktadır. Tanımlayıcı modeller ise, kümeleme, birliktelik kuralları, sıra örüntü analizi, özetleme, tanımlayıcı istatistik, istisna analizi ve diğer metotlardır.
5.Soru
aralığında değerler alan ve d=60 olarak elde edilmiş uzaklık değerinin [0,1] aralığına düşen karşılığı nedir?
0,92 |
0,95 |
0,98 |
0,89 |
0,94 |
d=60 için d'=d/(1+d)=60/(60+1)=(60/61)=0,98 olur. Bu nedenle doğru cevap C seçeneğidir.
6.Soru
Aşağıdakilerden hangisi bir vektörü en basit şekliyle yaratmak için kullanılan komuttur?
D |
X |
C |
B |
S |
Bir vektörü en basit şekilde yaratmak için c () fonksiyonu kullanılır.
7.Soru
Veri ambarında yer alan veriler üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlere ne ad verilir?
Üst veri |
Veri deposu |
Veri madenciliği |
Veri tabanı sistemleri |
OLAP |
Veri ambarında yer alan veriler üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlere OLAP (Çevrimiçi Analitik İşleme) denilir. Bu nedenle doğru yanıt E olmaktadır.
8.Soru
Aşağıdakilerden hangisi Karl Pearson uzaklık ölçüsünün tanımıdır?
İki kareler toplamının farkdır. |
Minkowski Uzaklığının kare köküdür. |
Karesel öklid uzaklığının varyansının değişkene oranıdır. |
Öklid uzaklığının değişkenin varyansına oranlanması ile elde edilen bir uzaklıktır. |
Kareler arasındaki farkın kare köküdür. |
Karl Pearson uzaklığı, Öklid uzaklığının değişkenin varyansına oranlanması ile elde edilen bir uzaklıktır.
9.Soru
İstatistik sınav notları ile değerlendirilen A ve B grupları arasındaki Pearson korelasyon katsayısı rAB = 0,4 olarak elde edilmiştir. Bu iki grup arasındaki korelasyon uzaklık değeri kaçtır?
0.2 |
0.50 |
0.15 |
0.65 |
0.3 |
formülü yardımı ile hesaplandığında, korelasyon uzaklığının;
dxy=(1-0.4)/2=0.3 olduğu görülür.
10.Soru
Aşağıdakilerden hangisi eksik verinin tahmin edilmesinde kullanılması stratejilerden birisi değildir?
El ile doldurma |
Genel sabitin kullanılması |
Göz ardı etme |
Özelliğin diğer veriler dikkate alınarak tamamlanması |
En uygun değerin kullanılması |
Eksik verinin tahmin edilmesinde kullanılan stratejiler şu şekilde verilebilir: a)Eksik verinin el ile doldurulması b)Eksik verinin tamamlanmasında genel bir sabitin kullanılması c)Eksik verinin özelliğin diğer veriler dikkate alınarak tamamlanması d)Kendi sınıfında yer alan değerlerin ortalaması ile tamamlanması e)En uygun değerin kullanılması. Bu nedenle doğru cevap C olur.
11.Soru
Bir ürünle ilgili olarak; Çok kötü=0, Kötü=1, Orta=2, İyi=3, ve Çok iyi=4, Mükemmel=5 olmak üzere değerlendirilme yapılmıştır ve sırasıyla Orta ve Mükemmel olarak iki ürün tespit edilmiştir. Buna göre bu iki ürün arasındaki uzaklık değerinin [0,1] aralığındaki ifadesi aşağıdakilerden hangisidir?
0,1 |
0,2 |
0,4 |
0,5 |
0,6 |
d(x,y)=|x-y|=|2-5|=3
d(x,y)/(n-1) ise 3/5=0,6
12.Soru
Nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde aşağıdakilerden hangisinden yararlanılmaz?
Öklid Uzaklığı |
Manhattan Uzaklığı |
Mahalanobis Uzaklığı |
Korelasyon Uzaklığı |
Büyüklük Farkı |
Nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde Öklid uzaklığı, Karesel Öklid uzaklığı, Karl Pearson uzaklığı, Manhattan uzaklığı, Minkowski uzaklığı, Mahalanobis uzaklığı, Korelasyon uzaklığı ve Açısal benzerlik ölçülerinden yararlanılır.
13.Soru
Veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen değerlerden sapan aykırı değerlere veya hatalara aşağıdakilerden hangi ad verilir?
Eksik Veri |
Gürültü |
Tutarsız |
Boş veri |
Tutarsız Veri |
Gürültü, veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen değerlerden sapan aykırı değerler veya hatalardır.
14.Soru
Aşağıdakilerden hangisi bir veri dönüştürme işlemi değildir?
Ölçek oluşturma |
Düzeltme |
Bir araya getirme |
Genelleme |
Normalleştirme |
Bazı durumlarda orijinal veri kümelerindeki özellikler gerekli enformasyonu içerdiği halde veri madenciliği algoritmaları için uygun yapıda olmayabilirler. Bu durumda orijinal özelliklerinden oluşturulan bir veya daha fazla yeni özellik orijinal özelliklerden daha faydalı olabilir. Veri dönüşümünde verilerin veri madenciliği için uygun formlara dönüştürülmesi düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma işlemleriyle gerçekleştirilir.
Bu nedenle doğru yanıt a) seçeneğidir.
15.Soru
Farklı kadife, keten, saten olmak üzere kumaş türleri üreten bir fabrikanın, önceki ay kadife kumaştan ne kadar satıldığını öğrenilebilmesi için veri sisteminde hangi sistemi kullanılması gerekmektedir?
Veritabanı sorgulaması |
Veri ambarı incelemesi |
OLAP sorgulama işlemi |
Veri madenciliği |
Veri çekme |
Çok yönlü veri analizi ve sorgulama yapmak istediklerinde normal veri analizi ve sorgulamadan farklı bir sistem kullanırlar. C¸evrimiçi Analitik İşleme olarak adlandırılan bu sisteme kısaca OLAP (OnLine Analytical Processing) denir. OLAP uygulamaları veri ambarından çekilen veriler üzerinde gerçekleştirilir. OLAP sorgulamaları işlemsel veri tabanlarında gerçekleştirilen basit analiz ve sorgulamalardan farklı olarak, veriyi çok boyutlu biçimde analiz eder ve analiz sonucunda yöneticilere stratejik kararlarında destek olacak yararlı bilgiler sunar. Çözüm için OLAP sorgulama işleminin yapılması gerekmektedir. Doğru cevap C'dir.
16.Soru
Aşağıdakilerden hangisinde normalleştirmede kullanılan yöntemlerin hepsi verilmiştir?
Enk-enb normalleştirme, z-skor normalleştirme |
Sayısal ölçekleme, enk-enb normalleştirme |
Enk-enb normalleştirme ve ondalık ölçekleme |
Z-skor normalleştirme, sayısal ölçekleme, enk-enb normalleştirme |
Enk-enb normalleştirme, z-skor normalleştirme ve ondalık ölçekleme |
Normalleştirmede enk-enb normalleştirme, z-skor normalleştirme ve ondalık ölçekleme yöntemleri kullanılır.
17.Soru
Bir okuldaki erkek öğretmenlerin sayısı ne tür değişkene örnek olarak verilebilir?
Tam sayılı değişken |
İkili değişken |
Nominal değişken |
Ordinal değişkeni |
Aralıklı ölçümlendirilmiş değişken |
Bir ouldaki erkek öğretmenlerin sayısı tam sayılı değişkene örnek olarak verilebilir. Bu yüzden doğru cevap A seçeneğidir.
18.Soru
Farklı özelliklerin ortaya çıkma sıklığı hakkındaki bilgiye ne ad verilir?
Sığ bilgi |
Gizli bilgi |
Çok boyutlu bilgi |
Derin bilgi |
Meta bilgi |
Farklı özelliklerin ortaya çıkma sıklığı hakkındaki bilgiye çok boyutlu bilgi denilmektedir. Bu nedenle doğru cevap C'dir.
19.Soru
Aşağıdakilerden hangisi veri madenciliğinde kullanılan temel değişken tiplerinden biri değildir?
Ölçümlendirilmemiş |
Oranlı Ölçümlendirilmiş |
Aralıklı Ölçümlendirilmiş |
Sıra Gösteren |
İsimsel |
Veri madenciliğinde temel değişken tipleri İsimsel (Nominal), İkili (Binary), Sıra Gösteren (Ordinal), Tamsayılı (Integer), Aralıklı Ölçümlendirilmiş (IntervalScaled), Oranlı Ölçümlendirilmiş (Ratio-Scaled) değişkenler olmak üzere gruplandırılabilir.
Bu nedenle doğru yanıt a) seçeneğidir.
20.Soru
I. Sıralama
II. Açığa çıkarma
III. Keşfetme
IV. Çoğaltma
Yukarıdakilerin hangileri verinin bilgiye dönüşme sürecindeki aşamalardandır?
II ve IV |
I ve IV |
II ve III |
III ve IV |
Yalnız III |
Bilgi ise en yalın tanımıyla verinin işlenmiş ve dönüştürülmüş halidir. Söz konusu işleme ve dönüştürme süreci, veri üzerinde kaydetme, sınıflama, sıralama, hesaplama, özetleme, çoğaltma, analiz ve raporlama işlemlerinin uygulanması ile gerçekleştirilir.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ