Veri Madenciliği Ara 2. Deneme Sınavı
Toplam 20 Soru1.Soru
Aşağıdakilerden hangisi veri hazırlama süreçlerinden değildir?
Veri toplama |
Veri temizleme |
Veri dönüştürme |
Veri birleştirme |
Veri indirgeme |
Veri toplama, veri hazırlama süreçlerinden değildir.
2.Soru
Aşağıdakilerden hangisi veri indirgeme yöntemlerinden değildir?
Veri küpü birleştirme |
Boyut indirgeme |
Gürültü indirgeme |
Büyük sayıların indirgenmesi |
Veri sıkıştırma |
Gürültü indirgeme, veri indirgeme yöntemlerinden değildir.
3.Soru
Aşağıdakilerden hangisi temel değişken tiplerinden değildir?
İkili Değişkenler |
Sıra Gösteren Değişkenler |
Normalleştirilmiş Değişkenler |
İsimsel Değişkenler |
Aralıklı Ölçümlendirilmiş Değişkenler |
Normalleştirilmiş değişkenler temel değişken tiplerinden değildir.
4.Soru
Veri tabanlarında bilgi keşfi sürecinin en fazla zaman alan aşaması aşağıdakilerden hangisidir?
Amacın tanımlanması |
Veriler üzerinde ön işlemlerin yapılması |
Modelin kurulması ve değerlendirilmesi |
Modelin kullanılması ve yorumlanması |
Modelin izlenmesi |
Veri tabanlarında bilgi keşfi sürecinin en fazla zaman alan aşaması veriler üzerinde ön işlemlerin yapılması olmaktadır. Bu nedenle doğru cevap B seçeneğidir.
5.Soru
- L1 norm olarak da bilinir
- Minkowski uzaklığının özel bir halidir.
- Aykırı değerlere karşı hassasiyeti düşüktür.
Yukarıda özellikleri verilen uzaklık ölçüsü aşağıdakilerden hangisidir?
Manhattan uzaklığı |
Karl Pearson uzaklığı |
Öklid uzaklığı |
Mahalanobis uzaklığı |
Jaccard uzaklığı |
Özellikleri verilen uzaklık ölçüsü Manhattan uzaklığıdır.
6.Soru
Aşağıdakilerden hangisi iki sonuçlu değişkenler için kullanılan yakınlık ölçülerinden birisidir?
Karl Pearson uzaklığı |
Manhattan uzaklığı |
Minkowski uzaklığı |
Açısal benzerlik |
Jaccard uzaklığı |
İki sonuçlu değişkenler için kullanılan yakınlık ölçüleri şu şekilde sıralanır: a)Basit eşleştirme katsayısı ve uzaklığı b)Binary öklid ve karesel öklid uzaklığı c)Jaccard benzerlik katsayısı ve uzaklığı. Bu nedenle doğru cevap E'dir.
7.Soru
Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin tablo ve grafikler ile sunulmasını sağlayan disiplin seçeneklerden hangisidir?
Makine öğrenimi |
İstatistik |
Görselleştirme |
Örüntü tanıma |
Veritabanı sistemleri |
Veri madenciliğinde söz konusu diğer bir disiplin olan görselleştirme; verilerin, tablolar ve grafikler gibi görseller yardımıyla sunulmasını sağlayan teknolojileri ifade eder.
Görselleştirme; verilerin daha kolay anlaşılmasına, analiz edilmesine ve geleceğe yönelik tahminlerde bulunulmasına önemli katkı sağlamaktadır.
8.Soru
R yazılımında bir matrisin (Örneğin, matris2 isimli bir matrisin) kendi evriği ile matris çarpımı aşağıdaki komutlardan hangisi ile elde edilebilir?
> matris2 %*% t(matris2) |
> matris2 * t(matris2) |
> matris2 %+% t(matris2) |
> t(matris2) %*% matris2 |
> t(matris2) * matris2 |
R dilinde matris çarpımı %*% operatörü ile yapılır. Matris çarpımında A%*%B ile B%*%A birbirine eşit değildir. Bir matrisin evriği t(matris) işlevi ile hesaplanır. Bu durumda matris2 isimli bir matrisi kendi evriği ile çarpmak
> matris2 %*% t(matris2)
İle gerçekleştirilir.
Bu nedenle doğru yanıt a) seçeneğidir.
9.Soru
R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimlerini bir araya getirmek için aşağıdakilerden hangisi kullanılır?
data.frame |
list |
matris |
c() |
seq |
Birçok araştırmada ilgilenilen değişkenin çeşitli seviyeleri ve bu seviyeler için gözlem değerleri bulunmaktadır. R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimleri data frame olarak bir araya getirilirler. “data.frame” fonksiyonunda her sütunda eşit sayıda birim yer almaktadır. Her satır bir gözlem birimini temsil etmektedir. Örneğin; 8 adet öğrencinin 4 farklı dersten aldıkları başarı puanları bir değişkende bir araya getirilebilir.
10.Soru
Aşağıda verilen ve veri madenciliğinde kullanılan modellerden hangisi, sınıflandırma modelleri arasında yer almaz?
Sıra Örüntü Analizi |
Karar Ağaçları |
Hatayı Geri Yayma |
Yapay Sinir Ağları |
Zaman Serisi Analizi |
Sınıflandırma Modelleri
- Karar Ağaçları
- Bayes Sınandırması
- Hatayı Geri Yayma
- Karar Destek Makineleri
- k-En Yakın Komsu
- Yapay Sinir Ağları
- Genetik Algoritmalar
- Zaman Serisi Analizi
11.Soru
Düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesi işlemine ne ad verilir?
Düzeltme |
Bir araya getirme |
Genelleme |
Özellik oluşturma |
Standartlaştırma |
Düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesi işlemine genelleme denilir. Bu nedenle doğru cevap C olmaktadır.
12.Soru
3x3 tipinde x ve y gibi iki kare matris çarpımı yapabilmek için ilgili satıra aşağıdakilerden hangisi yazılmalıdır?
x*y |
x3**y3 |
x&*y |
x%*%y |
x.y |
x ve y gibi iki kare matris çarpımı yapabilmek için ilgili satıra x%*%y yazılmalıdır. Matris iç çarpımı yapabilmek için ise, x*y yazılmalıdır. Kısacası %*% işlemi matris çarpımı için kullanılır.
Doğru cevap D şıkkıdır.
13.Soru
R yazılımında
> matrix(c(6,5,4,3,2,1,1,2,3,4,5,6),ncol=2)
Komutu ile oluşturulan matrisin görünümü aşağıdakilerden hangisi olacaktır?
[,1] [,2] [1,] 6 1 [2,] 5 2 [3,] 4 3 [4,] 3 4 [5,] 2 5 [6,] 1 6 |
[,1] [,2] [1,] 1 1 [2,] 2 2 [3,] 3 3 [4,] 4 4 [5,] 5 5 [6,] 6 6 |
[,1] [,2] [1,] 1 6 [2,] 2 5 [3,] 3 4 [4,] 4 3 [5,] 5 2 [6,] 6 1 |
[,1] [,2] [1,] 6 6 [2,] 5 5 [3,] 4 4 [4,] 3 3 [5,] 2 2 [6,] 1 1 |
[,1] [,2] [1,] 1 4 [2,] 2 5 [3,] 3 6 [4,] 3 6 [5,] 2 5 [6,] 1 4 |
Birçok araştırmada, yapılan analizler sırasında matris oluşturulması gerekmektedir. R yazılımında matris oluşturmak için matrix() fonksiyonu kullanılır. Bu fonksiyonun genel yazılımı; matrix(veri, nrow(satırsayısı), ncol(sütünsayısı), byrow=F(veri sütun olarak girilsin)) şeklindedir. 2 değişken ve 6 gözlem değerinden oluşan veri seti için iki sütun ve altı satırlık bir matris oluşturalım. Veriyi hem matrix() komutu içerisinde hem de bir değişken kullanarak atayalım. Veri, matrix() komutu içinde aşağıdaki gibi oluşturulabilir.
> matrix(c(6,5,4,3,2,1,1,2,3,4,5,6),ncol=2)
[,1] [,2]
[1,] 6 1
[2,] 5 2
[3,] 4 3
[4,] 3 4
[5,] 2 5
[6,] 1 6
Bu nedenle doğru yanıt a) seçeneğidir.
14.Soru
I. Yatay düzlem veri modeli
II. Hiyerarşik veri modeli
III. Perseptron veri modeli
IV. Ağ veri modeli
Yukarıdakilerden hangileri ilk veri modellerindendir?
Yalnız I |
I ve II |
I ve III |
II ve IV |
Yalnız III |
Zaman içinde giderek büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de doğal olarak zorlaşmıştır. Bu zorlukların üstesinden gelebilmek amacıyla ise veri modelleme kavramı ortaya atılmıştır. İlk veri modelleri; Hiyerarşik Veri Modeli ve Ağ Veri Modeli olarak adlandırılan basit veri modelleridir.
15.Soru
Aşağıdakilerden hangisinde R yazılımın hangi görev için kullanıldığı doğru verilmiştir?
R yazılımının bir veri işleme ve grafik çizme programıdır. |
R yazılımının bir analiz programıdır. |
R yazılımının bir sohbet programıdır. |
R yazılımının bir sayfa tasarım programıdır. |
R yazılımının bir fotoğraf düzenleme programıdır |
R yazılımının bir veri işleme ve grafik çizme programı olduğu unutulmamalıdır.
16.Soru
[50,130] kapalı aralığında hesaplanmış s = 70 benzerlik değerinin [0,1] aralığındaki karşılığı kaçtır?
0.35 |
0,60 |
0 |
0.75 |
0.25 |
formülünde sınır değerlerini (en küçük ve en büyük değerleri) ve istenen değeri yerine yazdığımızda istenen sonuç elde edilecektir.
s'=(70-50)/(130-50)=0.25
Doğru cevap E şıkkıdır.
17.Soru
R ile Öklid uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan aşağıdakilerden hangi fonksiyondan yararlanılır?
Abs() |
Log() |
Dist() |
Exp() |
Sqrt() |
R ile Öklid uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan dist() fonksiyonundan yararlanılır.
18.Soru
I. Modelin kurulması
II. Amacın tanımlanması
III. Modelin izlenmesi
IV. Veriler üzerinde ön işlemlerin yapılması
Yukarıdakilerden hangileri veri madeciliği öncesinde gerçekleştirilen işlemlerdendir?
I ve II |
II ve III |
I ve III |
II ve IV |
III ve IV |
Veri madenciliği öncesindeki işlemler; veri tabanlarında bilgi keşfi sürecinin ilk iki aşaması olan, amacın tanımlanması ve veriler üzerinde ön işlemlerin yapılması aşamalarına karşılık gelmektedir.
Veri madenciliği işlemlerinin kendisi, modelin kurulması ve değerlendirilmesi aşamasında gerçekleştirilen faaliyetlerdir.
Veri madenciliği sonrasındaki işlemler ise modelin kullanılması ve yorumlanması ile modelin izlenmesi aşamalarındaki işlemlerdir.
19.Soru
Minimum değeri 100 olan bir değişkenin 300 değerinin enk-enb normalleştirme yöntemine göre dönüşümü sonucu 0,5 ise değişkenin maksimum değeri kaçtır?
400 |
500 |
600 |
800 |
1000 |
(X-Xenk)/(Xenb-Xenk)=0,50 ise (300-100)/(Xenb-100)=0,5 Xenb yani maksimum değeri 500'dür.
20.Soru
- Veri kalitesi probleminin farkına varılması ve doğrulanması ........... olarak adlandırılır.
- ..........., veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen değerlerden sapan aykırı değerler veya hatalardır.
Yukarıda verilen ifadelerde boşluklara sırası ile aşağıdakilerden hangisi gelmelidir?
A:Veri hazırlama B:Normalleştirme |
A: Veri temizleme B: Gürültü |
A: Veri dönüştürme B: Eksik veri |
A: Veri birleştirme B: Kirlilik |
A:Veri sıkıştırma B:Tutarsızlık |
Veri kalitesi probleminin farkına varılması ve doğrulanması veri temizleme olarak adlandırılır.
Gürültü, veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen değerlerden sapan aykırı değerler veya hatalardır.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ