Veri Madenciliği Ara 6. Deneme Sınavı
Toplam 20 Soru1.Soru
Aşağıdaki seçeneklerin hangisinde, R yazılımında 1'den 4'e kadar herbirinden kendi sayısı kadar olacak biçimde rakamlardan oluşan vektörü oluşturmak için yapılacak işlem doğru bir şekilde verilmiştir?
[1] 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 |
> rep(seq(4),c(1,2,3,4)) |
> rep(seq(5),rep(5,5)) |
> rep(1:5,4) |
> rep(seq(1,6),2) |
R yazılımında 1'den 4'e kadar herbirinden kendi sayısı kadar olacak biçimde rakamlardan oluşan vektörü oluşturmak için > rep(seq(4),c(1,2,3,4)) işlemi gerçekleştirilmelidir. Doğru cevap B'dir.
2.Soru
Farklı kaynaktan gelen verilerin eşleştirilmesi için aynı varlıkların belirlenmesi, fazla veri sorunları ve veri değer karmaşalarının belirlenmesi ve çözümlenmesi konularının ön plana çıktığı işlem aşağıdakilerden hangisidir?
Veri birleştirme |
Veri indirgeme |
Veri dönüştürme |
Veri temizleme |
Veri sıkıştırma |
Veri birleştirme çoklu kaynaklardan gelen verinin uygun bir veri ambarına birleştirilmesidir. Çoklu veri kaynakları veritabanları, veri küpleri veya dış dosyalardan oluşabilir. Veri birleştirmede şema birleştirmesi, fazla veri sorunları ve veri değer karmaşalarının belirlenmesi ve çözümlenmesi olmak üzere üç temel konu ön plana çıkar. Şema birleştirme iki farklı kaynaktan gelen verilerin eşleştirilmesi için aynı varlıklar belirlenerek veriler şemalar yardımıyla birleştirilir. Şema birleştirme işleminde hataları engellemek için meta veri kullanılabilir. Veritabanları ve veri ambarlarında yer alan meta veri kavramı veri hakkında depolanan veri olarak tanımlanır. Veri birleştirmede ikinci önemli konu olan veri fazlalığı, bir varlığın özelliklerinin birden fazla kaynaktan toplanması durumunda ortaya çıkar. Bazı veri fazlalığı korelasyon analizi ile ortaya çıkarılabilir. Korelasyon analizi iki değişken arasındaki ilişkinin yönünün, büyüklüğünün ve önemini gösteren istatistiksel bir yöntemdir. Veri birleştirmede üçüncü önemli konu veri değer karmaşıklığının belirlenmesi ve çözümlenmesidir. Farklı veri kaynaklarından gelen özellik değerleri ölçekleme, birim sistemi veya gösterimdeki farklılıklar yüzünden birbirlerinden farklı olabilirler. Örneğin ağırlık özelliği farklı kaynaklarda farklı birim sistemiyle depolanmış olabilir. Veri bütünleştirme işlemlerinde verinin bu tür heterojenliği dikkate alınmalıdır.
Bu nedenle doğru yanıt a) seçeneğidir.
3.Soru
Veritabanlarında bilgi keşif sürecinde en fazla zaman alan aşama hangisidir?
Amacın tanımlanması |
Modelin kurulması ve değerlendirilmesi |
Veriler üzerinde ön işlemlerin yapılması |
Modelin kullanılması ve yorumlanması |
Modelin İzlenmesi |
Açıklama: Veriler üzerinde yapılan ön işlemler, veri tabanlarında bilgi keşfi sürecinin en fazla zaman alan aşamasıdır.
4.Soru
"İşletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlar" ifadesi seçeneklerden hangisinin tanımıdır?
Veritabanı |
Veritabanı sistemleri |
Veri işleme |
Makine öğrenmesi |
Veri ambarı |
Veri ambarı işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir.
5.Soru
Verinin bir anlam oluşturacak şekilde düzenlenmiş haline ne ad verilir?
Kümeleme |
Veri Bankası |
İstatistik |
Enformasyon |
Veri Düzeneği |
Enformasyon, verinin bir anlam oluşturacak şekilde düzenlenmiş halidir.
6.Soru
Microsoft EXCEL programıyla hazırlanmış bir dosya, R yazılımı yardımıyla işlenmiş veri haline getirilerek gerekli sonuçlar elde edilmek istenmektedir. Bu EXCEL dosyasının R yazılımında çalışabilmesi için hangi uzantıya sahip olması gerekir?
exe |
|
csv |
png |
djvu |
Microsoft Excel dosyalarından okuma işlemleri gerçekleştirilirken, her bir çalışma sayfası “csv” dosyası olarak kaydedilerek daha sonra bunların her biri read.csv() fonksiyonu ile elde edilebilir.
Doğru cevap C şıkkıdır.
7.Soru
R yazılımında çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde aşağıdaki komutların hangisinden faydalanılır?
list |
data.frame |
matris |
c() |
seq |
Çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde List Nesnelerinden faydalanılır. Örneğin; ilgilenilen veri kümesi ile bunlara ait korelasyon matrisi aynı nesne içerisinde görüntülenebilir (ya da hafızada birlikte saklanmaları sağlanabilir). Bu nedenle doğru yanıt a) seçeneğidir.
8.Soru
Öklid ve karesel öklid uzaklığı ile ilgili aşağıda verilen ifadelerden hangisi yanlıştır?
Uzaklık ölçüleri arasında en yaygın kullanılan uzaklık ölçüleri Öklid ve Karesel Öklid |
Öklid uzaklığı, i’inci ve j’inci nesnelerin p tane değişken için farklarının kareleri toplamının karekökü alınarak elde edilir. |
Öklid uzaklık ölçüsü, değişkenlerin birbirinden bağımsız olduklarını varsayar. |
Öklid uzaklığının hesaplanabilmesi için verilerin oransal ya da aralıklı ölçekle ölçülmüş olması gerekir. |
Öklid uzaklığı "sıfır" ile "bir" arasında değerler alır yani tanım aralığı [0,1]’dir. |
Öklid uzaklığı “sıfır” ile “sonsuz” arasında değerler alır yani tanım aralığı [0,?)’dur.
9.Soru
"Veriden örüntülerin çıkarılması amacıyla çeşitli algoritmaların uygulanmasıdır."
Yukarıdaki cümle hangi kavramı tanımlamaktadır?
OLAP |
Veri |
İç Kaynak |
Dış Kaynak |
Veri Madenciliği |
Veri madenciliği, veriden örüntülerin çıkarılması amacıyla çeşitli algoritmaların uygulanmasıdır. Doğru cevap E'dir.
10.Soru
"İşletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir."
Yukarıda tanım hangi kavramı anlatmaktadır?
Veri ambarı |
Veri madenciliği |
Veri tabanı |
Veri yönetimi |
Veri girişi |
Yukarıdaki tanım veri ambarını anlatmaktadır. Doğru cevap A'dır.
11.Soru
R yazılımda matematik dersinde alınan notlar x vektöründe tanımlanmıştır. Notları 45 üzerinde olan öğrenci sayıları belirlenmek istenmektedir. Bunun için ilgili satıra yazılması gereken fonksiyon aşağıdakilerden hangisidir?
x[x>45] |
x[x<45] |
X[X>45] |
lenght(x[x>45]) |
sort(x[x>45]) |
R yazılımında ve genel olarak diğer yazılımlarda içten dışa doğru işlemler yapılır. lenght(x[x>45]) ifadesinde x[x>45] ile 45'ten büyük notlar belirlenir. length fonksiyonu ile de bu notların kaç tane olduğu bulunur. Ayrıca değişken isimleri küçük-büyük harflere duyarlıdır yani x, X eşit değildir.
Doğru cevap D şıkkıdır.
12.Soru
X=[199,211,359] değişkeninde gözlem değeri X1=199 için, ondalık ölçekleme normalleştirme yöntemi j=3 olacak şekilde dönüşümü aşağıdakilerden hangisidir?
-0,199 |
-1,99 |
0,0199 |
0,199 |
1,99 |
X1=199 için, ondalık ölçekleme normalleştirme yöntemi j=3 olacak şekilde dönüşümü: 199/10j =0,199 'dur.
13.Soru
- Sıkıştırma
- Düzeltme
- Bir araya getirme
- İndirgeme
- Normalleştirme
Yukarıda verilenlerden hangileri veri dönüşümünde, verilerin veri madenciliği için uygun formlara dönüştürülmesi için kullanılan işlemlerdendir?
I, II ve III |
I, III ve IV |
II, III ve V |
II, IV ve V |
III, IV ve V |
Düzeltme, bir araya getirme, normalleştirme ve özellik oluşturma verilerin veri madenciliği için uygun formlara dönüştürülmesi için kullanılan işlemlerdendir.
14.Soru
Benzerlik ve uzaklık ile ilgili aşağıdaki ifadelerden hangisi yanlıştır?
Uzaklık [-1,1] aralığında değer alır |
Uzaklık farklılığın bir alt kümesidir |
Benzerlik iki nesnenin birbirine benzeme derecesinin sayısal bir ölçüsüdür |
Benzerlik [-1,1] aralığında değer alır |
Yüksek uzaklık değeri nesnelerin benzer olmadıklarını ifade eder |
Uzaklık kimi zaman [0,1] aralığına düşecek şekilde tanımlansa da genel olarak aralığındadır. Bu nedenle doğru cevap A seçeneğidir.
15.Soru
Tesadüfi olarak seçilen bir değişkende her iki nesnenin de aynı özelliğe
sahip olma olasılığını veren bir katsayı aşağıdakilerden hangisidir?
Basit eşleştirme katsayısı |
Alfa kesim noktası |
Uzaklık katsayısı |
Üyelik katsayısı |
Referans katsayısı |
Basit eşleştirme katsayısı, p tane değişken açısından ilgilenilen nesnelerin her ikisinde de
olmama (0-0) ve olma (1-1) durum sayılarının oranını gösteren bir benzerlik ölçüsüdür.
Diğer bir anlatımla, tesadüfi olarak seçilen bir değişkende her iki nesnenin de aynı özelliğe sahip olma olasılığını veren bir katsayıdır.
Doğru cevap A şıkkıdır.
16.Soru
Aşağıdakilerden hangisi R yazılımında gözlem değerlerinin aritmetik ortalamadan olan farklarının değişkene ilişkin standart sapmaya bölünmesini yapan işlevi tanımlar?
n0 |
n1 |
n2 |
n3 |
n4 |
R yazılımında gözlem değerlerinin aritmetik ortalamadan olan farklarının değişkene ilişkin standart sapmaya bölünmesini yapan işlev n1'dir. Bu nedenle doğru cevap B seçeneğidir.
17.Soru
İki nesne arasındaki yüksek uzaklık değeri bu iki nesne için neyi ifade eder?
Benzer olduklarını |
Benzer olmadıklarını |
İlişkisiz olduklarını |
d(x,y)=0 ifadesini sağladığını |
s(x,y)=1 ifadesini sağladığını |
İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder.
Doğru cevap B şıkkıdır.
18.Soru
Veri madenciliğinin tarihsel süreci içerisinde düşünüldüğünde veri tabanı kavramı hangi amaçla ortaya çıkmıştır?
Veri düzeni |
Eksik verileri tamamlama |
Verilerin depolanması |
Verilerin kayıt altına alınması |
Veri aktarımı |
Veri madenciliğinin tarihi bilgisayarların hayatımıza girmesiyle başlamıştır. 1950’li yıllardaki ilk bilgisayarların geliştirilme ve kullanım amacı sayım ve karmaşık hesaplamaları kolaylıkla yapabilmekti. Daha sonra kullanıcıların ihtiyaçları doğrultusunda, bilgisayarlar veri depolama işlemleri için de kullanılmaya başlanmıştır. Verilerin depolanması ihtiyacı ile birlikte, 1960’lı yıllardan itibaren teknoloji dünyası veri tabanı kavramı ile tanışmıştır.
19.Soru
İşletmelerin varlığını sürdürebilmesi için yöneticilerinin doğru kararları ve doğru stratejileri belirlemesi için bilgiyi hangi koşullarda elde etmelidir?
Doğru yer |
Doğru zaman |
Doğru kişi |
Doğru karar |
Doğru strateji |
İletişim ve bilişim teknolojilerinde yaşanan gelişmeler dünyada her şeyin hızla değişmesine neden olmaktadır. İster kâr amaçlı işletmeler, ister diğer kurum ve kuruluşlar açısından olsun, değişimlere ayak uydurabilmek başarı için önemli bir gerekliliktir. İşletmeler açısından ele alındığında bu değişimler; ekonomik koşullarda, iş yapma biçimlerinde, müşteri beklentilerinde, müşteri eğilimlerinde, rakiplerin stratejilerinde vb. ortaya çıkmaktadır. İşletmelerin bu değişimlere ayak uydurabilmesi, rakipleriyle yarışabilmesi ve varlıklarını başarılı bir biçimde sürdürebilmesi için, işletmelerde karar verici konumunda olan yöneticilerin, doğru kararlar vererek doğru stratejiler belirlemeleri gerekmektedir. Bu da ancak zamanında elde edilebilen doğru bilgilerin kullanımıyla mümkün olacaktır.
20.Soru
- Sınıflayıcı ölçek
- Sıralayıcı ölçek
- Aralıklı ve oransal ölçek
Yukarıdaki ölçeklerden hangisi/hangileri ile ölçülebilen değişkenler nicel değişkenler olarak adlandırılırlar?
Yalnız I |
Yalnız II |
Yalnız III |
I ve II |
I, II ve III |
Sınıflayıcı ve sıralayıcı ölçek ile ölçülebilen değişkenler nitel, aralıklı ve oransal ölçek ile ölçülebilen değişkenler ise nicel değişkenler olarak adlandırılırlar.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ