Veri Madenciliği Ara 3. Deneme Sınavı
Toplam 20 Soru1.Soru
Aşağıdakilerden hangisi kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan yaklaşımlardan birisi değildir?
Normalizasyon yöntemini kullanmak |
Kayıp veri içeren kaydı veri kümesinden çıkarmak |
Tüm kayıp veriler için aynı veriyi girmek |
Kayıp veri yerine tüm verilerin ortalama değerini girmek |
Kayıtlardaki diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesi |
Kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan yaklaşımlar şu şekildedir: a)Kayıp veri içeren kaydı veri kümesinden çıkarmak b)Kayıp verileri tek tek yazmak c)Kayıp verilerin hepsi için aynı veriyi girmek d)Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi e)Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesi. Bu nedenle doğru cevap A'dır.
2.Soru
R yazılımında matris oluşturmak için hangi fonksiyon kullanılmaktadır?
matrix() fonksiyonu |
Doğru (T) fonksiyonu |
False(x) fonksiyonu |
data.frame fonksiyonu |
List Nesneleri |
R yazılımında matris oluşturmak için matrix () fonksiyonu kullanılmaktadır. Doğru cevap A'dır.
3.Soru
Aşağıdakilerden hangisi dönüştürme yöntemleri içinde uygulamada en çok kullanılan dönüştürme yöntemidir?
Enk-enb normalleştirme |
Sayısal ölçekleme |
Z-skor normalleştirme, |
Ondalık ölçekleme |
Rastsal normalleştirme |
Z-skor normalleştirme dönüştürme yöntemleri içinde uygulamada en çok kullanılan dönüştürme yöntemidir.
4.Soru
R yazılımında;
sayı<-c(3,7,12,4,9,17,2) vektör elemanları küçükten büyüğe doğru sıralanmak istendiğinde yazılacak fonksiyon aşağıdakilerden hangisidir?
sqrt(sayı) |
sqrt(c) |
rep(sayı) |
seq(sayı) |
sort(sayı) |
R yazılımında sayıların küçükten büyüğe doğru sıralanması için yazılacak olan fonksiyon sort() fonksiyonudur. Yukarıdaki örnekte bu vektöre atanan değişken ismi "sayı" olduğundan sort(sayı) yazılmalıdır.
Doğru cevap E şıkkıdır.
5.Soru
Nesneler arasında 1 hiç benzerliğin olmadığını 100 ise tam benzerliğin olduğunu göstermek üzere elde edilmiş olan 65 benzerlik değerinin [0,1] aralığına düşen dönüşüm değeri nedir?
0,29 |
0,65 |
0,44 |
0,69 |
0,73 |
s=65 için s'=(65-1)/(100-1)=(64/99)=0,65 olur. Bu nedenle doğru cevap B'dir.
6.Soru
Aşağıdakilerden hangisi bir değişkenin karekökünü hesaplamada kullanılan komuttur?
qwer |
bhyt |
sqrt |
matrix |
khgd |
Bir
değişkenin karekökü sqrt() fonksiyonu yardımıyla hesaplanabilir.
7.Soru
Minkowski uzaklığı, n sayıda birim ve p sayıda değişken ile çalışılırken birimler yada değişkenler arasındaki uzaklıkları hesaplamak için kullanılan genel bir uzaklık ölçüsüdür. Minkowski uzaklığı L? norm olarak da bilinir. ?=2 olarak alınırsa hangi uzaklığa dönüşür?
Öklid Uzaklığı |
Korelasyon Uzaklığı |
Mahalanobis Uzaklığı |
Jaccard Benzerlik Uzaklığı |
Basit Eşleştirme Uzaklığı |
nkowski uzaklık formülünde ?=2 olarak alınırsa Manhattan (City-Block) Uzaklığına dönüşür.
Doğru cevap A şıkkıdır.
8.Soru
Harf, rakam ya da çeşitli sembol ve işaretler ile temsil edilen ham gözlemler, işlenmemiş gerçekler ya da izlenimler ifadesi seçeneklerdeki kavramlardan hangisinin tanımıdır?
Veri madenciliği |
Veritabanı |
Makine öğrenimi |
Veri |
Veri yönetimi |
Veri, ham gözlemler, işlenmemiş gerçekler ya da izlenimlerdir. Bu gözlemler, gerçekler ya da izlenimler harf, rakam ya da çeşitli sembol ve işaretler yardımıyla temsil edilir.
9.Soru
Veri ambarlarında aykırı veriyi bulma ve düzeltme için, verilerdeki gürültünün temizlenmesi yaklaşımlarından hangisi kullanılır?
Bölümleme yöntemi yaklaşımı |
Sınır değerleri yaklaşımı |
Kümeleme yöntemi yaklaşımı |
Regresyon yöntemiyle yaklaşımı |
Ayıklama yöntemi yaklaşımı |
Kümeleme yöntemi yaklaşımı: aykırı değerlerin ortaya çıkarılması ve düzeltilmesinde kullanılır. Buna göre, veri setinde yer alan veriler birbirlerine olan benzerlik ve yakınlıklarına göre kümelere ayrılır. Bu kümeleme işlemi sırasında uç değer olarak kabul edilen bazı veriler hiçbir küme içinde yer alamayacaktır. Bu şekilde belirlenen her bir aykırı değere, en yakın olduğu kümenin ortalama değeri veya en küçük ya da en büyük değeri atanarak aykırı veriler temizlenmiş olur.
10.Soru
Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin analizi ve değerlendirilmesi işlemlerini gerçekleştiren disiplin seçeneklerden hangisidir?
Makine öğrenimi |
Görselleştirme |
Örüntü tanıma |
Veritabanı sistemleri |
İstatistik |
İstatistik, verilerin analizi ve değerlendirilmesi konusunda geçmişten günümüze yoğun bir biçimde kullanılan bir disiplindir. Bilgisayar sistemlerinde hem donanım hem de yazılım alanında sağlanan gelişmeler doğal olarak istatistik alanını da etkilemiştir. İstatistiksel çalışmaların bilgisayar desteğiyle daha güçlü biçimde yapılması, daha önce gerçekleştirilmesi çok mümkün olmayan istatistiksel araştırmaları ve analizleri yapılabilir hâle getirmiştir. Bu anlamda 1990’lardan sonra, ilgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanıma hazır hâle getirilmesi sürecinde istatistik, veri madenciliği ile ortak bir platformda ve sıkı bir çalışma birlikteliği içinde olmuştur.
11.Soru
"Herhangi bir atama yapılması ya da matematiksel bir ifadenin hesaplanması için en basit komutlar olarak meydana çıkan komutlar grubuna .............. denir."
Aşağıdakilerden hangisi boş bırakılan yere uygun gelebilecek kavramdır?
"Herhangi bir atama yapılması ya da matematiksel bir ifadenin hesaplanması için en basit komutlar olarak meydana çıkan komutlar grubuna .............. denir."
Aşağıdakilerden hangisi boş bırakılan yere uygun gelebilecek kavramdır?
Veri |
Veri madenciliği |
R yazılım |
Kod |
Temel komutlar |
Herhangi bir atama yapılması ya da matematiksel bir ifadenin hesaplanması için en basit komutlar olarak meydana çıkan komutlar grubuna temel komutlar denir.
12.Soru
Minimum değeri 140, maksimum değeri 350 olan bir değişkenin, 230 değerini enk-enb normalleştirme yöntemine göre dönüşüm sonucu kaçtır?
0,43 |
0,27 |
0,15 |
-0,27 |
-0,43 |
enk-enb normalleştirmesi şu şekilde hesaplanır:(x-enk değer)/(enb değer- enk değer)
Buna göre 230 değeri için normalleştirme sonucu bulunan değer= (230-140)/(350-140)=0,43
Bu nedenle doğru cevap A olmaktadır.
13.Soru
Verinin hazırlanmasındaki amaç aşağıdakilerden hangisidir?
Ham verinin yapısında bulunan ve onu değersizleştiren hataları ve sorunları ortadan kaldırmak |
Verinin formatını veritabanı formatına uyarlamak. |
Verinin veritabanında daha az yer kaplamasını sağlamak. |
Verinin aranılabilirliğini ve erişilebilirliğini artırmak |
Ham verinin içerisindeki önemli bilgileri çıkarmak |
Verinin hazırlanmasındaki amaç, ham verinin yapısında bulunan ve onu değersizleştiren hataları ve sorunları ortadan kaldırmaktır.
14.Soru
R yazılımında;
a<-c(3,5,7,9,11,13,15,17) ifadesi ile elde edilen çıktıyı aşağıdaki fonksiyonlardan hangisi ile elde edebiliriz?
seq(3, 17, 2) |
sqrt(3, 17,2) |
rep(3, 17, 2) |
lenght(3, 17, 2) |
sort(3, 17, 2) |
Belirli bir düzene sahip olan vektörlerin oluşturulmasında seq() fonksiyonu kullanılır. Bu fonksiyonun genel yazılımı seq(altlimit, üstlimit, artış miktarı) şeklindedir.
a<-c(3,5,7,9,11,13,15,17), seq(3, 17, 2) şeklinde de yazılarak aynı çıktı elde edilebilir.
Doğru cevap A şıkkıdır.
15.Soru
Aşağıdakilerden hangisi veri madenciliğinin sonrasındaki işlemlerdendir?
Amacın tanımlanması |
Modelin izlenmesi |
Modelin kurulması ve değerlendirilmesi |
Modelin kullanılması ve yorumlanması |
Verilen üzerinde ön işlemlerin yapılması |
Modelin izlenmesi veri madenciliğinde sonra yapılan işlemlerdendir. Doğru cevap B'dir.
16.Soru
R yazılımında "müdür müdür müdür" ifadesini bir fonksiyonla oluşturmak istediğimizde aşağıdaki fonksiyonların hangisini kullanabiliriz?
sqrt(müdür,3) |
sort(müdür,3) |
rep(müdür,3) |
seq(müdür,3) |
matrix(müdür) |
Belirli bir düzene sahip verilerin oluşturulması için rep() fonksiyonu kullanılır.
rep(müdür) fonksiyonunun girilmesi durumunda;
"müdür müdür müdür" ifadesi oluşturulur.
Doğru cevap C şıkkıdır.
17.Soru
Bir veri setinde birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesine ne ad verilir?
Ölçme |
Ölçeklendirme |
Normalizasyon |
Derecelendirme |
Sayısallaştırma |
Hakkında bilgi edinilmek istenen canlı, cansız varlıklar veya olayların sahip oldukları ve birbirinden ayırt edilmesine yardımcı olan değişkenler veri madenciliğinde bir veri setinin sunumunda kullanılan tablo gösteriminde sütunlarda yer alır ve özellik olarak adlandırılır. Aynı tablo gösteriminde satırlarda ise nesne olarak adlandırılan gözlemler yer alır.
Birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesine ölçme adı verilir. Diğer bir deyişle gözlem ya da deney sonucunda elde edilen verilerin nicel olarak belirtilebilmesi amacıyla ölçmeye başvurulur. Sonuç olarak ölçmede bir tanımlama söz konusudur ve ölçmenin hangi ölçek ile yapılarak değerlendirildiği önemlidir. Örnek olarak bir markette satılan ürünlerin türlerine göre sınıflanması, market çalışanlarının yönetim katından en alt çalışanına kadar sıralanması, market alışverişinde satın alınacak bir ürünün ağırlığının ölçülmesi ve çalışanların aylık performanslarına göre değerlendirilerek ölçülmesi işlemlerinin tamamında bir ölçme işlemi vardır. Bu ölçme işlemleri arasındaki fark, her birinde kullanılan ölçeklerin farklı olmasıdır. Burada ölçek kavramı ölçmeye konu olan özelliklerin sınıflanması, sıralanması, derecelenmesi ya da miktar ve derecelerinin belirlenebilmesi için uyulması gereken kurallarla kısıtlamaları belirleyen ölçme aracı olarak tanımlanır
Bu nedenle doğru yanıt a) seçeneğidir.
18.Soru
R dilinde bir değişkene değer ataması yapılması (örneğin, 72 + 45 toplamının sonucunun x değişkenine atanması) için kullanılan söz dizimi aşağıdaki seçeneklerden hangisinde doğru uygulanmıştır?
> x <- 72 + 45 |
> 72 + 45 -> x |
> x = 72 + 45 |
> 72 + 45 = x |
> x eşittir 72 + 45 |
Matematiksel işlemin hemen sonucunu elde etmek yerine sonuçlar herhangi bir değişkene de atanabilir. Bu atama işlemi için “değişken <- işlem” yapısı kurulmalıdır. Örneğin önceki 72 + 45 toplamı x gibi bir değişkene atanmak istenirse
> x <- 72+45
komutunun verilmesi yeterli olacaktır. Yeni bir atama yapılmadığı sürece x değişkeni bu toplamın sonucundan oluşacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.
19.Soru
[0,?) aralığında değerler alan ve d = 3 olarak elde edilmiş uzaklık değerinin [0,1] aralığına düşen karşılığı aşağıdakilerden hangisidir?
0,10 |
0,25 |
0,50 |
0,75 |
0,99 |
d'=d/(1+d)
d'=3/4
=0,75
20.Soru
Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin depolanmasını ve kullanıcıların veriler üzerinde işlem yapmasına olanak sağlayan disiplin seçeneklerden hangisidir?
Makine öğrenimi |
İstatistik |
Görselleştirme |
Veritabanı sistemleri |
Örüntü tanıma |
Veri madenciliğinin olmazsa olmazlarından biri de veritabanlarıdır. Bilindiği gibi işletmelerde ve yapısal diğer tüm kurumlarda günlük işlemler ve bu işlemlere konu olan veriler kaydedilmektedir. Bununla birlikte veritabanı kavramı gelişigüzel veri yığınları olmayıp birbiriyle ilişkili olan ve amaca uygun biçimde düzenlenmiş, mantıksal ve fiziksel olarak tanımlanmış veriler bütünüdür. Veritabanı yönetim sistemi ise kısaca veritabanı tanımlamak, veritabanı oluşturmak, veritabanında işlem yapmak, veritabanının farklı kullanıcı yetkilerini belirlemek, veritabanının bakımını ve yedeklemesini yapmak için geliştirilmiş programlar bütünüdür. Son olarak, veritabanı ve veri tabanı yönetim sisteminin birlikte oluşturduğu bütün de veritabanı sistemi olarak ifade edilir.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ