Veri Madenciliği Final 4. Deneme Sınavı
Toplam 20 Soru1.Soru
Kaldıraç({A} ? {B}) =Güven({A} ? {B})/Destek{B} = 0,70/0,50 = 1,40 ifadesi için hangi yorum doğru olur?
B olduğunda A' da olma olasılığı , sadece A olma olasılığından %40 daha fazladır. |
A olduğunda B' de olma olasılığı , sadece B olma olasılığından %40 daha fazladır. |
A olduğunda B' de olma olasılığı , sadece A olma olasılığından %40 daha fazladır. |
B olduğunda A' da olma olasılığı , sadece A olma olasılığından %40 daha fazladır. |
A olduğunda B' de olma olasılığı , sadece B olma olasılığından %140 daha fazladır. |
Verilen eşitliğe göre B şıkkındaki yorum doğru olacaktır.
2.Soru
Aşağıdakilerden hangisi veya hangileri birleştirici aşamalı kümeleme yöntemlerindendir?
I. Tek bağlantı kümeleme yöntemi
II. Ortalama bağlantı kümeleme yöntemi
III. k-ortalamalar yöntemi
Yalnız I |
Yalnız II |
II ve III |
I ve II |
I, II ve III |
Birleştirici aşamalı kümeleme yöntemlerinde, birimlerin birbirleri ile birleştirilmesinde farklı yöntemler kullanılmaktadır. Bunlardan sıklıkla kullanılan ve genel kabul görmüş olanları aşağıdaki gibi sayılabilir.
• Tek Bağlantı Kümeleme Yöntemi (TekBKY, SINGLE Linkage [SLINK], En Yakın Komşuluk, Nearest Neighbour Method)
• Tam Bağlantı Kümeleme Yöntemi (TamBKY, COMPLETE linkage Method [CLINK], Furthest Neighbor Method)
• Ortalama Bağlantı Kümeleme Yöntemi (OrtBKY, AVERAGE Linkage Method, [ALINK])
• McQuitty Bağlantı Kümeleme Yöntemi (McQuitty linkage Method)
• Küresel Ortalama Bağlantı Kümeleme Yöntemi (KOBKY, CENTROID linkage Method)
• Medyan Bağlantı Kümeleme Yöntemi (MBKY, MEDIAN linkage Method)
• Ward Bağlantı Kümeleme Yöntemi (WBKY, WARD linkage Method, En Küçük Varyans Kümeleme Yöntemi)Yukarıda sayılan yöntemlerin, birimleri birleştirmede uydukları kriterler aşağıdaki alt başlıklar altında açıklanmıştır.
3.Soru
Aşağıdakilerden hangisi 'ikili bölünmeye dayanan bir tekniktir ve hesaplanmasında nitelik değerlerinin sola ve sağa olmak üzere iki bölüme ayrılması işlemi' yürütülür?
entropi |
statü niteliği |
gini indeksi |
ikili (binary) ayırma |
kazanç oranı ölçütü |
Gini indeksi, ikili bölünmeye dayanan bir tekniktir. Bu indeksin hesaplanmasında nitelik değerlerinin sola ve sağa olmak üzere iki bölüme ayrılması işlemi yürütülür.
4.Soru
- Veri ön işleme
- Örüntü keşfi
- Örüntü analizi
İşlenmiş veriden önemli ve anlamlı bilgiyi ortaya çıkarabilmek adına istatistiksel analiz, ilişki kuralları, sınıflandırma analizi, kümeleme analizi. gibi veri madenciliği teknikleri kullanılması yukarıda verilen veri kullanım aşamalarının hangisi/hangileridir
I |
II |
III |
II VE III |
III |
Örüntü keşfi
Bu aşama, veri ön işleme aşamasından geçirilmiş analize hazır olan verilere veri madenciliği tekniklerinin uygulanarak yararlı bilginin ortaya çıkarılması aşamasıdır. Bu aşamada işlenmiş veriden önemli ve anlamlı bilgiyi ortaya çıkarabilmek adına istatistiksel analiz, ilişki kuralları, sınıflandırma analizi, kümeleme analizi ve sıralı örüntüler vb. gibi veri madenciliği teknikleri kullanılır.
5.Soru
> x=read.csv(“c:/ulkeler.txt”)
> dist.x=dist(x,method=”euclidean”)
> dist.x
> h=hclust(dist.x,method=”single”)
> h
> clusters=cutree(h, k=3)
> clusters
> plot(h,labels=x$Ulke)
> rect.hclust(h, K=3)
Yukarıda Öklid Uzaklık Matrisi ile Tek Bağlantı Kümeleme Analizi işlemi gerçekleştiren R komut kümesinde kümeleme dendrogramını görüntüleyen komut satırı hangisidir?
> plot(h,labels=x$Ulke) |
> clusters |
> h$merge |
> dist.x |
> h |
Sayfa 174-178 arasında yapılan analizler sonucunda elde edilen dendrogramın görüntülenmesi için ise plot(h,labels=x$Ulke) komutu kullanılır. Veri dosyasında bulunan ülke sütunundaki ülkelere ait isimlerin dendrogramda gösterimi için komutta bulunan labels=x$Ulke ifadesi kullanılmıştır.
Bu nedenle doğru yanıt a) seçeneğidir
6.Soru
Aşağıdakilerden hangisi veri madenciliğinin uygulama ve kullanım sürecinde dezavantajlarından değildir?
Gizlilik sorunları |
Güvenlik sorunları |
URL’ler izlenerek veriye erişile bilinmesi |
Bilginin kötüye kullanımı |
Eksik bilgilendirmeler |
URL’ler izlenerek veriye erişile bilinmesi, veri madenciliğinin uygulama ve kullanım sürecinde dezavantajlarından değildir?
7.Soru
Aşağıdakilerden hangisi yanlıştır?
Veri ambarında yer alan verilen üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlerdir. |
Büyük miktardaki veri yığınları üzerinde analiz yaparak veriler arasında var olan ve geleceğin tahmin edilmesine yardımcı olacak anlamlı ve yararlı ilişki ve kuralların bilgisayar yazılımları aracılığıyla aranması faaliyetleridir. |
Çeşitli analiz araçlarını kullanarak veriler arasındaki örüntü ve ilişkileri keşfederek bunları doğru tahminler yapmak için kullanan bir süreçtir. |
Veri analizi için gelişmiş ve karmaşık araçlar kullanarak yığın veri kümeleri içinden daha önceden bilinmeyen olgu ve olayları keşfetmek ve veriler arasındaki mantıklı ilişkileri ve kalıpları ortaya çıkarmak amacıyla yapılan çalışmalardır. |
İstatistiksel ve matematiksel tekniklerle birlikte örüntü tanıma teknolojilerini kullanarak çeşitli depolama ortamlarında kayıtlı bulunan veri yığınları üzerinde gerçekleştirilen elemeler sonucunda anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir. |
Veri ambarında yer alan verilen üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemler OLAP'tır. Doğru cevap A'dır.
8.Soru
R yazılımı ile ilgili olarak aşağıda verilen İfadelerden hangisi veya hangileri doğrudur?
I-R yazılımı büyük ve küçük harfe duyarlıdır.
II-R yazılımında vektör oluşturmak için c() fonksiyonu kullanılır.
III-Önceden tanımlanmış bir vektörün birim sayısını öğrenmek için length () fonksiyonu kullanılır.
IV-c() fonksiyonu karakter değişkenleri oluşturmak için kullanılır.
I-II-III-IV |
Yanlız IV |
II-III |
II-III-IV |
Yanlız I |
R yazılımı büyük ve küçük harfe duyarlıdır.X ve x değişkenleri tamamen farklı değişkenlerdir. R yazılımında vektör oluşturmak için c() fonksiyonu kullanılır. Ayrıca c() fonksiyonu karakter değişkenleri oluşturmak içinde kullanılır. Önceden tanımlanmış bir vektörün birim sayısını öğrenmek için length () fonksiyonu kullanılır. Doğru cevap A'dır.
9.Soru
Aşağıda verilen veri madenciliği uygulama konularından hangisi, eğitim alanında yapılan veri madenciliği uygulama konularından değildir?
Öğrenci verilerinin analiz edilmesi
|
Öğrenci başarı ve başarısızlık nedenlerinin tespit edilmesi |
Üretim süreçlerinin kontrol edilmesi ve tespit edilmesi |
Eğitim-öğretim ortamlarındaki aksaklıkların tespit edilmesi |
Daha etkili eğitim-öğretim ortamlarının oluşturulması |
Eğitim alanında yapılan veri madenciliği uygulama konuları:
- Öğrenci verilerinin analiz edilmesi
- Öğrenci başarı ve başarısızlık nedenlerinin tespit edilmesi
- Öğrenci başarılarının arttırılması
- Eğitim-öğretim ortamlarındaki aksaklıkların tespit edilmesi
- Daha etkili eğitim-öğretim ortamlarının oluşturulması
Üretim süreçlerinin kontrol edilmesi- Endüstri ve Mühendislik Alanındaki Uygulamalarındandır.
10.Soru
Seçeneklerden hangisi günümüzde kullanılmakta olan sosyal medya hizmetlerini temel sınıflandırmasına dahil edilemez?
Arkadaş tabanlı |
Bilgilendirici |
Mesleki |
Eğitim |
Kötüye kullanma |
günümüzde kullanılmakta olan sosyal medya hizmetlerini temel olarak izleyen biçimde sınıflandırmak mümkündür.
1. Genel amaçlı veya arkadaş tabanlı: Bu hizmetler belirli bir konu üzerine odaklanmayan arkadaşlık temeline dayanan paylaşım hizmetleridir.
2. Bilgilendirici: Bu hizmetlerin amacı günlük sorunlara yanıtlar sunmaktır.
3. Mesleki: Bu hizmetler kariyer veya meslek planlamasında yeni fırsatlar edinmek
için kullanılır.
4. Eğitim: Bu hizmetler öğrencinin deneyimini geliştirmek için kullanılır.
5. Hobiler: Bu hizmetler aynı şeylere ilgi duyan insanlar için bir buluşma noktasıdır.
6. Akademik: Bu hizmetler akademik ve bilimsel çalışmalar için güncel bilgi kaynağına erişim sunan hizmetlerdir.
7. Haberler: Bu hizmetler tüm toplumu ilgilendiren haber yayıncılığına ilişkin hizmetlerdir.
11.Soru
Ahmet'in yöneylem dersinden aldığı not 65 ve karar kuramı dersinden aldığı not 80 iken Mehmet'in aldığı notlar sırasıyla 50 ve 90'dır. Ayrıca yöneylem dersi varyansı ve karar kuramı dersi varyansı olduğu varsayıldığında Ahmet ile Mehmet arasındaki Karl Pearson uzaklığı kaçtır?
2,75 |
3,97 |
4,53 |
0,85 |
3,28 |
Bu nedenle doğru cevap B olmaktadır.
12.Soru
Hangi karar ağacının büyümesini durdurma kriteri, ayrılacak olan kayıtların sayısının belirli bir eşiğin altına düşmesi durumudur?
ID3 |
CART |
CHAID |
C4.5 |
SLIQ |
C4.5 algoritması, ID3 algoritmasının geliştirilmiş hâlidir. Ayırma kriteri olarak kazanç oranından yararlanılmaktadır. Karar ağacının büyümesini durdurma kriteri, ayrılacak olan kayıtların sayısının belirli bir eşiğin altına düşmesi durumudur.
13.Soru
Aşağıdakilerden hangisi nitel verilerin ayırma kriterleri için kullanılan indekslerden birisi değildir?
Entropi indeksi |
Gini indeksi |
Sınıflandırma hatası indeksi |
Twoing ölçüleri |
En küçük kareler sapması yöntemi |
Nitel veri için Entropi İndeksi, Gini İndeksi, Sınıflandırma Hatası İndeksi ve Twoing ölçüleri kullanılır. Ek olarak Twoing ölçüsünün sıralı ölçekle ölçülmüş değişkenlerin bulunduğu veri için Ordered Twoing bulunmaktadır. Nicel veriler için ise En Küçük Kareler Sapması yöntemi en sık kullanılan ölçüdür.
14.Soru
Benzerlik ve uzaklık değerleri ile ilgili olarak aşağıdakilerden hangisi doğrudur?
İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder. |
İki nesne arasındaki yüksek benzerlik değeri nesnelerin ayrık olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olduklarını ifade eder. |
Niteliksel olarak benzer olduklarını niceliksel olarak ayrık olduklarını ifade eder. |
İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olmadıklarını, yüksek uzaklık değeri ise nesnelerin benzer olduklarını ifade eder. |
Niceliksel olarak benzer olduklarını niteliksel olarak ayrık olduklarını ifade eder. |
ki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder.
15.Soru
Küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şekli olan ve küme içi varyansın minimum olduğu kümelerin belirlenip bu doğrultuda kümeleme işleminin yapıldığı birleştirici kümeleme yöntemi hangisidir?
Ortalama Bağlantı Kümeleme Yöntemi |
McQuitty Bağlantı Kümeleme Yöntemi |
Tam Bağlantı Kümeleme Yöntemi |
Tek Bağlantı Kümeleme Yöntemi |
Ward Bağlantı Kümeleme Yöntemi |
Ward Bağlantı Kümeleme Yöntemi, küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şeklidir.
Küme içi varyansın minimum olduğu kümeler belirlenir ve bu doğrultuda kümeler oluşturulur. Minimum varyans yöntemi olarak da bilinen bu yaklaşım, bir kümede yer alan bir birimin, aynı kümenin içinde bulunan birimlerden ortalama uzaklığını dikkate almaktadır. Küme bağlantılarından ziyade küme içi kareler toplamı dikkate alınmaktadır. Bu yöntem, az birimli kümeleri birleştirme eğilimindedir. Ayrıca bu yöntemin birbirine eşit sayıda birim içeren kümeler oluşturma gibi bir eğilimi de vardır. Bundan dolayı, araştırmacının kümelerdeki birim sayılarının benzer (yakın) olduğu beklentisi durumunda bu yönteme başvurması önerilmektedir. Aşırı değerlerden etkilenmektedir. Sıklıkla kullanılan aşamalı kümeleme yöntemidir.
16.Soru
I. Daha önceden keşfedilmemiş,
II. Eyleme dönük, bir başka ifadeyle uygulanabilir,
III. Subjektif bir karar olabilir.
Yukarıdaki ifadelerden hangisi ya da hangileri ilginç kuralın özellikleri arasında sayılabilir?
I-II |
I-III |
II-III |
I-II-III |
Yalnız II |
İfadelerin tamamı ilginç kurallar ile ilişkilidir.
17.Soru
"Büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan teknolojiye ........... denir."
Yukarıdaki cümlede boş bırakılan yere uygun olan kavram hangisidir?
"Büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan teknolojiye ........... denir."
Yukarıdaki cümlede boş bırakılan yere uygun olan kavram hangisidir?
Veri analizi |
Veri madenciliği |
Veri modeli |
Veri toplama |
Veri inceleme |
Veri madenciliği büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan bir teknolojidir.
18.Soru
En yaygın olarak kullanılan uzaklık ölçüleri aşağıdakilerden hangisidir?
Lewinstein Uzaklık Ölçüsü |
Öklid ve Karesel Öklid Uzaklık Ölçüleri |
Manhattan Uzaklığk Ölçüsü |
Mahalanobis Uzaklık Ölçüsü |
Korelasyon Uzaklık Ölçüsü |
Uzaklık ölçüleri arasında en yaygın kullanılan uzaklık ölçüleri Öklid ve Karesel Öklid uzaklık ölçüleridir.
19.Soru
Hesaplanan bir kaldıraç değerinin (A?B) = 0,70 olması durumunda aşağıdaki yorumlardan hangisi yapılabilir?
A ve B nesneleri arasındaki ilişkinin negatif olduğu |
A ve B nesneleri arasındaki ilişkinin zayıf olduğu |
A ve B nesneleri arasında bir ilişkinin olmadığı |
A ve B nesneleri arasındaki ilişkinin güçlü olduğu |
A ve B nesneleri arasındaki ilişkinin pozitif olduğu |
Kaldıraç değerinin (A?B) < 1 olması, A ve B nesne setleri arasında negatif bir ilişki olduğunu ifade eder.
20.Soru
R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketinin R’de kurulu olması gerekmektedir?
data.frame |
rpart |
click |
treeg |
svrt |
R ile sınıflandırma ve regresyon ağacı oluşturabilmek için rpart paketinin R’de kurulu olması gerekmektedir.
-
- 1.SORU ÇÖZÜLMEDİ
- 2.SORU ÇÖZÜLMEDİ
- 3.SORU ÇÖZÜLMEDİ
- 4.SORU ÇÖZÜLMEDİ
- 5.SORU ÇÖZÜLMEDİ
- 6.SORU ÇÖZÜLMEDİ
- 7.SORU ÇÖZÜLMEDİ
- 8.SORU ÇÖZÜLMEDİ
- 9.SORU ÇÖZÜLMEDİ
- 10.SORU ÇÖZÜLMEDİ
- 11.SORU ÇÖZÜLMEDİ
- 12.SORU ÇÖZÜLMEDİ
- 13.SORU ÇÖZÜLMEDİ
- 14.SORU ÇÖZÜLMEDİ
- 15.SORU ÇÖZÜLMEDİ
- 16.SORU ÇÖZÜLMEDİ
- 17.SORU ÇÖZÜLMEDİ
- 18.SORU ÇÖZÜLMEDİ
- 19.SORU ÇÖZÜLMEDİ
- 20.SORU ÇÖZÜLMEDİ