VERİ MADENCİLİĞİ Dersi Temel Kavramlar soru cevapları:

Toplam 21 Soru & Cevap
PAYLAŞ:

#1

SORU:

Veri madenciliğinin amacı nedir?


CEVAP:

Veri madenciliğinin amacı, çok büyük miktarda ve karmaşık durumdaki veriler içinden geleneksel yöntemlerle elde edilemeyecek bilgilere ulaşma ve bu bilgileri rakiplere fark yaratacak kararlarda kullanabilmeye olanak sağlamaktır.


#2

SORU:

Perseptron nedir? Açıklayınız.


CEVAP:

Perseptron, insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır.


#3

SORU:

Veri madenciliğinin tarihsel sürecini kısaca açıklayınız.


CEVAP:

Bugün veri madenciliği olarak ifade ettiğimiz kavrama ilişkin çalışmalar aslında ilk olarak, 1960’lı yıllarda bilgisayar sistemlerinin, verilerin analizi ve problemlerin çözümü amacıyla kullanılmaya başlanmasıyla birlikte ortaya çıkmıştır. Buna göre bilgisayarlarda depolanan veriler üzerinde, yeterli uzunlukta bir tarama yapıldığında, istenilen verilere erişmenin olanaklı olacağı gerçeği kabul edilmiştir. Bu işleme ilk zamanlarda veri taraması, veri yakalaması gibi adlandırmalar yapılmıştır. Veri madenciliği adlandırması ise yukarıda da belirtildiği gibi 1990’lı yıllara gelindiğinde, bilgisayar mühendisleri tarafından kullanılmaya başlanmıştır.


#4

SORU:

İstatistiğin veri madenciliğine etkisi nedir?


CEVAP:

İstatistik, verilerin analizi ve değerlendirilmesi konusunda geçmişten günümüze yoğun bir biçimde kullanılan bir disiplindir. Bilgisayar sistemlerinde hem donanım hem de yazılım alanında sağlanan gelişmeler doğal olarak istatistik alanını da etkilemiştir.

İstatistiksel çalışmaların bilgisayar desteğiyle daha güçlü biçimde yapılması, daha önce gerçekleştirilmesi çok mümkün olmayan istatistiksel araştırmaları ve analizleri yapılabilir hâle getirmiştir. Bu anlamda 1990’lardan sonra, ilgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanıma hazır hâle getirilmesi sürecinde istatistik, veri madenciliği ile ortak bir platformda ve sıkı bir çalışma birlikteliği içinde olmuştur.


#5

SORU:

Makine öğreniminin veri madenciliğine etkisi nedir?


CEVAP:

Veri madenciliği çalışmalarında etkili olan ve yapay zekâ çalışmalarının da temelini oluşturan makine öğrenimi, kısaca bilgisayarların bazı işlemlerden çıkarsamalar yaparak yeni işlemler üretmesi olarak tanımlanabilir.

Makine öğrenimi, insan öğrenmesinde söz konusu olan özelliklerin algoritmalar yardımıyla bilgisayarlara da uygulanabileceği ve bilgisayarların da insanlar gibi öğrenebileceği düşüncesini temel alan bir disiplindir. İnsanlar çocukluk dönemlerinden itibaren öğrenmeye başlarlar. Bu, etraflarında gördükleri tüm nesneleri gözlemleme ve bu gözlemler aynı türde nesneler üzerinde tekrarlandıkça nesneleri kavramlara dönüştürme biçiminde gerçekleşir. Aynı türde nesnelere ilişkin farklı örnekleri görmeyi, incelemeyi sürdürdükçe nesneye ilişkin kavram netleşir ve benzer örnekleri ilgili nesne sınıfına konumlandırarak bir sınıflama modeli oluşturur. Makine öğrenimi de bilgisayarların kendisine algoritmalar yoluyla verilen kuralları uygulaması ve büyük veri kümeleri içinden örnekler çıkararak verileri bu kurallara göre sınıflamaları, tanımlamaları ve dolayısıyla öğrenmeleri olarak ifade edilebilir. Bu öğrenmeler sonucunda çıkarımlarda bulunarak geçmiş veri örnekleri yardımıyla gelecekte daha iyi sonuçlar üretme konusunda veri madenciliği uygulamasına katkıda bulunurlar. 


#6

SORU:

Görselleştirmenin veri madenciliğine etkisi nedir?


CEVAP:

Veri madenciliğinde söz konusu diğer bir disiplin olan görselleştirme; verilerin, tablolar ve grafikler gibi görseller yardımıyla sunulmasını sağlayan teknolojileri ifade eder.

Görselleştirme; verilerin daha kolay anlaşılmasına, analiz edilmesine ve geleceğe yönelik tahminlerde bulunulmasına önemli katkı sağlamaktadır. Veri madenciliğinde kullanılan görselleştirme teknikleri ilk zamanlarda sadece iki boyutlu serpilme ve serpilme matris çizimleri ya da üç boyutlu grafikler biçimindeydi. Ancak zaman içinde, verilerin öznitelik sayılarındaki artış klasik istatistiğin sunduğu iki veya üç boyutlu grafiklerin yetersiz kalması sonucunu da birlikte getirmiştir. Bu durum da çok daha fazla boyutun görselleştirilmesine imkân sağlayan yeni grafik araçlarının geliştirilmesine neden olmuştur. YerKonum veri analizi, sinyal işleme, görüntü analizi gibi teknikler görselleştirme amacıyla kullanılan tekniklere verilebilecek örneklerdir. 


#7

SORU:

Örüntü tanıma kavramı nedir?


CEVAP:

Örüntü tanıma: Olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin (örüntünün) benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojidir.


#8

SORU:

Veri ambarı nedir?


CEVAP:

Veri ambarı işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir.


#9

SORU:

Çevrimiçi analitik işleme kavramını nedir?


CEVAP:

OLAP (Online Analytical Processing - Çevrimiçi Analitik İşleme) veri ambarında yer alan veriler üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlerdir.


#10

SORU:

En genel veri madenciliği tanımı nedir?


CEVAP:

Veri madenciliği, veriden örüntülerin çıkarılması amacıyla çeşitli algoritmaların uygulanmasıdır. Elde edilen örüntü ve kurallar karar vermeye ve bu kararların sonuçlarını tahmin etmeye destek olacak biçimde kullanılabilecektir.


#11

SORU:

Veritabanlarında bilgi keşfi sürecinde izlenmesi gereken temel adımlar nelerdir?


CEVAP:

Veritabanlarında Bilgi Keşfi sürecinde, işlemsel veritabanlarında depolanmış olan verinin sorgulama ve analiz için uygun hâle getirilmesi işlemleri yürütülür. Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar aşağıdaki gibi sıralanabilir.
1. Amacın Tanımlanması
2. Veriler Üzerinde Ön İşlemlerin Yapılması
3. Modelin Kurulması ve Değerlendirilmesi
4. Modelin Kullanılması ve Yorumlanması
5. Modelin İzlenmesi


#12

SORU:

Veri madenciliği sürecinde hangi işlemler uygulanır?


CEVAP:

Veri madenciliği sürecinde;
• Veri madenciliği öncesindeki işlemler,
• Veri madenciliği işlemleri,
• Veri madenciliği sonrasındaki işlemler
biçiminde bir uygulamanın söz konusu olduğu görülebilir.


#13

SORU:

Veritabanlarında bilgi keşfi sürecindeki adımlardan amacın tanımlanmasını kısaca açıklayınız.


CEVAP:

Bu aşamada, işletmenin ya da kurumun veri madenciliğini hangi amaca yönelik olarak gerçekleştirmek istediği belirlenir. Söz konusu amaç bir problemi ortadan kaldırmaya odaklanmış ve açık bir biçimde ifade edilmiş olmalıdır. Buna ek olarak, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği de tanımlanmalıdır. Bu aşamada ayrıca, süreç sonunda yapılacak değerlendirme ve öngörülerin yanlış olması durumunda katlanılacak maliyetlere ve doğru olması durumunda elde edilecek kazanımlara ilişkin tahminlere de yer verilmelidir.


#14

SORU:

Veritabanlarında bilgi keşfi sürecindeki adımlardan veri üzerinde uygulanan ön işlemler nelerdir?


CEVAP:

Veriler üzerindeki ön işlemler genel olarak;
• Verilerin toplanması ve birleştirilmesi,
• Verilerin temizlenmesi,
• Verilerin yeniden yapılandırılması biçiminde sınıflandırılabilir.


#15

SORU:

Veritabanlarında bilgi keşfi sürecindeki adımlardan verilerin temizlenmesi aşamasını kısaca açıklayınız.


CEVAP:

Verilerin temizlenmesi, kayıp ya da eksik değerleri tamamlamak, aykırı değerleri belirleyerek gürültüyü ortadan kaldırmak ve verilerdeki tutarsızlıkları, uyumsuzlukları gidermek için kullanılan birçok yaklaşımı ve tekniği kapsar.


#16

SORU:

Kayıp veri nedir?


CEVAP:

Kayıp veri, veritabanlarındaki kayıtlarda eksik olan verilerdir. Kayıp veriler çeşitli nedenlerden kaynaklanabilir; veri toplamada yanlış araçların kullanılması, veri girişinde hata yapılması ya da veri toplama aşamasında sorulara eksik cevap verilmesi bu nedenlerden bazılarıdır.


#17

SORU:

Gürültülü veri nedir?


CEVAP:

Veritabanlarında doğru olmayacak kadar uç değerler, aykırı değer ya da sıra dışı değer olarak tanımlanır. Bu şekildeki aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler genel olarak gürültülü veri olarak tanımlanır.


#18

SORU:

Denetimli öğrenme süreci nedir? Açıklayınız.


CEVAP:

Denetimli öğrenmede ilgili veriler seçilen algoritmaya uygun olarak hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenimi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenimi, öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir.


#19

SORU:

Denetimsiz öğrenmede amaç nedir?


CEVAP:

Denetimsiz öğrenmede, kümeleme analizinde olduğu gibi ilgili örneklerin gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket ederek sınıfların tanımlanması amaçlanmaktadır.


#20

SORU:

Geleneksel istatistiksel analiz ile veri madenciliği arasındaki temel farklar nelerdir?


CEVAP:

Geleneksel istatistiksel analiz ile veri madenciliği arasındaki temel farklar aşağıdaki gibi sıralanabilir:

• İstatistiksel analizde, analize genellikle bir hipotez kurularak başlanırken veri madenciliği ile analizde herhangi bir hipoteze gerek duyulmaz.

• İstatistikçiler hipotezlerini eşleştirmek için kendi eşitliklerini geliştirmek zorunda oldukları hâlde, veri madenciliği algoritmaları eşitlikleri otomatik olarak geliştirir.

• İstatistiksel analizler genellikle sayısal veriler üzerinde gerçekleştirilirken veri madenciliği sayısal verilere ek olarak metin, ses vb. gibi farklı veri türleri üzerinde de işlem yapabilir.

• İstatistiksel analizde, kirli veri analiz sırasında bulunur ve filtre edilirken veri madenciliği temizlenmiş veri üzerinde gerçekleştirilir.

• İstatistiksel analizde bulunan sonuçlar kolaylıkla yorumlanabilirken veri madenciliğinin sonuçlarını değerlendirmek ve yorumlamak aynı derecede kolay olmayıp uzman istatistikçilere gereksinim duyulur.


#21

SORU:

Veri madenciliğinin uygulandığı alanlar nelerdir?


CEVAP:

Veri madenciliği uygulamaları pazarlama, finans, sağlık, eğitim, endüstri ve mühendislik alanlarında kullanılır.