DİJİTAL GÖRÜNTÜ İŞLEME - Ünite 3: Mekânsal Dönüşümler Özeti :
PAYLAŞ:Ünite 3: Mekânsal Dönüşümler
Giriş
Mekânsal dönüşümler, görüntüdeki piksel parlaklık değerlerinin (gri renk tonu) belirli bir alandaki değişimine göre tanımlanan mekânsal bilginin çıkartılmasını veya değiştirilmesini sağlayan yöntemlerdir. Bir başka deyişle piksel parlaklık değerlerini görüntü üzerindeki konumuna ve bu konuma göre tanımlanan komşuluk ilişkisine bağlı olarak etkileyen dönüşümlerdir.
Temel Kavramlar
Görüntüyü oluşturan piksellerin konumları, örneğin hilesiz bir paranın atılması deneyinde sonucun yazı veya tura gelmesinde olduğu gibi, tamamen rastgele değildir. Ancak güneş sistemindeki cisimlerin yörüngelerinin genel kabulünde olduğu gibi tümüyle deterministik (olasılıksal değişken içermeyen) de değildir. Eğer bir piksel görüntüdeki ağaç nesnesine ait ise, bu pikselin komşularının da bu nesneye ait olma şansları oldukça yüksektir ama kesin değildir. Bir dijital görüntü, herhangi bir enerji türünün (elektromanyetik, akustik, nükleer vb.) 2 boyutlu mekânsal dağılımını kesikli (ayrık) bir yapıda temsil ettiği için, mekânsal süreklilik ilişkisi görüntüyü oluşturan piksellere de belirli ölçüde yansır. Günümüzde insanlığı ve çevreyi ilgilendiren birçok problemin çözümünde vazgeçilmez bir araç olan Coğrafi Bilgi Sistemlerinin (CBS) çekirdeği olan mekânsal analizlerin temel prensibi, Tobler kuralıdır (Tobler, 1970). Tobler’in birinci coğrafya kuralı da denilen bu prensibe göre, mekânda her şey birbiriyle ilişkilidir, ama yakın olanlar daha çok ilişkilidir. Mekânsal dönüşüm yöntemleri bir anlamda bu kuralın dijital görüntüler üzerine olan uygulamasıdır. Buna göre, belirli bir komşuluk ilişkisi içerisindeki piksellerin parlaklık seviyeleri kullanılarak yeni bilgiler üretilir. Görüntünün farklı bölgelerinde farklı komşuluklar oluşacağı için üretilen bilgiler de farklılık gösterecektir. Örneğin; histogram, tüm görüntüdeki piksel parlaklık seviyelerinin frekans dağılımını gösteren önemli bir istatistiksel grafik araçtır. Histograma bakılarak görüntünün kontrastı, parlaklık seviyelerinin eğilim merkezi, bu merkeze göre yayılımı, simetrikliği, modu, basıklığı analiz edilebilir (Low, 1991). Böyle bir histogram, görüntüde belirli bir konuma ve komşuluğa bağlı olarak üretildiğinde, orijinal görünümünden farklı olur. Konumu ve/veya komşuluk seviyesi değiştikçe parlaklık seviyelerinin frekans dağılımını gösteren histogramı da değişecektir.
En yaygın mekânsal dönüşüm yöntemlerine örnek olarak; konvolüsyon (lineer, istatistiksel ve gradyan filtreler), Fourier dönüşümü ve Dalgacık dönüşümü verilebilir. Konvolüsyon gibi dönüşüm yöntemlerinde görüntüye ait alt görüntü parçaları ile işlem yapılırken, Fourier gibi dönüşümlerde görüntünün bütünündeki mekânsal bilgi eş zamanlı olarak işlenir.
Gürültü, algılayıcıdan kaynaklı olarak görüntülerdeki rastgele parlaklık değeri değişimidir. Anamoli olarak da adlandırılan gürültünün giderilmesi için genellikle düzleştirme (smoothing) işlemi kullanılır. Düzleştirme, dijital görüntüde gerekli görülmeyen detayların giderilmesi işlemidir.
Konvolüsyon
Konvolüsyon işlemi, dijital görüntü işlemede gürültü gidermek, kenar çıkartmak, belirli özellikleri vurgulamak veya baskılamak amacıyla kullanılan temel bir filtreleme (dönüşüm) işlemidir (Schowengerdt, 2007). Gerçekte konvolüsyon terimi, frekans alanındaki Fourier dönüşümüne bağlı sinyal işleme uygulamalarıyla ortaya çıkmıştır. Buna rağmen mekânsal alandaki dönüşümler (filtrelemeler) için de kullanılmaktadır.
Bir dijital görüntü, nesnelerden yansıyan veya yayılan elektromanyetik enerjinin zamana ve mekâna bağlı olarak ölçülmesiyle elde edilen analog sinyalin dijitalleştirilip kaydedilmesiyle elde edilir. Zaman etkisi genellikle birçok görüntüleme sisteminde ihmal edilebildiğinden, görüntünün oluşmasında, elektromanyetik enerjinin dalga boyu ve mekânsal dağılımı temel etkendir. Mekânsal alan kavramı, görüntünün insan tarafından görüldüğü şekliyle kendisini ifade eder. Bu nedenle mekânsal alandaki temel veri, piksel parlaklık değerleridir. Frekans alanı kavramı ise piksellerdeki parlaklık değerlerinin mekâna bağlı olarak hangi oranda (veya hızda) değiştiğini ifade eder. Bu bölgedeki temel veri, yüksek ve alçak frekans bileşenleridir. Mekânsal alandaki herhangi bir görüntü frekans alanına dönüştürülebilir.
Verilerin 2 boyutlu dikdörtgen şeklinde ayrık dizilimine matris denir. Matrisin düşey dizilimlerine sütun, yatay dizilimlerine satır denir. Bir matrisin satır ve sütunlarının sayısı, o matrisin boyutunu belirler. Eğer satır ve sütunların sayısı birbirine eşitse, bu matrise kare matris denir. Bir kare matrisin satırları sütun olarak yazıldığında veya sütunları satır olarak yazıldığında yine aynı matris elde ediliyorsa, bu matrise simetrik matris denir. Birçok karmaşık problem, matrisler sayesinde daha hızlı ve daha doğru bir şekilde çözülebilmektedir. Bir dijital görüntü pratikte elemanları, piksel parlaklık değerleri olan bir matristir. Bu anlayış sayesinde matris cebri olan lineer cebir kuralları, dijital görüntü işleme tekniklerinde etkin bir şekilde uygulanabilmektedir. Matris cebrinde, iki matris arasında toplama, çıkarma, çarpma ve bir matrisin bir skalerle (sabit reel sayı) çarpımı gibi birçok değişik işlem tanımlıdır. Örneğin; bir skalerle bir matrisin çarpımı, o skalerle matrisin bütün elemanlarının çarpılmasını ifade eder.
Konvolüsyon işlemindeki temel işleme adımları (Low, 1991):
- İşleme adımı 1) Amaca uygun bir pencere seçilir.
- İşleme adımı 2) Bu pencere filtrelenecek görüntünün üzerine pencereyle aynı boyutta bir görüntü parçası üretecek şekilde yerleştirilir.
- İşleme adımı 3) Bütün pencere ağırlıkları ve bu ağırlıklara ilişkilendirilen piksel değerleri çarpılır ve bütün çarpımlar toplanır.
- İşleme adımı 4) 3. adımda elde edilen değer, orijinal görüntüyle aynı boyuta sahip olan boş bir görüntü matrisinde aynı adresteki pikselin parlaklık değeri olarak kaydedilir.
- İşleme adımı 5) 2, 3 ve 4. aşamalar, pencerenin piksel piksel yana (satır bitimine kadar) ve aşağı (sütun bitimine kadar) kaydırılmasıyla görüntüdeki bütün pikseller için tekrarlanır.
Yukarıda 5 adımda verilen çarpma, toplama, atama ve öteleme işlemlerinin bütününe “ pencerenin görüntüyle konvolüsyonu ” veya kısaca “ konvolüsyon ” denir (Low, 1991).
Pearson’a göre korelasyon, iki değişkenin birbirine olan lineer bağımlılığının ölçüsü olan kovaryans fonksiyonunun [-1, 1] kapalı aralığına normalize edilmiş birimsiz şekli olarak ifade edilir. Kaba bir yaklaşımla eğer korelasyon, aynı bir veri içindeki alt parçalar arasında ise oto-korelasyon, farklı veriler arasında ise çapraz korelasyon olarak tanımlanır. Örneğin, konvolüsyon işlemi sırasında pencere matrisiyle görüntü alt parçası arasındaki korelasyon, çapraz korelasyon değeridir. Buna karşılık bir görüntünün herhangi bir alt parçasının görüntünün farklı alt parçlarıyla olan korelasyonu otokorelasyondur.
İstenen sonucun komşu piksellerin lineer kombinasyonu olarak elde edildiği filtreler, lineer filtreler dir. Bu filtreler içerisinde en yaygın kullanılanlar alçak geçirgenli ve yüksek geçirgenli filtrelerdir. Bu filterlerle görüntüde mevcut olan alçak ve yüksek mekânsal frekanslar, vurgulanmaya veya bastırılmaya çalışılır.
İstatistiksel filtreler, görüntünün lokal istatistiksel özelliklerini ortaya çıkartan filtrelerdir. Çoğu lineer filtreden farklı olarak konvolüsyon işleminde ağırlıkları olan bir pencere yoktur. Görüntüde belirli büyüklükteki lokal bölgelere ait aritmetik ortalama, medyan, varyans, mimimum ve maksimum değerler gibi özetleyici istatistiksel ölçütlerin çıkartılmasında kullanılırlar (Schowengerdt, 2007).
Matematik biliminin uygulamalı bir alt dalı olan istatistik , verinin toplanması, analiz edilmesi ve yorumlanmasıyla ilgilenir. Evrende örneklenen veriler, her zaman kontrolümüzde olmayan rastlantısal karakterli değişkenlikler veya belirsizlikler içerdiğinden hiçbir zaman kesin değildir. İstatistik, bu belirsizlikleri anlamlı hâle getirmeye çalışan yöntemler topluluğudur. Ortalama, medyan, standart sapma, histogram, kutu grafik, saçılım grafiği gibi araçlarla çok sayıdaki veri sayısal ve grafik olarak özetlenir ve güven aralıkları, hipotez testleri gibi araçlarla kararlar alınır ve sonuçlar çıkarılır.
İstatistiksel filtrelerden minimum ve maksimum filtrelerin binari görüntülere uygulanmasına morfolojik (biçimsel) filtreleme adı verilir. Binari görüntüde sadece iki renk (genellikle siyah ve beyaz) vardır. Bir binari görüntüye minimum filtresi uygulandığında, lokal minimum değerler tercih edileceğinden, siyah renk değeri yayılacaktır (artacaktır). Bu tip filtreye ‘ Dilatasyon (yayma) ’ filtresi denir.
Binari görüntüye maksimum filtresi uygulandığında ise lokal maksimumlar tutulacağından, siyah renkli nesneler azalacaktır. Bu tip filtreye ‘ Erozyon ’ filtresi denir (Schowengerdt, 2007).
Morfoloji bir görüntüdeki gri seviye değerlerinin sınıflandırılması sonucu ortaya çıkan yapısal özelliklerdir. Ön plandaki bir cisim ile arka plan ayrı sınıflara ayrıldığında cismin ve arka planın oluşturduğu şekilsel bilgi morfolojiye örnektir.
Dilatasyon ve erozyon filtrelerinin genellikle binari görüntülere kademeli uygulanmasıyla “ Açma ” ve “ Kapama ” filtreleri elde edilir (Schowengerdt, 2007). Açma işleminde binari görüntüye önce erozyon, sonra dilatasyon filtresi uygulanır. Kapama işleminde ise önce dilatasyon, sonra erozyon filtresi uygulanır. Bu filtreler özellikle segmentasyon ve gürültü giderme işlemlerinde kullanılırlar.
Gradyan, TÜBA Türkçe Bilim Terimleri Sözlüğünde 2 farklı şekilde; (i) Meteorolojide sıcaklık ve basınç gibi atmosferik değişkenlerin birim yatay mesafede ya da zamanla değişim oranı, (ii) Mühendislikte, yönü, skaler fonksiyonun değerindeki artmanın en yüksek olduğu yönde ve büyüklüğü skaler fonksiyonun bu noktadaki ve bu yöndeki değişim hızına eşit olan, bir diğer deyişle kartezyen bileşenleri skaler fonksiyonun kartezyen kısmi türevlerine eşit olan vektör şeklinde tanımlanmaktadır. Özetle değişim oranının en büyük değerde olduğu doğrultuyu gösteren vektörel bir niceliktir. Bu bağlamda görüntü gradyanı renk değerindeki doğrultuya bağlı değişim olarak açıklanabilir. Görüntü uzayı 2 boyutlu (düşey ve yatay) olduğu için, hem düşey hem de yatay yöndeki değişimi (komşu pikseller arasındaki gri renk tonu değerlerinin farkları) veren 2 boyutlu bir vektördür. Gradyan filtreler, görüntüdeki fiziksel kenar bilgisinin (yol, kıyı şeridi vb.) çıkarımında kullanılırlar. Özellikle aşağıda verilen Sobel, Prewitt ve Roberts filtreleri en temel ve yaygın kullanılan gradyan filtrelerdir (Schowengerdt, 2007).
Frekans Alanındaki Mekânsal Dönüşümler
Fourier Dönüşümü ilk olarak 1822 yılında Joseph Fourier’in bazı matematiksel fonksiyonların, periyodik fonksiyonların toplamı olarak yazılabileceğini göstermesiyle ortaya çıkmıştır. Fourier dönüşümü, matematiksel fonksiyonların bir veya birden çok sinüs ve kosinüs periyodik fonksiyonlarının toplamı hâlinde yazılmasıdır. Bulunmasından günümüze kadar özellikle işaret ve görüntü işlemede sıkça kullanılmıştır. Örneğin; günümüzde yaygın olarak kullanılan JPEG (görüntü) ve MP3 (ses) kayıt formatları, Fourier dönüşümünün bir uzantısı olan ‘Ayrık Kosinüs Dönüşümü’nü (Discrete Cosine Transform) kullanmaktadır. İnsanoğlu doğal olarak mekânsal ve zaman boyutlarında düşünse de bazı işaretlerin frekans alanındaki tanımı daha anlamlıdır.
Taylor serisi, bir fonksiyonun belirli bir noktadaki türev değerlerinden elde edilen sonsuz terimlerinin toplamı ile temsil edilir. Taylor serisi özellikle bir fonksiyonun belirli sayıda elemanla yaklaşık olarak elde edilmesinde kullanılır.
Birim frekans, Uluslararası Birimler Sistemi (SI) tarafından hertz (Hz) ile gösterilir ve bir olayın saniyede bir tekrarlandığını belirtir. Hertz, frekans birimidir ve adını elektromanyetik dalgaların varlığını kanıtlayan Alman fizikçi Heinrich R. Hertz’den almıştır. Tıpkı diğer ölçü birimlerinde olduğu gibi 1 kilohertz (kHz), elektromanyetik dalgaların bir saniyedeki bin kez oluşan salınımını belirtir. Desibel birimi 10 tabanlı logaritmik bir birim olup iki değer arasındaki oranı gösterir. Desibel, Alexander Graham Bell’e ithafen oluşturulan Bel değerinin onda biridir ve günümüzde daha fazla kullanılmaktadır. Referans değere eşit değer 0dB değerini alırken, 2 kat yüksek değer 3dB değerini alır.
Çift Tonlu Çok Frekanslı (Dual Tone MultiFrequency) kodlama sistemi, 1963 yılında tuşlu telefonların ortaya çıkması ile tanımlanmıştır. Bu sistemde her tuş iki frekans bileşeni kullanılarak kodlanır. Örneğin; 1 tonu için 697Hz ve 1209Hz frekansları, 2 tonu için 697Hz ve 1336Hz frekansları ve 4 tonu için 770Hz ve 1209Hz frekansları kullanılır.
Ani geçişler yüksek frekans bileşenleri gerektirdiğinden, yüksek geçirgenli filtreler ile görüntüdeki keskin kenarlar belirlenebilir. Sıkıştırılmış görüntülerde görülen bulanıklaşma da aslında sıkıştırma algoritmalarının görüntüdeki frekans bileşenlerini azaltmasından kaynaklanmaktadır.
Dalgacık (Wavelet) dönüşümü de Fourier dönüşümü gibi bir işareti analiz etmek, bileşenlerine ayırmak için kullanılmaktadır. Fourier dönüşümünde zaman ya da mekânsal alanda tanımlı bir işaret, frekans alanında incelenmektedir. Sürekli devam eden periyodik fonksiyonlar kullanıldığı için Fourier dönüşümü sadece frekans bilgisi taşır ve işaretin zamansal değişimi göz ardı edilir. Dalgacık dönüşümünde ise hem frekans hem de zaman alanındaki (ya da mekânsal alandaki) bilgiler aynı anda analiz edilebilir (Daubechies, 1992). Bu nedenle Fourier dönüşümü sadece zaman ya da frekans alanında işlem yapmak için daha uygun iken her iki alanda da işlem yapmak gerektiğinde Dalgacık dönüşümü kullanılır.