Çoklu ortam servisleri için 2-boyutlu video ve derinlik haritası bazlı 3-boyutlu video derinlik algısı ölçüm metriği
Abstract
3B Video Kalite Değerlendirmesi (VKD), 3B videoya artan ilgiyle birlikte günümüzün araştırmacıları için önemli çalışma alanı olmuştur. 3B videoda, 2B videoya derinlik algısının eklenmesi ile oluşturulan görsel gerçekçilik nedeni ile derinlik algısı ölçümü 3B VKD'nin en kritik kısımlarından birini oluşturmaktadır. Literatürde, 2 Boyutlu (2B) video için araştırmacılar tarafından kabul görmüş nesnel VKD algoritmaları olmasına karşın derinlik gibi 3'üncü bir boyutun da eklenmesi nedeni ile 3B video için aynı durum söz konusu değildir. Bu yüzden 3B derinlik algısı ölçümü için zaman ve maliyet açısından elverişsiz olan öznel testler kullanılmaktadır. Derinlik algısı metrikleri, özgün videonun referans olarak kullanılıp kullanılmamasına bağlı olarak Tam-Referanslı (TR), Azaltılmış-Referanslı (AR) ve Referanssız olarak üçe ayrılmaktadır. TR metrikler, ölçüm yapabilmek için verici tarafında bulunan özgün video dizisine ihtiyaç duyar. AR metrikler ise VKD için özgün video dizisinden çıkarılmış öznitelikler gerektirirken Referanssız metrikler alıcı tarafta özgün video dizisine gerek duymaz. Bu özellikleri nedeni ile referanssız metrikler diğer metriklere göre daha verimlidirler. Bundan dolayı güvenilir ve doğru bir derinlik algısı ölçümü için Referanssız nesnel bir metrik geliştirilebilmesi çok önemlidir. Var olan kodlama ve iletim teknolojileri ile uyumluluğu ve esnekliğinden dolayı 2B+ derinlik haritası temelli 3B video, sol+sağ görüntü bazlı stereoskopik videoya nazaran daha yaygın kullanılmaktadır. Bunun en önemli nedeni, Derinlik Haritaları (DH)'nın 2B videodan daha az bit oranına sahip olması nedeniyle kodlama verimliliğinin yüksek olmasıdır. Bu çalışmada da 2B+DH temelli 3B videolardaki DH kullanılmıştır. Tezde, özgün video dizisi kullanılmadan derinlik algısını ölçen üç farklı algoritma geliştirilmiş ve bu algoritmalar bir araya getirilerek maliyetli ve zaman alıcı öznel testlerin yerine kullanılabilecek referanssız bir Derinlik Algısı Değerlendirmesi (DAD) metriği oluşturulmuştur. DAD için geliştirilen algoritmaların ilki Z Ekseninde Hareketin ölçümü, ikincisi Yapısal Ortalama Derinlik ve sonuncusu videodaki nesnelerin birbirinden ayrıklığını gösteren Derinlik Sapması algoritmasıdır. DAD sonuçlarının doğruluğunu göstermek için farklı bit oranlarında kodlanan videolardan elde edilen DAD sonuçları öznel ve literatürde çok kullanılan TR nesnel VKD sonuçlarıyla karşılaştırılmış ve oldukça yüksek performans elde edilmiştir. Dolayısıyla önerilen DAD metriğinin özgün video dizisine ihtiyaç duymadan DH'ları hem yapısal hem kayıpsal olarak değerlendirerek derinlik algısını ölçümlemekte oldukça verimli olduğu sonucuna ulaşılmıştır. The 3D Video Quality Assessment (VQA) has been an important area for today's researchers due to the growing interest on 3D video. Depth perception measurement is one of the most critical parts of the 3D VQA due to the visual realism ensured by the depth perception added to 2-Dimensional (2D) video. Even though, there are widely accepted 2D objective VQA metrics in literature utilized by researchers, the case is not the same for the 3D video due to the inclusion of a 3rd dimension namely the depth. Therefore, subjective tests, which are inefficient in terms of time and cost are utilized for the 3D depth perception measurements. The depth perception assessment metrics are divided into three categories based on the use of the reference signal in the assessment as Full-Reference (FR), Reduced-Reference (RR) or No-Reference (NR). The FR metrics require original video sequences on the transmitter side. The RR metrics require information extracted from the original video series whereas the NR metrics does not require any original video sequences on the receiver side for the VQA. Thus, the NR metrics are more efficient compared to the other metrics. Therefore it is very important to develop an objective NR metric for reliable and accurate depth perception assessment. Due to the compatibility with existing coding and transmission technologies and its flexibility, the 2D + depth map (2D+DM) based 3D video is more commonly used than the left + right image-based stereoscopic video. The main reason for this is that the DM has less bit-rate than the 2D video and therefore has higher coding efficiency. In this study, the DMs of the 2D + DM based 3D video are utilized. In the thesis, three different algorithms measuring the depth perception without using the original video sequence are developed and they are then combined together to form a NR Depth Perception Assessment (DPA) metric. This metric is proposed as an alternative to the existing high cost and time-consuming subjective tests. The first algorithm developed for the DPA is the Z-Direction Motion algorithm, the second one is the Structural Average Depth algorithm and the last one is the Depth Deviation algorithm that provides the identification of the objects in a video sequence. To present the accuracy of the DPA results, the DPA data obtained from the video sequences encoded in different bit rates are compared with the widely used subjective and objective VQA test results and high performance is achieved. Hence, it is concluded that the proposed DPA metric measure is highly efficient in measuring the depth perception by evaluating the DM both structurally and considering losses without the need of original video sequence.