Kullanıcı:MSBabacan/Nesne Tespiti

OpenCV'nin Derin Sinir Ağı modülü (dnn) ile 80 ortak sınıftaki nesneleri algılayabilen COCO veri kümesi üzerinde eğitilmiş bir YOLOv3 modeli kullanılarak tespit edilen nesneler.

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki (insanlar, binalar veya arabalar gibi) anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir. ^[1] Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak 2'ye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

Kullanımlar[değiştir | kaynağı değiştir]

Görüntü etiketleme, ^[2] aktivite tanıma, ^[3] yüz algılama, yüz tanıma, video nesnesini müşterek bölümleme gibi bilgisayarla görme görevlerinde yaygın olarak kullanılmaktadır. Örneğin bir futbol maçı sırasında oyundaki topu takip etmek, bir kriket sopasının hareketini izlemek veya bir videodaki herhangi bir kişiyi veyahut kişileri izlemek gibi durumlarda nesneleri takip etmek için kullanılır. Nesne tespiti insansız araçlarda nesnelerin konumlarını takip etmede ve nesnelerin sınıflandırılmasında da kullanılan temel bir yöntemdir. Elde edilen konum ve sınıf verisi ile araçların reaksiyon vermesi ve veriyi değerlendirmesi amaçlanmaktadır.

Konsept[değiştir | kaynağı değiştir]

Her nesne sınıfının, sınıfının sınıflandırılmasına yardımcı olan kendine özgü özellikleri vardır - örneğin, tüm daireler yuvarlaktır, deniz mavidir, ağaçların yaprakları yeşildir vb. Nesnenin sınıfı tespit edilirken, sınıflara ait olan bu özellikler kullanılır. Örneğin, herhangi bir daire ararken, bir noktadan (yani merkezden) belirli bir uzaklıkta bulunan nesneler aranır, merkezden uzaklıkları kabul edilebilir bir aralıkta olan bu noktalar bütünü daire olarak sınıflandırılabilir. Benzer şekilde, kareler ararken , köşelerde dik olan ve kenar uzunlukları eşit olan nesnelere ihtiyaç vardır. Benzer bir yaklaşım, gözlerin, burnun ve dudakların bulunabildiği ve ten rengi ve gözler arasındaki mesafe gibi özelliklerin bulunabildiği yüz tanımlaması için kullanılır. Nesnelerin şekillerinin tespit için kullanılan özelliklerden olmasının yanında aynı nesnelerin renkleri de tespit için kullanılan önemli özelliklerdendir. Bir trafik lambasında yeşil, sarı ve kırmızı renkler, nesnenin tespiti için önemli bir özelliktir. 3'lü, 2'li ve tek olan trafik lambalarında nesnelerin kendine özgü özelliklerinden olan renkleri kullanmak önem arz etmektedir.

Yöntemler[değiştir | kaynağı değiştir]

Nesne tespiti yöntemleri genellikle sinir ağı tabanlı veya sinirsel olmayan yaklaşımlara girer. Sinirsel olmayan yaklaşımlar için, önce aşağıdaki yöntemlerden birini kullanarak özellikleri tanımlamak, ardından sınıflandırmayı yapmak için destek vektör makinesi (SVM) gibi bir teknik kullanmak gerekli hale gelir. Öte yandan, sinir teknikleri, özellikleri özel olarak tanımlamadan uçtan uca nesne algılaması yapabilir ve tipik olarak evrişimli sinir ağlarına (CNN) dayanır.

Sinirsel olmayan yaklaşımlar:
Sinir ağı yaklaşımları:
- Bölge Önerileri (R-CNN, ^[6] Hızlı R-CNN, ^[7] Daha Hızlı R-CNN, ^[8] kademeli R-CNN. )
- Tek Atış Çoklu Kutu Dedektörü (SSD) ^[9]
- Sadece Bir Kez Bakarsın (YOLO) ^[10] ^[11] ^[12] ^[4]
- Nesne Algılama için Tek Atım İyileştirme Sinir Ağı (RefineDet) ^[13]
- Retina-Net ^[14] ^[15]
- Deforme edilebilir evrişimli ağlar ^[16] ^[17]

Gerçek zamanlı (anlık) nesne tespitinde, anlık elde edilen görüntüyü işleyip nesne veyahut nesnelerin tespiti esas olduğu için performansı yüksek, doğru ve kesin sonuç üretebilen algoritmalar kullanılır. YOLO (You Only Look Once) Tek Bir Sefer Bak algoritmaları bu alandaki performans, kesinlik ve doğruluk açısından tatmin edici sonuçlar verebilen önde gelen algoritmalardandır. Sinir ağı yaklaşımını temel alan YOLO algoritmaları farklı nesne tespit yapılarını (framework) kullanmaktadır.

Kullanılacak olan gerçek zamanlı nesne tespit algoritmalarında, algoritmanın yüksek işlem gereksiniminden dolayı merkezi işlem birimi ile hesaplama yapmak yerine grafik işlemci birimi kullanmak yaygın bir tercihtir. Bu gereksinimden dolayı gerçek zamanlı nesne tespit algoritmaları çalıştırılacakları donanımsal yeterliliklere göre tasarlanır ve kullanılır. Bir akıllı telefondan elde edilecek işlem gücü ile grafik işleme birimine sahip bir bilgisayardan elde edilecek işlem güçleri birbirinden farklı olduğu için her iki sistemde de aynı gerçek zamanlı algoritma çalıştırılamaz.

Grafik İşlemci Birimi[değiştir | kaynağı değiştir]

Grafik işlemci biriminde genel amaçlı hesaplama, resimlerden elde edilen çok sayıdaki matris işlemlerinin merkezi işlem biriminden çok daha verimli olması nedeniyle grafik işlemci biriminde yapılmasıdır. Aynı anda birbirinden bağımsız çok sayıda işlemi yapabilmesinden dolayı grafik işlemcileri tercih edilir. Bu yüksek işlem kapasitesiyle GPU'lar CPU'lardan yüksek miktarda daha hızlı nesne tespit işlemleri yapabilir.^[18]

Ayrıca bakınız[değiştir | kaynağı değiştir]

Referanslar[değiştir | kaynağı değiştir]

"Object Class Detection". Vision.eecs.ucf.edu. 2013-07-14 tarihinde kaynağından arşivlendi. Erişim tarihi: 2013-10-09.
"ETHZ – Computer Vision Lab: Publications". Vision.ee.ethz.ch. 2013-06-03 tarihinde kaynağından arşivlendi. Erişim tarihi: 2013-10-09.

Dış bağlantılar[değiştir | kaynağı değiştir]

[[Kategori:Mimik tanıma]] [[Kategori:Bilgisayarlı görme uygulamaları]] [[Kategori:Gözetim]] [[Kategori:Obje tanıma ve sınıflandırma]]

^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
^ Multimedia Image and Video Processing. CRC Press. 1 March 2012. ss. 331–. ISBN 978-1-4398-3087-1.
^ Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use." 2007 IEEE 11th international conference on computer vision. IEEE, 2007.
^ ^a ^b Bochkovskiy. "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 $2.
^ Dalal, Navneet (2005). "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1.
^ Ross (2014). "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE: 580–587. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5.
^ Girschick (2015). "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440–1448.
^ Shaoqing (2015). "Faster R-CNN". Advances in Neural Information Processing Systems.
^ "SSD: Single shot multibox detector". Computer Vision – ECCV 2016. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. October 2016. ss. 21–37. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3.
^ Redmon (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
^ Redmon. "YOLO9000: better, faster, stronger". |arxiv= gerekiyor (yardım)
^ Redmon. "Yolov3: An incremental improvement". |arxiv= gerekiyor (yardım)
^ Zhang (2018). "Single-Shot Refinement Neural Network for Object Detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203–4212.
^ Lin (2020). "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318–327. doi:10.1109/TPAMI.2018.2858826. PMID 30040631.
^ Pang. "Libra R-CNN: Towards Balanced Learning for Object Detection". |arxiv= gerekiyor (yardım)
^ Zhu. "Deformable ConvNets v2: More Deformable, Better Results". |arxiv= gerekiyor (yardım)
^ Dai. "Deformable Convolutional Networks". |arxiv= gerekiyor (yardım)
^ Chaves, D.; Fidalgo, E.; Alegre, E.; Janez-Martino, F.; Velasco-Mata, J. (2019). "CPU vs GPU performance of deep learning based face detectors using resized images in forensic applications". 9th International Conference on Imaging for Crime Detection and Prevention (ICDP-2019) (İngilizce). London, UK: Institution of Engineering and Technology: 16 (93–98). doi:10.1049/cp.2019.1174. ISBN 978-1-83953-109-5.

[1] Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.

[GuanHe2012-2] Multimedia Image and Video Processing. CRC Press. 1 March 2012. ss. 331–. ISBN 978-1-4398-3087-1.

[3] Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use." 2007 IEEE 11th international conference on computer vision. IEEE, 2007.

[yolov4-4] Bochkovskiy. "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 $2.

[5] Dalal, Navneet (2005). "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1.

[6] Ross (2014). "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE: 580–587. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5.

[7] Girschick (2015). "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440–1448.

[8] Shaoqing (2015). "Faster R-CNN". Advances in Neural Information Processing Systems.

[9] "SSD: Single shot multibox detector". Computer Vision – ECCV 2016. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. October 2016. ss. 21–37. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3.

[10] Redmon (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

[11] Redmon. "YOLO9000: better, faster, stronger". |arxiv= gerekiyor (yardım)

[12] Redmon. "Yolov3: An incremental improvement". |arxiv= gerekiyor (yardım)

[13] Zhang (2018). "Single-Shot Refinement Neural Network for Object Detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203–4212.

[14] Lin (2020). "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318–327. doi:10.1109/TPAMI.2018.2858826. PMID 30040631.

[Pang_Chen_Shi_Feng_2019-15] Pang. "Libra R-CNN: Towards Balanced Learning for Object Detection". |arxiv= gerekiyor (yardım)

[16] Zhu. "Deformable ConvNets v2: More Deformable, Better Results". |arxiv= gerekiyor (yardım)

[17] Dai. "Deformable Convolutional Networks". |arxiv= gerekiyor (yardım)

[18] Chaves, D.; Fidalgo, E.; Alegre, E.; Janez-Martino, F.; Velasco-Mata, J. (2019). "CPU vs GPU performance of deep learning based face detectors using resized images in forensic applications". 9th International Conference on Imaging for Crime Detection and Prevention (ICDP-2019) (İngilizce). London, UK: Institution of Engineering and Technology: 16 (93–98). doi:10.1049/cp.2019.1174. ISBN 978-1-83953-109-5.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]