Doğrudan ses girişi

Vikipedi, özgür ansiklopedi

Doğrudan ses girişi (DSG), (DVI, Direct voice input), bazen ses girişi denetimi (VIC, Voice input control) olarak da adlandırılır, kullanıcının makineye konuşma tanıma yoluyla talimatlar vermek için sesli komutlar ilettiği bir insan-makine etkileşimi (HMI, Human–machine interaction) biçimidir.

Askeri havacılık alanında doğrudan ses girişi, Eurofighter Typhoon, Lockheed Martin F-35 Lightning II, Dassault Rafale, KAI KF-21 Boramae ve Saab JAS 39 Gripen gibi birçok modern askerî uçağın kokpitlerine dâhil edildi. Bu tür sistemler aynı zamanda endüstri kontrol sistemleri ve engelli bireylere yönelik konuşma tanıma yardımı da dâhil olmak üzere çeşitli başka amaçlar için de kullanılmıştır.

Genel bakış[değiştir | kaynağı değiştir]

DSG sistemleri iki ana işlevsellik kategorisine ayrılabilir: "kullanıcıya bağlı" veya "kullanıcıdan bağımsız". Kullanıcıya bağlı bir sistem, belirli bir kişi için kişisel bir ses şablonunun oluşturulmasını gerektirir; DSG sisteminin düzgün çalışması için bu kişiye ait şablonun, DSG sisteminin kullanılmasından önce kendisine atanan makineye yüklenmesi gerekir. Buna karşılık, kullanıcıdan bağımsız bir sistem herhangi bir kişisel ses şablonuna ihtiyaç duymaz ve herhangi bir kullanıcının sesine doğru şekilde yanıt vermesi amaçlanır.[1] Ayrıca "ayrık tanıma" ve "sürekli tanıma" arasında da sınıflandırılabilirler. Ayrık tanıma sisteminin kullanıcılarının, DSG sisteminin her sözcük arasındaki ayrımları tanımlayabilmesi için her sözcük arasında duraklaması gerekir; sürekli konuşma tanıma sistemi ise normal konuşma hızını algılayabilir.[2]

2000'lerin ortalarında, Hollanda'daki Ulusal Havacılık ve Uzay Laboratuvarı'ndaki (Royal NLR) araştırmacılar, "GRACE" simülatöründe DSG kullanımını incelediler; takip eden deneye toplam on iki pilot katılım gösterdi. Yapılan testler, donanımın kendisinin iyi çalışmasına rağmen, DSG işlemlerinin mevcut geleneksel yöntemlere kıyasla daha fazla zaman alması nedeniyle, uçakta gerçek dünyaya konuşlandırılmadan önce birkaç iyileştirmenin istendiğini ortaya çıkardığı bildirildi. İyileştirme önerileri arasında daha basit bir sözdiziminin benimsenmesi, daha yüksek bir tanıma oranına ulaşılması ve yanıt sürelerinin azaltılması yer alıyordu; karşılaşılan tüm sorunların teknolojik nitelikte olduğu belirlendi ve çözülmesi mümkün görüldü. Araştırmacılar, kokpitlerde, özellikle pilotların tamamen kendi başlarına çalışması gereken acil durumlarda, bir DSG sisteminin oldukça yararlı olabileceği, ancak akla gelebilecek diğer senaryoların çoğunda bunun çok önemli olmadığı sonucuna vardılar.[3]

Aynı dönemde Avrupa Birliği'nin koordine ettiği SafeSound Projesi kapsamında sivil havacılık amaçlı DSG sistemlerinin değerlendirmeleri yapıldı. Gerçek dünyadaki kokpitlerdeki pilot iş yüklerinin gözlemlenmesini ve bunların hem geleneksel sistemler hem de DSG yardımı kullanılarak uçuş simülatörlerindeki pilot etkinlikleriyle karşılaştırılmasını içeriyordu. Proje, gelişmiş ses işlevlerinin uygulanmasıyla havacılık güvenliğini artırmayı ve hem yer hem de uçuş operasyonlarındaki iş yükünü azaltmayı amaçladı.[4]

Uygulamalar[değiştir | kaynağı değiştir]

Havacılık[değiştir | kaynağı değiştir]

Sistemin yaygın konuşlandırılmasından önce, bir avuç geleneksel askerî uçak, deneme amaçlı DSG sistemlerine dönüştürüldü; örnekler arasında AV-8B Harrier ve F-16 VISTA yer almaktaydı. Başka bir durumda, Hollanda Kraliyet Hava Kuvvetleri tarafından üstlenilen bir ses kontrol çalışması için General Dynamics F-16 Fighting Falcon simülatörü DSG sistem uygulaması ile değiştirilmiştir.[5] Uçuş güvenliğini ve görev etkililiğini artırma yeterliliğini gösteren Boeing AH-64 Apache de dâhil helikopterler üzerinde DSG sistem denemeleri de yapıldı.[6][7]

Çok sayıda modern savaş uçağı, genellikle HOTAS uyumlu kontroller ve diğer gelişmiş kontrol teknolojileri gibi çeşitli diğer insan-makine arayüz şemalarıyla birleşim halinde DSG sistemleriyle donatılmıştır. Ses ve HOTAS kontrol şemalarının birleşimi bazen "V-TAS" konsepti olarak anılır. V-TAS kokpiti ile donatılan önemli savaş uçaklarından biri de Eurofighter Typhoon'dur. Lockheed Martin F-35 Lightning II ayrıca Adacel tarafından geliştirilen bir DSG sistemine sahiptir.[8] Diğer örnekler arasında Dassault Rafale ve Saab JAS 39 Gripen yer almaktadır.[5]

Çok sayıda uçağın DSG kullanması planlanmıştır. Bir aşamada, Birleşik Devletler Hava Kuvvetleri DSG'yi Lockheed Martin F-22 Raptor'a entegre etmeye çalışmıştı; ancak, teknolojinin o dönemde çok fazla teknik risk oluşturduğuna karar verildi ve bu nedenle bu tür çabalardan vazgeçildi.[9]

Bireysel[değiştir | kaynağı değiştir]

1990 yılına gelindiğinde, konuşma tanıma sistemlerinin çalışan öntürleri gösteriliyordu; bunlar, konuşma bozukluğu olan bireyler için etkili bir insan-makine arayüzü sağlamak amacıyla tanıtılıyordu.[10] Kullanılan teknikler arasında zaman kodlu dijital konuşma ve otomatik belirteç (Sözcüksel belirteçlendirme) seti seçimi yer alıyordu. Bu erken DSG sistemlerine ilişkin araştırmaların, otomatik tanılama alışkanlıklarının kullanımını ve gönüllüleri kullanan sınırlı ölçekli denemeleri içerdiği bildirildi.[10]

2010'lu yıllarda, çeşitli şirketler halka, kişisel dijital asistanlar şeklinde ses tanıma sistemleri sunuyordu.[2] Bunun bir örneği, kullanıcıların kişisel bilgisayar, tablet veya cep telefonuna yüklenen bir DSG paketi aracılığıyla soru sormalarına olanak tanıyan Google Voice hizmetidir. Kullanıcılarla etkileşim kurmak için DSG kullanan Amazon Echo, Siri ve Cortana gibi çok sayıda dijital asistan geliştirilmiştir.[2]

Ticari[değiştir | kaynağı değiştir]

DSG teknolojisi, otomatik telefon sistemlerinin yaygın bir şekilde kullanılmasını sağlamıştır. Birçok şirket, arayanları bu tür yöntemlerle doğru departmana yönlendiren merkezi telefon sistemlerini yaygın olarak kullanmaktadır.[2] Çeşitli otomobil üreticileri de karayolu taşıtlarını DSG sistemleriyle donattılar; bunlar genellikle sürücülerin bilgi-eğlence sistemlerini kontrol etmelerine ve cep telefonlarıyla eski yöntemlerden daha rahat etkileşime girmelerine olanak tanır.[2]

1980'lerin sonlarında, CNC Makinelerini ve diğer üretim aygıtlarını kontrol etmek için DSG sistemlerinin kullanımına ilişkin araştırmalar devam ediyordu.[11] 2010'larda bu tür sistemler lojistik ve depo yönetimi amacıyla kullanılıyordu.[12]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Jarrett, D.N. (2005), Cockpit Engineering. 27 Şubat 2012 tarihinde Wayback Machine sitesinde arşivlendi. [tr: Kokpit Mühendisliği] Aldershot, Ashgate Publishing Limited, ashgate.com 978-0-7546-1751-8.
  2. ^ a b c d e "Voice recognition" [Ses tanıma]. computerhope.com. ComputerHope. 16 Mayıs 2020. 31 Mart 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Mart 2024. 
  3. ^ Zon, G.D.R ve Roerdink, M.I., (2007), Using Voice to Control the Civil Flightdeck, [tr: Sivil Uçuş Güvertesini Kontrol Etmek İçin Sesin Kullanılması], Report NLR-TP-2006-720 (Bu rapor HCI Aero, Seattle, ABD'de düzenlenen bir sunuma dayanmaktadır., 20–22 Eylül 2006) 4 Mart 2016 tarihinde Wayback Machine sitesinde arşivlendi.
  4. ^ Steen, Weber; Jette, Lundtang Paulsen (8–10 Mayıs 2006). "Workshop on future control station designs and human performance issues in nuclear power plants" [Nükleer santrallerde gelecekteki kontrol istasyonu tasarımları ve insan performansı sorunları üzerine çalıştay]. Uluslararası Atom Enerjisi Ajansı (IAEA). ss. 296-320. 1 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Nisan 2024. 
  5. ^ a b Gibbon, D., Mertins, I. ve Moore, R.K. (2000) "Handbook of Multimodal and Spoken Dialogue Systems Resources, Terminology and Product Evaluation" [tr: Çok Kipli ve Sözlü Diyalog Sistem Kaynakları, Terminoloji ve Ürün Değerlendirme El Kitabı] (The Springer International Series in Engineering and Computer Science, Cilt 565), Massachusetts, Kluwer Academic Publishers 1 Nisan 2024 tarihinde Wayback Machine sitesinde arşivlendi. 978-0-7923-7904-1
  6. ^ Hunter, Donald James (Aralık 2003). "Identification of aircrew tasks for using direct voice input (DVI) to reduce pilot workload in the AH-64D Apache Longbow" [AH-64D Apache Longbow'da pilot iş yükünü azaltmak için doğrudan ses girişinin (DSG) kullanılmasına yönelik hava mürettebat görevlerinin tanımlanması]. Masters Theses. trace.tennessee.edu. 1 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Nisan 2024. 
  7. ^ Herdman, Chris; Johannsdottir, Kamilla; Lessard, Lynda; Jarmasz, Jerzy; Churchill, Laura; Farrell, Philip (Ocak 2001). "Attentional benefits and costs associated with integrating a direct voice input (DVI) system into a multi-crew helicopter environment" [Doğrudan ses girişi (DSG) sisteminin çok mürettebatlı bir helikopter ortamına bütünleştirilmesiyle ilgili dikkat çeken yararlar ve maliyetler]. 
  8. ^ Schutte, John (10 Ekim 2007). "Researchers fine-tune F-35 pilot-aircraft speech system" [Araştırmacılar F-35 pilot-uçak konuşma sistemine ince ayar yapıyor]. af.mil. US Air Force. 23 Nisan 2016 tarihinde kaynağından arşivlendi. 
  9. ^ Goebel, Greg. "The Lockheed Martin F-22 Raptor." 30 Mart 2019 tarihinde Wayback Machine sitesinde arşivlendi. AirVectors, airvectors.net, 1 Temmuz 2011. Erişim: 10 Kasım 2012.
  10. ^ a b Warner, A.G.; Hughes, R.D.; King, R.A. (1990). "A direct voice input man-machine interface strategy to provide voice access for severely impaired speakers" [Ciddi derecede engelli konuşmacılara ses erişimi sağlamak için doğrudan ses girişi insan-makine arayüzü stratejisi]. ieeexplore.ieee.org. UK IT 1990 Conference. ss. 279-285. 23 Mart 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Nisan 2024. 
  11. ^ Zhu, J.Y.; Xu, C.G. (7 Ocak 1988). "An Investigation on Voice Input System for CNC Machine Tools" [CNC Takım Tezgahlarında Ses Giriş Sistemi Üzerine Bir Araştırma]. CIRP Annals; sciencedirect.com. 37 (1). Nanjing Aeronautical Institute. ss. 477-480. doi:10.1016/S0007-8506(07)61681-3. 1 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Nisan 2024. Konuşma ilkin frekans analizi ve zaman analizinin birleşimiyle genlik açısından normalleştirilir ve zaman içinde doğrusal olmayan bir şekilde normalleştirilir. Belirli dilbilgisine göre, sistem "sekiz dereceli" yöntemi kullanarak girdi konuşmasını hiyerarşik olarak tarar, işler ve tanır. Sistem ayrıca grafik görüntüleme, işleme izi takibi, kod dönüştürme ve kendi kendini test etme işlevlerine de sahiptir. (The speech is firstly normalized in amplitude and nonlinearly normalized in time by the combination of frequency analysis and time analysis. According to the specific grammar, the system hierarchically scans, processes and recognizes input speech by using "eight-grade" method. The system also has functions of graph display, machining trail tracking, code transformation and self testing.) 
  12. ^ "Advancing Warehouse Management with Voice Picking Software" [Ses Toplama Yazılımı ile Depo Yönetiminde İlerleme]. lucasware.com. Lucas Systems. 13 Ağustos 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ağustos 2020. 

Dış bağlantılar[değiştir | kaynağı değiştir]