Ses konuşma tanımlayıcı yazılımlar

Vikipedi, özgür ansiklopedi
Gezinti kısmına atla Arama kısmına atla

Sesli konuşmayı yazıya çeviren bilgisayar yazılımları veya daha yaygın ve bilinen ingilizce adıyla "Speech recognition"

kelime açılımı kök anlamıyla ses kayıt tespiti ; Dikte - [Türkçe Konuşma Tanıma]

genelde bilinen Konuşma Sentezleyici veya Speech Synthesizer, programlarının aksine microfon benzeri bir şekilde daha önceden alınan bir konuşma veya dialogun bilgisayar üzerinde yazılı bir hale getirilmesi için kullanılan programlardır.

kullanım alanları[değiştir | kaynağı değiştir]

özellikle gazetecilik açısında video ve ses formatında alınan görüşme ve mülakatların bilgisayar ortamında arşivlenmesi ve daha sonraki süreçlerde kişilerin hangi sözü ne zaman söylediğini ortaya çıkması açısında kullanıldığı gibi

ulusal güvenlik açısında yasal zaman aşımı süresince kaydedilen telefon görüşmelerinin süpeli konuşma veya anahtar kelimeli arama için dinleme işinin yasal anlamda tarafsız olarka bilgisayar tarafından tanımlanmasıdır.

çeşitli tartışmalar[değiştir | kaynağı değiştir]

genelde bu tarz programlar her ülkenin kendi istikbarat teşkilatı içinde geliştirildip kullanıldığı yönünde söylentiler söylene gelmektedir !

Bu hizmeti sunan çeşitli yazılımlar[değiştir | kaynağı değiştir]

http://www.spitall.com/web-spikeri/
http://www.sestek.com.tr/
http://www.dikte.com.tr/

Modern 'konuşma tanıma yazılımı 'bir bilgisayar kullanıcı bilgisayarı, büyük ölçüde metin ve / veya komutları konuşmak değil, tamamen Klavye ve fare arayüz.

Fikir olarak tasvir edilmiştir bilim kurgu uzun yıllar, çok sık bile klavye ve fare yok bilgisayarları gösteren. Bu tür bilgisayarlarda da tipik olarak tasvir edilir olursa olsun ayakta tutmaya muktedir olmanın ne kadar hızlı bir kişi, konuşuyor ve hoparlör, dil konuşulan, hatta kaç hoparlör var kim olduğunu bakılmaksızın uygulanır. Diğer bir deyişle, onlar bir dilli kişi olarak şekilde de duyar gibi bir bilgisayar gösteren konum.

Girişimleri kullanılabilir konuşma tanıma yazılımı geliştirmek için 1900'lerin ortalarında başladı ve çok daha zor olduğunu kanıtladı daha kimsenin hayal etmişti. Bu aynı zamanda sadece en modern bilgisayarların artık fonksiyonları gerçek zamanlı olarak (yani gerekli gerçekleştiremeyebilirsiniz, kadar hızlı konuşmak vardır) çok fazla işlem gücü gerektiren çıktı.

İlk ticari pratik ürünler 1.990 civarında, (Ses Gezgin, tek başına bir bilgisayar gibi kullanılabilir oldu konuşma tanıma) 100% adanmış ve makinenin tüm mevcut bilgi işlem gücü olan ikinci bir bilgisayara kendi çıkış göndermek istiyorsunuz harcadım. Özellikle ve doğru sadece bir zaman tek bir kişinin anlayabileceği, yeniden eğitme, operatör değil gerektiren ama makine kendisi, başka bir kişi için çalışma vardı. Bu sınırlamalara rağmen yazabilirsiniz öylesine hızla bile düzeltmeler, engelli bir kişi yapmak için zaman ayırdığınız sonra kolayca olmayanlara göre makine ile daha fazla iş başarmak olabilir. Fiziksel engelli insanlar için, yeteneği sadece bilgisayarınıza konuşmak için paha biçilmez bir varlık olabilir. Örneğin düşünün, bir yazar Parkinson hastalığı olan ancak ellerini kontrol edebilirsiniz, ama uygun bir makale oluşturmak için yapabiliyor.

Başka senaryolara ekipman eksiklikleri kolayca outweighed vardır.

Bir tesis aşındırıcı maddeler, veya yüksek voltajlı ekipman, ele ediliyor düşünün ... Masif eldiven işin türü için tipik bir klavye kullanarak engel gereklidir.

En modern telefonlar artık kolayca belirli bir kullanıcı için bilgisayar eğitimi olmadan gerçekleştirilir sesle arama - basitleştirilmiş gereksinimleri sesle arama ilişkilendirilen içerir.

-Ve mevcut durumu-2008-sanat bir düzgün eğitimli bilgisayar, normal sağlıklı yetişkin tarafından işletilen (hiçbir konuşma engelleri yani), Intel Core Duo 1.5 GHz işlemci (veya daha hızlı), yaklaşık% 99 doğruluk elde edebilirsiniz olduğunu ise dakikada yaklaşık 150 kelime kadar transkripsiyonu (süre) hesaplama gücü mevcut en kullanarak. Yüzeysel bu çok iyi gelebilir. Not ancak, çok istikrarlı bir ses gereklidir. Kötü bir kafa soğuk geliştirilmesi üzerine başarılı bir operatör, birden kendisini tüm onu anlamıyor bulabilirsiniz. Ve yine çoğu insan bu zor durumda bütün anlayış bile hiçbir sorun var.

Örneğin düşünün, makineler henüz düzgün bir çocuk sesi süreci için yeterli istihbarat yok. Engel olması çoğu çocuk henüz tam olarak nasıl dile (tam cümle uygun inşaat örneğin kullanılır anlıyorum) ve onların seslerini büyümekte de sürekli değişiyor.

Şu anda hem mülkiyet ve açık geliştirme önem piyasada kaynak sistemleri, yasal ve sağlık pazarlara hizmet üzerine konuyor.

Free software[değiştir | kaynağı değiştir]

Free speech corpus and acoustic model repositories[değiştir | kaynağı değiştir]

Proprietary software[değiştir | kaynağı değiştir]

  • AT&T WATSON
  • HTK — copyrighted by Microsoft, but altering the software for the Licensee's internal use is allowed.
  • CSLU Toolkit
  • Dragon NaturallySpeaking from Nuance Communications is the continuous-speech successor to the older DragonDictate product, and appears to be the focus of all their current development effort (in the dictation area). Since version 10.1 it runs on 64-bit Windows, too.
  • IBM ViaVoice - Control and development as it pertains to embedded processors remain in the hands of IBM. Linux, Mac OS, and Windows products were licensed to Nuance Communications (formerly ScanSoft) which has since discontinued the product. The Nuance website provides a list of which legacy systems can run the final versions.
  • MacSpeech Dictate - Mac OS X speech recognition using the Dragon NaturallySpeaking engine. This replaces MacSpeech's former iListen product which is based on Philips Speech Technology.
  • Microsoft Windows Speech Recognition - Windows Vista and Windows 7 includes version 8.0 of the Microsoft speech recognition engine along with a completely new end user speech experience, known as Windows Speech Recognition.
  • Microsoft Speech API - Speech recognition functionality included as part of Microsoft Office and on Tablet PCs running Microsoft Windows XP Tablet PC Edition. It may also be downloaded as part of the Speech SDK 5.1 for Windows applications, but since that is aimed at developers building speech applications, the pure SDK form lacks any user interface, and thus is unsuitable for end users.
  • Philips SpeechMagic - Market leader within the medical industry according to Frost & Sullivan, Philips SpeechMagic is a recognition engine that may be run either as a stand-alone product or integrated into other applications.[1][2]
  • Proteus Conversational Interface
  • Simmortel Voice
  • Quack.com (acquired by AOL)
  • SpeechWorks
  • Tellme Networks (acquired by Microsoft)

Kaynakça[değiştir | kaynağı değiştir]

Konu hakkında basında yer alan haberler[değiştir | kaynağı değiştir]