Common Voice

Vikipedi, özgür ansiklopedi
Common Voice
Geliştirici(ler)Mozilla Vakfı
İlk yayınlanma2017 Haziran 19 (6 yıl önce) (19-06-2017)
ErişilebilirlikÇokdilli (Dillerin listesi)
LisansCreative Commons CC0
Resmî sitesicommonvoice.mozilla.org
Kod deposuhttps://github.com/mozilla/voice-web
Common Voice'nin maskotu
Common Voice'nin maskotu

Common Voice, ses ve konuşma tanıma yazılımları için ücretsiz bir veritabanı oluşturmak üzere Mozilla tarafından başlatılan bir kitle kaynak projesidir.[1] Proje, mikrofonla örnek cümleler kaydeden ve diğer kullanıcıların kayıtlarını inceleyen gönüllüler tarafından desteklenmektedir. Transkripsiyonlu cümleler, kamu malı CC0 lisansı altında bulunan bir ses veritabanında toplanır. Bu lisans, geliştiricilerin veritabanını herhangi bir kısıtlama veya maliyet olmadan sesten metne özelliğini kullanan uygulamalar için kullanabilmelerini sağlar.

Common Voice; Amazon Echo, Siri veya Google Asistan gibi büyük şirketlerin dil asistanlarına bir cevap olarak ortaya çıktı.

Ses veritabanı[değiştir | kaynağı değiştir]

İngilizce Common Voice veritabanı, LibriSpeech'ten sonra serbestçe erişilebilen ikinci en büyük ses veritabanıdır. İlk veriler 29 Kasım 2017'de yayımlandığında dünya çapında 20.000'den fazla kullanıcı, toplam 500 saat süren 400.000 onaylanmış cümle kaydetti.[2]

Şubat 2019'da ilk dil grubu kullanıma sunuldu. Bu grup toplam 18 dil içeriyordu: İngilizce, Fransızca, Almanca ve Mandarin Çincesi, aynı zamanda Galce ve Berberice gibi daha az yaygın diller. Toplamda 42.000'den fazla katılımcıdan yaklaşık 1.400 saatlik ses kaydı verisi dahil edildi.[3]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ "Mozilla, En Büyük Ses Veritabanı Common Voice'u Kullanıma Açtı". webtekno.com. 20 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Ocak 2022. 
  2. ^ "Announcing the Initial Release of Mozilla's Open Source Speech Recognition Model and Voice Dataset". blog mozilla.org. 29 Kasım 2017. 29 Kasım 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Mart 2020. 
  3. ^ "Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages". VentureBeat. 28 Şubat 2019. 4 Mart 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Mart 2020.