Müzik bilgi işleme

Vikipedi, özgür ansiklopedi

Müzik bilgi işleme (MBİ), müzikten bilgi çıkarma işini inceleyen disiplinler arası bir bilim dalıdır. MBİ ile ilgilenen kişiler, akademik müzikoloji, psikoakustik, psikoloji, sinyal işleme, bilişim, makine öğrenimi, optik müzik tanıma, hesaplamalı zeka veya bunların bir kombinasyonu gibi alanlarda arka plana sahip olabilirler.

Uygulamalar[değiştir | kaynağı değiştir]

Müzik Bilgi İşleme (MBİ), işletmeler ve akademisyenler tarafından müziği kategorize etmek, manipüle etmek ve hatta müzik yaratmak için kullanılmaktadır.

Müzik sınıflandırma[değiştir | kaynağı değiştir]

Klasik Müzik Bilgi İşleme (MBİ) konularından biri tür sınıflandırmasıdır. Bu, müzik öğelerini klasik, caz, rock vb. önceden tanımlanmış türlere göre kategorilere ayırmaktır. Ruhsal durum sınıflandırması, sanatçı sınıflandırması, enstrüman tanıma ve müzik etiketleme de popüler konulardır.

Öneri sistemleri[değiştir | kaynağı değiştir]

Müzik için birkaç öneri sistemi mevcuttur, ancak şaşırtıcı bir şekilde çok azı Müzik Bilgi İşleme (MBİ) tekniklerine dayanmaktadır, bunun yerine kullanıcılar arası benzerlik veya yoğun veri derleme kullanılmaktadır. Örneğin, Pandora, müziği "kadın şarkıcı" veya "güçlü bas çizgisi" gibi belirli niteliklerle etiketlemek için uzmanları kullanır. Birçok diğer sistem, dinleme geçmişi benzer olan kullanıcıları bulur ve kendi koleksiyonlarından kullanıcıların daha önce dinlemediği müzikleri önerir. Şimdiye kadar, müzikteki benzerlik için MBİ teknikleri bu tür sistemlerin bir parçası olmaya başlamıştır.

Müzik kaynak ayırma ve enstrüman tanıma[değiştir | kaynağı değiştir]

Müzik kaynak ayırma, karışık bir ses sinyalinden orijinal sinyalleri ayırmakla ilgilidir. Enstrüman tanıma, müzikte yer alan enstrümanları tanımlamakla ilgilidir. Ana kopyaya erişim olmaksızın müziği bileşen parçalarına ayırabilen çeşitli MBİ sistemleri geliştirilmiştir. Bu şekilde örneğin, normal müzik parçalarından karaoke parçaları oluşturulabilir, ancak süreç vokallerin diğer enstrümanlarla aynı frekans alanını işgal etmesi nedeniyle henüz mükemmel değildir.

Otomatik müzik transkripsiyonu[değiştir | kaynağı değiştir]

Otomatik müzik transkripsiyonu, bir ses kaydını skor veya MIDI (Müzik Enstrümanları Dijital Arabirimi) dosyası gibi sembolik bir notasyona dönüştürme işlemidir. Bu işlem, çoklu ses algılama, başlangıç algılama, süre tahmini, enstrüman tanıma ve harmonik, ritmik veya melodik bilgilerin çıkarılması gibi birkaç ses analizi görevini içerir. Bu görev, enstrüman sayısı ve polifoni seviyesi arttıkça daha zorlaşır.

Müzik üretimi[değiştir | kaynağı değiştir]

Müziğin otomatik üretimi, birçok MBİ araştırmacısının hedefidir. İnsan takdiri açısından sınırlı başarıyla denemeler yapılmıştır.

Kullanılan yöntemler[değiştir | kaynağı değiştir]

Veri kaynağı[değiştir | kaynağı değiştir]

Notalar, çalışılacak müziğin açık ve mantıklı bir açıklamasını verir, ancak dijital ya da başka türlü notalara erişim genellikle pratik değildir. Benzer nedenlerle MIDI müziği de kullanılmıştır, ancak müzik MIDI standartları göz önünde bulundurularak yazılmadıkça, herhangi bir formattan MIDI'ye dönüştürülürken bazı veriler kaybolur, ki bu nadirdir. Sesin kendisi analizin bir parçası olduğunda WAV, mp3 ve ogg gibi dijital ses formatları kullanılır .Lossy formatlar MP3 ve OGG insan kulağı ile iyi çalışır ancak çalışma için kritik olabilecek önemli veriler eksik olabilir. Ayrıca bazı kodlamalar, herhangi bir otomatik analizör için yanıltıcı olabilecek artefaktlar yaratabilir. Buna rağmen MP3'ün yaygınlığı, alanındaki çok sayıda araştırmanın bu materyalleri kaynak malzeme olarak kullanmasına neden olmuştur. Son zamanlarda, müziğin kültürel bağlamı içindeki daha yuvarlak bir anlayış için MIR'a, webden madenciliği yapılan meta veriler dahil edilmekte ve bu, son zamanlarda müzik için sosyal etiketlerin analizinden oluşmaktadır.

Özellik temsili[değiştir | kaynağı değiştir]

Analiz çoğu zaman bir özetleme gerektirebilir ve müzik (diğer birçok veri formu gibi) için bu, özellikle ses içeriği analiz edildiğinde ve makine öğrenimi uygulanacaksa, özellik çıkarma yoluyla başarılır. Amaç, öğrenmenin makul bir zaman çerçevesi içinde gerçekleştirilebilmesi için veri miktarını yönetilebilir bir değerler setine indirgemektir. Çıkarılan yaygın bir özellik, bir müzik parçasının tınısının bir ölçüsü olan Mel-Frekans Kepstral Katsayısıdır (MFCC). Parçadaki anahtar, akorlar, harmoniler, melodi, ana perde, dakikadaki vuruş sayısı veya ritim gibi diğer özellikler temsil edilmek için kullanılabilir. Bir dizi mevcut ses özellik çıkarma araçları bulunmaktadır.

İstatistik ve makine öğrenimi[değiştir | kaynağı değiştir]

Diğer konular[değiştir | kaynağı değiştir]

Akademik faaliyet[değiştir | kaynağı değiştir]

Ayrıca Bakınız[değiştir | kaynağı değiştir]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^A. Klapuri and M. Davy, editors. Signal Processing Methods for Music Transcription. Springer-Verlag, New York, 2006.
  2. ^Eidenberger, Horst (2011). “Fundamental Media Understanding”, atpress. ISBN 978-3-8423-7917-6.
  3. ^David Moffat, David Ronan, and Joshua D Reiss. "An Evaluation of Audio Feature Extraction Toolboxes". In Proceedings of the International Conference on Digital Audio Effects (DAFx), 2016.

Dış Bağlantılar[değiştir | kaynağı değiştir]

Örnek MIR Uyulamaları[değiştir | kaynağı değiştir]