Müzik bilgi işleme

Müzik bilgi işleme (MBİ), müzikten bilgi çıkarma işini inceleyen disiplinler arası bir bilim dalıdır. MBİ ile ilgilenen kişiler, akademik müzikoloji, psikoakustik, psikoloji, sinyal işleme, bilişim, makine öğrenimi, optik müzik tanıma, hesaplamalı zeka veya bunların bir kombinasyonu gibi alanlarda arka plana sahip olabilirler.

Uygulamalar[değiştir | kaynağı değiştir]

Müzik Bilgi İşleme (MBİ), işletmeler ve akademisyenler tarafından müziği kategorize etmek, manipüle etmek ve hatta müzik yaratmak için kullanılmaktadır.

Müzik sınıflandırma[değiştir | kaynağı değiştir]

Klasik Müzik Bilgi İşleme (MBİ) konularından biri tür sınıflandırmasıdır. Bu, müzik öğelerini klasik, caz, rock vb. önceden tanımlanmış türlere göre kategorilere ayırmaktır. Ruhsal durum sınıflandırması, sanatçı sınıflandırması, enstrüman tanıma ve müzik etiketleme de popüler konulardır.

Öneri sistemleri[değiştir | kaynağı değiştir]

Müzik için birkaç öneri sistemi mevcuttur, ancak şaşırtıcı bir şekilde çok azı Müzik Bilgi İşleme (MBİ) tekniklerine dayanmaktadır, bunun yerine kullanıcılar arası benzerlik veya yoğun veri derleme kullanılmaktadır. Örneğin, Pandora, müziği "kadın şarkıcı" veya "güçlü bas çizgisi" gibi belirli niteliklerle etiketlemek için uzmanları kullanır. Birçok diğer sistem, dinleme geçmişi benzer olan kullanıcıları bulur ve kendi koleksiyonlarından kullanıcıların daha önce dinlemediği müzikleri önerir. Şimdiye kadar, müzikteki benzerlik için MBİ teknikleri bu tür sistemlerin bir parçası olmaya başlamıştır.

Müzik kaynak ayırma ve enstrüman tanıma[değiştir | kaynağı değiştir]

Müzik kaynak ayırma, karışık bir ses sinyalinden orijinal sinyalleri ayırmakla ilgilidir. Enstrüman tanıma, müzikte yer alan enstrümanları tanımlamakla ilgilidir. Ana kopyaya erişim olmaksızın müziği bileşen parçalarına ayırabilen çeşitli MBİ sistemleri geliştirilmiştir. Bu şekilde örneğin, normal müzik parçalarından karaoke parçaları oluşturulabilir, ancak süreç vokallerin diğer enstrümanlarla aynı frekans alanını işgal etmesi nedeniyle henüz mükemmel değildir.

Otomatik müzik transkripsiyonu[değiştir | kaynağı değiştir]

Otomatik müzik transkripsiyonu, bir ses kaydını skor veya MIDI (Müzik Enstrümanları Dijital Arabirimi) dosyası gibi sembolik bir notasyona dönüştürme işlemidir. Bu işlem, çoklu ses algılama, başlangıç algılama, süre tahmini, enstrüman tanıma ve harmonik, ritmik veya melodik bilgilerin çıkarılması gibi birkaç ses analizi görevini içerir. Bu görev, enstrüman sayısı ve polifoni seviyesi arttıkça daha zorlaşır.

Müzik üretimi[değiştir | kaynağı değiştir]

Müziğin otomatik üretimi, birçok MBİ araştırmacısının hedefidir. İnsan takdiri açısından sınırlı başarıyla denemeler yapılmıştır.

Kullanılan yöntemler[değiştir | kaynağı değiştir]

Veri kaynağı[değiştir | kaynağı değiştir]

Notalar, çalışılacak müziğin açık ve mantıklı bir açıklamasını verir, ancak dijital ya da başka türlü notalara erişim genellikle pratik değildir. Benzer nedenlerle MIDI müziği de kullanılmıştır, ancak müzik MIDI standartları göz önünde bulundurularak yazılmadıkça, herhangi bir formattan MIDI'ye dönüştürülürken bazı veriler kaybolur, ki bu nadirdir. Sesin kendisi analizin bir parçası olduğunda WAV, mp3 ve ogg gibi dijital ses formatları kullanılır .Lossy formatlar MP3 ve OGG insan kulağı ile iyi çalışır ancak çalışma için kritik olabilecek önemli veriler eksik olabilir. Ayrıca bazı kodlamalar, herhangi bir otomatik analizör için yanıltıcı olabilecek artefaktlar yaratabilir. Buna rağmen MP3'ün yaygınlığı, alanındaki çok sayıda araştırmanın bu materyalleri kaynak malzeme olarak kullanmasına neden olmuştur. Son zamanlarda, müziğin kültürel bağlamı içindeki daha yuvarlak bir anlayış için MIR'a, webden madenciliği yapılan meta veriler dahil edilmekte ve bu, son zamanlarda müzik için sosyal etiketlerin analizinden oluşmaktadır.

Özellik temsili[değiştir | kaynağı değiştir]

Analiz çoğu zaman bir özetleme gerektirebilir ve müzik (diğer birçok veri formu gibi) için bu, özellikle ses içeriği analiz edildiğinde ve makine öğrenimi uygulanacaksa, özellik çıkarma yoluyla başarılır. Amaç, öğrenmenin makul bir zaman çerçevesi içinde gerçekleştirilebilmesi için veri miktarını yönetilebilir bir değerler setine indirgemektir. Çıkarılan yaygın bir özellik, bir müzik parçasının tınısının bir ölçüsü olan Mel-Frekans Kepstral Katsayısıdır (MFCC). Parçadaki anahtar, akorlar, harmoniler, melodi, ana perde, dakikadaki vuruş sayısı veya ritim gibi diğer özellikler temsil edilmek için kullanılabilir. Bir dizi mevcut ses özellik çıkarma araçları bulunmaktadır.

İstatistik ve makine öğrenimi[değiştir | kaynağı değiştir]

Sınıflandırma, kümeleme ve modelleme için hesaplamalı yöntemler — mono ve polifonik müzik için müziksel özellik çıkarma, benzerlik ve desen eşleştirme, geri alma.
Biçimsel yöntemler ve veritabanları — otomatik müzik tanıma ve tanımlama uygulamaları, skor takibi, otomatik eşlik, müzik ve müzik sorguları için yönlendirme ve filtreleme, sorgu dilleri, müzik bilgi işleme ve geri alımı için standartlar ve diğer meta veriler veya protokoller, çoklu ajan sistemleri, dağıtık arama gibi.
Müzik Bilgi İşleme Yazılımı — Semantik Web ve müziksel dijital nesneler, akıllı ajanlar, işbirlikçi yazılım, web tabanlı arama ve semantik geri alma, mırıldanarak sorgulama / Sese göre arama, akustik parmak izi.
Müzik analizi ve bilgi temsili — otomatik özetleme, alıntılama, alıntı yapma, düşürme, dönüştürme, müziğin biçimsel modelleri, dijital skorlar ve temsiller, müzik indeksleme ve meta verileri.

Diğer konular[değiştir | kaynağı değiştir]

İnsan-bilgisayar etkileşimi ve arayüzler — çok modlu arayüzler, kullanıcı arayüzleri ve kullanılabilirlik, mobil uygulamalar, kullanıcı davranışı
Müzik algısı, biliş, etki ve duygular — müzik benzerliği metrikleri, sözdizimsel parametreler, semantik parametreler, müziksel formlar, yapılar, stiller ve müzik açıklama metodolojileri
Müzik arşivleri, kütüphaneler ve dijital koleksiyonlar — müzik dijital kütüphaneleri, müziksel arşivlere kamu erişimi, referans noktaları ve araştırma veritabanları.
Müzik ve fikri mülkiyet hakları — ulusal ve uluslararası telif hakkı sorunları, dijital hak yönetimi, tanımlama ve izlenebilirlik.
Müzik Sosyolojisi ve Ekonomisi — müzik endüstrisi ve MBİ'nin üretim, dağıtım, tüketim zincirindeki kullanımı, kullanıcı profillemesi, doğrulama, kullanıcı ihtiyaçları ve beklentileri, müzik IR sistemlerinin değerlendirilmesi, test koleksiyonlarının oluşturulması, deneysel tasarım ve metrikler.

Akademik faaliyet[değiştir | kaynağı değiştir]

Uluslararası Müzik Bilgisi Alma Derneği (ISMIR) konferansı, müzik bilgisi alma araştırmaları için en üst düzey mekandır.
Uluslararası Akustik, Konuşma ve Sinyal İşleme Konferansı (ICASSP) da oldukça alakalı bir etkinliktir.

Ayrıca Bakınız[değiştir | kaynağı değiştir]

Kaynakça[değiştir | kaynağı değiştir]

^A. Klapuri and M. Davy, editors. Signal Processing Methods for Music Transcription. Springer-Verlag, New York, 2006.
^Eidenberger, Horst (2011). “Fundamental Media Understanding”, atpress. ISBN 978-3-8423-7917-6.
^David Moffat, David Ronan, and Joshua D Reiss. "An Evaluation of Audio Feature Extraction Toolboxes". In Proceedings of the International Conference on Digital Audio Effects (DAFx), 2016.

Micheal Fingerhut (2004). "Music Information Retrieval, or how to search for (and maybe find) music and do away with incipits, IAML-IASA Congress, Oslo (Norway), August 8-13,2004.

Dış Bağlantılar[değiştir | kaynağı değiştir]

Örnek MIR Uyulamaları[değiştir | kaynağı değiştir]