Belge sınıflandırma

Belge sınıflandırma veya belge kategorizasyonu, kütüphane bilimleri, bilgi bilimi ve bilgisayar biliminde bir sorundur. Görev, bir belgeyi bir veya daha fazla sınıfa veya kategoriye atamaktır. Bu "manuel" (veya "zihinsel") veya algoritmik olarak yapılabilir. Belge sınıflandırmasının zihinsel olarak yapılması genellikle kütüphane biliminin alanı olmuştur, oysa belgelerin algoritmik olarak sınıflandırılması genellikle bilgi bilimi ve bilgisayar biliminin alanındadır. Ancak, sorunlar örtüşmektedir ve bu nedenle belge sınıflandırması üzerine disiplinler arası araştırmalar bulunmaktadır.

Sınıflandırılacak belgeler metinler, görüntüler, müzikler vb. olabilir. Her tür belgenin kendine özgü sınıflandırma sorunları vardır. Aksi belirtilmedikçe, genellikle metin sınıflandırması kastedilir.

Belgeler konularına göre veya diğer özelliklere göre (belge türü, yazar, basım yılı vb. gibi) sınıflandırılabilir. Bu makalenin geri kalan kısmında yalnızca konu sınıflandırması ele alınmaktadır. Belge sınıflandırmasının iki ana felsefesi vardır: içerik tabanlı yaklaşım ve talep tabanlı yaklaşım.

"İçerik tabanlı" ve "talep tabanlı" sınıflandırma[değiştir | kaynağı değiştir]

İçerik tabanlı sınıflandırma, bir belgedeki belirli konulara verilen ağırlığın, belgenin atanacağı sınıfı belirlediği sınıflandırmadır. Örneğin, kütüphanelerde sınıflandırmada yaygın bir kural, bir kitabın atanacağı sınıfın en az %20'sinin kitabın içeriği hakkında olması gerektiğidir.^[1] Otomatik sınıflandırmada ise, belirli kelimelerin bir belgede kaç kez geçtiği olabilir.

Talep odaklı sınıflandırma (veya -dizinleme), kullanıcılardan beklenen talebin belgelerin nasıl sınıflandırıldığını etkilediği sınıflandırmadır. Sınıflandırmacı kendisine şu soruları sorar: "Bu varlık hangi tanımlayıcılar altında bulunmalı?" ve "tüm olası sorguları düşün ve eldeki varlığın hangileri için ilgili olduğuna karar ver" (Soergel, 1985, s. 230).^[2]

Talep odaklı sınıflandırma, belirli bir kitle veya kullanıcı grubuna yönelik olarak hedeflenmiş sınıflandırma olabilir. Örneğin, feminist çalışmalar için bir kütüphane veya veritabanı, bir tarih kütüphanesiyle karşılaştırıldığında belgeleri farklı şekilde sınıflandırabilir/dizinleyebilir. Bununla birlikte, talep odaklı sınıflandırmayı politika temelli sınıflandırma olarak anlamak daha iyidir: Sınıflandırma, bazı ideallere göre yapılır ve sınıflandırmayı yapan kütüphane veya veritabanının amacını yansıtır. Bu şekilde, kullanıcı çalışmalarına dayalı bir sınıflandırma veya dizinleme değildir. Kullanım veya kullanıcılar hakkında deneysel veriler uygulandığında, talep odaklı sınıflandırmanın bir kullanıcı temelli yaklaşım olarak kabul edilmesi gerekmektedir.

Belgelerin Sınıflandırılması ve Konu Dizinlemesi[değiştir | kaynağı değiştir]

Belgeleri sınıflandırma ve konuları belgelere atama arasında yapılan ayrım, Frederick Wilfrid Lancaster tarafından eleştirilmiştir. Lancaster'a göre, bu terminolojik ayrımlar anlamsızdır ve sadece karmaşaya yol açar (Lancaster, 2003, s. 21^[3]).

Bazıları, bu ayrımın yalnızca yüzeysel olduğunu savunur; zira bir sınıflandırma sisteminin bir eş anlamlılar sözlüğüne dönüştürülebileceği ve tersinin de geçerli olduğu gerçeği bunu desteklemektedir (Aitchison, 1986^[4]; 2004^[4]; Broughton, 2008^[5]; Riesthuis & Bliedung, 1991^[6]).

Bu bağlamda, bir belgeye etiketleme yapmak, örneğin bir kontrol edilen kelime dağarcığından bir terimi bir belgeye atayarak, o belgeyi o terim tarafından dizinlenen belgeler sınıfına atamakla aynıdır. Tüm X olarak dizinlenen veya sınıflandırılan belgeler aynı belge sınıfına aittir. Dolayısıyla, bir belgeye etiketleme yapmak, o belgeyi o etiket altında dizinlenen belgeler sınıfına atamakla aynı işlevi görür.

Otomatik belge sınıflandırma (ADC)[değiştir | kaynağı değiştir]

Otomatik belge sınıflandırma görevleri üç türe ayrılabilir:

Denetimli Belge Sınıflandırması: Bu türde, belgelerin sınıflandırılması için doğru bilgi sağlayan bazı dış mekanizmalar bulunur. Örneğin, insan geri bildirimi gibi faktörler bu süreçte rol oynar.
- İnsan Geri Bildirimi: Bu yöntemde, insanların geri bildirimleri ve etiketlemeleri kullanılarak belgeler sınıflandırılır. İnsanlar, belgelerin hangi kategorilere veya sınıflara ait olduğunu belirlemek için kullanılır.
- Doğrudan Etiketleme : Belirli bir sınıf veya kategoriye ait olduğu doğrulanmış belgelere dayanarak, diğer belgelerin sınıflandırılması yapılır.
Denetimsiz Belge Sınıflandırması (Belge Kümeleme): Bu türde, sınıflandırma tamamen dış bilgiye başvurmadan yapılması gerektiği prensibiyle işler. Belgeler arasındaki doğal ilişkilere dayanarak gruplar oluşturulur.
- Doğal İlişkilere Dayalı Sınıflandırma: Belgeler arasındaki benzerlikler ve ilişkiler üzerine odaklanarak gruplar oluşturulur. Bu yöntemde, belgelerin içeriği veya özellikleri kullanılarak benzer gruplar oluşturulur.
Yarı Denetimli Belge Sınıflandırması: Bu türde, belgelerin bazı bölümleri dış mekanizma tarafından etiketlendiği halde, sınıflandırma sürecinin diğer kısımları denetimsiz veya denetimli olabilir.^[7]
- Kısmi Etiketleme: Belgelerin bazı kısımları, dış mekanizma veya insanlar tarafından etiketlenirken, diğer kısımları otomatik olarak sınıflandırılır.
- Karma Yöntemler: Hem denetimli hem de denetimsiz yöntemlerin bir kombinasyonu kullanılarak sınıflandırma yapılır. Bu yöntemde, insan geri bildirimi veya doğal ilişkilere dayalı gruplama gibi farklı teknikler bir arada kullanılabilir.

Bu görevler için çeşitli lisans modelleri altında birkaç yazılım ürünü mevcuttur.^[8]^[9]^[10]^[11]

Teknikler[değiştir | kaynağı değiştir]

Otomatik belge sınıflandırma teknikleri şunları içerir:

Yapay Sinir Ağları
Kavram Madenciliği
ID3 veya C4.5 gibi Karar Ağaçları
Beklenti Maksimizasyonu (EM)
Anlık olarak eğitilen sinir ağları
Gizli Anlamsal İndeksleme
Çoklu Örnek Öğrenme
Naive Bayes Sınıflayıcı
Doğal Dil İşleme Yaklaşımları
Kaba Küme Tabanlı Sınıflayıcı
Yumuşak Küme Tabanlı Sınıflayıcı
Destek Vektör Makineleri (SVM)
K-en Yakın Komşu Algoritmaları
tf-idf

Uygulamalar[değiştir | kaynağı değiştir]

Sınıflandırma teknikleri şu alanlarda uygulanmıştır:

Spam filtreleme: E-posta spam mesajlarını meşru e-postalardan ayırmaya çalışan bir süreç.
E-posta yönlendirme: Genel bir adrese gönderilen bir e-postayı konuya bağlı olarak belirli bir adrese veya posta kutusuna yönlendirme.^[12]
Dil tespiti: Bir metnin dilini otomatik olarak belirleme.
Tür sınıflandırması: Bir metnin türünü otomatik olarak belirleme.^[13]
Okunabilirlik değerlendirmesi: Bir metnin okunabilirlik derecesini otomatik olarak belirleme; farklı yaş grupları veya okuyucu türleri için uygun materyalleri bulmak veya daha büyük bir metin basitleştirme sisteminin bir parçası olarak.
Duygu analizi: Konuyla ilgili bir konuşmacının veya yazarın tutumunu veya bir belgenin genel bağlamsal kutupluğunu belirleme.
Sosyal medyada sağlıkla ilgili sınıflandırma: Halk sağlığı gözetiminde sosyal medyanın kullanımıyla ilgili sağlıkla ilgili sınıflandırma.^[14]
Makale sıralama: Biyolojide el ile literatür kürasyonu için ilgili makaleleri seçme; örneğin, biyolojide manuel olarak kürasyon yapılacak veritabanlarının oluşturulmasının ilk adımı olarak yapılıyor.^[15]

Kaynakça[değiştir | kaynağı değiştir]

^ Library of Congress (2008). The subject headings manual. Washington, DC.: Library of Congress, Policy and Standards Division. (Sheet H 180: "Assign headings only for topics that comprise at least 20% of the work.")
^ "Organizing Information: Principles of Data Base and Retrieval Systems. Dagobert Soergel". The Library Quarterly. 57 (1): 100-102. Ocak 1987. doi:10.1086/601838. ISSN 0024-2519.
^ "Indexing and Abstracting in Theory and Practice. F. W. Lancaster". The Library Quarterly. 70 (4): 503-504. Ekim 2000. doi:10.1086/603224. ISSN 0024-2519.
^ ^a ^b AITCHISON, JEAN (1 Mart 1986). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160-181. doi:10.1108/eb026791. ISSN 0022-0418.
^ Broughton, Vanda (20 Aralık 2007). "A Faceted Classification as the Basis of a Faceted Terminology: Conversion of a Classified Structure to Thesaurus Format in the Bliss Bibliographic Classification, 2nd Edition". Axiomathes. 18 (2): 193-210. doi:10.1007/s10516-007-9027-7. ISSN 1122-1151.
^ "Tools for knowledge organization and the human interface". Learned Publishing. 4 (1): 38-39. Ocak 1991. doi:10.1002/leap/40008. ISSN 0953-1513.
^ Rossi, Rafael Geraldeli; Lopes, Alneu de Andrade; Rezende, Solange Oliveira (Mart 2016). "Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts". Information Processing & Management. 52 (2): 217-257. doi:10.1016/j.ipm.2015.07.004. ISSN 0306-4573.
^ Chen, Ding-Yi. On Interactive Document Classification (Tez). University of Queensland Library.
^ Owen, David; Livermore, Laurence; Groom, Quentin; Hardisty, Alex; Leegwater, Thijs; van Walsum, Myriam; Wijkamp, Noortje; Spasić, Irena (3 Temmuz 2020). "Figure 9 from: Owen D, Livermore L, Groom Q, Hardisty A, Leegwater T, van Walsum M, Wijkamp N, Spasić I (2020) Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. Research Ideas and Outcomes 6: e55789. https://doi.org/10.3897/rio.6.e55789". dx.doi.org. Erişim tarihi: 18 Nisan 2024. |başlık= dış bağlantı (yardım)
^ Negrete, Oscar A.; Peña, Francisco J.; Vargas, Patricio (11 Ekim 2018). "Magnetocaloric Effect in an Antidot : The Effect of the Aharonov-Bohm Flux and Antidot Radius". dx.doi.org. Erişim tarihi: 18 Nisan 2024.
^ "Solve Classification Problems". 7 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.
^ Busemann, Stephan; Schmeier, Sven; Arens, Roman G. (2000). "Message classification in the call center". Proceedings of the sixth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/974147.974169.
^ Santin, Marina; Rosso, Rosso (2008). "Testing a Genre-Enabled Application: A Preliminary Assessment". Electronic Workshops in Computing. BCS Learning & Development. doi:10.14236/ewic/fdia2008.7.
^ Xiangfeng Dai; Marwan Bikdash; Bradley Meyer. "From social media to public health surveillance: Word embedding based clustering method for twitter classification". 25 Kasım 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.
^ Krallinger, Martin; Leitner, Florian; Rodriguez-Penagos, Carlos; Valencia, Alfonso (2008). "Overview of the protein-protein interaction annotation extraction task of BioCreative II". Genome Biology (İngilizce). 9 (Suppl 2): S4. doi:10.1186/gb-2008-9-s2-s4. ISSN 1465-6906. 16 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.

[1] Library of Congress (2008). The subject headings manual. Washington, DC.: Library of Congress, Policy and Standards Division. (Sheet H 180: "Assign headings only for topics that comprise at least 20% of the work.")

[2] "Organizing Information: Principles of Data Base and Retrieval Systems. Dagobert Soergel". The Library Quarterly. 57 (1): 100-102. Ocak 1987. doi:10.1086/601838. ISSN 0024-2519.

[3] "Indexing and Abstracting in Theory and Practice. F. W. Lancaster". The Library Quarterly. 70 (4): 503-504. Ekim 2000. doi:10.1086/603224. ISSN 0024-2519.

[dx.doi.org-4] AITCHISON, JEAN (1 Mart 1986). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160-181. doi:10.1108/eb026791. ISSN 0022-0418.

[5] Broughton, Vanda (20 Aralık 2007). "A Faceted Classification as the Basis of a Faceted Terminology: Conversion of a Classified Structure to Thesaurus Format in the Bliss Bibliographic Classification, 2nd Edition". Axiomathes. 18 (2): 193-210. doi:10.1007/s10516-007-9027-7. ISSN 1122-1151.

[6] "Tools for knowledge organization and the human interface". Learned Publishing. 4 (1): 38-39. Ocak 1991. doi:10.1002/leap/40008. ISSN 0953-1513.

[7] Rossi, Rafael Geraldeli; Lopes, Alneu de Andrade; Rezende, Solange Oliveira (Mart 2016). "Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts". Information Processing & Management. 52 (2): 217-257. doi:10.1016/j.ipm.2015.07.004. ISSN 0306-4573.

[8] Chen, Ding-Yi. On Interactive Document Classification (Tez). University of Queensland Library.

[9] Owen, David; Livermore, Laurence; Groom, Quentin; Hardisty, Alex; Leegwater, Thijs; van Walsum, Myriam; Wijkamp, Noortje; Spasić, Irena (3 Temmuz 2020). "Figure 9 from: Owen D, Livermore L, Groom Q, Hardisty A, Leegwater T, van Walsum M, Wijkamp N, Spasić I (2020) Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. Research Ideas and Outcomes 6: e55789. https://doi.org/10.3897/rio.6.e55789". dx.doi.org. Erişim tarihi: 18 Nisan 2024. |başlık= dış bağlantı (yardım)

[10] Negrete, Oscar A.; Peña, Francisco J.; Vargas, Patricio (11 Ekim 2018). "Magnetocaloric Effect in an Antidot : The Effect of the Aharonov-Bohm Flux and Antidot Radius". dx.doi.org. Erişim tarihi: 18 Nisan 2024.

[11] "Solve Classification Problems". 7 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.

[12] Busemann, Stephan; Schmeier, Sven; Arens, Roman G. (2000). "Message classification in the call center". Proceedings of the sixth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/974147.974169.

[13] Santin, Marina; Rosso, Rosso (2008). "Testing a Genre-Enabled Application: A Preliminary Assessment". Electronic Workshops in Computing. BCS Learning & Development. doi:10.14236/ewic/fdia2008.7.

[14] Xiangfeng Dai; Marwan Bikdash; Bradley Meyer. "From social media to public health surveillance: Word embedding based clustering method for twitter classification". 25 Kasım 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.

[15] Krallinger, Martin; Leitner, Florian; Rodriguez-Penagos, Carlos; Valencia, Alfonso (2008). "Overview of the protein-protein interaction annotation extraction task of BioCreative II". Genome Biology (İngilizce). 9 (Suppl 2): S4. doi:10.1186/gb-2008-9-s2-s4. ISSN 1465-6906. 16 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Nisan 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]