Belge sınıflandırma: Revizyonlar arasındaki fark

İçerik silindi İçerik eklendi

Satır içi

Sayfanın 16.41, 18 Nisan 2024 tarihindeki hâli

Belge sınıflandırma veya belge kategorizasyonu, kütüphane bilimleri, bilgi bilimi ve bilgisayar biliminde bir sorundur. Görev, bir belgeyi bir veya daha fazla sınıfa veya kategoriye atamaktır. Bu "manuel" (veya "zihinsel") veya algoritmik olarak yapılabilir. Belge sınıflandırmasının zihinsel olarak yapılması genellikle kütüphane biliminin alanı olmuştur, oysa belgelerin algoritmik olarak sınıflandırılması genellikle bilgi bilimi ve bilgisayar biliminin alanındadır. Ancak, sorunlar örtüşmektedir ve bu nedenle belge sınıflandırması üzerine disiplinler arası araştırmalar bulunmaktadır.

Sınıflandırılacak belgeler metinler, görüntüler, müzikler vb. olabilir. Her tür belgenin kendine özgü sınıflandırma sorunları vardır. Aksi belirtilmedikçe, genellikle metin sınıflandırması kastedilir.

Belgeler konularına göre veya diğer özelliklere göre (belge türü, yazar, basım yılı vb. gibi) sınıflandırılabilir. Bu makalenin geri kalan kısmında yalnızca konu sınıflandırması ele alınmaktadır. Belge sınıflandırmasının iki ana felsefesi vardır: içerik tabanlı yaklaşım ve talep tabanlı yaklaşım.

"İçerik tabanlı" ve "talep tabanlı" sınıflandırma

İçerik tabanlı sınıflandırma, bir belgedeki belirli konulara verilen ağırlığın, belgenin atanacağı sınıfı belirlediği sınıflandırmadır. Örneğin, kütüphanelerde sınıflandırmada yaygın bir kural, bir kitabın atanacağı sınıfın en az %20'sinin kitabın içeriği hakkında olması gerektiğidir ^[1]. Otomatik sınıflandırmada ise, belirli kelimelerin bir belgede kaç kez geçtiği olabilir.

Talep odaklı sınıflandırma (veya -dizinleme), kullanıcılardan beklenen talebin belgelerin nasıl sınıflandırıldığını etkilediği sınıflandırmadır. Sınıflandırmacı kendisine şu soruları sorar: "Bu varlık hangi tanımlayıcılar altında bulunmalı?" ve "tüm olası sorguları düşün ve eldeki varlığın hangileri için ilgili olduğuna karar ver" (Soergel, 1985, s. 230) ^[2].

Talep odaklı sınıflandırma, belirli bir kitle veya kullanıcı grubuna yönelik olarak hedeflenmiş sınıflandırma olabilir. Örneğin, feminist çalışmalar için bir kütüphane veya veritabanı, bir tarih kütüphanesiyle karşılaştırıldığında belgeleri farklı şekilde sınıflandırabilir/dizinleyebilir. Bununla birlikte, talep odaklı sınıflandırmayı politika temelli sınıflandırma olarak anlamak daha iyidir: Sınıflandırma, bazı ideallere göre yapılır ve sınıflandırmayı yapan kütüphane veya veritabanının amacını yansıtır. Bu şekilde, kullanıcı çalışmalarına dayalı bir sınıflandırma veya dizinleme değildir. Kullanım veya kullanıcılar hakkında deneysel veriler uygulandığında, talep odaklı sınıflandırmanın bir kullanıcı temelli yaklaşım olarak kabul edilmesi gerekmektedir.

Sınıflandırmaya karşı indeksleme

Bazen belgeleri sınıflara atama ("sınıflandırma") ile konuları belgelere atama ("konu dizinleme") arasında bir ayrım yapılsa da, Frederick Wilfrid Lancaster'ın iddia ettiği gibi, bu ayrım faydalı değildir. "Bu terminolojik ayrımlar," diyor, "oldukça anlamsızdır ve sadece karmaşaya yol açar" (Lancaster, 2003, s. 21^[3]). Bu ayrımın yalnızca yüzeysel olduğu görüşü, bir sınıflandırma sisteminin bir eş anlamlılar sözlüğüne dönüştürülebileceği ve tersinin de geçerli olduğu gerçeği tarafından da desteklenmektedir (cf., Aitchison, 1986^[4], 2004;^[5] Broughton, 2008;^[6] Riesthuis & Bliedung, 1991^[7]). Dolayısıyla, bir belgeye etiketleme yapmak (örneğin, bir kontrol edilen kelime dağarcığından bir terimi bir belgeye atayarak) aynı zamanda o belgeyi o terim tarafından dizinlenen belgeler sınıfına atamaktır (tüm X olarak dizinlenen veya sınıflandırılan belgeler aynı belge sınıfına aittir). Başka bir deyişle, bir belgeye etiketleme yapmak, o belgeyi o etiket altında dizinlenen belgeler sınıfına atamakla aynıdır.

Otomatik belge sınıflandırma (ADC)

Otomatik belge sınıflandırma görevleri üç türe ayrılabilir: denetimli belge sınıflandırması, bazı dış mekanizmaların (örneğin insan geri bildirimi gibi) belgeler için doğru sınıflandırma hakkında bilgi sağladığı, denetimsiz belge sınıflandırması (aynı zamanda belge kümeleme olarak da bilinir), sınıflandırmanın tamamen dış bilgiye başvurmadan yapılması gerektiği, ve yarı denetimli belge sınıflandırması,^[8] belgelerin bazı bölümlerinin dış mekanizma tarafından etiketlendiği. Çeşitli lisans modelleri altında birkaç yazılım ürünü mevcuttur.^[9]^[10]^[11]^[12]

Teknikler

Otomatik belge sınıflandırma teknikleri şunları içerir:

Yapay sinir ağları
Kavram Madenciliği
ID3 veya C4.5 gibi Karar Ağaçları
Beklenti Maksimizasyonu (EM)
Anlık olarak eğitilen sinir ağları
Gizli Anlamsal İndeksleme
Çoklu Örnek Öğrenme
Naif Bayes Sınıflayıcı
Doğal Dil İşleme Yaklaşımları
Kaba Küme Tabanlı Sınıflayıcı
Yumuşak Küme Tabanlı Sınıflayıcı
Destek Vektör Makineleri (SVM)
K-en Yakın Komşu Algoritmaları
tf-idf

Uygulamalar

Sınıflandırma teknikleri şu alanlarda uygulanmıştır:

Spam filtreleme: E-posta spam mesajlarını meşru e-postalardan ayırmaya çalışan bir süreç.
E-posta yönlendirme: Genel bir adrese gönderilen bir e-postayı konuya bağlı olarak belirli bir adrese veya posta kutusuna yönlendirme.^[13]
Dil tespiti: Bir metnin dilini otomatik olarak belirleme.
Tür sınıflandırması: Bir metnin türünü otomatik olarak belirleme.^[14]
Okunabilirlik değerlendirmesi: Bir metnin okunabilirlik derecesini otomatik olarak belirleme; farklı yaş grupları veya okuyucu türleri için uygun materyalleri bulmak veya daha büyük bir metin basitleştirme sisteminin bir parçası olarak.
Duygu analizi: Konuyla ilgili bir konuşmacının veya yazarın tutumunu veya bir belgenin genel bağlamsal kutupluğunu belirleme.
Sosyal medyada sağlıkla ilgili sınıflandırma: Halk sağlığı gözetiminde sosyal medyanın kullanımıyla ilgili sağlıkla ilgili sınıflandırma.^[15]
Makale sıralama: Biyolojide el ile literatür kürasyonu için ilgili makaleleri seçme; örneğin, biyolojide manuel olarak kürasyon yapılacak veritabanlarının oluşturulmasının ilk adımı olarak yapılıyor.^[16]

^ https://www.loc.gov/aba/publications/FreeSHM/H0180.pdf
^ "Organizing Information: Principles of Data Base and Retrieval Systems. Dagobert Soergel". The Library Quarterly. 57 (1): 100–102. 1987-01. doi:10.1086/601838. ISSN 0024-2519. Tarih değerini gözden geçirin: |tarih= (yardım)
^ "Indexing and Abstracting in Theory and Practice. F. W. Lancaster". The Library Quarterly. 70 (4): 503–504. 2000-10. doi:10.1086/603224. ISSN 0024-2519. Tarih değerini gözden geçirin: |tarih= (yardım)
^ AITCHISON, JEAN (1986-03-01). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160–181. doi:10.1108/eb026791. ISSN 0022-0418.
^ AITCHISON, JEAN (1986-03-01). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160–181. doi:10.1108/eb026791. ISSN 0022-0418.
^ Broughton, Vanda (2007-12-20). "A Faceted Classification as the Basis of a Faceted Terminology: Conversion of a Classified Structure to Thesaurus Format in the Bliss Bibliographic Classification, 2nd Edition". Axiomathes. 18 (2): 193–210. doi:10.1007/s10516-007-9027-7. ISSN 1122-1151.
^ "Tools for knowledge organization and the human interface". Learned Publishing. 4 (1): 38–39. 1991-01. doi:10.1002/leap/40008. ISSN 0953-1513. Tarih değerini gözden geçirin: |tarih= (yardım)
^ Rossi, Rafael Geraldeli; Lopes, Alneu de Andrade; Rezende, Solange Oliveira (2016-03). "Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts". Information Processing & Management. 52 (2): 217–257. doi:10.1016/j.ipm.2015.07.004. ISSN 0306-4573. Tarih değerini gözden geçirin: |tarih= (yardım)
^ Chen, Ding-Yi. On Interactive Document Classification (Tez). University of Queensland Library.
^ Owen, David; Livermore, Laurence; Groom, Quentin; Hardisty, Alex; Leegwater, Thijs; van Walsum, Myriam; Wijkamp, Noortje; Spasić, Irena (2020-07-03). "Figure 9 from: Owen D, Livermore L, Groom Q, Hardisty A, Leegwater T, van Walsum M, Wijkamp N, Spasić I (2020) Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. Research Ideas and Outcomes 6: e55789. https://doi.org/10.3897/rio.6.e55789". dx.doi.org. Erişim tarihi: 2024-04-18. |başlık= dış bağlantı (yardım)
^ Negrete, Oscar A.; Peña, Francisco J.; Vargas, Patricio (2018-10-11). "Magnetocaloric Effect in an Antidot : The Effect of the Aharonov-Bohm Flux and Antidot Radius". dx.doi.org. Erişim tarihi: 2024-04-18.
^ "Solve Classification Problems".
^ Busemann, Stephan; Schmeier, Sven; Arens, Roman G. (2000). "Message classification in the call center". Proceedings of the sixth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/974147.974169.
^ Santin, Marina; Rosso, Rosso (2008). "Testing a Genre-Enabled Application: A Preliminary Assessment". Electronic Workshops in Computing. BCS Learning & Development. doi:10.14236/ewic/fdia2008.7.
^ Xiangfeng Dai; Marwan Bikdash; Bradley Meyer. "From social media to public health surveillance: Word embedding based clustering method for twitter classification".
^ Krallinger, Martin; Leitner, Florian; Rodriguez-Penagos, Carlos; Valencia, Alfonso (2008). "Overview of the protein-protein interaction annotation extraction task of BioCreative II". Genome Biology (İngilizce). 9 (Suppl 2): S4. doi:10.1186/gb-2008-9-s2-s4. ISSN 1465-6906.

[1] ttps://www.loc.gov/aba/publications/FreeSHM/H0180.pdf

[2] "Organizing Information: Principles of Data Base and Retrieval Systems. Dagobert Soergel". The Library Quarterly. 57 (1): 100–102. 1987-01. doi:10.1086/601838. ISSN 0024-2519. Tarih değerini gözden geçirin: |tarih= (yardım)

[3] "Indexing and Abstracting in Theory and Practice. F. W. Lancaster". The Library Quarterly. 70 (4): 503–504. 2000-10. doi:10.1086/603224. ISSN 0024-2519. Tarih değerini gözden geçirin: |tarih= (yardım)

[4] AITCHISON, JEAN (1986-03-01). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160–181. doi:10.1108/eb026791. ISSN 0022-0418.

[5] AITCHISON, JEAN (1986-03-01). "A CLASSIFICATION AS A SOURCE FOR A THESAURUS: THE BIBLIOGRAPHIC CLASSIFICATION OF H. E. BLISS AS A SOURCE OF THESAURUS TERMS AND STRUCTURE". Journal of Documentation. 42 (3): 160–181. doi:10.1108/eb026791. ISSN 0022-0418.

[6] Broughton, Vanda (2007-12-20). "A Faceted Classification as the Basis of a Faceted Terminology: Conversion of a Classified Structure to Thesaurus Format in the Bliss Bibliographic Classification, 2nd Edition". Axiomathes. 18 (2): 193–210. doi:10.1007/s10516-007-9027-7. ISSN 1122-1151.

[7] "Tools for knowledge organization and the human interface". Learned Publishing. 4 (1): 38–39. 1991-01. doi:10.1002/leap/40008. ISSN 0953-1513. Tarih değerini gözden geçirin: |tarih= (yardım)

[8] Rossi, Rafael Geraldeli; Lopes, Alneu de Andrade; Rezende, Solange Oliveira (2016-03). "Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts". Information Processing & Management. 52 (2): 217–257. doi:10.1016/j.ipm.2015.07.004. ISSN 0306-4573. Tarih değerini gözden geçirin: |tarih= (yardım)

[9] Chen, Ding-Yi. On Interactive Document Classification (Tez). University of Queensland Library.

[10] Owen, David; Livermore, Laurence; Groom, Quentin; Hardisty, Alex; Leegwater, Thijs; van Walsum, Myriam; Wijkamp, Noortje; Spasić, Irena (2020-07-03). "Figure 9 from: Owen D, Livermore L, Groom Q, Hardisty A, Leegwater T, van Walsum M, Wijkamp N, Spasić I (2020) Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. Research Ideas and Outcomes 6: e55789. https://doi.org/10.3897/rio.6.e55789". dx.doi.org. Erişim tarihi: 2024-04-18. |başlık= dış bağlantı (yardım)

[11] Negrete, Oscar A.; Peña, Francisco J.; Vargas, Patricio (2018-10-11). "Magnetocaloric Effect in an Antidot : The Effect of the Aharonov-Bohm Flux and Antidot Radius". dx.doi.org. Erişim tarihi: 2024-04-18.

[12] "Solve Classification Problems".

[13] Busemann, Stephan; Schmeier, Sven; Arens, Roman G. (2000). "Message classification in the call center". Proceedings of the sixth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/974147.974169.

[14] Santin, Marina; Rosso, Rosso (2008). "Testing a Genre-Enabled Application: A Preliminary Assessment". Electronic Workshops in Computing. BCS Learning & Development. doi:10.14236/ewic/fdia2008.7.

[15] Xiangfeng Dai; Marwan Bikdash; Bradley Meyer. "From social media to public health surveillance: Word embedding based clustering method for twitter classification".

[16] Krallinger, Martin; Leitner, Florian; Rodriguez-Penagos, Carlos; Valencia, Alfonso (2008). "Overview of the protein-protein interaction annotation extraction task of BioCreative II". Genome Biology (İngilizce). 9 (Suppl 2): S4. doi:10.1186/gb-2008-9-s2-s4. ISSN 1465-6906.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]