Anomali tespiti

Vikipedi, özgür ansiklopedi

Veri analizinde, anomali tespiti (aynı zamanda aykırı değer tespiti), verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır[1]. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır[2].

Özellikle, kötüye kullanım ve ağa izinsiz giriş tespiti bağlamında, ilginç nesneler genellikle nadir nesneler değil, beklenmedik etkinlik patlamalarıdır. Bu model, bir aykırı değerin nadir bir nesne olarak genel istatistiksel tanımına uymaz ve uygun şekilde bir araya getirilmediği sürece birçok aykırı değer algılama yöntemi (özellikle denetimsiz yöntemler) bu tür verilerde başarısız olmaktadır. Bunun yerine, bir küme analizi algoritması, bu modellerin oluşturduğu mikro kümeleri tespit edebilmektedir[3].

Üç geniş anomali tespit tekniği kategorisi mevcuttur[4]. Denetimsiz anomali tespit teknikleri, veri setindeki örneklerin çoğunluğunun normal olduğu varsayımı altında, veri setinin geri kalanına en az uyan örnekleri arayarak etiketlenmemiş bir test veri setindeki anormallikleri tespit etmektedir. Denetimli anomali tespit teknikleri, "normal" ve "anormal" olarak etiketlenmiş bir veri seti gerektirir ve bir sınıflandırıcının eğitimini içermektedir (diğer birçok istatistiksel sınıflandırma probleminden temel fark, aykırı değer tespitinin doğal dengesiz doğasıdır). Yarı denetimli anomali tespit teknikleri, belirli bir normal eğitim veri setinden normal davranışı temsil eden bir model oluşturur ve ardından kullanılan model tarafından bir test örneğinin oluşturulma olasılığını test etmektedir.

Uygulamalar[değiştir | kaynağı değiştir]

Anomali tespiti, izinsiz giriş tespiti, dolandırıcılık tespiti, arıza tespiti, sistem sağlığının izlenmesi, sensör ağlarında olay tespiti, ekosistem bozukluklarının tespiti ve makine görüsü kullanarak görüntülerde kusur tespiti gibi çeşitli alanlarda uygulanabilmektedir[5]. Genellikle veri kümesinden anormal verileri çıkarmak için ön işlemede kullanılmaktadır. Denetimli öğrenmede, veri kümesinden anormal verilerin çıkarılması, genellikle doğrulukta istatistiksel olarak önemli bir artışla sonuçlanmaktadır[6][7].

Popüler teknikler[değiştir | kaynağı değiştir]

Literatürde birkaç anomali tespit tekniği önerilmiştir[8]. Popüler tekniklerden bazıları şunlardır:

  • Yoğunluğa dayalı teknikler (k-en yakın komşu[9][10][11], yerel aykırı değer faktörü[12], izolasyon ormanları[13][14] ve bu kavramın daha birçok varyasyonu[15]).
  • Yüksek boyutlu veriler için alt uzay[16], korelasyon tabanlı[17] ve tensör tabanlı[18] aykırı değer tespiti[19].
  • Tek sınıf destek vektör makineleri[20].
  • Çoğalıcı sinir ağları[21], otomatik kodlayıcılar, değişken otomatik kodlayıcılar[22], uzun kısa süreli bellek sinir ağları[23]
  • Bayes ağları[21].
  • Gizli Markov modelleri [21].
  • Küme analizine dayalı aykırı değer tespiti[24][25].
  • Birliktelik kurallarından ve sık öğe kümelerinden sapmalar.
  • Bulanık mantık tabanlı aykırı değer tespiti.
  • Özellik torbalama[26][27], puan normalleştirme[28][29] ve farklı çeşitlilik kaynaklarını kullanan topluluk teknikleri[30][31].

Farklı yöntemlerin performansı büyük ölçüde veri kümesine ve parametrelere bağlıdır. Birçok veri kümesi ve parametre karşılaştırıldığında yöntemlerin diğerine göre çok az sistematik avantajı vardır.

Veri güvenliği uygulamaları[değiştir | kaynağı değiştir]

İzinsiz giriş tespit sistemleri (intrusion detection systems; IDS) için anomali tespiti 1986 yılında Dorothy Denning tarafından önerildi[32]. IDS için anomali tespiti normalde eşikler ve istatistiklerle gerçekleştirilirdi, ancak aynı zamanda yumuşak hesaplama ve endüktif öğrenme ile de yapılabilirdi[33]. 1999 tarafından önerilen istatistik türleri, kullanıcıların profillerini, iş istasyonlarını, ağları, uzak ana bilgisayarları, kullanıcı gruplarını ve frekansları, ortalamaları, varyansları, kovaryansları ve standart sapmaları temel alan programları içeriyordu[34]. İzinsiz giriş tespitinde anomali tespitinin karşılığı, kötüye kullanım tespitidir.

Veri ön işleme[değiştir | kaynağı değiştir]

Denetimli öğrenmede, anomali tespiti, öğrenme algoritmasına öğrenilecek uygun bir veri seti sağlamak için genellikle veri ön işlemede önemli bir adımdır. Bu aynı zamanda veri temizleme olarak da bilinmektedir. Anormal örnekleri tespit ettikten sonra, sınıflandırıcılar bunları kaldırmaktadır. Ancak bazen bozuk veriler hala öğrenme için faydalı örnekler sağlayabilmektedir. Kullanılacak uygun örnekleri bulmak için yaygın bir yöntem, gürültülü verileri tanımlamaktır. Gürültülü değerleri bulmak için bir yaklaşım, bozulmamış veri ve bozuk veri modellerini kullanarak verilerden olasılıklı bir model oluşturmaktır[35].

Aşağıda, bir anomali eklenmiş İris çiçeği veri kümesinin bir örneği verilmiştir. Bir anormallik dahil edildiğinde, sınıflandırma algoritması kalıpları düzgün bir şekilde bulmakta zorluk çekebilmektedir veya hatalarla karşılaşabilmektedir.

Bir Anomali ile Fischer'ın İris Verileri
Veri kümesi sırası Sepal uzunluk Sepal genişlik Petal uzunluğu Petal genişliği Türleri
1 5.1 3.5 1.4 0.2 I. setosa
2 4.9 3.0 1.4 0.2 I. setosa
3 4.7 3.2 1.3 0.2 I. setosa
4 4.6 3.1 1.5 0.2 I. setosa
5 5.0 BOŞ 1.4 BOŞ I. setosa

Anomali ortadan kaldırılarak, eğitimin sınıflandırmalardaki kalıpları daha kolay bulmasına olanak sağlanacaktır.

Veri madenciliğinde, yüksek boyutlu veriler ayrıca yoğun şekilde büyük veri kümeleriyle yüksek hesaplama zorlukları ortaya çıkaracaktır. Kendisini bir sınıflandırıcı veya algılama algoritmasıyla alakasız bulabilecek çok sayıda örneği kaldırarak, en büyük veri setlerinde bile çalışma zamanı önemli ölçüde azaltılabilmektedir.

Yazılım[değiştir | kaynağı değiştir]

  • ELKI, birkaç anormallik algılama algoritması ve bunlar için indeks hızlandırma içeren açık kaynaklı bir Java veri madenciliği araç takımıdır.
  • Scikit-Learn, denetimsiz anormallik algılaması sağlamak için işlevsellik oluşturan açık kaynaklı bir Python kitaplığıdır.

Ayrıca bakınız[değiştir | kaynağı değiştir]

  • Değişiklik algılama
  • İstatiksel süreç kontrolü
  • Yenilik algılama
  • Hiyerarşik geçici bellek

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Encyclopedia of database systems. Living edition. Ling Liu, M. Tamer Özsu. New York, NY. 2019. ISBN 978-1-4899-7993-3. OCLC 1107797177. 
  2. ^ Hodge, V. J.; Austin, J. (2004). "A Survey of Outlier Detection Methodologies" (PDF). Artificial Intelligence Review. 22 (2): 85–126. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y. S2CID 3330313.
  3. ^ Ertoz, Levent; Lazarevic, Aleksandar; Eilertson, Eric; Tan, Pang-Ning; Dokas, Paul; Kumar, Vipin; Srivastava, Jaideep (23 Temmuz 2003). "<title>Protecting against cyber threats in networked information systems</title>". Battlespace Digitization and Network-Centric Systems III. SPIE. doi:10.1117/12.487410. 
  4. ^ Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599.
  5. ^ Bergmann, Paul; Kilian Batzner; Michael Fauser; David Sattlegger; Carsten Steger (2021). "The MVTec Anomaly Detection Dataset: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection". International Journal of Computer Vision. 129 (4): 1038–1059. doi:10.1007/s11263-020-01400-4.
  6. ^ omek, Ivan (1976). "An Experiment with the Edited Nearest-Neighbor Rule". IEEE Transactions on Systems, Man, and Cybernetics. 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.
  7. ^ Smith, M. R.; Martinez, T. (2011). "Improving classification accuracy by identifying and removing instances that should be misclassified" (PDF). The 2011 International Joint Conference on Neural Networks. p. 2690. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571. ISBN 978-1-4244-9635-8. S2CID 5809822.
  8. ^ Wilson, Keith; Perrie, Yvonne (22 Şubat 2013). "Pharmacy (ISSN 2226-4787) — A Journal of Pharmacy Education and Practice". Pharmacy. 1 (1): 1-2. doi:10.3390/pharmacy1010001. ISSN 2226-4787. 
  9. ^ Knorr, Edwin M.; Ng, Raymond T.; Tucakov, Vladimir (1 Şubat 2000). "Distance-based outliers: algorithms and applications". The VLDB Journal The International Journal on Very Large Data Bases. 8 (3-4): 237-253. doi:10.1007/s007780050006. ISSN 1066-8888. 
  10. ^ Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data : 2000, Dallas, Texas, United States, May 15- 8, 2000. ACM Digital Library, Association for Computing Machinery. Special Interest Group on Management of Data, Association for Computing Machinery. [New York]: Association for Computing Machinery. 2000. ISBN 1-58113-217-4. OCLC 612456730. 
  11. ^ Principles of data mining and knowledge discovery : 6th European Conference, PKDD 2002, Helsinki, Finland, August 19-23, 2002 : proceedings. Tapio Elomaa, Heikki Mannila, Hannu Toivonen. Berlin: Springer. 2002. ISBN 3-540-44037-2. OCLC 50215714. 
  12. ^ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
  13. ^ ICDM 2008 : proceedings, Eighth IEEE International Conference on Data Mining : 15-19 December 2008, Pisa, Italy. Fosca Giannotti. Los Alamitos, Calif.: IEEE Computer Society. 2008. ISBN 9780769535029. OCLC 317499500. 
  14. ^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (March 2012). "Isolation-Based Anomaly Detection". ACM Transactions on Knowledge Discovery from Data. 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID 207193045.
  15. ^ Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098.
  16. ^ Advances in knowledge discovery and data mining : 13th Pacific-Asia Conference, PAKDD 2009, Bangkok, Thailand, April 27-30, 2009 ; proceedings. Thanaruk Theeramunkong. Berlin: Springer. 2009. ISBN 978-3-642-01307-2. OCLC 405547742. 
  17. ^ 12th IEEE International Conference on Data Mining, proceedings : ICDM 2012 : 10-13 December 2012, Brussels, Belgium. Piscataway, NJ: IEEE. 2012. ISBN 9781467346498. OCLC 839274703. 
  18. ^ Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. 98: 130–147. doi:10.1016/j.knosys.2016.01.027.
  19. ^ Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "A survey on unsupervised outlier detection in high-dimensional numerical data". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161.
  20. ^ Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). "Estimating the Support of a High-Dimensional Distribution". Neural Computation. 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106. doi:10.1162/089976601750264965. PMID 11440593. S2CID 2110475.
  21. ^ a b c Data warehousing and knowledge discovery : 4th international conference, DaWaK 2002, Aix-en-Provence, France, September 4-6, 2002 : proceedings. Y. Kambayashi, Werner Winiwarter, Masatoshi Arikawa, 正俊. 有川. Berlin: Springer. 2002. ISBN 978-3-540-46145-6. OCLC 50546332. 
  22. ^ J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.
  23. ^ Gugulothu, Narendhar; TV, Vishnu; Malhotra, Pankaj; Vig, Lovekesh; Agarwal, Puneet; Shroff, Gautam (18 Kasım 2020). "Predicting Remaining Useful Life using Time Series Embeddings based on Recurrent Neural Networks". International Journal of Prognostics and Health Management. 9 (1). doi:10.36001/ijphm.2018.v9i1.2689. ISSN 2153-2648. 
  24. ^ He, Z.; Xu, X.; Deng, S. (2003). "Discovering cluster-based local outliers". Pattern Recognition Letters. 24 (9–10): 1641–1650. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5.
  25. ^ Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. (2015). "Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection". ACM Transactions on Knowledge Discovery from Data. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID 2887636.
  26. ^ KDD-2005 : proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining : August 21-24, 2005, Chicago, Illinois, USA. Robert Grossman, Roberto Bayardo, Kristin P. Bennett, Jaideep Vaidya, Association for Computing Machinery. Special Interest Group on Knowledge Discovery & Data Mining, Association for Computing Machinery. Special Interest Group on Management of Data, American Association for Artificial Intelligence. New York, NY: ACM Press. 2005. ISBN 1-59593-135-X. OCLC 326703803. 
  27. ^ Database systems for advanced applications : 15th international conference, DASFAA 2010, Tsukuba, Japan, April 1-4, 2010 : proceedings. H. Kitagawa. Berlin: Springer. 2010. ISBN 978-3-642-12026-8. OCLC 606932322. 
  28. ^ Proceedings of the 2011 SIAM International Conference on Data Mining. Bing Liu, Huan Liu, Christopher Wade Clifton, Takashi Washio, Chandrika Kamath, Society for Industrial and Applied Mathematics. [Philadelphia, Pennsylvania]. 2011. ISBN 978-1-61197-281-8. OCLC 911244102. 
  29. ^ Proceedings of the 2012 SIAM International Conference on Data Mining. Joydeep Gosh, Huan Liu, Ian Davidson, Carlotta Domeniconi, Chandrika Kamath, Society for Industrial and Applied Mathematics. [Philadelphia, Pennsylvania]. 2012. ISBN 978-1-61197-232-0. OCLC 911245479. 
  30. ^ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). "Ensembles for unsupervised outlier detection". ACM SIGKDD Explorations Newsletter. 15: 11–22. doi:10.1145/2594473.2594476. S2CID 8065347.
  31. ^ Jensen, Christian S.; International Conference on Scientific and Statistical Database Management (2014). SSDBM 2014 : proceedings of the 26th International Conference on Scientific and Statistical Database Management : June 30 - July 2, 2014, Aalborg, Denmark. Christian S Jensen, Hua Lu, ACM Digital Library. [Place of publication not identified]. ISBN 1-4503-2722-2. OCLC 1144224392. 
  32. ^ Denning, D. E. (1987). "An Intrusion-Detection Model" (PDF). IEEE Transactions on Software Engineering. SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894. S2CID 10028835.
  33. ^ Proceedings, 1990 IEEE Computer Society Symposium on Research in Security and Privacy, May 7-9, 1990, Oakland, California. IEEE Computer Society. Technical Committee on Security and Privacy, International Association for Cryptologic Research. Los Alamitos, Calif.: IEEE Computer Society Press. 1990. ISBN 9780818620607. OCLC 679357836. 
  34. ^ Jones, Anita K.; Sielken, Robert S. (1999). "Computer System Intrusion Detection: A Survey". Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802.
  35. ^ Third IEEE International Conference on Data Mining : proceedings : ICDM 2003 : 19-22 November, 2003, Melbourne, Florida. Xindong Wu, Alexander Tuzhilin, Jude W. Shavlik, IEEE Computer Society. Technical Committee on Computational Intelligence, IEEE Computer Society. Technical Committee on Pattern Analysis and Machine Intelligence. Los Alamitos, Calif.: IEEE Computer Society. 2003. ISBN 0-7695-1978-4. OCLC 53952397.