İçeriğe atla

Rekabetçi Bilgi Erişimi

Vikipedi, özgür ansiklopedi

Rekabetçi Bilgi Erişimi (İngilizce: Adversarial Information Retrieval), bilgi erişim sistemlerine yönelik saldırıları veya manipülasyonları tanımlayan bir kavramdır. Bu saldırılar genellikle bilgi arama motorlarını, web spamini ve arama motoru optimizasyonunu (SEO) hedef alır. Rekabetçi bilgi erişimi, bu tür manipülasyonları tespit etmek, izole etmek ve engellemek için çeşitli tekniklerin araştırıldığı bir alandır.

Web'de, bu tür manipülasyonun yaygın biçimi "arama motoru spamı" veya spamdexing'dir; yani, sıralama algoritmalarının sonucunu etkilemek için kötü niyetli girişimlerde bulunmak ve koleksiyondaki bazı öğelerin haksız yüksek bir sıralamasını elde etmeyi amaçlamaktadır. Arama motorlarında daha yüksek bir sıralamaya sahip olmanın ekonomik bir teşviki vardır, çünkü onlarda iyi bir sıralama, genellikle daha fazla trafiğe ve dolayısıyla daha fazla gelire güçlü bir şekilde bağlıdır.[1]

Konular[değiştir | kaynağı değiştir]

  • Link spam
  • Content spam
  • Cloaking
  • Comment Spam
  • Spam odaklı bloglar: sploglar, spingler, vb.
  • Tıklama sahtekarlığı tespiti (Click fraud detection)
  • Sıralama algoritmalarının tersine mühendisliği (Reverse engineering of ranking algorithms)
  • Web içeriği filtreleme
  • Reklam engelleme
  • Stealth crawling
  • Malicious tagging

Spamdexing[değiştir | kaynağı değiştir]

Spamdexing, aynı zamanda arama motoru spamı, arama motoru zehirlenmesi, siyah şapkalı arama motoru optimizasyonu, arama spamı veya web spamı olarak da bilinir. Bu, arama motoru dizinlerini kasıtlı olarak manipüle etme işlemidir. Spamdexing, bağlantı oluşturma ve ilgisiz ifadeleri tekrarlama gibi bir dizi yöntemi içerir ve dizinleme sisteminin amacına uygun olmayan bir şekilde indekslenen kaynakların önemini veya belirginliğini manipüle etmeyi amaçlar.

Spamdexing, arama motorlarının alaka sıralamasını belirlemek için çeşitli algoritmalar kullanır. Bunlar arasında arama teriminin bir web sayfasının metin içeriğinde veya URL’sinde görünüp görünmediğini belirlemek de bulunur. Birçok arama motoru, spamdexing örneklerini kontrol eder ve şüpheli sayfaları dizinlerinden kaldırır. Ayrıca, arama motoru işletmecileri, spamdexing kullanan tüm web sitelerinin sonuç listesini hızla engelleyebilir. Bu, yanlış eşleşmelerle ilgili kullanıcı şikayetlerine yanıt olarak gerçekleşebilir. Spamdexing’in ortaya çıkması, 1990’ların ortalarında zamanın önde gelen arama motorlarını daha az kullanışlı hale getirdi. Web sitelerini arama motoru sonuçlarında normalden daha yüksek sıralamaya taşımak için etik olmayan yöntemler kullanmak, SEO (arama motoru optimizasyonu) endüstrisinde “siyah şapkalı SEO” olarak adlandırılır. Bu yöntemler, arama motoru tanıtım kurallarını ve yönergelerini ihlal etmeye daha fazla odaklanır. Ayrıca, suçluların web sitelerinin Google Panda ve Google Penguin arama sonuçları sıralama algoritmaları tarafından ciddi şekilde cezalandırılma riski vardır.

Spamdexing teknikleri genellikle iki geniş sınıfa ayrılabilir:

  1. İçerik Spamı (Terim Spamı): Bu teknikler, bir arama motorunun sayfa içeriği üzerindeki mantıksal görünümünü değiştirmeyi içerir. Tümü, metin koleksiyonları üzerinde bilgi çekme için vektör uzay modelinin çeşitli varyasyonlarını hedefler. İçerik spamı tekniklerinden biri olan anahtar kelime doldurma, sayfa içinde anahtar kelimelerin hesaplanmış bir şekilde yerleştirilmesini içerir. Bu, bir sayfanın bir web tarayıcısı için daha bulunabilir görünmesini sağlamak için kullanışlıdır. Örneğin, bir Ponzi şemasının destekçisi, popüler bir müzik grubunun hayran sayfasına uygun gizli metni sayfaya yerleştirir ve sayfanın bir hayran sitesi olarak listelenmesini ve müzikseverlerden çok sayıda ziyaret almasını umar.
  2. Bağlantı Spamı: Bu yöntem, sayfanın dış bağlantılarını manipüle etmeyi amaçlar. Bağlantı spamı, sayfanın dış bağlantılarını yapay olarak artırmak için çeşitli teknikleri içerir. Bu, sayfanın arama motoru sonuçlarında daha yüksek sıralanmasını hedefler. Örneğin, bir web sitesi sahibi, kendi web sitesine bağlantı veren yüzlerce spam bağlantısı oluşturabilir.

Content Spam[değiştir | kaynağı değiştir]

Content spamı, internet üzerinde aynı mesajın yüksek sayıdaki kopyasının, bu tip bir mesajı alma talebinde bulunmamış kişilere gönderilmesi olarak tanımlanır. Genellikle ticari reklam amacı taşır ve bu reklamlar sıklıkla güvenilmeyen ürünlerin, çabuk zengin olma kampanyalarının veya yarı yasal servislerin duyurulması amacına yöneliktir.

İki tür spam vardır:

  1. Email Spamı (UCE - Unsolicited Commercial E-mail): İstemediğiniz halde size gönderilen bir ürünü veya hizmeti tanıtıcı elektronik posta iletileridir. Bu tür spam, genellikle ticari içeriklidir ve alıcıların masraf yapmasına sebep olabilir. Email erişimi için süreye bağlı telefon ücreti ödeyen her kullanıcı için bir bedel ortaya çıkar. Ayrıca, spam maillerinin taşınmasının servis sağlayıcılar ve diğer online servisler üzerinde oluşturduğu mali yük de doğrudan abonelere yansır.
  2. UBE (Unsolicited Bulk E-mail - Talep Edilmemiş Kitlesel E-posta): Aynı anda yüzbinlerce e-posta hesabına gönderilen e-posta iletileridir. Bu iletiler ticari içerikli olabileceği gibi politik bir görüşün propagandasını yapmak veya bir konu hakkında kamuoyu oluşturmak amacıyla da gönderilebilir.

Cloaking[değiştir | kaynağı değiştir]

Cloaking, arama motorlarına farklı içerik göstermek amacıyla kullanılan bir SEO tekniğidir. Bu yöntem, web sitelerinin arama motoru sonuçlarını manipüle etmek için kullanılır. Kullanıcılar ve arama motorlarına farklı içerik sunulur. İşte detayları:

  1. Nedir?
    • Cloaking, arama motoru botlarının kullanıcılar tarafından görülemeyen farklı sayfalara yönlendirilmesidir.
    • Bu genellikle bir web sitesinin arama motoru sıralamasını yükseltmek veya arama motoru kullanıcılarının bir web sitesini veya sayfayı keşfetmesini engellemek amacıyla yapılır.
    • Arama motorlarına yönelik içerikler ve anahtar kelimeler gösterilirken, gerçek kullanıcılara farklı bir içerik sunulur.
  2. Nasıl Yapılır?
    • Arama motorlarının User Agent’ları (bir nevi robotları), web sitelerini tarar.
    • Bazen robotlar tarama yapmak için siteye giriş yaptığında, bambaşka ayrı bir sayfaya yönlendirilir.
    • Bu sayede, ziyaretçilerin göremediği ama arama motorlarının botları için oluşturulan sayfalar ortaya çıkar.
    • Cloaking uygulanan sayfaların tasarım kaygısı olmaz ve yüklenme hızı en üst düzeye çıkar. Bu da arama motorlarında en üst seviyeye çıkarılmasına yardımcı olur.
  3. Günümüzde Kullanımı
    • Cloaking, eskiden popüler olsa da günümüzde nadiren kullanılmaktadır.
    • Gelişmiş arama motorları, bu yöntemle gizlenen sayfalarla ilgili katı cezalar uygular.
    • Bu nedenle, bu yöntemden uzak durmak önemlidir.
    • Arama motorları tarafından fark edilen bu tür sayfalar hemen arama sonuçları listesinden çıkarılır.

Comment Spam[değiştir | kaynağı değiştir]

Comment spamı, çeşitli çevrimiçi platformlarda, genellikle bloglar, forumlar veya sosyal medya hesapları gibi alanlarda yapılan istenmeyen ve gereksiz yorumların yayılmasıdır. Comment spamı, genellikle otomatik yazılımlar veya botlar tarafından üretilir ve sıklıkla belirli web sitelerine veya içeriklere bağlantılar ekleyerek yapılanır.

Comment spamı, genellikle aşağıdaki amaçlarla kullanılır:

  1. Backlink Oluşturma[2]: Comment spamciler, web sitelerine geri bağlantılar (backlink) kazanmak için spam yorumlarını kullanabilirler. Bu, arama motoru sıralamalarını yapay olarak artırmak için yapılan bir taktiktir.
  2. Trafik Yönlendirme: Comment spamciler, kullanıcıları belirli web sitelerine veya içeriklere yönlendirmek için spam yorumlarını kullanabilirler. Burada genellikle kullanimi kolay olan Wordpress gibi siteler tercih edilir [3]. Bu, belirli bir web sitesine trafik çekmek veya tanıtım yapmak amacıyla yapılır.
  3. Kötü Amaçlı Faaliyetler: Bazı comment spamciler, kötü amaçlı yazılımların veya dolandırıcılık girişimlerinin yayılması için spam yorumlarını kullanabilirler. Bu tür yorumlar genellikle zararlı bağlantılar veya sahte promosyonlar içerir.

Comment spamı, kullanıcı deneyimini olumsuz yönde etkileyebilir ve çevrimiçi platformların kalitesini düşürebilir. Çünkü spam yorumlar, gerçek ve değerli yorumları gizleyerek veya sıradan kullanıcıların dikkatini dağıtarak platformun kullanılabilirliğini azaltır. Platform sahipleri ve yöneticileri, comment spamıyla mücadele etmek için çeşitli önlemler alabilirler. Bu önlemler arasında otomatik spam filtreleri kullanmak, kullanıcıların yorumları onaylamadan önce gözden geçirmesini gerektirmek, CAPTCHA gibi güvenlik önlemleri uygulamak ve spam yorumları manuel olarak temizlemek bulunur. Bunlar:

  1. WordPress'i Yapılandırma: WordPress'i güçlü bir şekilde yapılandırarak comment spam'i en aza indirebilirsiniz. Örneğin, tüm yorumları onaylamadan önce moderasyona almak gibi adımlar atabilirsiniz. Ayrıca, spam engelleme eklentileri kullanarak spam yorumları filtreleyebilirsiniz.
  2. Üçüncü Taraf Yorum Barındırma Platformu Kullanma: Disqus veya LiveFyre gibi üçüncü taraf yorum barındırma hizmetlerini kullanarak yorumları blogunuzdan uzaklaştırabilirsiniz. Bu hizmetler, yorumları dış sunucularda barındırarak güçlü spam filtrelerinden geçirir ve spam yorumlarını azaltır.
  3. Sohbeti Sosyal Medyaya Taşıma: Yorumları blogdan sosyal medya platformlarına taşıyarak comment spam'i azaltabilirsiniz. Örneğin, LinkedIn, Facebook veya Google+ gibi platformlarda yayınlanan tartışmalara yönlendirme yapabilirsiniz. Bu, spam robotlarını ve trolları engellemeye yardımcı olabilir.
  4. Yorumları Blogunuzdan Tamamen Kaldırma: Son çare olarak, yorumları blogunuzdan tamamen kaldırabilirsiniz. Bu, comment spam'i tamamen ortadan kaldırır, ancak aynı zamanda gerçek okuyucuların değerli geri bildirimlerini de kaçırabilirsiniz.[4]

Click Fraud Detection[değiştir | kaynağı değiştir]

Click Fraud, çevrimiçi reklamcılıkta karşılaşılan bir tür dolandırıcılıktır. Bu sahtekarlık, reklamları yayınlayan web sitelerinin sahipleri, reklamlara kaç ziyaretçinin tıkladığına göre ödenir. Sahtekarlık, gerçek bir kullanıcının reklamın hedefine gerçekten ilgi duymadan tıklamasını veya bazı yöntemlerle reklam kodlarını değiştirmesini içerir. Bu şekilde gelir artırılmış olur[5].

Click Fraud tespiti ve önlenmesi için geliştirilen yöntemler üzerine yapılan çalışmalar, yapay zeka (AI), makine öğrenimi (ML) ve derin öğrenme (DL) gibi teknikleri içermektedir. Bu alanda yapılan bazı çalışmalar:

  1. Makine Öğrenimi ve Derin Öğrenme Tabanlı Yöntemler:
    • Özellik Tabanlı Sınıflandırma Modelleri: Reklam tıklamalarını sahte veya gerçek olarak sınıflandırmak için makine öğrenimi modelleri kullanılır. Bu modeller, tıklama verilerini analiz ederek sahtekarlığı tespit eder.
    • Derin Sinir Ağları (DNN)[6]: Derin öğrenme yöntemleri, büyük veri setlerini işleyerek daha karmaşık ilişkileri tespit edebilir. DNN’ler, tıklama sahtekarlığını tespit etmek için kullanılır.
    • Zaman Serisi Analizi: Tıklama verilerinin zaman içindeki değişimini inceleyerek sahtekarlığı tespit etmek mümkündür.
  2. Veri Madenciliği ve İstatistiksel Yöntemler:
    • Frequent Pattern Mining: Tıklama verilerini analiz ederek sık görünen desenleri tespit etmek, sahtekarlığı önlemek için kullanılır.
    • İstatistiksel Analiz: Tıklama verilerini istatistiksel yöntemlerle inceleyerek anormal tıklamaları tespit etmek mümkündür.
  3. Trafiğin Analizi ve Yansıma Tespiti:
    • Clickspam Tespiti: Clickspam, yansıma tıklamalarını tespit etmek için istatistiksel yöntemlerle arama yapar. Bu sayede sahte tıklamaları engeller.

Bu yöntemler, reklamcılık dünyasında Click Fraud’a karşı önemli adımlardır. Ancak bu alanda daha fazla araştırma ve geliştirme yapılması gerekmektedir.

Stealth Crawling[değiştir | kaynağı değiştir]

Stealth crawling, bir web sitesinin içeriğini ve yapısını arayan bir web tarayıcısının, bu işlemi mümkün olduğunca dikkat çekmeden veya fark edilmeden gerçekleştirmesi anlamına gelir.[7] Bu, web sitesinin sahibi veya diğer kullanıcılar tarafından fark edilmeden web sitesinin içeriğini toplamak için kullanılır. Bu tür bir tarama genellikle web sitesi sahipleri tarafından istenmeyen bir faaliyet olarak görülür, çünkü bu tür taramalar web sitesinin performansını etkileyebilir ve sunucu kaynaklarını tüketebilir. Aynı zamanda, bu tür taramalar bazen kötü amaçlı faaliyetler için de kullanılabilir, örneğin, içerik kopyalama veya spam oluşturma.

Malicious Tagging[değiştir | kaynağı değiştir]

Malicious tagging, kötü niyetli etiketleme olarak da bilinir ve bir web sayfasına veya içeriğine zarar vermek veya yanıltıcı bilgi sunmak amacıyla yanlış, yanıltıcı veya saldırgan etiketlerin eklenmesini ifade eder. Bu etiketler genellikle arama motorlarına yanıltıcı sinyaller göndermek veya kullanıcıları yanıltmak amacıyla eklenir. Örneğin, bir web sayfasının etiketleri, gerçek içeriğiyle ilgili olmayan anahtar kelimeler veya popüler ancak ilgisiz terimler içerebilir. Bu, sayfanın arama motoru sıralamalarını artırmak veya yanıltıcı bir şekilde daha fazla trafik çekmek için kullanılabilir. Malicious tagging ayrıca spam gönderimi, dolandırıcılık veya kötü amaçlı yazılımların yayılması gibi zararlı amaçlar için de kullanılabilir.

Malicious Tagging, Facebook gibi sosyal medya platformlarında da kullanılmaktadır. Bu taktikte, kötü niyetli kişiler sizi bir gönderide etiketler ve ilgi çekici bir video veya mesajla birlikte paylaşır. Genellikle çekici konular kullanarak geniş bir kitleyi hedef alırlar.[8]

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Castillo, Carlos; Chellapilla, Kumar; Davison, Brian D. (Haziran 2008). "Adversarial Information Retrieval on the Web (AIRWeb 2007)". ACM SIGIR Forum (İngilizce). 42 (1): 68-72. doi:10.1145/1394251.1394267. ISSN 0163-5840. 20 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Nisan 2024. 
  2. ^ # (16 Ağustos 2023). "How to Control Comment Spam- Effective Strategies and Methods" (İngilizce). 21 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2024. 
  3. ^ G, Mulan (11 Kasım 2022). "4 Effective Ways to Stop WordPress Comment Spam (Plugin, reCAPTCHA, and Built-In Features)". Hostinger Tutorials (İngilizce). Erişim tarihi: 21 Nisan 2024. 
  4. ^ Hayden, Beth (10 Eylül 2015). "4 Ways to Slash Comment Spam (Before It Kills Your Blog)". Smart Blogger (İngilizce). 21 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2024. 
  5. ^ Alzahrani, Reem A.; Aljabri, Malak (Şubat 2023). "AI-Based Techniques for Ad Click Fraud Detection and Prevention: Review and Research Directions". Journal of Sensor and Actuator Networks (İngilizce). 12 (1): 4. doi:10.3390/jsan12010004. ISSN 2224-2708. 21 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2024. 
  6. ^ Nagaraja, Shishir; Shah, Ryan (15 Mayıs 2019). "Clicktok". Proceedings of the 12th Conference on Security and Privacy in Wireless and Mobile Networks. New York, NY, USA: ACM. doi:10.1145/3317549.3323407. 
  7. ^ L.Saoudi; A.Boukerram; S.Mhamedi (2015/58/02). "A New Hidden Web Crawling Approach". International Journal of Advanced Computer Science and Applications (ijacsa) (İngilizce). 6 (10). doi:10.14569/IJACSA.2015.061039. ISSN 2156-5570. 21 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2024.  Tarih değerini gözden geçirin: |tarih= (yardım)
  8. ^ Vaidya, Vallari (31 Ağustos 2023). "Malicious Tagging: New Facebook Scam To Harvest Your Private Information". https://marketrealist.com (İngilizce). 21 Nisan 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2024.  |çalışma= dış bağlantı (yardım)

Dış bağlantılar[değiştir | kaynağı değiştir]

  • AIRWeb: Uluslararası AIRWeb çalıştay serisi.