İçeriğe atla

Yapay zekâ güvenliği

Vikipedi, özgür ansiklopedi

Yapay zekâ güvenliği, yapay zekâ sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zekâ sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zekâ uyumunu kapsar ve yapay zekâ güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zekâ araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.

Gelişmiş ve yanlış hizalanmış bir yapay zekânın daha fazla güç elde etmeye çalışabileceği bazı yollar.[1] Güç arayışı davranışları ortaya çıkabilir çünkü güç neredeyse her amaca ulaşmak için yararlıdır.[2]

Yapay zekâ araştırmacıları, yapay zekâ teknolojisinin oluşturduğu riskin ciddiyeti ve birincil kaynakları hakkında farklı görüşlere sahiptir.[3][4][5] Yine de anketler, uzmanların yüksek sonuçlu riskleri ciddiye aldığını göstermektedir. Yapay zekâ araştırmacılarıyla yapılan iki ankette, katılımcıların ortalamasının genel olarak yapay zekâ konusunda iyimser olduğu, ancak gelişmiş yapay zekânın "son derece kötü (örneğin insan neslinin tükenmesi)" bir sonuca yol açma olasılığının %5 olduğu görülmüştür.[3] 2022 yılında Doğal dil işleme (NLP) topluluğunda yapılan bir ankete katılanların %37'si, yapay zekâ kararlarının "en az topyekün bir nükleer savaş kadar kötü" bir felakete yol açabileceğinin makul olduğunu kabul etmiş veya zayıf bir şekilde kabul etmiştir.[6] Akademisyenler kritik sistem arızalarından,[7] önyargıdan,[8] ve yapay zekâ destekli gözetimden kaynaklanan mevcut riskleri tartışmaktadır;[9] teknolojik işsizlik, dijital manipülasyon [10] ve silahlanmadan kaynaklanan riskler;[11] ve gelecekteki yapay genel zekânın kontrolünü kaybetmekten kaynaklanan spekülatif riskleri göze almaktadırlar.[12]

Bazıları, 2015'te bunları "henüz gezegene ayak basmadığımız halde Mars'ta aşırı nüfus konusunda endişelenmek" ile karşılaştıran Andrew Ng gibi yapay genel zekâ ile ilgili endişeleri eleştirmiştir.[13] Öte yandan Stuart J. Russell, Diğer taraftan Stuart J. Russell, "insan yaratıcılığını tahmin edebilmenin onu hafife almaktan daha iyi olduğunu" savunarak dikkatli olunması çağrısında bulunuyor.[14]

Yapay zekâdan kaynaklanan riskler bilişim çağının başlangıcında ciddi olarak tartışılmaya başlandı:

Dahası, öğrenen ve davranışları deneyimle değiştirilen makineler yapma yönünde ilerlersek, makineye verdiğimiz her bağımsızlık derecesinin, isteklerimize olası bir meydan okuma derecesi olduğu gerçeğiyle yüzleşmeliyiz.

— Norbert Wiener (1949)[15]

2008-2009 yılları arasında Yapay Zekâ Geliştirme Derneği, yapay zekâ araştırma ve geliştirmesinin potansiyel uzun vadeli toplumsal etkilerini araştırmak ve ele almak üzere bir çalışma yaptırmıştır. Panel, bilimkurgu yazarları tarafından ifade edilen radikal görüşlere genel olarak şüpheyle yaklaşmış, ancak "beklenmedik sonuçları en aza indirmek için karmaşık hesaplama sistemlerinin davranış yelpazesini anlama ve doğrulama yöntemleri konusunda ek araştırmaların değerli olacağı" konusunda hemfikir olunmuştur.[16]

Roman Yampolskiy 2011 yılında Yapay Zekâ Felsefesi ve Teorisi konferansında[17] " Yapay zekâ güvenlik mühendisliği" terimini[18] ortaya atmış, yapay zekâ sistemlerinin önceki başarısızlıklarını sıralamış ve "yapay zekâlar daha yetenekli hale geldikçe bu tür olayların sıklığı ve ciddiyetinin giderek artacağını" savunmuştur.[19]

Filozof Nick Bostrom 2014 senesinde "Süper Zekâ:Yollar, Tehlikeler, Stratejiler" adlı kitabını yayınladı. Bostrom, yapay zekânın yükselişinin, işgücünün yapay zekâ tarafından yerinden edilmesinden, siyasi ve askeri yapıların manipüle edilmesine ve hatta insan neslinin tükenme olasılığına kadar çeşitli toplumsal sorunlar yaratma potansiyeline sahip olduğu görüşündedir.[20] Gelecekteki gelişmiş sistemlerin insan varlığına tehdit oluşturabileceği yönündeki argümanı Elon Musk, Bill Gates [21] ve Stephen Hawking'in[22] de benzer endişeleri dile getirmesine neden olmuştur.

2015 yılında onlarca yapay zekâ uzmanı, yapay zekânın toplumsal etkileri üzerine araştırma yapılması çağrısında bulunan ve somut yönergeler belirleyen bir açık mektuba imza atmıştır.[23] Mektup bugüne kadar Yann LeCun, Shane Legg, Yoshua Bengio ve Stuart Russell'ın da aralarında bulunduğu 8000'den fazla kişi tarafından imzalandı.

Aynı yıl, profesör Stuart Russell liderliğindeki bir grup akademisyen California Berkeley Üniversitesinde İnsan Uyumlu Yapay Zekâ Merkezi'ni kurdu ve Yaşamın Geleceği Enstitüsü "yapay zekânın güvenli, etik ve faydalı kalmasını sağlamayı" amaçlayan araştırmalar için 6,5 milyon dolar hibe desteği sağladı.[24]

2016 yılında Beyaz Saray Bilim ve Teknoloji Politikası Ofisi ve Carnegie Mellon Üniversitesi, yapay zekânın "avantajlarını ve dezavantajlarını" araştırmayı amaçlayan dört Beyaz Saray çalıştayından biri olan Yapay Zekâ için Güvenlik ve Kontrol Kamu Çalıştayı'nı duyurdu.[25][26] Aynı yıl, ilk ve en etkili teknik Yapay Zekâ Güvenliği gündemlerinden biri olan "Concrete Problems in AI Safety" yayınlandı.[27]

2017 yılında Yaşamın Geleceği Enstitüsü, 100'den fazla düşünce liderinin aşağıdakiler de dahil olmak üzere faydalı yapay zekâ için ilkeleri formüle ettiği Asilomar Faydalı Yapay Zekâ Konferansı'na sponsor oldu. "Yarıştan Kaçınma: Yapay zekâ sistemleri geliştiren ekipler, güvenlik standartlarında köşe dönmekten kaçınmak için aktif olarak işbirliği yapmalıdır." [28]

2018 yılında DeepMind Safety ekibi, teknik özellik, sağlamlık ve güvence konularında yapay zekâ güvenlik sorunlarının ana hatlarını ortaya koydu.[29] Ertesi yıl, araştırmacılar ICLR'de bu sorun alanlarına odaklanan bir çalıştay düzenlediler.[30]

2021 yılında, sağlamlık, izleme, hizalama ve sistemik güvenlik alanlarındaki araştırma yönlerini özetleyen "Unsolved Problems in Machine Learning Safety" yayınlandı.[31]

Rishi Sunak, 2023 yılında Birleşik Krallık'ın "küresel yapay zekâ güvenlik düzenlemesinin merkezi" olmasını ve yapay zekâ güvenliği konusundaki ilk küresel zirveye ev sahipliği yapmasını istediğini söyledi.[32]

Araştırma odağı

[değiştir | kaynağı değiştir]

Yapay zekâ güvenlik araştırma alanları arasında sağlamlık, izleme ve hizalama yer almaktadır.[29][31]

Saldırıya karşı sağlamlık

[değiştir | kaynağı değiştir]

Yapay zekâ sistemleri genellikle rakip örneklere veya "bir saldırganın kasten modelin hata yapmasına neden olacak şekilde tasarladığı makine öğrenimi (ML) modellerindeki girdilere" karşı savunmasız durumdadır.[33] Örneğin, 2013 yılında Szegedy ve arkadaşları, bir görüntüye belirli algılanamaz bozulmalar eklemenin, görüntünün yüksek güvenle yanlış sınıflandırılmasına neden olabileceğini ortaya çıkarmıştır.[34] Bu durum sinir ağları ile ilgili bir sorun olmaya devam etmektedir, ancak son çalışmalarda bozulmalar genellikle algılanabilecek kadar büyük olmaktadır.[35][36][37]

Bir görüntüye titizlikle üretilmiş gürültü eklenerek yüksek güvenilirlikle yanlış sınıflandırılmasına neden olunabilir.

Sağdaki tüm görüntülerin bozulma uygulandıktan sonra devekuşu olduğu tahmin edilmektedir. Solda yapay zekâ köpeği doğru tahin ediyor ama tititzlikle eklenen gürültü yüzünden yapay zekâ köpeği bir devekuşu olarak sınıflandırıyor. Bu da bize dikkatli bir şekilde oluşturulmuş gürültülerin yapay zekâyı yanlış sınıflandırmaya itebileceğini göstermektedir.[34]

Saldırıya karşı sağlamlık genellikle güvenlikle ilişkilendirilir.[38] Araştırmacılar, bir ses sinyalinin fark edilmeyecek şekilde değiştirilebileceğini ve böylece konuşmadan metne sistemlerinin bunu saldırganın seçtiği herhangi bir mesaja dönüştürebileceğini göstermiştir.[39] Ağa izinsiz giriş [40] ve kötü amaçlı yazılım [41] tespit sistemleri de saldırganlara karşı dayanıklı olmalıdır çünkü saldırganlar saldırılarını bu tespit edicileri kandırmak için tasarlayabilir.

Hedefleri temsil eden modeller (ödül modelleri) de tersine dayanıklı olmalıdır. Örneğin, bir ödül modeli bir metin yanıtının ne kadar yararlı olduğunu tahmin edebilir ve bir dil modeli bu puanı en üst düzeye çıkarmak için eğitilebilir.[42] Araştırmacılar, bir dil modelinin yeterince uzun süre eğitilmesi durumunda, daha iyi bir puan elde etmek ve amaçlanan görevde daha kötü performans göstermek için ödül modelinin zayıflıklarından yararlanacağını göstermiştir.[43] Bu sorun, ödül modelinin düşmana karşı sağlamlığı geliştirilerek ele alınabilir.[44] Daha genel olarak, başka bir yapay zekâ sistemini değerlendirmek için kullanılan herhangi bir yapay zekâ sistemi agresif olarak güvenilir olmalıdır. Bu, izleme araçlarını da içerebilir, çünkü daha yüksek bir ödül üretmek için potansiyel olarak manipüle edilebilirler.[45]

Belirsizliğin tahmin edilmesi

[değiştir | kaynağı değiştir]

İnsan operatörlerin, özellikle tıbbi teşhis gibi yüksek riskli ortamlarda, bir yapay zekâ sistemine ne kadar güvenmeleri gerektiğini ölçmeleri genellikle çok önemlidir.[46] Makine öğrenimi modelleri genellikle olasılık çıktısı vererek güven ifade eder;[47] bununla birlikte, özellikle ele almak üzere eğitildiklerinden farklı durumlarda genellikle aşırı güven duyarlar.[48] Kalibrasyon araştırmaları, model olasılıklarının modelin doğru olma oranına mümkün olduğunca yakın olmasını amaçlamaktadır.

Benzer şekilde, anomali tespiti veya dağılım dışı tespiti, bir yapay zekâ sisteminin olağandışı bir durumda olduğunu tespit etmeyi amaçlamaktadır. Örneğin, otonom bir araçtaki bir sensör arızalıysa veya zorlu bir araziyle karşılaşırsa, sürücüyü kontrolü ele alması veya kenara çekmesi için uyarması gerekmektedir.[49] Anomali tespiti, basitçe anormal ve anormal olmayan girdileri ayırt etmek için bir sınıflandırıcıyı eğiterek uygulanmaktadır,[50] ancak bir dizi ek yöntem de kullanılmaktadır.[51][52]

Kötü niyetli kullanımın tespiti

[değiştir | kaynağı değiştir]

Akademisyenler [11] ve devlet kurumları, yapay zekâ sistemlerinin kötü niyetli aktörlerin silah üretmesine,[53] kamuoyunu manipüle etmesine,[54][55] veya siber saldırıları otomatikleştirmesine yardımcı olmak için kullanılabileceği yönündeki endişelerini dile getirmiştir.[56] Bu endişeler, güçlü yapay zekâ araçlarını çevrimiçi olarak barındıran OpenAI gibi şirketler için mevcut bir endişe sebebidir.[57] Kötüye kullanımı önlemek için OpenAI, kullanıcıları etkinliklerine göre işaretleyen veya kısıtlayan algılama sistemleri geliştirmiştir.[58]

Sinir ağları sıklıkla kara kutular olarak tanımlanır;[59] yani gerçekleştirdikleri çok sayıda hesaplama sonucunda aldıkları kararları neden aldıklarını anlamak oldukça zordur.[60] Bu da arızaları önceden tahmin etmeyi zorlaştırmaktadır. 2018 yılında sürücüsüz bir araç, bir yayayı tespit edemeyerek ölümüne neden oldu. Yapay zekâ yazılımının kara kutu niteliği nedeniyle, arızanın nedeni belirsizliğini korumaktadır.[61]

Şeffaflığın kritik faydalarından biri açıklanabilirliktir.[62] Bazen, örneğin iş başvurularını otomatik olarak filtrelemek veya kredi notu atamak gibi, adaleti sağlamak için bir kararın neden verildiğine dair bir açıklama yapmak yasal bir zorunluluktur.[62]

Bir diğer faydası ise arızaların nedeninin ortaya çıkarılmasıdır.[59] Araştırmacılar, 2020 COVID-19 pandemisinin başlangıcında, tıbbi görüntü sınıflandırıcılarının alakasız hastane etiketlerine 'dikkat ettiğini' göstermek için şeffaflık araçlarını kullandılar.[63]

Şeffaflık yöntemleri hataları düzeltmek için de kullanılabilir. Örneğin, "Locating and Editing Factual Associations in GPT" başlıklı makalede yazarlar, Eyfel kulesinin konumuyla ilgili soruları nasıl cevapladığını belirleyen model parametrelerini tespit edebilmişlerdir. Daha sonra bu bilgiyi düzenleyerek modelin sorulara kulenin Fransa yerine Roma'da olduğuna inanıyormuş gibi yanıt vermesini sağlamışlardır.[64] Bu durumda yazarlar bir hataya neden olmuş olsalar da, bu yöntemler potansiyel olarak hataları etkili bir şekilde düzeltmek için kullanılabilir. Model düzenleme teknikleri bilgisayarla görüntülemede de mevcuttur.[65]

Son olarak, bazı kişiler yapay zekâ sistemlerinin şeffaf olmamasının önemli bir risk unsuru olduğunu ve bu sistemlerin nasıl çalıştığının daha iyi anlaşılmasının gelecekte büyük çaplı arızaları önleyebileceğini ileri sürmüştür.[66]"İçsel" yorumlanabilirlik araştırması makine öğrenimi modellerini şeffaf olmaktan çıkarmayı amaçlamaktadır. Bu araştırmanın bir amacı, iç nöron aktivasyonlarının neyi temsil ettiğini tespit etmektir.[67][68] Örneğin, araştırmacılar CLIP yapay zekâ sisteminde örümcek adam kostümlü insanların görüntülerine, örümcek adam çizimlerine ve 'örümcek' kelimesine tepki veren bir nöron tanımladılar. Ayrıca bu nöronlar veya 'devreler' arasındaki bağlantıların da izah edilmesini içermektedir.[69][70] Örneğin, araştırmacılar dil modellerinin bağlamlarından nasıl öğrendiklerinde rol oynayabilecek transformatör dikkatindeki örüntü eşleştirme mekanizmalarını tanımlamışlardır.[71] "İçsel yorumlanabilirlik" sinirbilim ile mukayese edilmektedir. Her iki durumda da amaç karmaşık bir sistemde neler olup bittiğini anlamaktır, bununla birlikte makine öğrenimi araştırmacıları mükemmel ölçümler alabilme ve keyfi çıkarımlar yapabilme avantajına sahiptir.[72]

Trojanları tespit etmek

[değiştir | kaynağı değiştir]

Makine öğrenimi modelleri potansiyel olarak 'trojan' veya 'arka kapı' içerebilmektedir: bunlar kötü niyetli aktörlerin bir yapay zekâ sisteminde oluşturdukları güvenlik açıklarıdır. Örneğin, trojanlı bir yüz tanıma sistemi, belirli bir mücevher parçası göründüğünde erişim izni verebilir;[31] veya trojanlı bir otonom araç, belirli bir hareket tetikleyicisi görünene kadar normal çalışabilir.[73] Bir saldırganın bir trojan yerleştirebilmesi için sistemin eğitim verilerine erişimi olması gerektiğini unutulmamalıdır. CLIP veya GPT-3 gibi bazı büyük modellerde halka açık internet verileriyle eğitildiklerinden bunu yapmak daha zor olmayabilir.[74] Araştırmacılar, 3 milyon eğitim görüntüsünden sadece 300'ünü değiştirerek bir görüntü sınıflandırıcıya trojan yerleştirmeyi başardılar.[75] Araştırmacılar, güvenlik riski oluşturmanın yanı sıra, trojanların daha iyi izleme araçlarının test edilmesi ve geliştirilmesi için somut bir ortam sağladığını ileri sürmektedir.[45]

Sistemik güvenlik ve sosyoteknik faktörler

[değiştir | kaynağı değiştir]
Yapay zekâ sonsuz istikrarlı diktatörlükler yaratma potansiyeline sahiptir.

Ilya Sustkever hizalamanın önemi üzerine.[76]

Yapay zekâ risklerinin (ve daha genel olarak teknolojik risklerin) yanlış kullanım veya kazalar şeklinde sınıflandırılması yaygındır.[77] Bazı akademisyenler bu bakış açısının yetersiz kaldığını öne sürmüşlerdir.[77] Örneğin, Küba Füze Krizi açıkça bir hata ya da yanlış teknoloji kullanımı sonucu ortaya çıkmamıştır.[77] Politika analistleri Zwetsloot ve Dafoe şöyle yazmıştır: "Kötüye kullanım ve kaza bakış açıları, bir hasara yol açan nedensellik zincirinde yalnızca son adıma odaklanma eğilimi gösterir: Yani, teknolojiyi kötüye kullanan kişiye veya istenmeyen şekilde hareket eden bir sisteme... Ancak çoğu zaman, ilgili nedensellik zinciri çok daha uzun olmaktadır." Riskler genellikle rekabet baskısı, zararların yayılması, hızlı gelişim, yüksek düzeyde belirsizlik ve yetersiz güvenlik kültürü gibi 'yapısal' veya 'sistematik' etkenlerden kaynaklanmaktadır.[77] Güvenlik mühendisliğinin daha geniş bağlamında, 'kurumsal güvenlik kültürü' gibi yapısal faktörler popüler STAMP risk analizi çerçevesinde merkezi bir öneme sahiptir.[78]

Yapısal bakış açısından esinlenen bazı araştırmacılar, sosyoteknik güvenlik faktörlerini iyileştirmek için makine öğrenimini kullanmanın önemini vurgulamaktadır; örneğin, siber savunma için makine öğrenimini kullanmak, kurumsal karar verme sürecini iyileştirmek ve işbirliğini kolaylaştırmak mümkündür.[31]

Bazı akademisyenler, yapay zekânın siber saldırganlar ve siber savunmacılar arasında zaten dengesiz olan oyunu daha da kötüleştireceğinden endişe duymaktadır.[79] Bu durum 'ilk saldırı' güdülerini arttıracak olup daha agresif ve istikrarı bozucu saldırılara yol açabilecektir. Bu riski azaltmak için bazıları siber savunma konusuna daha fazla önem verilmesini önermektedir. Buna ek olarak, güçlü yapay zekâ modellerinin çalınıp kötüye kullanılmasını önlemek için yazılım güvenliği de çok önemlidir.[11]

Kurumsal karar alma mekanizmasının iyileştirilmesi

[değiştir | kaynağı değiştir]

Yapay zekânın ekonomik ve askeri alanlarda ilerlemesi, benzeri görülmemiş siyasi sorunlara yol açacaktır.[80] Bazı akademisyenler, yapay zekâ yarışı dinamiklerini, az sayıda karar merciinin dikkatli kararlarının çoğu zaman istikrar ve felaket arasındaki farkı belirlediği soğuk savaş ile kıyaslamıştır.[81] Yapay zekâ araştırmacıları, yapay zekâ teknolojilerinin karar verme sürecine yardımcı olmak için de kullanılabileceğini ileri sürmüşlerdir.[31] Örneğin, araştırmacılar yapay zekâ tahmin ve danışmanlık sistemleri geliştirmeye başlamıştır.[82][83]

İşbirliğini kolaylaştırmak

[değiştir | kaynağı değiştir]

En büyük küresel tehditlerin çoğu (nükleer savaş,[84] iklim değişikliği,[85] vb.) işbirliği yapmanın zor olduğu konulardır. İyi bilinen tutsak ikilemi senaryosunda olduğu gibi, bazı dinamikler, kendi çıkarları doğrultusunda en iyi şekilde hareket etseler bile, tüm oyuncular için kötü sonuçlara yol açabilmektedir. Örneğin, hiç kimse müdahale etmezse sonuçları önemli olsa bile, hiçbir tekil aktörün iklim değişikliğini ele almak için ciddi girişimleri bulunmamaktadır.[85]

Göze çarpan bir yapay zekâ işbirliği sorunu, 'dibe doğru yarıştan' sakınmaktır.[86] Bu durumda ülkeler ya da şirketler daha yetenekli yapay zekâ sistemleri kurmak için yarışırken güvenliği ihmal edecek ve bu da ilgili herkese zarar veren feci bir kazayla sonuçlanacaktır. Bu gibi durumlara ilişkin endişeler, insanlar arasında ve potansiyel olarak yapay zekâ sistemleri arasında işbirliğini kolaylaştırmak için hem siyasi[87] hem de teknik[88] çabalara ilham vermiştir. Çoğu yapay zekâ araştırması, tekil etmenlerin birbirinden ayrı görevler yerine getirecek şekilde tasarlanması konusuna odaklanmaktadır.[89] Akademisyenler, yapay zekâ sistemleri daha otonom hale geldikçe, etkileşim biçimlerini incelemenin ve şekillendirmenin önemli hale gelebileceğini belirtmişlerdir.[89]

Büyük Dil Modellerinin Zorlukları

[değiştir | kaynağı değiştir]

Son yıllarda, büyük dil modellerinin geliştirilmesi, yapay zekâ güvenliği alanında eşsiz kaygılar ortaya çıkarmıştır. Araştırmacılar Bender ile Gebru ve diğerleri,[90] bu modellerin eğitimiyle ilgili çevresel ve mali maliyetlerin altını çizerek, Transformatör modelleri için olduğu gibi eğitim süreçlerinin enerji tüketimi ve karbon ayak izinin önemli olabileceğini vurgulamışlardır. Dahası, bu modeller genellikle devasa, işlenmemiş İnternet tabanlı veri kümelerine dayanmaktadır; bu da egemen ve önyargılı bakış açılarını kodlayarak yeterince temsil edilmeyen grupları daha da ötekileştirebilir. Büyük ölçekli eğitim verileri çok geniş olsa da çeşitliliği güvence altına almaz ve genellikle ayrıcalıklı demografik grupların dünya görüşlerini yansıtarak mevcut önyargıları ve basmakalıp düşünceleri sürdüren modellere neden olmaktadır. Bu durum, bu modellerin görünüşte tutarlı ve akıcı metinler üretme eğilimi ile daha da şiddetlenmektedir; bu da kullanıcıları, " tesadüfi papağanlar" olarak tanımlanan bir fenomen olan, anlam ve niyetin olmadığı yerlerde anlam ve niyet atfetme konusunda yanlış yönlendirebilir. Dolayısıyla bu modeller toplumsal önyargıları güçlendirme, yanlış bilgi yayma ve aşırılık yanlısı propaganda ya da deepfake üretme gibi kötü niyetli amaçlarla kullanılma riski taşımaktadır. Bu zorlukların üstesinden gelmek için araştırmacılar, veri seti oluşturma ve sistem geliştirme konusunda daha dikkatli bir planlama yapılmasını savunmakta ve eşitlikçi bir teknolojik ekosisteme olumlu katkıda bulunan araştırma projelerine duyulan ihtiyacı vurgulamaktadır.[91][92]

Yapay zekâ yönetişimi, genel olarak yapay zekâ sistemlerinin kullanımına ve geliştirilmesine rehberlik edecek normlar, standartlar ve düzenlemeler oluşturmakla ilgilenmektedir.[81]

Yapay zekâ güvenlik yönetişimi araştırmaları, yapay zekânın potansiyel etkilerine ilişkin temel araştırmalardan belirli uygulamalara kadar uzanmaktadır. Temelde araştırmacılar, yapay zekânın geniş uygulanabilirliği nedeniyle toplumun birçok yönünü dönüştürebileceğini savunmuş, onu elektrik ve buhar makinesiyle karşılaştırmışlardır.[93] Bazı çalışmalar, bu etkilerden oluşabilecek belirli riskleri öngörmeye odaklanmıştır; örneğin, kitlesel işsizlik,[94] silahlanma,[95] dezenformasyon,[96] gözetim,[97] ve gücün yoğunlaşmasından kaynaklanan riskler bunlara dahildir.[98] Diğer çalışmalar, hızla gelişen yapay zekâ endüstrisini izlemenin zorluğu,[99] yapay zekâ modellerinin kullanılabilirliği,[100] ve 'dibe doğru yarış' dinamikleri gibi altta yatan risk faktörlerini araştırmaktadır.[86]Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 Temmuz 2019). "The Role of Cooperation in Responsible AI Development". arXiv:1907.04534 $2. </ref> DeepMind'da uzun vadeli yönetişim ve strateji başkanı olan Allan Dafoe, yarışın tehlikelerini ve potansiyel işbirliği ihtiyacını vurgulamıştır: " Yapay zekâ güvenliği ve uyumu için, gelişmiş güçlü sistemler devreye sokulmadan önce yüksek derecede dikkatli olunması neredeyse gerekli ve yeterli bir koşul haline gelecektir; fakat aktörler, ilk girenlere büyük getiri sağlayacak ya da göreceli avantaj sağlayacak bir alanda rekabet ediyorlarsa, kendilerine idealin altında bir dikkat düzeyi tercih etmeleri yönünde baskı yapılacaktır." [87] Bir araştırma akışı, yapay zekâ hesap verebilirliğini değerlendirmek, yapay zekâ tabanlı sistemlerin denetimlerine rehberlik etmek ve desteklemek için yaklaşımlar, çerçeveler ve metotlar geliştirmeye yoğunlaşmaktadır.[101][102][103]

Yerel Yapay Zekâ Güvenlik Önlemlerini Küresel Çözümlere Ölçeklendirmek

[değiştir | kaynağı değiştir]

Yapay zekâ güvenliği sorununu ele alırken, yerel ve küresel çözümler arasındaki ayrımı vurgulamak önemlidir. Yerel çözümler, bireysel yapay zekâ sistemlerine odaklanarak güvenli ve faydalı olmalarını sağlarken, küresel çözümler çeşitli yetki alanlarındaki tüm yapay zekâ sistemleri için güvenlik önlemleri uygulamaya çalışmaktadır. Bazı araştırmacılar [104] yerel güvenlik önlemlerinin küresel düzeye aktarmanın gerekliliğini savunarak bu küresel çözümler için ayrı bir sınıflandırma önermektedir. Bu yaklaşım, hiçbir kuruluşun yapay zekâ teknolojileriyle ilişkili riskleri etkili bir şekilde yönetemeyeceğini belirterek, yapay zekâ güvenliğinin uluslararası yönetişiminde işbirliğine dayalı çabaların önemini ortaya koymaktadır. Bu bakış açısı, dünya çapında gelişmiş yapay zekâ sistemlerinin ortaya çıkardığı karmaşık zorlukların üstesinden gelmeyi amaçlayan uluslararası politika oluşturma ve düzenleyici çerçevelerde devam eden çabalarla uyumludur.[105][106]

Hükümet eylemleri

[değiştir | kaynağı değiştir]

Bazı uzmanlar, düzenlemelerin yeniliği engelleyeceği ve "cehalet içinde düzenleme yapmak için acele etmenin" aptallık olacağı yönündeki endişelerini ifade ederek, yapay zekâyı düzenlemek için henüz çok erken olduğunu belirtmiştir.[107][108] İş adamı Elon Musk, felaket risklerini azaltmak için önleyici eylem konusunda çağrıda bulmaktadır.[109]

Resmi mevzuatın dışında, devlet kurumları etik ve güvenlik önerileri ortaya koymuştur. Mart 2021'de ABD Yapay Zekâ Ulusal Güvenlik Komisyonu, yapay zekâdaki gelişmelerin "sistemlerin güvenlik, sağlamlık ve güvenilirlik dahil olmak üzere hedef ve değerlerle uyumlu olmasını sağlamayı" gittikçe daha önemli hale getireceğini rapor etmiştir.[110] Daha sonra, Ulusal Standartlar ve Teknoloji Enstitüsü, "yıkıcı riskler mevcut olduğu zaman riskler yeterince yönetilene kadar geliştirme ve dağıtım güvenli bir şekilde durdurulmalıdır" tavsiyesinde bulunan Yapay Zekâ Riskini yönetmeye yönelik bir taslak hazırlamıştır.[111]

Eylül 2021'de Çin Halk Cumhuriyeti, yapay zekâ kararlarının insan kontrolü altında kalması gerektiğini vurgulayarak ve hesap verebilirlik mekanizmaları çağrısında bulunarak Çin'de yapay zekâ kullanımına yönelik etik yönergeleri yayınladı. Aynı ay, Birleşik Krallık 10 yıllık Ulusal Yapay Zekâ Stratejisini [112] yayınladı; bu stratejide İngiliz hükûmetinin "bağlantısız Yapay Genel Zekânın uzun vadede oluşturduğu riski ve bunun anlamına geleceği öngörülemeyen değişiklikleri" belirtiyor.[113] Strateji, yıkıcı riskler de dahil olmak üzere uzun vadeli yapay zekâ risklerini değerlendirmeye yönelik eylemleri açıklamaktadır.[113] İngiliz hükûmeti yapay zekâ güvenliği konusunda ilk büyük küresel zirveyi düzenledi. Bu zirve 1 ve 2 Kasım 2023 tarihlerinde gerçekleşti ve "politika yapıcıların ve dünya liderlerinin yapay zekânın mevcut ve gelecekteki risklerini ve bu risklerin küresel olarak koordine edilmiş bir yaklaşımla nasıl azaltılabileceğini değerlendirmeleri için bir fırsat" şeklinde nitelendirildi.[114][115]

Özellikle Amerika Birleşik Devletleri'ndeki hükûmet kuruluşları da teknik yapay zekâ güvenlik araştırmalarının geliştirilmesini desteklemiştir. İstihbarat İleri Araştırma Projeleri Faaliyeti, yapay zekâ sistemlerine yönelik Trojan saldırılarını tespit etmek ve bunlara karşı koruma sağlamak amacıyla TrojAI projesini başlatmıştır.[116] DARPA, açıklanabilir yapay zekâ ve düşman saldırılarına karşı sağlamlığın artırılması üzerine araştırmalar yapmaktadır.[117][118] Ulusal Bilim Vakfı da Güvenilir Makine Öğrenimi Merkezi'ni destekliyor ve deneysel yapay zekâ güvenlik araştırmaları için milyonlarca dolar fon ayırıyor.[119]

Kurumsal regülasyonlar

[değiştir | kaynağı değiştir]

Yapay zekâ laboratuvarları ve şirketleri genellikle resmi mevzuatın dışında kalan güvenlik uygulamalarına veya kurallarına uymaktadır.[120] Yönetişim araştırmacılarının bir amacı da bu standartları şekillendirmektir. Literatürde bulunan güvenlik tavsiyelerine örnek olarak üçüncü taraf denetimi,[121] hataların bulunması için ödüller sunulması,[121] yapay zekâ olaylarının paylaşılması [121] yönergelerin takip edilmesi.[122] araştırma veya modellerin yayınlanıp yayınlanmayacağına karar vermek,[100] ve yapay zekâ laboratuvarlarında bilgi ve siber güvenliği iyileştirmek [123] yer almaktadır.

Şirketler de bazı taahhütlerde bulundu. Cohere, OpenAI ve AI21, kötüye kullanımı azaltan "dil modellerinin dağıtımına yönelik en iyi uygulamalar" önerisinde bulundu ve üzerinde anlaşmaya vardı.[124] OpenAI, yarış dinamiklerine katkıda bulunmaktan kaçınmak için tüzüğünde "eğer değerlerle uyumlu, güvenlik bilincine sahip bir proje bizden önce Yapay Genel Zekâ'yı inşa etmeye yaklaşırsa, bu projeyle rekabet etmeyi bırakıp ona yardımcı olmaya başlayacağımızı beyan ediyoruz" ifadesine yer vermiştir.[125] Ayrıca, DeepMind CEO'su Demis Hassabis, Facebook Yapay Zekâ Direktörü Yann LeCun gibi sektör liderleri Asilomar İlkeleri [28] ve Otonom Silahlar Açık Mektubu gibi açık mektuplara imza atmışlardır.[126]

  1. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
  2. ^ "'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune (İngilizce). 25 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Haziran 2023. 
  3. ^ a b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 Temmuz 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research. 62: 729-754. doi:10.1613/jair.1.11222. ISSN 1076-9757. 10 Şubat 2023 tarihinde kaynağından arşivlendi. 
  4. ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 Mayıs 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. 71. arXiv:2105.02117 $2. doi:10.1613/jair.1.12895. 
  5. ^ Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 Ağustos 2022). "2022 Expert Survey on Progress in AI". AI Impacts. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  6. ^ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman (26 Ağustos 2022). "What Do NLP Researchers Believe? Results of the NLP Community Metasurvey". Association for Computational Linguistics. arXiv:2208.12852 $2. 
  7. ^ Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD tez). Carnegie Mellon University. 13 Mayıs 2020. 
  8. ^ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). "A Survey on Bias and Fairness in Machine Learning". ACM Computing Surveys (İngilizce). 54 (6): 1-35. arXiv:1908.09635 $2. doi:10.1145/3457607. ISSN 0360-0300. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022. 
  9. ^ Feldstein, Steven (2019). The Global Expansion of AI Surveillance. Carnegie Endowment for International Peace. 
  10. ^ Barnes, Beth (2021). "Risks from AI persuasion". Lesswrong. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  11. ^ a b c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson (30 Nisan 2018). "The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation". Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022. 
  12. ^ Carlsmith, Joseph (16 Haziran 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 $2. 
  13. ^ "AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com" (İngilizce). 4 Nisan 2023. 15 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Temmuz 2023. 
  14. ^ Dafoe, Allan (2016). "Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review. 28 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022. 
  15. ^ Markoff, John (20 Mayıs 2013). "In 1949, He Imagined an Age of Robots". The New York Times. ISSN 0362-4331. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  16. ^ Association for the Advancement of Artificial Intelligence. "AAAI Presidential Panel on Long-Term AI Futures". 1 Eylül 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  17. ^ "PT-AI 2011 – Philosophy and Theory of Artificial Intelligence (PT-AI 2011)". 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  18. ^ Yampolskiy, Roman V.; Spellchecker, M. S. (25 Ekim 2016). "Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures". arXiv:1610.07997 $2. 
  19. ^ Yampolskiy, Roman V. (2013), Müller, Vincent C. (Ed.), "Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach", Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin; Heidelberg, Almanya: Springer Berlin Heidelberg, 5, ss. 389-396, doi:10.1007/978-3-642-31674-6_29, ISBN 978-3-642-31673-9, 15 Mart 2023 tarihinde kaynağından arşivlendi, erişim tarihi: 23 Kasım 2022 
  20. ^ McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 Temmuz 2023). "The risks associated with Artificial General Intelligence: A systematic review". Journal of Experimental & Theoretical Artificial Intelligence (İngilizce). 35 (5): 649-663. doi:10.1080/0952813X.2021.1964003. ISSN 0952-813X. 
  21. ^ Kuo, Kaiser (31 Mart 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29, 2015. Etkinlik zamanı: 55:49. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  22. ^ Cellan-Jones, Rory (2 Aralık 2014). "Stephen Hawking warns artificial intelligence could end mankind". BBC News. 30 Ekim 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  23. ^ Future of Life Institute. "Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter". Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  24. ^ Future of Life Institute (October 2016). "AI Research Grants Program". Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  25. ^ "SafArtInt 2016". 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  26. ^ Bach, Deborah (2016). "UW to host first of four White House public workshops on artificial intelligence". UW News. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  27. ^ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 Temmuz 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 $2. 
  28. ^ a b Future of Life Institute. "AI Principles". Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  29. ^ a b Research, DeepMind Safety (27 Eylül 2018). "Building safe artificial intelligence: specification, robustness, and assurance". Medium. 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  30. ^ "SafeML ICLR 2019 Workshop". 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  31. ^ a b c d e Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 Haziran 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 $2. 
  32. ^ Browne, Ryan (12 Haziran 2023). "British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley". CNBC (İngilizce). 27 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Haziran 2023. 
  33. ^ Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 Şubat 2017). "Attacking Machine Learning with Adversarial Examples". OpenAI. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  34. ^ a b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 Şubat 2014). "Intriguing properties of neural networks". ICLR. arXiv:1312.6199 $2. 
  35. ^ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 Şubat 2017). "Adversarial examples in the physical world". ICLR. arXiv:1607.02533 $2. 
  36. ^ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 Eylül 2019). "Towards Deep Learning Models Resistant to Adversarial Attacks". ICLR. arXiv:1706.06083 $2. 
  37. ^ Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 Mart 2018). "Adversarial Logit Pairing". arXiv:1803.06373 $2. 
  38. ^ Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 Temmuz 2018). "Motivating the Rules of the Game for Adversarial Example Research". arXiv:1807.06732 $2. 
  39. ^ Carlini, Nicholas; Wagner, David (29 Mart 2018). "Audio Adversarial Examples: Targeted Attacks on Speech-to-Text". IEEE Security and Privacy Workshops. arXiv:1801.01944 $2. 
  40. ^ Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 Eylül 2022). "Adversarial Examples in Constrained Domains". arXiv:2011.01183 $2. 
  41. ^ Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 Nisan 2019). "Exploring Adversarial Examples in Malware Detection". IEEE Security and Privacy Workshops. arXiv:1810.08280 $2. 
  42. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman (4 Mart 2022). "Training language models to follow instructions with human feedback". NeurIPS. arXiv:2203.02155 $2. 
  43. ^ Gao, Leo; Schulman, John; Hilton, Jacob (19 Ekim 2022). "Scaling Laws for Reward Model Overoptimization". ICML. arXiv:2210.10760 $2. 
  44. ^ Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 Ekim 2021). "RoMA: Robust Model Adaptation for Offline Model-based Optimization". NeurIPS. arXiv:2110.14188 $2. 
  45. ^ a b Hendrycks, Dan; Mazeika, Mantas (20 Eylül 2022). "X-Risk Analysis for AI Research". arXiv:2206.05862 $2. 
  46. ^ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). "Deep learning in cancer diagnosis, prognosis and treatment selection". Genome Medicine (İngilizce). 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. PMC 8477474 $2. PMID 34579788. 
  47. ^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 Ağustos 2017). "On calibration of modern neural networks". Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research. 70. PMLR. ss. 1321-1330. 
  48. ^ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 Aralık 2019). "Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift". NeurIPS. arXiv:1906.02530 $2. 
  49. ^ Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). "Description of Corner Cases in Automated Driving: Goals and Challenges". 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). ss. 1023-1028. doi:10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3. 
  50. ^ Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 Ocak 2019). "Deep Anomaly Detection with Outlier Exposure". ICLR. arXiv:1812.04606 $2. 
  51. ^ Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 Mart 2022). "ViM: Out-Of-Distribution with Virtual-logit Matching". CVPR. arXiv:2203.10807 $2. 
  52. ^ Hendrycks, Dan; Gimpel, Kevin (3 Ekim 2018). "A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks". ICLR. arXiv:1610.02136 $2. 
  53. ^ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). "Dual use of artificial-intelligence-powered drug discovery". Nature Machine Intelligence (İngilizce). 4 (3): 189-191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280 $2. PMID 36211133. 
  54. ^ Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). "Truth, Lies, and Automation: How Language Models Could Change Disinformation". doi:10.51593/2021ca003. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  55. ^ "Propaganda-as-a-service may be on the horizon if large language models are abused". VentureBeat. 14 Aralık 2021. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  56. ^ Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). "Automating Cyber Attacks: Hype and Reality". Center for Security and Emerging Technology. doi:10.51593/2020ca002. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  57. ^ "Lessons Learned on Language Model Safety and Misuse". OpenAI. 3 Mart 2022. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  58. ^ Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 Ağustos 2022). "New-and-Improved Content Moderation Tooling". OpenAI. 11 Ocak 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  59. ^ a b Savage, Neil (29 Mart 2022). "Breaking into the black box of artificial intelligence". Nature. doi:10.1038/d41586-022-00858-1. PMID 35352042. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  60. ^ Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). "Key Concepts in AI Safety: Interpretability in Machine Learning". doi:10.51593/20190042. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  61. ^ McFarland, Matt (19 Mart 2018). "Uber pulls self-driving cars after first fatal crash of autonomous vehicle". CNNMoney. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  62. ^ a b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller (20 Aralık 2019). "Accountability of AI Under the Law: The Role of Explanation". arXiv:1711.01134 $2. 
  63. ^ Fong, Ruth; Vedaldi, Andrea (2017). "Interpretable Explanations of Black Boxes by Meaningful Perturbation". 2017 IEEE International Conference on Computer Vision (ICCV). ss. 3449-3457. doi:10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9. 
  64. ^ Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). "Locating and editing factual associations in GPT". Advances in Neural Information Processing Systems. 35. arXiv:2202.05262 $2. 
  65. ^ Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 Temmuz 2020). "Rewriting a Deep Generative Model". ECCV. arXiv:2007.15646 $2. 
  66. ^ Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 Eylül 2022). "Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks". IEEE SaTML. arXiv:2207.13243 $2. 
  67. ^ Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 Nisan 2017). "Network Dissection: Quantifying Interpretability of Deep Visual Representations". CVPR. arXiv:1704.05796 $2. 
  68. ^ McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 Kasım 2022). "Acquisition of chess knowledge in AlphaZero". Proceedings of the National Academy of Sciences (İngilizce). 119 (47): e2206625119. arXiv:2111.09259 $2. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706 $2. PMID 36375061. 
  69. ^ Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). "Zoom in: An introduction to circuits". Distill. 5 (3). doi:10.23915/distill.00024.001. 
  70. ^ Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). "Curve circuits". Distill. 6 (1). doi:10.23915/distill.00024.006. 5 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Aralık 2022. 
  71. ^ Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly (2022). "In-context learning and induction heads". Transformer Circuits Thread. arXiv:2209.11895 $2. 
  72. ^ Olah, Christopher. "Interpretability vs Neuroscience [rough note]". 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  73. ^ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 Mart 2019). "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain". arXiv:1708.06733 $2. 
  74. ^ Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 Aralık 2017). "Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning". arXiv:1712.05526 $2. 
  75. ^ Carlini, Nicholas; Terzis, Andreas (28 Mart 2022). "Poisoning and Backdooring Contrastive Learning". ICLR. arXiv:2106.09667 $2. 
  76. ^ Ilya: the AI scientist shaping the world. The Guardian. 2 Kasım 2023. 18 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Ocak 2024. 
  77. ^ a b c d Zwetsloot, Remco; Dafoe, Allan (11 Şubat 2019). "Thinking About Risks From AI: Accidents, Misuse and Structure". Lawfare. 19 Ağustos 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  78. ^ Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). "Systems theoretic accident model and process (STAMP): A literature review". Safety Science (İngilizce). 152: 105596. doi:10.1016/j.ssci.2021.105596. 15 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022. 
  79. ^ Center for Security and Emerging Technology; Hoffman, Wyatt (2021). "AI and the Future of Cyber Competition". CSET Issue Brief. doi:10.51593/2020ca007. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  80. ^ Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). "AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement". doi:10.51593/20190051. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  81. ^ a b Future of Life Institute (27 Mart 2019). AI Strategy, Policy, and Governance (Allan Dafoe). Etkinlik zamanı: 22:05. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022. 
  82. ^ Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 Ekim 2022). "Forecasting Future World Events with Neural Networks". NeurIPS. arXiv:2206.15474 $2. 
  83. ^ Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 Şubat 2022). "Augmenting Decision Making via Interactive What-If Analysis". Conference on Innovative Data Systems Research. arXiv:2109.06160 $2. 
  84. ^ Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (Ed.), "Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited", NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (İngilizce), The Hague: T.M.C. Asser Press, ss. 421-436, doi:10.1007/978-94-6265-419-8_22, ISBN 978-94-6265-418-1 
  85. ^ a b Newkirk II, Vann R. (21 Nisan 2016). "Is Climate Change a Prisoner's Dilemma or a Stag Hunt?". The Atlantic. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  86. ^ a b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development. Future of Humanity Institute, Oxford University. 
  87. ^ a b Dafoe, Allan. AI Governance: A Research Agenda. Centre for the Governance of AI, Future of Humanity Institute, University of Oxford. 
  88. ^ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 Aralık 2020). "Open Problems in Cooperative AI". NeurIPS. arXiv:2012.08630 $2. 
  89. ^ a b Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). "Cooperative AI: machines must learn to find common ground". Nature. 593 (7857): 33-36. doi:10.1038/d41586-021-01170-0. PMID 33947992. 22 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  90. ^ Bender, E.M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623. https://doi.org/10.1145/3442188.3445922.
  91. ^ Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. arXiv preprint arXiv:1906.02243.
  92. ^ Schwartz, R., Dodge, J., Smith, N.A., & Etzioni, O. (2020). Green AI. Communications of the ACM, 63(12), 54-63. https://doi.org/10.1145/3442188.3445922.
  93. ^ Crafts, Nicholas (23 Eylül 2021). "Artificial intelligence as a general-purpose technology: an historical perspective". Oxford Review of Economic Policy (İngilizce). 37 (3): 521-536. doi:10.1093/oxrep/grab012. ISSN 0266-903X. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  94. ^ 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 Aralık 2020). "Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review". 臺灣東亞文明研究學刊 (İngilizce). 17 (2). doi:10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243. 
  95. ^ Johnson, James (3 Nisan 2019). "Artificial intelligence & future warfare: implications for international security". Defense & Security Analysis (İngilizce). 35 (2): 147-169. doi:10.1080/14751798.2019.1600800. ISSN 1475-1798. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022. 
  96. ^ Kertysova, Katarina (12 Aralık 2018). "Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered". Security and Human Rights. 29 (1–4): 55-81. doi:10.1163/18750230-02901005. ISSN 1874-7337. 24 Kasım 2022 tarihinde kaynağından arşivlendi. 
  97. ^ Feldstein, Steven (2019). The Global Expansion of AI Surveillance. Carnegie Endowment for International Peace. 
  98. ^ Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019). The economics of artificial intelligence: an agenda (İngilizce). Chicago, Illinois. ISBN 978-0-226-61347-5. OCLC 1099435014. 15 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022. 
  99. ^ Whittlestone, Jess; Clark, Jack (31 Ağustos 2021). "Why and How Governments Should Monitor AI Development". arXiv:2108.12427 $2. 
  100. ^ a b Shevlane, Toby (2022). "Sharing Powerful AI Models | GovAI Blog". Center for the Governance of AI. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  101. ^ Gursoy, Furkan; Kakadiaris, Ioannis A. (31 Ağustos 2022), System Cards for AI-Based Decision-Making for Public Policy, arXiv:2203.04754 $2 
  102. ^ Cobbe, Jennifer; Lee, Michelle Seng Ah; Singh, Jatinder (1 Mart 2021). "Reviewable Automated Decision-Making: A Framework for Accountable Algorithmic Systems". Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. FAccT '21. New York, NY, USA: Association for Computing Machinery. ss. 598-609. doi:10.1145/3442188.3445921. ISBN 978-1-4503-8309-7. 
  103. ^ Raji, Inioluwa Deborah; Smart, Andrew; White, Rebecca N.; Mitchell, Margaret; Gebru, Timnit; Hutchinson, Ben; Smith-Loud, Jamila; Theron, Daniel; Barnes, Parker (27 Ocak 2020). "Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing". Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. FAT* '20. New York, NY, USA: Association for Computing Machinery. ss. 33-44. doi:10.1145/3351095.3372873. ISBN 978-1-4503-6936-7. 
  104. ^ Turchin, Alexey; Dench, David; Green, Brian Patrick (2019). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (16): 1-25. doi:10.3390/bdcc3010016. 
  105. ^ Ziegler, Bart (8 Nisan 2022). "Is It Time to Regulate AI?". Wall Street Journal. 
  106. ^ Smith, John (15 Mayıs 2022). "Global Governance of Artificial Intelligence: Opportunities and Challenges". The Guardian. 
  107. ^ Ziegler, Bart (8 Nisan 2022). "Is It Time to Regulate AI?". Wall Street Journal. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  108. ^ Reed, Chris (13 Eylül 2018). "How should we regulate artificial intelligence?". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (İngilizce). 376 (2128): 20170360. doi:10.1098/rsta.2017.0360. ISSN 1364-503X. PMC 6107539 $2. PMID 30082306. 
  109. ^ Belton, Keith B. (7 Mart 2019). "How Should AI Be Regulated?". IndustryWeek. 29 Ocak 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  110. ^ National Security Commission on Artificial Intelligence (2021), Final Report 
  111. ^ National Institute of Standards and Technology (12 Temmuz 2021). "AI Risk Management Framework". NIST. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  112. ^ Richardson, Tim (2021). "Britain publishes 10-year National Artificial Intelligence Strategy". 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  113. ^ a b "Guidance: National AI Strategy". GOV.UK. 2021. 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  114. ^ Hardcastle, Kimberley (23 Ağustos 2023). "We're talking about AI a lot right now – and it's not a moment too soon". The Conversation (İngilizce). 31 Ekim 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Ekim 2023. 
  115. ^ "Iconic Bletchley Park to host UK AI Safety Summit in early November". GOV.UK (İngilizce). 1 Kasım 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Ekim 2023. 
  116. ^ Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. "IARPA – TrojAI". 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  117. ^ Turek, Matt. "Explainable Artificial Intelligence". 19 Şubat 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  118. ^ Draper, Bruce. "Guaranteeing AI Robustness Against Deception". Defense Advanced Research Projects Agency. 9 Ocak 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  119. ^ National Science Foundation (23 Şubat 2023). "Safe Learning-Enabled Systems". 26 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 27 Şubat 2023. 
  120. ^ Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). "Defining organizational AI governance". AI and Ethics (İngilizce). 2 (4): 603-609. doi:10.1007/s43681-022-00143-x. ISSN 2730-5953. 
  121. ^ a b c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj (20 Nisan 2020). "Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims". arXiv:2004.07213 $2. 
  122. ^ "Welcome to the Artificial Intelligence Incident Database". 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  123. ^ Wiblin, Robert; Harris, Keiran (2022). "Nova DasSarma on why information security may be critical to the safe development of AI systems". 80,000 Hours. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  124. ^ OpenAI (2 Haziran 2022). "Best Practices for Deploying Language Models". OpenAI. 15 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  125. ^ OpenAI. "OpenAI Charter". OpenAI. 4 Mart 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022. 
  126. ^ Future of Life Institute (2016). "Autonomous Weapons Open Letter: AI & Robotics Researchers". Future of Life Institute. 22 Eylül 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.