UTF-8

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

UTF-8 8-bitlik bir Unicode dönüşüm biçimidir (İng: Unicode Transformation Format 'ın kısaltması). Unicode karakterlerini değişken uzunluklu bayt guruplarıyla kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.

UTF-8 kodlaması Unicode karakterlerini 1-6 byte uzunluğunda diziler olarak kodlar. ASCII kodlaması içinde 0-127 arasında kalan karakterler aynen kendi kodları ile kullanılır, diğerleri ise byte dizileri haline gelir.

Özellikleri[değiştir | kaynağı değiştir]

Evrensel kodlama ile aynı sayfada farklı lisanları göstermek mümkün olabilmektedir. Ayrıca özel hazırlanmış klavyeler ile matematiksel ifadeleri yazmak da mümkün. Bütün bu farklı karakterler UTF-8 sayesinde aynı sayfada görüntülenebilmektedir. Eski biçem kodlama ile Türkçe karakterlerin - aslında latin alfabesinde olmayan ya da özel işaretli harflerin de - gösterimi için oldukça karışık olan harf ve rakam dizgileri kullanmak gerekiyordu. Mesela Ş harfini yazmak için Ş küçük ş içinse ş yazmak gibi.

UTF kullanarak 1 milyondan fazla karakter kodlanılabilinmektedir. Sıklıkla kullanılan 65536 karakterin kodlaması bu 1 milyondan fazla kodlamada ilk sıralarda yer almaktadır.

Örnekler[değiştir | kaynağı değiştir]

A = 00000000 010000012, yani sağ baştan sıfırdan başlayarak sayıldığıda 2'nin katları şeklinde 20 ve 26'yı toplayarak 65 sayısını elde ediyoruz. Windows için ALT-tuşuna basılı tutarak nümerik klavyeden 65 yazdığı zaman A harfı çıkar.

天 = 0x59 0x298 = 01011001 001010012 = ALT-tuşu + 22825
⇔ = 0x21 0xd38 = 00100001 110100112 = ALT-tuşu + 1587
α = 0x03 0xb18 = 00000011 101100012 = ALT-tuşu + 945

İlgili Bağlantılar[değiştir | kaynağı değiştir]