Frekans analizi
Kriptanalizde, frekans analizi veya sıklık analizi (harf sayma olarak da bilinir) harflerin sıklığı veya bir şifreli metin içindeki harf gruplarının incelenmesidir. Bu yöntem klasik şifrelerin kırılmasına yardımcı olarak kullanılır.
Frekans analizi, herhangi bir dilde yazılmış metin parçasında, belirli harflerin ve harf kombinasyonlarının değişen sıklıklarda ortaya çıktığı gerçeğine dayanır. Dahası, o dilin neredeyse tüm örnekleri için kabaca aynı olan karakteristik bir harf dağılımı vardır. Örneğin, İngilizce dilinin bir bölümü göz önüne alındığında, E, T, A ve O en yaygın olanlarıdır, Z, Q, X ve J ise nadirdir. Benzer şekilde, TH, ER, ON ve AN en yaygın harf çiftleridir (bigramlar veya digraflar olarak adlandırılır) ve SS, EE, TT ve FF en yaygın tekrarlardır.[1] "ETAOIN SHRDLU" anlamsız ifadesi tipik İngilizce metinde en sık rastlanan 12 harfi temsil eder.
Bazı şifrelerde, doğal dil düz metninin bu tür özellikleri şifreli metinde korunur ve bu kalıplar bir yalnızca şifreli metin saldırısında kullanılma potansiyeline sahiptir.
Basit yerine koyma şifreleri için frekans analizi
[değiştir | kaynağı değiştir]Basit bir yerine koyma şifrelemesinde, düz metnin her harfi bir diğeriyle değiştirilir ve düz metindeki herhangi bir harf, şifreli metinde her zaman aynı harfe dönüştürülür. Örneğin, e harfinin tüm oluşumları X harfine dönüşürse, X harfinin çok sayıda örneğini içeren bir şifreli metin mesajı, bir kriptanaliste X'in e'yi temsil ettiğini gösterecektir.
Frekans analizinin temel kullanımı, önce şifreli metin harflerinin sıklığını saymak ve ardından tahmin edilen düz metin harflerini bunlarla ilişkilendirmektir. Şifreli metinde diğer her şeyden daha fazla X olması, X'in düz metinde e'ye karşılık geldiğini gösterir, ancak bu kesin değildir; t ve a da İngilizcede çok yaygındır, bu nedenle X bunlardan biri olabilir. Daha az yaygın olan z veya q düz metin olma olasılığı düşüktür. Bu nedenle kriptanalistin şifreli metin ve düz metin harfleri arasında birkaç eşleme kombinasyonu denemesi gerekebilir.
Harf çiftlerinin (bigramlar), üçlülerin (trigramlar) vb. n-gram sayılarını dikkate almak gibi daha karmaşık istatistik kullanımı düşünülebilir. Bu, kriptanaliste daha fazla bilgi sağlamak için yapılır, örneğin, Q ve U, Q'nun kendisi nadir olmasına rağmen, İngilizcede neredeyse her zaman bu sırada birlikte görülür.
Bir örnek
[değiştir | kaynağı değiştir]Bu örnek, İngiliz alfabesi ve İngilizce bir metin üzerinden verilmiş olup, Türkçe ve diğer diller için de benzer bir durum geçerlidir. Ayrıca ele geçirilen şifreli bir metnin çözülmesi için ilk yapılması gereken, hangi dille yazılmış olduğunun belirlenmesidir. Diyelim ki Eve, aşağıdaki kriptogramı ele geçirdi ve basit bir ikame şifresi kullanılarak şifrelendiği biliniyor:
LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIM
WQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJ
GSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXV
IZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLE
PPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPP
XLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX
Bu örnekte, büyük harfler şifreli metni, küçük harfler düz metni (veya tahminleri) ve X~t ise X şifreli harfinin t düz metin harfini temsil ettiğine dair bir tahmini ifade etmek için kullanılmıştır.
Eve, mesajı çözmek için frekans analizini şu şekilde kullanabilir: kriptogramdaki harflerin sayımı I'nin en yaygın tek harf,[2] XL'nin en yaygın bigram ve XLI'nin en yaygın trigram olduğunu göstermektedir. e İngiliz dilinde en yaygın harf, th en yaygın bigram ve the en yaygın trigramdır. Bu, X~t, L~h ve I~e olduğunu güçlü bir şekilde göstermektedir. Kriptogramda en sık rastlanan ikinci harf E'dir; İngiliz dilinde en sık rastlanan birinci ve ikinci harfler olan e ve t harfleri hesaba katıldığından, Eve üçüncü en sık rastlanan harfin E~a olduğunu tahmin etmektedir. Geçici olarak bu varsayımları yaparak, aşağıdaki kısmi şifresi çözülmüş mesaj elde edilir.
heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReM
WQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJ
GSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtV
eZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMtha
PPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPP
thMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt
Bu ilk tahminleri kullanarak Eve, "that" gibi seçimlerini doğrulayan kalıpları tespit edebilir. Dahası, diğer kalıplar daha ileri tahminler önerir. "Rtate" "state" olabilir, bu da R~s anlamına gelir. Benzer şekilde "atthattMZe" "atthattime" olarak tahmin edilebilir ve M~i ve Z~m elde edilir. Ayrıca, "heVe" "here" olabilir ve V~r verir. Bu tahminlerin içini dolduran Eve şunu elde eder:
hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGasei
WQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaWHatthattimeTWAWSQWtSWatTraPistsSJ
GSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtr
emitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQitha
PPtheaCCearaWGeSJKTrWisheHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPP
thiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit
Bu tahminler de, başka tahminleri akla getirir (örneğin, "remarA" "remark" olabilir, bu da A~k anlamına gelir) ve bu şekilde devam eder ve geri kalan harfleri çıkarmak nispeten kolaydır, sonunda düz metin elde edilir.
hereuponlegrandarosewithagraveandstatelyairandbroughtmethebeetlefromaglasscasei
nwhichitwasencloseditwasabeautifulscarabaeusandatthattimeunknowntonaturalistsof
courseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextr
emityofthebackandalongoneneartheotherthescaleswereexceedinglyhardandglossywitha
lltheappearanceofburnishedgoldtheweightoftheinsectwasveryremarkableandtakingall
thingsintoconsiderationicouldhardlyblamejupiterforhisopinionrespectingit
Bu noktada, Eve'in boşluk ve noktalama işaretleri eklemesi iyi bir fikir olacaktır:
Hereupon Legrand arose, with a grave and stately air, and brought me the beetle
from a glass case in which it was enclosed. It was a beautiful scarabaeus, and, at
that time, unknown to naturalists—of course a great prize in a scientific point
of view. There were two round black spots near one extremity of the back, and a
long one near the other. The scales were exceedingly hard and glossy, with all the
appearance of burnished gold. The weight of the insect was very remarkable, and,
taking all things into consideration, I could hardly blame Jupiter for his opinion
respecting it.
"The Gold-Bug"dan alınan bu örnekte, Eve'in tahminlerinin hepsi doğruydu. Ancak durum her zaman böyle olmayabilir; tek tek düz metinler için istatistiklerdeki farklılıklar ilk tahminlerin yanlış olduğu anlamına gelebilir. Yanlış tahminler için geriye dönüşlü arama ("backtracking") yapılması ya da mevcut istatistiklerin yukarıdaki örnekte verilen biraz basitleştirilmiş gerekçelerden çok daha derinlemesine analiz edilmesi gerekebilir.
Düz metnin harf frekanslarının beklenen dağılımını sergilememesi mümkündür. Daha kısa mesajların daha fazla varyasyon göstermesi muhtemeldir. Yapay olarak çarpıtılmış metinler oluşturmak da mümkündür. Örneğin, e harfini tamamen atlayan romanların tamamı yazılmıştır — lipogram olarak bilinen bir edebiyat biçimi.
Tarihçe ve kullanım
[değiştir | kaynağı değiştir]Frekans analizinin (aslında her türlü kriptanalizin) bilinen ilk kayıtlı açıklaması 9. yüzyılda yaşamış bir Arap polimat olan El-Kindi tarafından Kriptografik Mesajların Deşifre Edilmesi Üzerine Bir El Yazması ("A Manuscript on Deciphering Cryptographic Messages") alı eser içinde yapılmıştır.[3] Kur'an'ın yakın bir metin çalışmasının ilk olarak Arapçanın karakteristik bir harf sıklığına sahip olduğunu ortaya çıkardığı öne sürülmüştür.[4] Kullanımı yaygınlaştı ve benzer sistemler Rönesans zamanında Avrupa devletlerinde yaygın olarak kullanıldı. 1474 yılına gelindiğinde, Cicco Simonetta, Latin ve İtalyan metinlerinin şifrelerini çözmek için bir el kitabı yazmıştı.[5]
Basit ikame şifrelemelerindeki bu zayıflığı yenmek için kriptograflar tarafından çeşitli şemalar icat edilmiştir. Bunlar şunları içeriyordu:
- Homofonik yerine koyma: Homofonların yani esşeslilerin kullanımı — aksi takdirde tek alfabeli ikame şifrelerinde en yaygın harflere çeşitli alternatifler. Örneğin, İngilizce için hem X hem de Y şifreli metni E düz metni anlamına gelebilir.
- Polialfabetik (Çok alfabeli) yerine koyma, yani çeşitli, az ya da çok dolambaçlı yollarla seçilen birkaç alfabenin kullanılması (Leone Alberti bunu ilk öneren kişi gibi görünmektedir); ve
- Poligrafik yerine koyma, tek tek harfler yerine düz metin harflerinin çiftlerinin veya üçlülerinin ikame için birim olarak ele alındığı şemalar, örneğin 19. yüzyılın ortalarında Charles Wheatstone tarafından icat edilen Playfair şifresi.
Frekans sayma (Sıklık hesabı) saldırılarını yenmeye yönelik tüm bu girişimlerin bir dezavantajı, hem şifrelemeyi hem de deşifre etmeyi karmaşıklaştırması ve hatalara yol açmasıdır. Ünlü bir İngiliz Dışişleri Bakanı'nın Playfair şifresini reddettiği söylenir çünkü Wheatstone ve Playfair'in gösterdiği gibi okul çocukları başarıyla yapabilse bile, "ataşelerimiz bunu asla öğrenemez!".
Yirminci yüzyılın ilk yarısındaki rotor makineleri (örneğin Enigma makinesi) esasen doğrudan frekans analizine karşı bağışıktı. Ancak, diğer analiz türleri ("saldırılar") bu makinelerin bazılarından gelen mesajları başarıyla çözdü.[6]
Frekans analizi, sadece düz metin dilinin istatistikleri ve bazı problem çözme becerileri hakkında temel bir anlayış gerektirir ve elle yapılırsa, kapsamlı harf defteri tutmaya tolerans gösterir. İkinci Dünya Savaşı sırasında hem İngilizler hem de Amerikalılar büyük gazetelere çapraz bulmaca tarzı bulmacalar yerleştirerek ve bunları en hızlı kimin çözebileceğine dair yarışmalar düzenleyerek şifre kırıcıları işe aldılar. Mihver güçleri tarafından kullanılan şifrelerden bazıları, örneğin Japonlar tarafından kullanılan bazı konsolosluk şifreleri, frekans analizi kullanılarak kırılabilirdi. Mekanik harf sayma ve istatistiksel analiz yöntemleri (genellikle IBM kart tipi makineler) ilk olarak İkinci Dünya Savaşı'nda, muhtemelen ABD Ordusu'nun SIS tarafından kullanılmıştır. Günümüzde harf sayma ve analiz işi, bilgisayarlar tarafından bu tür analizleri saniyeler içinde gerçekleştirebilen yazılımlarla yapılmaktadır. Modern bilgi işlem gücü ile klasik şifrelerin gizli veriler için gerçek bir koruma sağlaması pek olası değildir.
Kurguda frekans analizi
[değiştir | kaynağı değiştir]Frekans analizi kurguda da tanımlanmıştır. Edgar Allan Poe'nun "The Gold-Bug" ve Sir Arthur Conan Doyle'un Sherlock Holmes hikayesi "Dans Eden Adamların Macerası" basit ikame şifrelere saldırmak için frekans analizinin kullanımını anlatan hikayelere örnektir. Poe öyküsündeki şifre çeşitli aldatma önlemleriyle kaplıdır, ancak bu kriptografik olarak önemli bir şeyden çok edebi bir araçtır.
Ayrıca bakınız
[değiştir | kaynağı değiştir]- Tekrarlananların göstergesi (İngilizce: Index of coincidence)
- Kriptografi konuları
- Zipf yasası
- A Void, Georges Perec tarafından yazılmış bir roman. Orijinal Fransızca metin, İngilizce çevirisinde olduğu gibi e harfi olmadan yazılmıştır. İspanyolca versiyonunda "a" harfi yoktur.
- Gadsby (roman), Ernest Vincent Wright tarafından yazılmış bir roman. Roman, E harfi içeren kelimeleri içermeyen bir lipogram olarak yazılmıştır.
- Wikimedia Commons'ta Letter frequency ile ilgili çoklu ortam belgeleri bulunur
Konuyla ilgili okumalar
[değiştir | kaynağı değiştir]- Helen Fouché Gaines, "Cryptanalysis", 1939, Dover. 0-486-20097-3.
- Abraham Sinkov, "Elementary Cryptanalysis: A Mathematical Approach", The Mathematical Association of America, 1966. 0-88385-622-0.
Kaynakça
[değiştir | kaynağı değiştir]- ^ Singh, Simon. "The Black Chamber: Hints and Tips". 10 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Ekim 2010.
- ^ "A worked example of the method from bill's "A security site.com"". 20 Ekim 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Aralık 2012.
- ^ Ibrahim A. Al-Kadi "The origins of cryptology: The Arab contributions", Cryptologia, 16(2) (April 1992) pp. 97–126.
- ^ "In Our Time: Cryptography". BBC Radio 4. 2 Eylül 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Nisan 2012.
- ^ Kahn, David L. (1996). The codebreakers: the story of secret writing. New York: Scribner. ISBN 0-684-83130-9.
- ^ Kruh, Louis; Deavours, Cipher (Ocak 2002). "The Commercial Enigma: Beginnings of Machine Cryptography". Cryptologia (İngilizce). 26 (1). ss. 1-16. doi:10.1080/0161-110291890731. ISSN 0161-1194. 9 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Nisan 2024.
Dış bağlantılar
[değiştir | kaynağı değiştir]- Online frequency analysis tool
- Character and syllable frequencies of 41 languages and a portable tool to create frequency and syllable distributions
- Arabic letter frequency analysis
- Conditional probabilities for characters in English text
- Czech letter/bigram/trigram frequency