İçeriğe atla

N-gram

Vikipedi, özgür ansiklopedi
7 Mayıs 2020 itibarıyla Coronavirus hastalığı 2019 (COVID-19) hakkındaki yayınların başlıklarında sıklıkla altı n-gram bulundu.

Hesaplamalı dilbilim ve olasılık alanlarında, bir n-gram (bazen Q-gram olarak da adlandırılır), belirli bir metin veya konuşma örneğinden n öğenin bitişik bir dizisidir. Öğeler uygulamaya göre fonemler, heceler, harfler, kelimeler veya baz çiftleri olabilir. n-gramlar tipik olarak bir metinden veya konuşma korpusundan toplanır. Öğeler kelimeler olduğunda, n-gramlar zona olarak da adlandırılabilir.[1]

Latin sayısal önekleri kullanıldığında, 1 boyutundaki bir n-gram "unigram" olarak adlandırılır; boyut 2 bir "bigram"dır (veya daha az yaygın olarak bir "digram"); boyut 3 bir "trigram" dır. İngilizce ana sayılar bazen kullanılır, örneğin "dört gram", "beş gram" vb. Hesaplamalı biyolojide, bilinen boyuttaki bir polimer veya oligomer, "monomer", "dimer", "trimer", "tetramer", "pentamer" vb. veya İngilizce ana sayılar, "one-mer", "two-mer", "three-mer" vb.

Bir n-gram modeli, (n − 1) düzeyli Markov modeli biçiminde böyle bir dizideki bir sonraki öğeyi tahmin etmeye yönelik bir tür olasılıksal dil modelidir.[2] n-gram modelleri artık olasılık, iletişim teorisi, hesaplamalı dilbilim (Örneğin, istatistiksel doğal dil işleme ), hesaplamalı biyoloji (örneğin, biyolojik dizi analizi) ve veri sıkıştırmada yaygın olarak kullanılmaktadır. n-gram modellerinin (ve bunları kullanan algoritmaların) iki avantajı basitlik ve ölçeklenebilirliktir - daha büyük n ile bir model, iyi anlaşılmış bir uzay-zaman dengesi ile daha fazla bağlam depolayabilir ve küçük deneylerin verimli bir şekilde ölçeklenmesini sağlar.

Şekil 1 çeşitli disiplinlerden n -gram örnekleri
Tarla Birim Örnek dizi 1 gramlık dizi 2 gramlık dizi 3 gramlık dizi
yerel ad unigram bigram trigram
Elde edilen Markov modelinin sırası 0 1 2
Protein dizilimi amino asit . . . Cys-Gly-Leu-Ser-Trp . . . . . ., Cys, Gly, Leu, Ser, Trp, . . . . . ., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, . . . . . ., Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, . . .
DNA dizilimi çift bazlı . . . AGCTTCGA. . . . . ., A, G, C, T, T, C, G, A, . . . . . ., AG, GC, CT, TT, TC, CG, GA, . . . . . ., AGC, GCT, CTT, TTC, TCG, CGA, . . .
Hesaplamalı dilbilimleri karakter ...olmak ya da olmamak. . . ..., olmak ya da olmamak, . . . ..., to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, . . . ..., to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, . . .
Hesaplamalı dilbilimleri kelime ... olmak ya da olmamak . . . ..., olmak ya da olmamak, . . . ..., olmak, olmak ya da olmamak, olmamak, olmak, . . . ..., olmak ya da olmamak ya da olmamak, olmamak, . . .

Şekil 1 birkaç örnek diziyi ve karşılık gelen 1-gram, 2-gram ve 3-gram dizilerini göstermektedir.

İşte diğer örnekler; bunlar Google n-gram korpusundan kelime düzeyinde 3 gram ve 4 gramdır (ve göründükleri sayı sayılarıdır).[3]

3 gram

  • seramik koleksiyon parçaları (55)
  • seramik koleksiyon parçaları para cezası (130)
  • (52) tarafından toplanan seramikler
  • seramik koleksiyon çömlekleri (50)
  • seramik koleksiyon yemek pişirme (45)

4 gram

  • gelen olarak hizmet et (92)
  • kuluçka makinesi olarak hizmet et (99)
  • bağımsız olarak hizmet et (794)
  • indeks olarak hizmet et (223)
  • gösterge görevi görür (72)
  • gösterge görevi görür (120)

n-gram modelleri

[değiştir | kaynağı değiştir]

Bir n-gram modeli dizileri, özellikle doğal diller, n-gramların istatistiksel özelliklerini kullanarak modeller.

Bu fikrin izini Claude Shannon'ın bilgi teorisindeki çalışmasıyla bir deneye kadar takip etmek mümkündür. Shannon şu soruyu sordu: bir harf dizisi verildiğinde (örneğin, "eski için" dizisi), bir sonraki harfin olasılığı nedir? Eğitim verilerinden, büyüklük geçmişi verilen bir sonraki harf için bir olasılık dağılımı elde edilebilir. : a = 0.4, b = 0.00001, c = 0, ....; tüm olası "sonraki harflerin" olasılıklarının toplamı 1.0'dır.

Daha kısaca, bir n-gram modeli tahmin eder dayalı . Olasılık açısından, bu . Dil modelleme için kullanıldığında, bağımsızlık varsayımları yapılır, böylece her kelime yalnızca son n'ye bağlıdır. - 1 kelime. Bu Markov modeli, gerçek temel dilin bir yaklaşımı olarak kullanılır. Bu varsayım önemlidir, çünkü dil modelini verilerden tahmin etme problemini büyük ölçüde basitleştirir. Ek olarak, dilin açık doğası nedeniyle, dil modelinin bilmediği kelimeleri birlikte gruplamak yaygındır.

Basit bir n-gram dil modelinde, önceki birkaç kelimeye (bigram modelinde bir kelime, trigram modelinde iki kelime, vb.) koşullu bir kelimenin olasılığının, kategorik bir dağılımın ardından tanımlanabileceğini unutmayın. (genellikle kesin olmayan bir şekilde "çok terimli dağılım" olarak adlandırılır).

Pratikte, olasılık dağılımları, görünmeyen kelimelere veya n-gramlara sıfır olmayan olasılıklar atanarak düzeltilir; bkz. yumuşatma teknikleri.

Sözdizimsel n-gramların başka bir türü, metnin konuşma bölümü dizilerinden çıkarılan sabit uzunlukta bitişik örtüşen alt diziler olarak tanımlanan konuşma bölümü n-gramlarıdır. Konuşma bölümü n-gramlarının, en yaygın olarak bilgi almada olmak üzere birkaç uygulaması vardır.[4]

Ayrıca bakınız

[değiştir | kaynağı değiştir]

Uygulamalar ve düşünceler

[değiştir | kaynağı değiştir]

n-gram modelleri istatistiksel doğal dil işlemede yaygın olarak kullanılmaktadır. Konuşma tanımada, sesbirimler ve sesbirim dizileri bir n-gram dağılımı kullanılarak modellenir. Ayrıştırma için kelimeler, her n-gram n kelimeden oluşacak şekilde modellenir. Dil tanımlaması için, farklı diller için karakter/grafem dizileri (örneğin, alfabenin harfleri) modellenmiştir. Karakter dizileri için, "günaydın"dan oluşturulabilen 3 gram (bazen "trigram" olarak anılır) "goo", "ood", "od", "dm", "mo", "mor" şeklindedir. " vb., boşluk karakterini gram olarak sayma (bazen bir metnin başı ve sonu, "_ ⁠_g", "_go", "ng_" ve "g_ ⁠_" eklenerek açıkça modellenir). Kelime dizileri için, "köpek kokarca gibi kokuyordu" dan üretilebilecek trigramlar (zona) "# köpek", "köpek kokuyordu", "köpek kokuyordu", "gibi kokuyordu", "gibi bir kokarca" ve "bir kokarca #".

Ayrıca bakınız

[değiştir | kaynağı değiştir]

Konuyla ilgili yayınlar

[değiştir | kaynağı değiştir]
  • Christopher D. Manning, Hinrich Schütze, İstatistiksel Doğal Dil İşlemenin Temelleri, MIT Press: 1999.0-262-13360-1ISBN'si 0-262-13360-1 .
  • Frederick J. Damerau, Markov Modelleri ve Dil Teorisi . Mouton. Lahey, 1971.
  1. ^ Broder (1997). "Syntactic clustering of the web". Computer Networks and ISDN Systems. 29 (8): 1157-1166. doi:10.1016/s0169-7552(97)00031-7. 
  2. ^ "Archived copy". 1 Ocak 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Ocak 2017. 
  3. ^ Alex Franz and Thorsten Brants (2006). "All Our N-gram are Belong to You". Google Research Blog. 17 Ekim 2006 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2011. 
  4. ^ Lioma (2008). "Part of Speech n-Grams and Information Retrieval" (PDF). French Review of Applied Linguistics. XIII (1): 9-22. 13 Mart 2018 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 12 Mart 2018 – Cairn vasıtasıyla. 

Dış bağlantılar

[değiştir | kaynağı değiştir]

Şablon:Natural Language Processing