N-gram

Hesaplamalı dilbilim ve olasılık alanlarında, bir n-gram (bazen Q-gram olarak da adlandırılır), belirli bir metin veya konuşma örneğinden n öğenin bitişik bir dizisidir. Öğeler uygulamaya göre fonemler, heceler, harfler, kelimeler veya baz çiftleri olabilir. n-gramlar tipik olarak bir metinden veya konuşma korpusundan toplanır. Öğeler kelimeler olduğunda, $n$ -gramlar zona olarak da adlandırılabilir.^[1]

Latin sayısal önekleri kullanıldığında, 1 boyutundaki bir n-gram "unigram" olarak adlandırılır; boyut 2 bir "bigram"dır (veya daha az yaygın olarak bir "digram"); boyut 3 bir "trigram" dır. İngilizce ana sayılar bazen kullanılır, örneğin "dört gram", "beş gram" vb. Hesaplamalı biyolojide, bilinen boyuttaki bir polimer veya oligomer, "monomer", "dimer", "trimer", "tetramer", "pentamer" vb. veya İngilizce ana sayılar, "one-mer", "two-mer", "three-mer" vb.

Uygulamalar

Bir n-gram modeli, (n − 1) düzeyli Markov modeli biçiminde böyle bir dizideki bir sonraki öğeyi tahmin etmeye yönelik bir tür olasılıksal dil modelidir.^[2] n-gram modelleri artık olasılık, iletişim teorisi, hesaplamalı dilbilim (Örneğin, istatistiksel doğal dil işleme ), hesaplamalı biyoloji (örneğin, biyolojik dizi analizi) ve veri sıkıştırmada yaygın olarak kullanılmaktadır. n-gram modellerinin (ve bunları kullanan algoritmaların) iki avantajı basitlik ve ölçeklenebilirliktir - daha büyük n ile bir model, iyi anlaşılmış bir uzay-zaman dengesi ile daha fazla bağlam depolayabilir ve küçük deneylerin verimli bir şekilde ölçeklenmesini sağlar.

Örnekler

Şekil 1 çeşitli disiplinlerden n -gram örnekleri
Tarla	Birim	Örnek dizi	1 gramlık dizi	2 gramlık dizi	3 gramlık dizi
yerel ad			unigram	bigram	trigram
Elde edilen Markov modelinin sırası			0	1	2
Protein dizilimi	amino asit	. . . Cys-Gly-Leu-Ser-Trp . . .	. . ., Cys, Gly, Leu, Ser, Trp, . . .	. . ., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, . . .	. . ., Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, . . .
DNA dizilimi	çift bazlı	. . . AGCTTCGA. . .	. . ., A, G, C, T, T, C, G, A, . . .	. . ., AG, GC, CT, TT, TC, CG, GA, . . .	. . ., AGC, GCT, CTT, TTC, TCG, CGA, . . .
Hesaplamalı dilbilimleri	karakter	...olmak ya da olmamak. . .	..., olmak ya da olmamak, . . .	..., to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, . . .	..., to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, . . .
Hesaplamalı dilbilimleri	kelime	... olmak ya da olmamak . . .	..., olmak ya da olmamak, . . .	..., olmak, olmak ya da olmamak, olmamak, olmak, . . .	..., olmak ya da olmamak ya da olmamak, olmamak, . . .

Şekil 1 birkaç örnek diziyi ve karşılık gelen 1-gram, 2-gram ve 3-gram dizilerini göstermektedir.

İşte diğer örnekler; bunlar Google n-gram korpusundan kelime düzeyinde 3 gram ve 4 gramdır (ve göründükleri sayı sayılarıdır).^[3]

3 gram

seramik koleksiyon parçaları (55)
seramik koleksiyon parçaları para cezası (130)
(52) tarafından toplanan seramikler
seramik koleksiyon çömlekleri (50)
seramik koleksiyon yemek pişirme (45)

4 gram

gelen olarak hizmet et (92)
kuluçka makinesi olarak hizmet et (99)
bağımsız olarak hizmet et (794)
indeks olarak hizmet et (223)
gösterge görevi görür (72)
gösterge görevi görür (120)

n-gram modelleri

Bir n-gram modeli dizileri, özellikle doğal diller, n-gramların istatistiksel özelliklerini kullanarak modeller.

Bu fikrin izini Claude Shannon'ın bilgi teorisindeki çalışmasıyla bir deneye kadar takip etmek mümkündür. Shannon şu soruyu sordu: bir harf dizisi verildiğinde (örneğin, "eski için" dizisi), bir sonraki harfin olasılığı nedir? Eğitim verilerinden, büyüklük geçmişi verilen bir sonraki harf için bir olasılık dağılımı elde edilebilir. $n$ : a = 0.4, b = 0.00001, c = 0, ....; tüm olası "sonraki harflerin" olasılıklarının toplamı 1.0'dır.

Daha kısaca, bir n-gram modeli tahmin eder $x_{i}$ dayalı $x_{i-(n-1)},\dots ,x_{i-1}$ . Olasılık açısından, bu $P(x_{i}\mid x_{i-(n-1)},\dots ,x_{i-1})$ . Dil modelleme için kullanıldığında, bağımsızlık varsayımları yapılır, böylece her kelime yalnızca son n'ye bağlıdır. - 1 kelime. Bu Markov modeli, gerçek temel dilin bir yaklaşımı olarak kullanılır. Bu varsayım önemlidir, çünkü dil modelini verilerden tahmin etme problemini büyük ölçüde basitleştirir. Ek olarak, dilin açık doğası nedeniyle, dil modelinin bilmediği kelimeleri birlikte gruplamak yaygındır.

Basit bir n-gram dil modelinde, önceki birkaç kelimeye (bigram modelinde bir kelime, trigram modelinde iki kelime, vb.) koşullu bir kelimenin olasılığının, kategorik bir dağılımın ardından tanımlanabileceğini unutmayın. (genellikle kesin olmayan bir şekilde "çok terimli dağılım" olarak adlandırılır).

Pratikte, olasılık dağılımları, görünmeyen kelimelere veya n-gramlara sıfır olmayan olasılıklar atanarak düzeltilir; bkz. yumuşatma teknikleri.

Sözdizimsel n-gramların başka bir türü, metnin konuşma bölümü dizilerinden çıkarılan sabit uzunlukta bitişik örtüşen alt diziler olarak tanımlanan konuşma bölümü n-gramlarıdır. Konuşma bölümü n-gramlarının, en yaygın olarak bilgi almada olmak üzere birkaç uygulaması vardır.^[4]

Ayrıca bakınız

kollokasyon
Gizli Markov modeli
n-tuple
dize çekirdeği
MinHash
Özellik çıkarma
En uzun ortak alt dize sorunu

Uygulamalar ve düşünceler

n-gram modelleri istatistiksel doğal dil işlemede yaygın olarak kullanılmaktadır. Konuşma tanımada, sesbirimler ve sesbirim dizileri bir n-gram dağılımı kullanılarak modellenir. Ayrıştırma için kelimeler, her n-gram n kelimeden oluşacak şekilde modellenir. Dil tanımlaması için, farklı diller için karakter/grafem dizileri (örneğin, alfabenin harfleri) modellenmiştir. Karakter dizileri için, "günaydın"dan oluşturulabilen 3 gram (bazen "trigram" olarak anılır) "goo", "ood", "od", "dm", "mo", "mor" şeklindedir. " vb., boşluk karakterini gram olarak sayma (bazen bir metnin başı ve sonu, "_ ⁠_g", "_go", "ng_" ve "g_ ⁠_" eklenerek açıkça modellenir). Kelime dizileri için, "köpek kokarca gibi kokuyordu" dan üretilebilecek trigramlar (zona) "# köpek", "köpek kokuyordu", "köpek kokuyordu", "gibi kokuyordu", "gibi bir kokarca" ve "bir kokarca #".

Ayrıca bakınız

kollokasyon
Gizli Markov modeli
n-tuple
dize çekirdeği
MinHash
Özellik çıkarma
En uzun ortak alt dize sorunu

Konuyla ilgili yayınlar

Christopher D. Manning, Hinrich Schütze, İstatistiksel Doğal Dil İşlemenin Temelleri, MIT Press: 1999.0-262-13360-1 ISBN'si 0-262-13360-1 .
Frederick J. Damerau, Markov Modelleri ve Dil Teorisi . Mouton. Lahey, 1971.

Kaynakça

^ Broder (1997). "Syntactic clustering of the web". Computer Networks and ISDN Systems. 29 (8): 1157-1166. doi:10.1016/s0169-7552(97)00031-7.
^ "Archived copy". 1 Ocak 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Ocak 2017.
^ Alex Franz and Thorsten Brants (2006). "All Our N-gram are Belong to You". Google Research Blog. 17 Ekim 2006 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2011.
^ Lioma (2008). "Part of Speech n-Grams and Information Retrieval" (PDF). French Review of Applied Linguistics. XIII (1): 9-22. 13 Mart 2018 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 12 Mart 2018 – Cairn vasıtasıyla.

Dış bağlantılar

Google'ın Google Kitaplar n-gram görüntüleyicisi 21 Mayıs 2022 tarihinde Wayback Machine sitesinde arşivlendi. ve Web n-gram veritabanı 17 Ekim 2006 tarihinde Wayback Machine sitesinde arşivlendi. (Eylül 2006)
Microsoft'un web n -gram hizmeti 24 Mayıs 2022 tarihinde Wayback Machine sitesinde arşivlendi.
STATOPERATOR N-gram Alexa Top 1M'deki her alan için Proje Ağırlıklı n -gram görüntüleyici 13 Ağustos 2021 tarihinde Wayback Machine sitesinde arşivlendi.
425 milyon kelime Corpus of Contemporary American English'ten en sık kullanılan 2,3,4,5 gram 1.000.000 21 Mayıs 2022 tarihinde Wayback Machine sitesinde arşivlendi.
Peachnote'un müzik ngram görüntüleyicisi 2 Mart 2022 tarihinde Wayback Machine sitesinde arşivlendi.
Stokastik Dil Modelleri ( n-Gram) Belirtimi 22 Nisan 2022 tarihinde Wayback Machine sitesinde arşivlendi. (W3C)
Michael Collins'in n -Gram Dil Modelleri üzerine notları 23 Ocak 2022 tarihinde Wayback Machine sitesinde arşivlendi.
OpenRefine: Derinlemesine Kümeleme 24 Mayıs 2022 tarihinde Wayback Machine sitesinde arşivlendi.

Şablon:Natural Language Processing

[1] Broder (1997). "Syntactic clustering of the web". Computer Networks and ISDN Systems. 29 (8): 1157-1166. doi:10.1016/s0169-7552(97)00031-7.

[2] "Archived copy". 1 Ocak 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Ocak 2017.

[3] Alex Franz and Thorsten Brants (2006). "All Our N-gram are Belong to You". Google Research Blog. 17 Ekim 2006 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2011.

[4] Lioma (2008). "Part of Speech n-Grams and Information Retrieval" (PDF). French Review of Applied Linguistics. XIII (1): 9-22. 13 Mart 2018 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 12 Mart 2018 – Cairn vasıtasıyla.

[1]

[2]

[3]

[4]