N-gram znamená postupnosť N slov. Napríklad „stredný blog“ je 2-gramový (bigram), „stredný blogový príspevok“ je 4-gramový a „písať na stredný“ je 3-gramový (trigram). Nebolo to veľmi zaujímavé ani vzrušujúce.
Aká je veľkosť n-gramu?
V oblasti výpočtovej lingvistiky a pravdepodobnosti je n-gram súvislý sled n položiek z danej vzorky textu alebo reči. ... Pomocou latinských numerických predpon je n-gram veľkosti 1 označovaný ako „unigram“; veľkosť 2 je „bigram“ (alebo menej často „digram“); veľkosť 3 je „trigram“.
Čo je to n-gramové vektory?
n-gramy sa používajú na opis predmetov ako vektorov. ... Jedným z najbežnejších použití je napríklad definovanie miery podobnosti medzi textovými dokumentmi na základe aplikácie matematickej funkcie na vektorové reprezentácie dokumentov.
Aké sú charakterové n-gramy?
Znaky n-gramy sa nachádzajú v textových dokumentoch tak, že dokument predstavujú ako postupnosť znakov. Tieto n-gramy sa potom extrahujú z tejto sekvencie a vycvičí sa model. Na tento účel existuje niekoľko rôznych modelov, ale štandardný je veľmi podobný modelu vreciek slov, ktorý sme použili predtým.