Python - 标记化
-
简述
Python 标记化基本上是指将较大的文本体拆分为较小的行、单词,甚至为非英语语言创建单词。nltk 模块本身内置了各种标记化功能,可以在程序中使用,如下所示。 -
线标记化
在下面的示例中,我们使用函数 sent_tokenize 将给定的文本分成不同的行。当我们运行上述程序时,我们得到以下输出 - -
非英语标记化
在下面的示例中,我们标记了德语文本。当我们运行上述程序时,我们得到以下输出 - -
Word Tokenzitaion
我们使用作为 nltk 一部分的 word_tokenize 函数对单词进行标记。当我们运行上述程序时,我们得到以下输出 -