NGram(N元语法)
NGram是一个Transformer,用来将序列形式的数据(通常是单词序列),按指定的整数N组合后成为新的序列。该算法通常被用在自然语言处理(nlp)任务的数据预处理步骤中。
NGram模型本身是计算机语言学上的一种常见的统计概率模型,在语言处理中经常需要通过一组单词的序列来判断后续单词出现的概率,这时就需要使用n元组合的数据作为输入。
参数
- inputCol: 需要转化的序列属性名称,该属性列用一个数组来表达序列。 (没有默认值)
- outputCol: 转化后的结果序列属性名称,该结果也用一个数组来表示。 (默认值: ngram_######__output)
- n: 定义用多少个序列值做组合。 (>=1的整数,默认值:2)
例子
1 | val wordDataFrame = spark.createDataFrame(Seq( |