Spark MLib 每周一算法 —— Word2Vec

2019-04-20

Word2Vec

Word2Vec是一个Estimator，顾名思义就是将给定的词(word)的序列转化成一个指定长度的向量值(vector)。Word2Vec的训练集就是一组语料，可以是任意文章的集合，通常将每个句子，即词的序列，作为一条输入项。Word2Vec的fit过程负责计算出这些语料中出现的词(word)的对应向量(vector)，从而生成Word2VecModel对象。transform过程就是根据每个单词的向量值求平均算出整个句子的向量值，从而给出最终结果。
实际在自然语言处理(nlp)的任务中，我们其实更关心的就是每个词的向量表达。我们可以把这个计算词向量表达的过程，即Word2Vec的整个fit过程，想象成——把一个词作为一个给定n维空间的点镶嵌到n维空间当中去，所以这个过程又被称为词嵌入(Embedding)。Embedding也可以认为是机器对人类语料进行学习的结果，机器从语料本身(不需要任何额外标注信息)得到了每个词的特征；获取了一种在机器世界表达词的方式，这种对词的表达方式可以用到后续任何语言学习任务当中去。
more >>

展开全文 >>

Spark MLib 每月一算法 —— NGram

2019-04-13

NGram(N元语法)

NGram是一个Transformer，用来将序列形式的数据(通常是单词序列)，按指定的整数N组合后成为新的序列。该算法通常被用在自然语言处理(nlp)任务的数据预处理步骤中。
NGram模型本身是计算机语言学上的一种常见的统计概率模型，在语言处理中经常需要通过一组单词的序列来判断后续单词出现的概率，这时就需要使用n元组合的数据作为输入。

more >>

展开全文 >>

Spark MLib 每周一算法 —— OneHotEncoder

2019-03-23

OneHotEncoder

OneHotEncoder是一个Estimator，用来将某个类别index属性(整数值)的值转化成向量值，该向量值的特点是每个分量不是0就是1，并且最多只有1个分量是1，这个分量是1即代表这条数据的这个特性取得特定的属性值，所以被称作One-Hot(独热)。这样的向量可以将离散分类数据变成可用于回归类算法的连续数据，特征的index属性值通常可以由之前介绍的StringIndexer从文本label值来生成。该算法通常被用在自然语言处理(nlp)任务中，对词典(vocabulary)数据中的每个单词(word)进行编码。
more >>

展开全文 >>

Spark MLib 每周一算法 —— GBTs

2019-03-16

GBTs(Gradient-boosted trees)

GBTs也是一种基于基础决策树(DecisionTree)的集成模型(Ensemble)，它通过迭代方式不断基于当前的决策树生成下一棵树，最终将这一系列决策树的结果组合产生最终的结果，从而进行分类或者回归。和RandomForests一样，集成模型的好处是可以非常好的避免过拟合(overfitting)问题，同时它也能使得一个性能比较差的弱决策树性能逐步变好。

Spark中根据GBTs的用法，实现了2个Estimator类，分别是用作分类(处理label是类别，Spark2.4.0版本只支持二分类(binary classification))的GBTClassifier和用作回归(处理label是连续数值)的GBTRegressor，从而两者也在fit训练数据后产出不同的模型对象，GBTClassificationModel和GBTRegressionModel。两者的区别主要在于产生下一棵树时使用的目标损失函数(Loss)。数据集被模型对象transform后的输出都包含了最终预测的分类或数值(prediction)，另外GBTClassificationModel额外输出各个基础决策树得到的分类结果的加权和(rawPrediction)以及这个数据在信号函数作用后的归一化值(probability)。
more >>

展开全文 >>

Spark MLib 每半年一算法 —— RandomForests

2019-03-10

RandomForests(随机森林)

RandomForests是一种集成模型(Ensemble)，它通过将一组基础决策树(DecisionTree)模型的判别结果组合起来，从而进行最终的分类或者回归。相比单个的DecisionTree模型，RandomForests的好处是可以非常好的避免过拟合(overfitting)问题，这一优点也是所有集成模型的优点；提高RandomForests中基础决策树的数量也能提升模型性能，但模型生成时间就会变长。

和DecisionTree一样，Spark中根据RandomForests的用法，实现了2个Estimator类，分别是用作分类(处理label是类别)的RandomForestClassifier和用作回归(处理label是连续数值)的RandomForestRegressor，从而两者也在fit训练数据后产出不同的模型对象，RandomForestClassificationModel和RandomForestRegressionModel。两者的区别主要在于各自使用的基础决策树模型和最终的模型结果组合算法上。数据集被模型对象transform后的输出都包含了最终预测的分类或数值(prediction)，另外RandomForestClassificationModel额外输出各个基础决策树得到的分类结果的和(rawPrediction)以及这个数据的归一化值(probability)。
more >>

展开全文 >>

Spark MLib 每季一算法 —— DecisionTree

2018-10-04

DecisionTree(决策树)

DecisionTree通常被用来做分类器，但算法本身也可以做回归(Regression)模型的。相比逻辑回归(Logistic regression)和线性回归(Linear regression)，使用决策树建立的分类器有很好的可解释新(人类能知道为什么)，能够直接处理离散型的属性(feature)数据，不需要对所有属性值进行归一化处理，能更好的识别非线性对应关系。而缺点就是过拟合比较严重，需要通过剪枝来解决，不过现在有ensemble method可以来处理，所以Spark里不提供对单个树剪枝的方法以及参数。

Spark中根据决策树的用法，实现了2个Estimator类，分别是用作分类(处理label是类别)的DecisionTreeClassifier和用作回归(处理label是连续数值)的DecisionTreeRegressor，从而两者也在fit训练数据后产出不同的模型对象，DecisionTreeClassificationModel和DecisionTreeRegressionModel。两者其实本质上没有差别，核心的不同就是IG(information gain)算法不一样，Spark之所以分2个类，主要是出于工程实现的原因，因为在Spark里回归和分类有一些统一处理的逻辑在各自的基类继承树中需要被重用。数据集被模型对象transform后的输出都包含了最终预测的分类或数值(prediction)，另外DecisionTreeClassificationModel额外输出测试数据最终所在叶子节点的各个label的个数(rawPrediction)以及这些个数占总数的比值(probability)，而DecisionTreeRegressionModel额外输出测试数据最终所在叶子节点的所有label值的方差(variance)

more >>

展开全文 >>

Spark MLib 每季一算法 —— CollaborativeFiltering

2018-07-01

CollaborativeFiltering(协同过滤)

CollaborativeFiltering通常被使用在推荐系统(recommender system)中，在Spark中使用协同过滤是通过ALS(alternating least squares/交替最小二乘)这样一个Estimator对象。输入带有一组用户(user)对于一组产品(item)的评分(rating)矩阵数据作为训练集，通过交替最小二乘算法fit出最合适的矩阵分解数值(即ALSModel对象)，再通过分解后的用户向量和产品向量transform出用户产品矩阵中的缺失值作为某个用户针对某个产品的预测评分(prediction)。

more >>

展开全文 >>

Spark MLib 每月一算法 —— QuantileDiscretizer

2018-03-29

QuantileDiscretizer

QuantileDiscretizer是一个Estimator，用来将某个连续值类型的属性转化成离散的数字分类编码属性，以便后续其他适用于数字编码的算法使用。离散化的过程也被称作分箱(Bucketizer)。
从算法名称可以看出QuantileDiscretizer是通过分位数来确定每一个箱体(bucket)的范围，比如希望将数据分成2组，那么这2组的范围分别会是[-Infinity,中位数]和[中位数,+Infinity]。但由于实际中严格获取分位点比较耗时，所以Spark采取近似算法，用户预先给出可以接受的近似误差。
QuantileDiscretizer需要根据已有训练集数据来进行fit，得到数据集对应的箱体编码model，后续有新的属性数据会被transform到对应的箱体中，针对Null值数据可以设置handleInvalid参数来处理。

more >>

展开全文 >>

Spark MLib 每月一算法 —— NaiveBayes

2018-03-09

NaiveBayes(朴素贝叶斯)

NaiveBayes是一个Estimator，是比较基础的分类算法。输入带有label和features列的训练集得到分类器模型；NaiveBayesModel是spark对训练集fit后的模型对象，该对象中存放了模型为了预测最终概率而存放的一些中间值，比如所有分类在数据集中的先验概率对数；最终transform新数据的输出包含了原有输入信息，先验概率与条件概率乘积后的对数(raw prediction)，各个分类值的后验概率(probability)以及最终预测的分类(prediction)。

more >>

展开全文 >>

Spark MLib 每周一算法 —— LogisticRegression

2018-02-19

LogisticRegression(逻辑回归)

LogisticRegression是一个Estimator，是常用的分类算法之一。输入带有label和features列的训练集得到分类器模型；LogisticRegressionModel是spark对训练集fit后的模型对象，该对象中存放了各个线性属性的系数值和LogisticRegressionSummary对象(Spark2.2.0暂时只实现了二分类的summary)，summary对象理存放了模型的一些性能指标信息，比如ROC等；最终transform新数据的输出包含了原有输入信息，线性回归的因变量值(raw prediction)，作用逻辑函数/Softmax函数后的几率值(probability)以及最终预测的分类(prediction)。

more >>

展开全文 >>