Weiping's notes

  • Home

  • Tags

  • Categories

  • Archives

  • Search

Hyperparameter Tuning in Sklearn

Posted on 2018-08-03 | In Toolkit
本文整理记录在sklearn中提供的模型调参的几个工具。涉及内容有cross_val_score、validation curves和GridSearchCV。 在机器学习中一般存在两种类型的参数: 从训练数据中学习到的参数,如逻辑回归的权重参数$W$ 。 超参数(hyperparameters) ...

Jensen不等式

Posted on 2018-07-21 | In Mathematics
Jensen不等式以丹麦数学家约翰·詹森(Johan Jensen)命名。它给出均值的凸函数值和凸函数的均值间的大小关系。 if $X$ is a random variable and $\varphi$ is a convex function, then$$\varphi(E[X]) \le ...

马氏距离与其推导

Posted on 2018-07-20 | In Mathematics
本文曾发表在博客园中,重新修订发表于此。 马氏距离就是用于度量两个坐标点之间的距离关系,表示数据的协方差距离。与尺度无关的(scale-invariant),即独立于测量尺度。 基本思想(intuition)如下图的过程(以两个维度作为例子),此例的数据重心为原点,$P1$,$P2$到原点的欧氏距离 ...

Vim中正则表达式汇总

Posted on 2018-07-19 | In Vim
在windows系统下用notepad++ 处理文本时最长用的就是正则表达式了,但是在linux的vim中用正则表达式的时候和notepad++ 中是有所不同的。 这些区别也不能全都记住,每次用的时候在上网搜索严重影响效率。 所以把一些基本的知识点记录下来,遂成此文。 查找替换vim 中正则表达式主 ...

Skewness and Kurtosis

Posted on 2018-07-13 | In Mathematics
偏度和峰度都是统计量 偏度Skewness(三阶) :三阶中心距除以标准差的三次方。描述分布偏离对称性程度的一个特征数。 峰度Kurtosis (四阶) :四阶中心矩除以标准差的平方 减去三。 用来反映频数分布曲线顶端尖峭或扁平程度的指标。 skew是研究数据分布对称的统计量。通过对偏度系数的测量 ...

贝叶斯线性回归与贝叶斯逻辑回归

Posted on 2018-07-11 | In Mathematics
在机器学习中经常会遇到概率问题,而在概率问题中经常出现的就是频率学派和贝叶斯学派。 频率学派:使用随机事件的发生的频率描述概率的方法,就是通常说的古典概型,或者称为频率学派。它试图从事件的整体来建模整个事件。如想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上 ...

信息检索评价指标

Posted on 2018-07-03 | In Concepts
nDCG(Normalized Discounted Cumulative Gain)源自一篇参考维基百科的文章 Normalized Discounted Cumulative Gain:一种对搜索引擎或相关程序有效性的度量。 2个假设: ​ 1.强相关的文档应该出现在结果列表前面,且越靠前 ...

TF-IDF

Posted on 2018-06-28 | In Application
在信息检索中每个term都会赋予一定的权值,TF-IDF是其最常见的权重,本节叙述term的TF-IDF的计算。如其名称,TF-IDF分为两个部分:词频TF和逆文档频率IDF。 词频TF权重词频(TF),即一个term在一个文档中出现的次数,一般来说,在某个文档中反复出现的term,往往能够表征文档 ...

拉普拉斯近似

Posted on 2018-06-27 | In Mathematics
在机器学习问题中,很多时候无法确定一个概率分布的具体密度函数,因而在对这种分布进行后续操作(例如,贝叶斯学派求后验概率时)时难度很大,无法进行。为了简化问题经常需要对这种复杂分布进行近似,从而方便计算或操作。目前常用的近似算法主要有三种:拉普拉斯近似、变分近似、Gibbs采样。拉普拉斯近似便是一种简 ...

可决系数(Coefficient of Determination)

Posted on 2018-06-16 | In Concepts
在scikit-learn中定义的回归问题模型评价指标有: explained_variance_score(explained_variance)mean_absolute_error(MAE)mean_squared_error(MSE)mean_squared_log_error(MSLE) ...
1234…7

Weiping

64 posts
12 categories
33 tags
GitHub E-Mail
© 2017 – 2020 Weiping