dropout Posted on 2018-10-03 | In Neural Networks Dropout简介Dropout 解决过拟合先介绍dropout是干什么的。 在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具表现在:模型在训练数据上损失函数值较小,预测准确率较高;但是在验证数据集上 ...
Simhash Posted on 2018-09-09 | In Application simhash是一种局部敏感hash。即,假定两个字符串具有一定的相似性,在hash之后,仍然能保持这种相似性,就称之为局部敏感hash。simhash被Google用来在海量文本中去重。 SimHash算法思想假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很 ...
字串相似度-编辑距离 Posted on 2018-09-09 | In Mathematics 字符串编辑距离 即 Levenshtein 距离 python库安装: pip install python-Levenshtein 使用 123import Levenshteinstr1="abc"str2="bac" edit distance(Levenshtein距离)一个字串转 ...
条件独立性 Posted on 2018-08-28 | In Mathematics 条件独立性定义多变量概率分布中的一个重要概念就是条件独立性(conditional independence)。 考虑三个变量$a$, $b$, $c$, 并且假设给定$b$, $c$的条件下$a$的条件概率分布不依赖于$b$的值,即:$$p(a| b, c) = p(a |c)$$此时我们说,给定 ...
python中类的实例化 __new__ Posted on 2018-08-21 | In Python __new__()是在新式类中新出现的方法,在Python2.7以前的版本在定义类时都要显示的继承object才能使用。 __new__()方法始终都是类的静态方法,即使没有被加上静态方法装饰器。__new__方法接受的参数虽然也是和__init__一样,但__init__是在类实例创建之后调用。 ...
Sum Rule and Product Rule in Probability Posted on 2018-08-17 | In Mathematics 举例假设我们有两个盒子,一个红色的,一个蓝色的,红盒子中有2个苹果和6个橘子,蓝盒子中有3个苹果和1个橘子。现在假定我们随机选择一个盒子,从这个盒子中我们随机选择一个水果,观察选择了哪种水果,然后放回盒子中。我们重复这个过程很多次。 在这个例子中,我们要选择的盒子的颜色是一个随机变量,这个随机变量可 ...
贝叶斯网-贝叶斯回归 Posted on 2018-08-17 | In Model 概述概率在现代机器学习模型中起着重要的作用。然而我们会发现,使用概率分布的图形表示进行分析很有好处。这种概率分布的图形表示被称为概率图模型(probabilistic graphical models)。概率模型的这种图形表示有如下性质: 它们提供了一种简单的方式将概率模型的结构可视化,可以用于设 ...
Decorators in Python Posted on 2018-08-07 | In Python 本文参考之前阅读过的文章Python 函数装饰器 和Python进阶中关于装饰器的内容整理而得。原文中存在一些内容我已经较为熟悉,稍微带过,重点记录不太熟悉的部分。 装饰器(Decorators)是 Python 的一个重要部分。简单地说:他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短 ...
OneHotEncoder in Sklearn Posted on 2018-08-06 | In Sklearn 最近在是有xgboost训练数据。在特征预处理阶段使用了OneHotEncoder来处理nominal类型的分类特征,模型训练好以后需要反过来分析特征,那么需要将原始数据中的特征与编码数据的特征对应起来。那么OneHotEncoder是怎么对应起来的呢? 通过其官方的例子分析了一下,下面记录如下。 ...
Xgboost Rank in Sklearn Posted on 2018-08-05 | In Sklearn xgboost提供了python接口,同时部分支持sklearn。在分类任务和回归任务中提供了XGBClassifier和XGBRegressor两个类,这两个类可以当做sklearn中的estimator使用,与sklearn无缝衔接。 xgboost是支持rank任务的,但是它却没有提供rank ...