dropout

Posted on 2018-10-03 | In Neural Networks

Dropout简介Dropout 解决过拟合先介绍dropout是干什么的。在机器学习的模型中，如果模型的参数太多，而训练样本又太少，训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具表现在：模型在训练数据上损失函数值较小，预测准确率较高；但是在验证数据集上 ...

Simhash

Posted on 2018-09-09 | In Application

simhash是一种局部敏感hash。即，假定两个字符串具有一定的相似性，在hash之后，仍然能保持这种相似性，就称之为局部敏感hash。simhash被Google用来在海量文本中去重。 SimHash算法思想假设我们有海量的文本数据，我们需要根据文本内容将它们进行去重。对于文本去重而言，目前有很 ...

字串相似度-编辑距离

Posted on 2018-09-09 | In Mathematics

字符串编辑距离即 Levenshtein 距离 python库安装： pip install python-Levenshtein 使用 123import Levenshteinstr1="abc"str2="bac" edit distance(Levenshtein距离)一个字串转 ...

条件独立性

Posted on 2018-08-28 | In Mathematics

条件独立性定义多变量概率分布中的一个重要概念就是条件独立性(conditional independence)。考虑三个变量$a$, $b$, $c$，并且假设给定$b$, $c$的条件下$a$的条件概率分布不依赖于$b$的值，即：$$p(a| b, c) = p(a |c)$$此时我们说，给定 ...

python中类的实例化 new

Posted on 2018-08-21 | In Python

__new__()是在新式类中新出现的方法，在Python2.7以前的版本在定义类时都要显示的继承object才能使用。 __new__()方法始终都是类的静态方法，即使没有被加上静态方法装饰器。__new__方法接受的参数虽然也是和__init__一样，但__init__是在类实例创建之后调用。 ...

Sum Rule and Product Rule in Probability

Posted on 2018-08-17 | In Mathematics

举例假设我们有两个盒子，一个红色的，一个蓝色的，红盒子中有2个苹果和6个橘子，蓝盒子中有3个苹果和1个橘子。现在假定我们随机选择一个盒子，从这个盒子中我们随机选择一个水果，观察选择了哪种水果，然后放回盒子中。我们重复这个过程很多次。在这个例子中，我们要选择的盒子的颜色是一个随机变量，这个随机变量可 ...

贝叶斯网-贝叶斯回归

Posted on 2018-08-17 | In Model

概述概率在现代机器学习模型中起着重要的作用。然而我们会发现，使用概率分布的图形表示进行分析很有好处。这种概率分布的图形表示被称为概率图模型（probabilistic graphical models）。概率模型的这种图形表示有如下性质：它们提供了一种简单的方式将概率模型的结构可视化，可以用于设 ...

Decorators in Python

Posted on 2018-08-07 | In Python

本文参考之前阅读过的文章Python 函数装饰器和Python进阶中关于装饰器的内容整理而得。原文中存在一些内容我已经较为熟悉，稍微带过，重点记录不太熟悉的部分。装饰器(Decorators)是 Python 的一个重要部分。简单地说：他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短 ...

OneHotEncoder in Sklearn

Posted on 2018-08-06 | In Sklearn

最近在是有xgboost训练数据。在特征预处理阶段使用了OneHotEncoder来处理nominal类型的分类特征，模型训练好以后需要反过来分析特征，那么需要将原始数据中的特征与编码数据的特征对应起来。那么OneHotEncoder是怎么对应起来的呢？通过其官方的例子分析了一下，下面记录如下。 ...

Xgboost Rank in Sklearn

Posted on 2018-08-05 | In Sklearn

xgboost提供了python接口，同时部分支持sklearn。在分类任务和回归任务中提供了XGBClassifier和XGBRegressor两个类，这两个类可以当做sklearn中的estimator使用，与sklearn无缝衔接。 xgboost是支持rank任务的，但是它却没有提供rank ...