Weiping's notes

  • Home

  • Tags

  • Categories

  • Archives

  • Search

dropout

Posted on 2018-10-03 | In Neural Networks
Dropout简介Dropout 解决过拟合先介绍dropout是干什么的。 在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具表现在:模型在训练数据上损失函数值较小,预测准确率较高;但是在验证数据集上 ...

Simhash

Posted on 2018-09-09 | In Application
simhash是一种局部敏感hash。即,假定两个字符串具有一定的相似性,在hash之后,仍然能保持这种相似性,就称之为局部敏感hash。simhash被Google用来在海量文本中去重。 SimHash算法思想假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很 ...

字串相似度-编辑距离

Posted on 2018-09-09 | In Mathematics
字符串编辑距离 即 Levenshtein 距离 python库安装: ​ pip install python-Levenshtein 使用 123import Levenshteinstr1="abc"str2="bac" edit distance(Levenshtein距离)一个字串转 ...

条件独立性

Posted on 2018-08-28 | In Mathematics
条件独立性定义多变量概率分布中的一个重要概念就是条件独立性(conditional independence)。 考虑三个变量$a$, $b$, $c$, 并且假设给定$b$, $c$的条件下$a$的条件概率分布不依赖于$b$的值,即:$$p(a| b, c) = p(a |c)$$此时我们说,给定 ...

python中类的实例化 __new__

Posted on 2018-08-21 | In Python
__new__()是在新式类中新出现的方法,在Python2.7以前的版本在定义类时都要显示的继承object才能使用。 __new__()方法始终都是类的静态方法,即使没有被加上静态方法装饰器。__new__方法接受的参数虽然也是和__init__一样,但__init__是在类实例创建之后调用。 ...

Sum Rule and Product Rule in Probability

Posted on 2018-08-17 | In Mathematics
举例假设我们有两个盒子,一个红色的,一个蓝色的,红盒子中有2个苹果和6个橘子,蓝盒子中有3个苹果和1个橘子。现在假定我们随机选择一个盒子,从这个盒子中我们随机选择一个水果,观察选择了哪种水果,然后放回盒子中。我们重复这个过程很多次。 在这个例子中,我们要选择的盒子的颜色是一个随机变量,这个随机变量可 ...

贝叶斯网-贝叶斯回归

Posted on 2018-08-17 | In Model
概述概率在现代机器学习模型中起着重要的作用。然而我们会发现,使用概率分布的图形表示进行分析很有好处。这种概率分布的图形表示被称为概率图模型(probabilistic graphical models)。概率模型的这种图形表示有如下性质: 它们提供了一种简单的方式将概率模型的结构可视化,可以用于设 ...

Decorators in Python

Posted on 2018-08-07 | In Python
本文参考之前阅读过的文章Python 函数装饰器 和Python进阶中关于装饰器的内容整理而得。原文中存在一些内容我已经较为熟悉,稍微带过,重点记录不太熟悉的部分。 装饰器(Decorators)是 Python 的一个重要部分。简单地说:他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短 ...

OneHotEncoder in Sklearn

Posted on 2018-08-06 | In Sklearn
最近在是有xgboost训练数据。在特征预处理阶段使用了OneHotEncoder来处理nominal类型的分类特征,模型训练好以后需要反过来分析特征,那么需要将原始数据中的特征与编码数据的特征对应起来。那么OneHotEncoder是怎么对应起来的呢? 通过其官方的例子分析了一下,下面记录如下。 ...

Xgboost Rank in Sklearn

Posted on 2018-08-05 | In Sklearn
xgboost提供了python接口,同时部分支持sklearn。在分类任务和回归任务中提供了XGBClassifier和XGBRegressor两个类,这两个类可以当做sklearn中的estimator使用,与sklearn无缝衔接。 xgboost是支持rank任务的,但是它却没有提供rank ...
123…7

Weiping

64 posts
12 categories
33 tags
GitHub E-Mail
© 2017 – 2020 Weiping