数据科学算法ch9-奇异值分解与主成分分析
Posted on
Words count in article:
1.2k
|
Reading time ≈
4
奇异值分解与主成分分析在机器学习中,随着数据维度的升高,分类器的性能会先增加后降低。这可能是因为维度过高会导致过拟合问题。为了缓解过拟合,我们可以用数据降维。因此现在我们来学习两种常用的数据降维方法:奇异值分解(SVD) 和 主成分分析(PCA)
对于是方阵的数据,我们可以用特征值分解,但如果数据不
...
数据科学算法ch8-特征值计算
Posted on
Words count in article:
355
|
Reading time ≈
1
数据科学算法ch8-特征值计算幂法如果说 低阶方阵我们可以用搞死消元法来计算,但是在高阶方阵中,用这种方法显然效率太低。因此,我们需要找到快速的、高效的特征值和特征向量计算方法
幂法就是这样一种方法,是计算举证最大的特征值和对应特征向量的一种向量迭代法
算法过程:
首先,令初始向量 $x_0$
...
统计方法ch5-聚类1
Posted on
Words count in article:
5.3k
|
Reading time ≈
20
统计方法ch5-聚类1首先我们要来了解一下聚类思想。以类识物是人类认识世界的一种重要方式,但是人类自身是没有办法处理眼睛所捕获的大量信息的,因此我们通常会对个体的特征进行归纳,并将相似的个体归并为一类,一次来达到信息的整体性认识。比如说我们看到头上有”王”字的动物会将其归类与老虎,其实捕捉的是老虎脸
...
线性回归分析-矩阵版
Posted on
Words count in article:
5.2k
|
Reading time ≈
25
线性回归分析——PartII为什么我们一开始不讲矩阵呢?这是因为如果一上来就研究多元线性回归,就会忽略掉很多细节,而且还听不懂
线性回归的模型与假设多元线性回归就是多个x,其线性回归模型为:
y = \beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\
...
数据科学算法ch7-随机游走
Posted on
Words count in article:
3.6k
|
Reading time ≈
15
随机游走引入首先我们来复习一下联合概率分布
给定n个离散随机变量 $X_1,X_2,\cdots,X_n$ 分别取值为$x_1,x_2\cdots,x_n$的联合概率 $f(x_1,x_2\cdots,x_n)$ 表示为:
f(x_1,x_2\cdots,x_n) = P(X_1 = x_1,X_
...
数据科学算法ch5-数据流模型及频繁项挖掘
Posted on
Words count in article:
1.4k
|
Reading time ≈
4
数据流模型及频繁项挖掘在这一讲我们要学习什么是数据流,什么是数据流算法,怎么去评价一个数据流算法的好坏。
数据流和数据流模型首先我们要认识数据流,其具有一下几个特征
数据总量不受限制,因此我们很难准确估算数据量大小
数据到达速率块,比如大型强子对撞机可以每秒产生40EB的数据
数据到达次序不受约束
...
关系数据库及其基本实现原理
Posted on
Words count in article:
7.5k
|
Reading time ≈
27
关系数据库关系数据库简介之前我们学了文档数据库,文档数据库更像是面向对象的一种表示模式。但是关系数据库用表格来存储数据,我们将表格的每一列看成是一个属性。
工程师们一开始并没有提出关系模型,一种叫做网状模型,一种叫做层次模型。在六十年代,IBM推出的IMS系统就是使用层次模型,GE推出的IDS使用的
...
Nodejs基础5测试
Nodejs基础5测试Integration Testing和单元测试不一样,集成测试可以引入外部的一些信息(数据库)对我们设计的api进行调试。
Setting Up the Test Db我们需要真实的数据库来运行集成测试,但是我们又不想用已经创建好了的项目数据库来直接测试,因为在集成测试中,我
...
一元线性回归
Posted on
Words count in article:
626
|
Reading time ≈
2
线性回归的背景在实际问题中,感兴趣的变量y与易于获得的变量x之间存在紧密关联,但又不由变量x而唯一确定的,这种关系通常称为统计关系
若变量y与x间有统计关系,那么通常称y为因变量或者响应变量,x为自变量或者解释变量,这里x在机器学习方法中也会被称为特征。
在给定x的取值之后,y的取值是无法唯一确定的
...