数据科学算法ch8-特征值计算 Posted on 2021-11-09 Words count in article: 355 | Reading time ≈ 1 数据科学算法ch8-特征值计算幂法如果说 低阶方阵我们可以用搞死消元法来计算,但是在高阶方阵中,用这种方法显然效率太低。因此,我们需要找到快速的、高效的特征值和特征向量计算方法 幂法就是这样一种方法,是计算举证最大的特征值和对应特征向量的一种向量迭代法 算法过程: 首先,令初始向量 $x_0$ ... Read more »
统计方法ch5-聚类1 Posted on 2021-11-02 Words count in article: 5.3k | Reading time ≈ 20 统计方法ch5-聚类1首先我们要来了解一下聚类思想。以类识物是人类认识世界的一种重要方式,但是人类自身是没有办法处理眼睛所捕获的大量信息的,因此我们通常会对个体的特征进行归纳,并将相似的个体归并为一类,一次来达到信息的整体性认识。比如说我们看到头上有”王”字的动物会将其归类与老虎,其实捕捉的是老虎脸 ... Read more »
线性回归分析-矩阵版 Posted on 2021-11-01 Words count in article: 5.2k | Reading time ≈ 25 线性回归分析——PartII为什么我们一开始不讲矩阵呢?这是因为如果一上来就研究多元线性回归,就会忽略掉很多细节,而且还听不懂 线性回归的模型与假设多元线性回归就是多个x,其线性回归模型为: y = \beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\ ... Read more »
数据科学算法ch7-随机游走 Posted on 2021-10-31 Words count in article: 3.6k | Reading time ≈ 15 随机游走引入首先我们来复习一下联合概率分布 给定n个离散随机变量 $X_1,X_2,\cdots,X_n$ 分别取值为$x_1,x_2\cdots,x_n$的联合概率 $f(x_1,x_2\cdots,x_n)$ 表示为: f(x_1,x_2\cdots,x_n) = P(X_1 = x_1,X_ ... Read more »
数据科学算法ch5-数据流模型及频繁项挖掘 Posted on 2021-10-29 Words count in article: 1.4k | Reading time ≈ 4 数据流模型及频繁项挖掘在这一讲我们要学习什么是数据流,什么是数据流算法,怎么去评价一个数据流算法的好坏。 数据流和数据流模型首先我们要认识数据流,其具有一下几个特征 数据总量不受限制,因此我们很难准确估算数据量大小 数据到达速率块,比如大型强子对撞机可以每秒产生40EB的数据 数据到达次序不受约束 ... Read more »
关系数据库及其基本实现原理 Posted on 2021-10-25 Words count in article: 7.5k | Reading time ≈ 27 关系数据库关系数据库简介之前我们学了文档数据库,文档数据库更像是面向对象的一种表示模式。但是关系数据库用表格来存储数据,我们将表格的每一列看成是一个属性。 工程师们一开始并没有提出关系模型,一种叫做网状模型,一种叫做层次模型。在六十年代,IBM推出的IMS系统就是使用层次模型,GE推出的IDS使用的 ... Read more »
Nodejs基础5测试 Posted on 2021-10-16 | In node Words count in article: 165 | Reading time ≈ 1 Nodejs基础5测试Integration Testing和单元测试不一样,集成测试可以引入外部的一些信息(数据库)对我们设计的api进行调试。 Setting Up the Test Db我们需要真实的数据库来运行集成测试,但是我们又不想用已经创建好了的项目数据库来直接测试,因为在集成测试中,我 ... Read more »
一元线性回归 Posted on 2021-10-11 Words count in article: 626 | Reading time ≈ 2 线性回归的背景在实际问题中,感兴趣的变量y与易于获得的变量x之间存在紧密关联,但又不由变量x而唯一确定的,这种关系通常称为统计关系 若变量y与x间有统计关系,那么通常称y为因变量或者响应变量,x为自变量或者解释变量,这里x在机器学习方法中也会被称为特征。 在给定x的取值之后,y的取值是无法唯一确定的 ... Read more »
多重比较和双因子方差分析 Posted on 2021-10-07 Words count in article: 1.1k | Reading time ≈ 4 多重比较和双因子方差分析之前我们学习了单因子方差分析,单因子方差分析是用来比较分组之间均值是否相等的问题,但是当我们拒绝原假设之后,我们不知道哪些组是相等的,哪些组是不相等的。因此我们需要进一步考虑这个问题。 多重比较水平均值差的置信区间首先我们要想,到底是原假设成立的时候,因子A是显著的还是备择假 ... Read more »
数据科学与工程算法-哈希 Posted on 2021-09-24 Words count in article: 5.5k | Reading time ≈ 20 数据科学与工程算法-哈希算法引入首先我们提出两种情境: 判断用户名是否被注册 我们当然可以对用户名建立B+树索引,这样可以提高查询效率,复杂度为$O(\ln n)$ ,其中n为集合大小。 但是我们能不能找到$O(1)$复杂度的方法呢? 文本冗余检测 假设我们有搜索引擎定期爬取网页内容,但是爬 ... Read more »