Jason‘s Blog


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Sitemap

  • Search

数据科学算法ch7-随机游走

Posted on 2021-10-31
Words count in article: 3.6k | Reading time ≈ 15
随机游走引入首先我们来复习一下联合概率分布 给定n个离散随机变量 $X_1,X_2,\cdots,X_n$ 分别取值为$x_1,x_2\cdots,x_n$的联合概率 $f(x_1,x_2\cdots,x_n)$ 表示为: f(x_1,x_2\cdots,x_n) = P(X_1 = x_1,X_ ...
Read more »

数据科学算法ch5-数据流模型及频繁项挖掘

Posted on 2021-10-29
Words count in article: 1.4k | Reading time ≈ 4
数据流模型及频繁项挖掘在这一讲我们要学习什么是数据流,什么是数据流算法,怎么去评价一个数据流算法的好坏。 数据流和数据流模型首先我们要认识数据流,其具有一下几个特征 数据总量不受限制,因此我们很难准确估算数据量大小 数据到达速率块,比如大型强子对撞机可以每秒产生40EB的数据 数据到达次序不受约束 ...
Read more »

关系数据库及其基本实现原理

Posted on 2021-10-25
Words count in article: 7.5k | Reading time ≈ 27
关系数据库关系数据库简介之前我们学了文档数据库,文档数据库更像是面向对象的一种表示模式。但是关系数据库用表格来存储数据,我们将表格的每一列看成是一个属性。 工程师们一开始并没有提出关系模型,一种叫做网状模型,一种叫做层次模型。在六十年代,IBM推出的IMS系统就是使用层次模型,GE推出的IDS使用的 ...
Read more »

Nodejs基础5测试

Posted on 2021-10-16 | In node
Words count in article: 165 | Reading time ≈ 1
Nodejs基础5测试Integration Testing和单元测试不一样,集成测试可以引入外部的一些信息(数据库)对我们设计的api进行调试。 Setting Up the Test Db我们需要真实的数据库来运行集成测试,但是我们又不想用已经创建好了的项目数据库来直接测试,因为在集成测试中,我 ...
Read more »

一元线性回归

Posted on 2021-10-11
Words count in article: 626 | Reading time ≈ 2
线性回归的背景在实际问题中,感兴趣的变量y与易于获得的变量x之间存在紧密关联,但又不由变量x而唯一确定的,这种关系通常称为统计关系 若变量y与x间有统计关系,那么通常称y为因变量或者响应变量,x为自变量或者解释变量,这里x在机器学习方法中也会被称为特征。 在给定x的取值之后,y的取值是无法唯一确定的 ...
Read more »

多重比较和双因子方差分析

Posted on 2021-10-07
Words count in article: 1.1k | Reading time ≈ 4
多重比较和双因子方差分析之前我们学习了单因子方差分析,单因子方差分析是用来比较分组之间均值是否相等的问题,但是当我们拒绝原假设之后,我们不知道哪些组是相等的,哪些组是不相等的。因此我们需要进一步考虑这个问题。 多重比较水平均值差的置信区间首先我们要想,到底是原假设成立的时候,因子A是显著的还是备择假 ...
Read more »

数据科学与工程算法-哈希

Posted on 2021-09-24
Words count in article: 5.5k | Reading time ≈ 20
数据科学与工程算法-哈希算法引入首先我们提出两种情境: 判断用户名是否被注册 我们当然可以对用户名建立B+树索引,这样可以提高查询效率,复杂度为$O(\ln n)$ ,其中n为集合大小。 但是我们能不能找到$O(1)$复杂度的方法呢? 文本冗余检测 假设我们有搜索引擎定期爬取网页内容,但是爬 ...
Read more »

数据管理系统-文档数据库设计

Posted on 2021-09-21
Words count in article: 1.6k | Reading time ≈ 5
文档数据库-索引文档数据库的索引采用的数据结构是B树。关于B树的创建、删除在这里就不说了,仅说说索引的创建与使用。 索引一般不会自动创建,需要我们手动为一个属性创建索引。创建了索引之后,查询的速度会快很多 mongodb创建索引的方式是:db.myCollection.createIndex({&q ...
Read more »

数据科学算法基础-尾概率

Posted on 2021-09-15
Words count in article: 697 | Reading time ≈ 2
数据科学算法基础-尾概率引入我们现在抛一枚均匀的硬币,正面和反面朝上的概率都是0.5,而且每次抛币都是独立的。知觉上,抛的次数越多正面朝上的概率越接近于0.5。如下图所示: 那么,如果我要计算到底抛多少次才能以$95\%$ 的概率保证正面朝上的频率和真实概率间的差距小于某个阈值(0.125)呢? ...
Read more »

数据科学算法基础-抽样算法

Posted on 2021-09-14
Words count in article: 1.7k | Reading time ≈ 6
抽样算法在聊抽样算法之前,我们首先谈一下样本。 样本是总体的一个子集,对其进行观察以获得关于总体的信息。研究样本的目的在于得到有关总体的有效结论(概率论中学过,详见参数估计博客) 常见的抽样技术有: 简单随机抽样 系统抽样 分层抽样 聚类抽样 多阶段抽样 所有的这些方法都属于概率抽样 常见抽样 ...
Read more »
<i class="fa fa-angle-left"></i>1…91011…45<i class="fa fa-angle-right"></i>

Jason

442 posts
11 categories
64 tags
GitHub E-Mail
Links
  • 友链:杨弘的博客
  • 友链:赵奕轲的博客
  • Like it, STAR ME
0%
© 2025 Jason