一元线性回归 Posted on 2021-10-11 Words count in article: 626 | Reading time ≈ 2 线性回归的背景在实际问题中,感兴趣的变量y与易于获得的变量x之间存在紧密关联,但又不由变量x而唯一确定的,这种关系通常称为统计关系 若变量y与x间有统计关系,那么通常称y为因变量或者响应变量,x为自变量或者解释变量,这里x在机器学习方法中也会被称为特征。 在给定x的取值之后,y的取值是无法唯一确定的 ... Read more »
多重比较和双因子方差分析 Posted on 2021-10-07 Words count in article: 1.1k | Reading time ≈ 4 多重比较和双因子方差分析之前我们学习了单因子方差分析,单因子方差分析是用来比较分组之间均值是否相等的问题,但是当我们拒绝原假设之后,我们不知道哪些组是相等的,哪些组是不相等的。因此我们需要进一步考虑这个问题。 多重比较水平均值差的置信区间首先我们要想,到底是原假设成立的时候,因子A是显著的还是备择假 ... Read more »
数据科学与工程算法-哈希 Posted on 2021-09-24 Words count in article: 5.5k | Reading time ≈ 20 数据科学与工程算法-哈希算法引入首先我们提出两种情境: 判断用户名是否被注册 我们当然可以对用户名建立B+树索引,这样可以提高查询效率,复杂度为$O(\ln n)$ ,其中n为集合大小。 但是我们能不能找到$O(1)$复杂度的方法呢? 文本冗余检测 假设我们有搜索引擎定期爬取网页内容,但是爬 ... Read more »
数据管理系统-文档数据库设计 Posted on 2021-09-21 Words count in article: 1.6k | Reading time ≈ 5 文档数据库-索引文档数据库的索引采用的数据结构是B树。关于B树的创建、删除在这里就不说了,仅说说索引的创建与使用。 索引一般不会自动创建,需要我们手动为一个属性创建索引。创建了索引之后,查询的速度会快很多 mongodb创建索引的方式是:db.myCollection.createIndex({&q ... Read more »
数据科学算法基础-尾概率 Posted on 2021-09-15 Words count in article: 697 | Reading time ≈ 2 数据科学算法基础-尾概率引入我们现在抛一枚均匀的硬币,正面和反面朝上的概率都是0.5,而且每次抛币都是独立的。知觉上,抛的次数越多正面朝上的概率越接近于0.5。如下图所示: 那么,如果我要计算到底抛多少次才能以$95\%$ 的概率保证正面朝上的频率和真实概率间的差距小于某个阈值(0.125)呢? ... Read more »
数据科学算法基础-抽样算法 Posted on 2021-09-14 Words count in article: 1.7k | Reading time ≈ 6 抽样算法在聊抽样算法之前,我们首先谈一下样本。 样本是总体的一个子集,对其进行观察以获得关于总体的信息。研究样本的目的在于得到有关总体的有效结论(概率论中学过,详见参数估计博客) 常见的抽样技术有: 简单随机抽样 系统抽样 分层抽样 聚类抽样 多阶段抽样 所有的这些方法都属于概率抽样 常见抽样 ... Read more »
软件优化-宾利法则 Posted on 2021-09-13 Words count in article: 4.8k | Reading time ≈ 20 软件优化-宾利法则现在我们来讲宾利法则,这个宾利不是车企,而是一个计算机学家。他提出了软件优化的若干法则。主要分为四个部分:数据结构,循环,逻辑,函数。每个部分又分为若干小点,现在我们来一一讲解 Data structuresPacking and encoding 压缩和编码压缩的概念是用相同的机 ... Read more »
单因子方差分析 Posted on 2021-09-10 Words count in article: 5k | Reading time ≈ 22 单因子方差分析Review:二样本独立t检验首先我们复习一下二样本独立t检验,因为这时单因子方差分析的一种特殊情况。 目的: 比较两个方差相等的独立正态分布的均值是否相等。 数据: \text{样本1:~~}x_{11},x_{12},\cdots,x_{1m_1}\\ \text{样本2:~~} ... Read more »
数据管理系统1-2章 Posted on 2021-09-08 Words count in article: 2.5k | Reading time ≈ 8 数据管理系统1-2章预备知识什么是系统系统要拥有的性能: 通用性 隔离性 精巧性 什么是数据管理系统首先,数据管理系统要有数据存放功能,这是最基本的要求。其次,要有数据组织的功能,因为一个系统里面有很多结构复杂的数据,该系统要能够在需要时迅速找到这些数据。再来,要有数据正确的功能,比如说银行的数 ... Read more »
h5c3-网页制作 Posted on 2021-08-27 Words count in article: 3k | Reading time ≈ 12 Part3 -网页制作现在我们的目标就是做一个网站。我们将学习网站制作的步骤流程以及如何让我们的网站变得更加好看 我们需要会的技能: Semantic HTML Basic CSS properties Selectors & pseudo-selectors CSS box mod ... Read more »