预备知识2-数据预处理学习笔记

21小时前浏览4

为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中，我们通常使用pandas软件包。像庞大的Python生态系统中的许多其他扩展包一样， pandas可以与张量兼容。

一、读取数据集

创建一个虚拟数据集

利用pandas读取csv数据

二、缺失值处理

“NaN”项代表缺失值。为了处理缺失的数据，典型的方法包括插值法和删除法，其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。

三、转换为张量格式

来源：檐苔

预备知识6-概率学习笔记

一、基本概率论在统计学中，我们把从概率分布中抽取样本的过程称为抽样（sampling）。将概率分配给一些离散选择的分布称为多项分布（multinomial distribution）。import torchfrom torch.distributions import multinomialfairProbs = torch.ones([6], dtype=torch.float32)/6.0# 多项分布Multinomial()是torch.distributions.multinomial中的一个类.# 接受四个参数(total_count=1, probs=None, logits=None, validate_args=None)# a.total_count接受的是int型参数，指的是单次抽样中样本的个数。# b.probs接受的是Tensor型参数，指的是各事件发生的概率，也可以传入频数。若传入的是频数，# 可以通过probs属性查看对应的概率分布。multinomial.Multinomial(1, fairProbs).probs# c.logits接受的是Tensor型参数，和probs的作用一样，不过其指的是各事件概率的自然对数.# 同样的也可以传入频数，在传入频数后可以通过logits属性查看对应的对数概率分布。# d.validate_args用于指定是否检查参数的合法性# sample()是类Multinomial()中用来抽样的函数。# 仅接收一个参数 (sample_shape=torch.Size())，用来指定要抽样的次数，# 默认情况下仅抽样一次，输出一个形状为(len(probs), )的张量，# 否则，输出为(sample_shape, len(probs))的张量。# 一次掷色print(multinomial.Multinomial(1, fairProbs).sample()) # tensor([0., 0., 1., 0., 0., 0.])# 多次掷色print(multinomial.Multinomial(10, fairProbs).sample()) # tensor([1., 2., 1., 1., 2., 3.])print(multinomial.Multinomial(1000, fairProbs).sample()) # tensor([192., 167., 148., 167., 152., 174.])count= multinomial.Multinomial(10000, fairProbs).sample()print(count/10000.0) # tensor([0.1711, 0.1716, 0.1684, 0.1632, 0.1649, 0.1608])# 随着次数的增加，各个样本逐渐收敛到真实的概率值counts = multinomial.Multinomial(10, fairProbs).sample((500,))print(counts)cum_counts = counts.cumsum(dim=0)print(cum_counts)estimates = cum_counts / cum_counts.sum(dim=1, keepdims=True)print(estimates)概率论公理在处理骰子掷出时，我们将集合S = {1, 2, 3, 4, 5, 6} 称为样本空间（sample space）或结果空间（outcome space），其中每个元素都是结果（outcome）。事件（event）是一组给定样本空间的随机结果。概率（probability）可以被认为是将集合映射到真实值的函数。在给定的样本空间S中，事件A的概率，表示为P(A)，满足以下属性：对于任意事件A，其概率从不会是负数，即P(A) ≥ 0；整个样本空间的概率为1，即P(S) = 1；对于互斥(mutually exclusive)事件(对于所有i≠j都有Ai ∩ Aj = ∅)的任意一个可数序列A1, A2, . . .，序列中任意一个事件发生的概率等于它们各自发生的概率之和，即随机变量（Random Variable）随机变量是概率论与统计学的核心概念，用于量化随机现象的结果。随机变量分为离散型和连续型两大类，其区别关键在于取值类型和概率描述方式：二、处理多个随机变量联合概率(joint probability)：多个事件同时发生的概率。对于任何a和b的取值，P(A = a, B = b) ≤ P(A = a)，即a事件和b事件同时发生的概率必然不大于a事件单独发生的概率。条件概率(conditional probability)：在一些事件发生的前提下，另一些事件发生的概率，记为P(B=b | A=a) = P(A=a, B=b)/P(A=a)。贝叶斯定理(Bayes’theorem)：P(A|B) = P(B|A)∙P(A)/P(B)边际化独立性：若随机变量A和B是独立的，则事件A的发生跟B事件的发生无关，其充要条件为：随机变量的联合分布是其各自分布的乘积，即P(A,B)=P(A)∙P(B)。同样地，给定另一个随机变量C时，随机变量A和B是条件独立的(conditionally independent)，当且仅当P(A,B|C) = P(A|C)∙P(B|C)。来源：檐苔