首页/文章/ 详情

预备知识2-数据预处理学习笔记

21小时前浏览4
     为了能用深度学习来解决现实世界的问题,我们经常从预处理原始数据开始,而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中,我们通常使用pandas软件包。像庞大的Python生态系统中的许多其他扩展包一样, pandas可以与张量兼容。

一、读取数据集

创建一个虚拟数据集
利用pandas读取csv数据

二、缺失值处理

NaN”项代表缺失值。为了处理缺失的数据,典型的方法包括插值法和删除法,其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。

三、转换为张量格式

来源:檐苔
python
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-08-26
最近编辑:21小时前
青瓦松
硕士 签名征集中
获赞 14粉丝 1文章 45课程 0
点赞
收藏
作者推荐

预备知识6-概率学习笔记

一、基本概率论在统计学中,我们把从概率分布中抽取样本的过程称为抽样(sampling)。将概率分配给一些离散选择的分布称为多项分布 (multinomial distribution)。import torchfrom torch.distributions import multinomialfairProbs = torch.ones([6], dtype=torch.float32)/6.0# 多项分布Multinomial()是torch.distributions.multinomial中的一个类.# 接受四个参数(total_count=1, probs=None, logits=None, validate_args=None)# a.total_count接受的是int型参数,指的是单次抽样中样本的个数。# b.probs接受的是Tensor型参数,指的是各事件发生的概率,也可以传入频数。若传入的是频数,# 可以通过probs属性查看对应的概率分布。multinomial.Multinomial(1, fairProbs).probs# c.logits接受的是Tensor型参数,和probs的作用一样,不过其指的是各事件概率的自然对数.# 同样的也可以传入频数,在传入频数后可以通过logits属性查看对应的对数概率分布。# d.validate_args用于指定是否检查参数的合法性# sample()是类Multinomial()中用来抽样的函数。# 仅接收一个参数 (sample_shape=torch.Size()),用来指定要抽样的次数,# 默认情况下仅抽样一次,输出一个形状为(len(probs), )的张量,# 否则,输出为(sample_shape, len(probs))的张量。# 一次掷色print(multinomial.Multinomial(1, fairProbs).sample()) # tensor([0., 0., 1., 0., 0., 0.])# 多次掷色print(multinomial.Multinomial(10, fairProbs).sample()) # tensor([1., 2., 1., 1., 2., 3.])print(multinomial.Multinomial(1000, fairProbs).sample()) # tensor([192., 167., 148., 167., 152., 174.])count= multinomial.Multinomial(10000, fairProbs).sample()print(count/10000.0) # tensor([0.1711, 0.1716, 0.1684, 0.1632, 0.1649, 0.1608])# 随着次数的增加,各个样本逐渐收敛到真实的概率值counts = multinomial.Multinomial(10, fairProbs).sample((500,))print(counts)cum_counts = counts.cumsum(dim=0)print(cum_counts)estimates = cum_counts / cum_counts.sum(dim=1, keepdims=True)print(estimates)概率论公理在处理骰 子掷出时,我们将集 合S = {1, 2, 3, 4, 5, 6} 称为样本空间(sample space)或结果空间(outcome space),其中每个元素都是结果(outcome)。事件(event)是一组给定样本空间的随机结果。概率(probability)可以被认为是将集 合映射到真实值的函数。在给定的样本空间S中,事件A的概率,表示 为P(A),满足以下属性:对于任意事件A,其概率从不会是负数,即P(A) ≥ 0;整个样本空间的概率为1,即P(S) = 1;对于互斥(mutually exclusive)事件(对于所有i≠j都有Ai ∩ Aj = ∅)的任意一个可数序列A1, A2, . . ., 序列中任意一个事件发生的概率等于它们各自发生的概率之和,即 随机变量(Random Variable)随机变量是概率论与统计学的核心概念,用于量化随机现象的结果。随机变量分为离散型和连续型两大类,其区别关键在于取值类型和概率描述方式:二、处理多个随机变量联合概率(joint probability):多个事件同时发生的概率。对于任何a和b的取值,P(A = a, B = b) ≤ P(A = a),即a事件和b事件同时发生的概率必然不大于a事件单独发生的概率。条件概率(conditional probability):在一些事件发生的前提下,另一些事件发生的概率,记为P(B=b | A=a) = P(A=a, B=b)/P(A=a)。贝叶斯定理(Bayes’theorem):P(A|B) = P(B|A)∙P(A)/P(B)边际化独立性:若随机变量A和B是独立的,则事件A的发生跟B事件的发生无关,其充要条件为:随机变量的联合分布是其各自分布的乘积,即P(A,B)=P(A)∙P(B)。同样地,给定另一个随机变量C时,随机变量A和B是条件独立的(conditionally independent),当且仅当P(A,B|C) = P(A|C)∙P(B|C)。来源:檐苔

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈