Pytorch的DataLoader和Dataset以及TensorDataset的源码分析和使用_百

admin•2025-03-20 09:01:45•建站资讯•阅读90

2024年5月20日发(作者：)

Pytorch的DataLoader和Dataset以及TensorDataset

的源码分析和使用

首先，我们来看一下DataLoader的源码。DataLoader是一个能够提

供批量数据的迭代器，方便我们对数据进行批量处理。下面是

DataLoader类的简化源码：

```python

class DataLoader(object):

def __init__(self, dataset, batch_size=1, shuffle=False):

t = dataset

_size = batch_size

e = shuffle

def __iter__(self):

if e:

#打乱数据

indices = rm(len(t))

else:

indices = (len(t))

# 根据batch size划分数据

for i in range(0, len(indices), _size):

yield t[indices[i:i+_size]]

def __len__(self):

return len(t) // _size

```

我们可以看到，DataLoader接受一个Dataset对象作为输入，以及

一个batch_size参数用于指定批量大小。shuffle参数用于控制是否打

乱数据。在迭代过程中，首先根据shuffle参数来打乱数据或者保持顺序。

然后，根据batch size将数据划分成多个批量，并使用yield关键字返

回每个批量。

接下来，我们来看一下Dataset的源码。Dataset是一个抽象类，用

于表示数据集。我们需要继承这个类并实现自己的数据集。下面是

Dataset类的简化源码：

```python

class Dataset(object):

def __getitem__(self, index):

raise NotImplementedError

def __len__(self):

raise NotImplementedError

```

我们可以看到，Dataset类提供了两个抽象方法：__getitem__和

__len__。__getitem__方法接受一个索引参数，用于获取数据集中指定索

引位置的数据样本。__len__方法返回数据集的大小。

最后，我们来看一下TensorDataset的源码。TensorDataset是

Dataset的一个子类，用于处理张量数据。下面是TensorDataset类的简

化源码：

```python

class TensorDataset(Dataset):

def __init__(self, *tensors):

assert all(tensors[0].size(0) == (0) for tensor

in tensors)

s = tensors

def __getitem__(self, index):

return tuple(tensor[index] for tensor in s)

def __len__(self):

return s[0].size(0)

```

我们可以看到，TensorDataset接受一组张量作为输入，并对这组张

量做一些检查以确保它们具有相同的第一维大小。之后，__getitem__方

法会返回这组张量中指定索引位置的数据样本，以元组的形式返回。

__len__方法返回张量的第一维大小。

现在，我们来看一下如何使用这些类来处理和加载数据。首先，我们

需要准备一个TensorDataset对象，将我们的数据张量传递给它：

```python

from import TensorDataset

#创建数据张量

x = ([[1, 2], [3, 4], [5, 6]])

y = ([0, 1, 0])

#创建数据集

dataset = TensorDataset(x, y)

```

然后，我们可以使用DataLoader来加载这个数据集，并指定批量大

小和是否打乱数据：

```python

from import DataLoader

#创建数据加载器

dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

#打印每个批量的数据

for batch in dataloader:

print(batch)

```

在上面的代码中，我们创建了一个批量大小为2的DataLoader，并

将数据集传递给它。然后，我们使用for循环来迭代DataLoader，每次

迭代返回一个批量的数据。我们可以根据需要在循环中对每个批量进行处

理。

综上所述，Pytorch的DataLoader、Dataset和TensorDataset是用

于处理和加载训练数据的重要工具。DataLoader提供了一个方便的迭代

器来获取批量数据，Dataset是数据集的抽象表示，而TensorDataset是

用于处理张量数据的具体实现。通过合理地使用这些类，我们可以更加高

效地处理和加载训练数据。

发布者：admin，转转请注明出处：http://www.yc00.com/news/1716211444a2726711.html

数据批量处理

admin

网站建设
ChatGPT 数据分析与处理使用详解
### ChatGPT在数据分析与处理中的使用详解在当今信息爆炸的时代，数据分析和处理已成为各行各业不可或缺的重要技能。随着人工智能技术的快速发展，ChatGPT作为一种强大的自然语言处理工具
admin
1月前
20
网站建设
windows系统下如何使用ipmitool工具批量管理服务器 ?
工具介绍 ： ipmitool 是一种可用在 linux 或windows系统下的命令行方式的 ipmi 平台管理工具，它支持 ipmi 1.5 规范（最新的规范为 ipm
admin
29天前
20
网站建设
Win11如何关闭个人数据跨境传输功能
Win11如何关闭个人数据跨境传输功能在近期，一些用户在更新Windows 11系统后遇到了一个提示：“同意个人数据跨境传输”。这一功能原本是微软为了保护用户数据安全，防止个人数据在不同设备之间自动传输和同步而推出的一项措施。然而，对于
admin
26天前
30
网站建设
为何excel中数据无法计算机,电脑excel表格数据改不了-Excel单元格里面的数字改不动怎么办...
如何让excel表格中的数据不允许修改不能修改excel表格中的数据的问题为什么在EXCEL表格中不能更改数据 EXCEL软件本身出现了一些漏洞，解决办法: 1、单击“office”。 2、在弹出的下拉菜单中&am
admin
26天前
10
网站建设
数据透视表右侧字段不见了，怎么办？
数据透视表右侧字段不见了，怎么办？ 点击“右键”——选择“显示字段列表”
admin
26天前
10
网站建设
Microsoft office 办公工具 OneNote同步冲突、同步失败问题解决，以及导入印象笔记数据
一、OneNote 功能很强大，界面也很友好，跟平时用的office办公软件都十分类似，符合习惯，但由于云笔记需要数据库服务器Onedrive&
admin
24天前
10
网站建设
在window平台大模型LoRA微调实战（完整代码带数据）
一大模型LoRA微调环境 1 LORA微调环境： 关键硬件配置 ：3060显卡 12G的显存操作系统：window 10 64位开发工具：
admin
24天前
30
网站建设
u盘恢复数据，快速找回删除文件，请认准这4招
U盘，作为我们日常生活中常见的存储工具，里边可能放着工作文档、学习资料或拍摄的美照。如果你在电脑上使用U盘时，不小心将数据删除了，该怎么办呢&#
admin
24天前
10
网站建设
优盘驱动器未格式化：数据拯救行动指南
优盘困境：驱动器未格式化的挑战在日常的数据存储与传输中，优盘以其便携性和高容量成为了我们不可或缺的伙伴。然而，当您尝试访问优盘时，突然弹出的“驱动器
admin
24天前
10
网站建设
Python-记一次U盘中病毒及文件找回_python恢复u盘数据(1)
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了
admin
24天前
10
网站建设
相机格式化怎么恢复数据？记住这个实用办法！
相机里的照片不小心被格式化了，还能恢复照片吗？别担心，恢复照片还是有可能的。本篇文章会告诉你，如果相机被格式化了，怎么找回那些珍贵
admin
24天前
10
网站建设
数据销毁，确保硬盘数据无法恢复
数字化时代，数据的价值不言而喻，保护数据安全不仅仅是防止数据丢失，我们还要知道如何防止数据泄露。比如，当我们不再需要某些数据时，要
admin
24天前
00
网站建设
U盘变成RAW格式怎么办？数据如何恢复？
U盘类型显示为RAW，导致无法正常读取或写入数据，怎么办？这种情况一般都表示U盘的文件系统无法被操作系统识别，可能原因包括：不正确
admin
24天前
10
网站建设
java opendht_GitHub - DHT-openyouseed-spider-saver-public: DHT磁力爬虫入库程序，将爬取到的数据保存至Mongo、ES或者Mysql...
Youseed磁力爬虫入库程序此程序使用Java编写，负责将rabbitMQ消息队列中的数据保存至数据库或者搜索引擎。注意：此程序是上图右侧方框“保存磁力数据”的部分。此程序仅用作技术学习和
admin
23天前
10
网站建设
在Windows系统中使用脚本定时备份和恢复MySQL数据库的数据
1. 定时备份 1.1 创建备份脚本创建脚本：back.bat rem ******MySQL backup start******echo off::删除一周前的备份数据forfiles p "
admin
23天前
30
网站建设
SAP-PM设备模块-PM主数据之设备BOM
1、简介： 根据设备维修所需要的备品备件以及低值易耗来建立该设备的设备BOM，帮助并指导维修，可以方便我们在维修时快速选择配件同时也能规范和指导我们设备维修所需要的材料。
admin
23天前
20
网站建设
华为CE交换机配置基础数据（consolo登录设置、ssh、时区登录设置）
配置基础数据操作场景用户通过串口登录新交换机，对交换机进行初始化配置。操作步骤以一个交换机为例说明配置过程。必备事项请按照现网网设文档获取交换机的基础配置数据。操作步骤 1、本地PC使用串口线连接到交换机的
admin
23天前
30
网站建设
主数据深度剖析与实际应用
主数据深度剖析与实际应用想象一下,你正在经营一家跨国连锁咖啡店。每天,全球数千家门店都在使用你的品牌,制作相同的饮品,为客户提供服务。但是,你突然发现一个问题:纽约的"拿铁"和东京的"拿铁"配方似
admin
23天前
30
网站建设
重拾希望：hopeData数据恢复软件——您的数据救援专家
重拾希望：hopeData数据恢复软件——您的数据救援专家【下载地址】hopeData数据恢复软件分享 hopeData数据恢复软件.zip 是一款功能强大的数据恢复工具，专为从各种存储设备中恢
admin
17天前
20
网站建设
2024年大数据高频面试题(下篇）
文章目录 Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点I
admin
1天前
10

发表回复

评论列表（0条）

暂无评论

Pytorch的DataLoader和Dataset以及TensorDataset的源码分析和使用_百

发表回复

评论列表（0条）

联系我们

400-800-8888

Pytorch的DataLoader和Dataset以及TensorDataset的源码分析和使用_百

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888