A PyTorch repo for data loading and utilities to be shared by the PyTorch domain libraries.

天问 a46ed9b916 Update 'README.md' 1 year ago
README.md a46ed9b916 Update 'README.md' 1 year ago

README.md

torchdata

A PyTorch repo for data loading and utilities to be shared by the PyTorch domain libraries.

为什么开发torchdata?

经过多年的反馈,我们发现:DataLoader Dataset

原版将太多功能捆绑在一起,使它们难以扩展、操作或 取代。这在社区中造成了特定于用例的变体的激增,而不是 可互操作元素的生态系统。节省 OSS 维护人员重写、调试和维护这些常用的时间和精力。


pip install torchdata


import json

class JsonParserIterDataPipe(IterDataPipe):
    def __init__(self, source_datapipe, **kwargs) -> None:
        self.source_datapipe = source_datapipe
        self.kwargs = kwargs

    def __iter__(self):
        for file_name, stream in self.source_datapipe:
            data = stream.read()
            yield file_name, json.loads(data, **self.kwargs)

    def __len__(self):
        return len(self.source_datapipe)