往 colab 里面加载 kaggle 的数据

好像只要小于 60 g 的数据，你都可以这样干

先去 kaggle 申请api key
得到一个 kaggle.json
在 colab 安装 kaggle
建立 kaggle 文件夹
将之前下载的 kaggle json 写入 colab
继续配置 kaggle
指定kaggle数据集保存的位置
执行下列语句查看 Kaggle datasets

下载猫狗数据集的示范

数据集位于： https://www.kaggle.com/c/dogs-vs-cats/data
在这里插入图片描述
所以：

kaggle competitions download -c dogs-vs-cats

在这里插入图片描述

如果你有解压的需求：

!unzip \*.zip

在这里插入图片描述
你就得到：

工程文件结构

他的

在这里插入图片描述

她然后移动到这里：
在这里插入图片描述

后记，这个有点坑，她在视频里面没说清的事情

所有的图片直接存在 dogs-vs-cats 这个文件夹下，而不是 nested 的 train 文件夹下。

而我一开始以为是在 nested 的 train 文件夹下； aka ： dogs-vs-cats/train/manyImage.jpg

实际上，应该： dogs-vs-cats/manyImage.jpg

所以我必须做一个图片文件的挪位：

挪

在这里插入图片描述

挪好了

在这里插入图片描述

我开始了：

在这里插入图片描述
然后复制过去：

在这里插入图片描述
然后建立文件夹

在这里插入图片描述

划分训练，验证，测试集合

在这里插入图片描述

最后的工程结构是：

在这里插入图片描述

数据准备好了之后，开始写展示数据的代码

看看有没有用 gpu

physical_devices = tf.config.experimental.list_physical_devices('GPU')
print("Num GPUs Available: ", len(physical_devices))
tf.config.experimental.set_memory_growth(physical_devices[0], True)

在这里插入图片描述

生成 batch

train_batches = ImageDataGenerator(preprocessing_function=tf.keras.applications.vgg16.preprocess_input) \
    .flow_from_directory(directory=train_path, target_size=(224,224), classes=['cat', 'dog'], batch_size=10)
valid_batches = ImageDataGenerator(preprocessing_function=tf.keras.applications.vgg16.preprocess_input) \
    .flow_from_directory(directory=valid_path, target_size=(224,224), classes=['cat', 'dog'], batch_size=10)
test_batches = ImageDataGenerator(preprocessing_function=tf.keras.applications.vgg16.preprocess_input) \
    .flow_from_directory(directory=test_path, target_size=(224,224), classes=['cat', 'dog'], batch_size=10, shuffle=False)