Skip to content

关于断点续训 #23

@achel-x

Description

@achel-x

非常感谢作者的开源,我在训练的过程中遇到了梯度消失,然后查看其他issue,说是继续断点续训就好了。

但是代码有点复杂,我还需要花一些时间来学习。想请教一下,

1、续训是否就是修改train_diffeic.yaml里的
Image

把我训练好的模型地址放到resume:后,跑起来了,但是有点不知道怎么看是否有用到之前训练的参数,想确认一下
terminal如下:

Image

我这边terminal打印的还是epoch 0,也顺便问一下,2、step和epoch的关系?

3、我这样断点续训后,保存到ckpt是会接着我这里的89999继续下去,还是说重新编号?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions