Increasing memory usage in each call of gradient · FluxML/Zygote.jl#1509

Métriques du dépôt

Stars: (1 568 stars)
Métriques de merge PR: (Aucune PR mergée en 30 j)

Description

I was experimenting with alternatives to https://github.com/FluxML/Optimisers.jl/pull/57 when I encountered the following weird issue.

Look at the number of allocations when computing the gradient of loss1

function loss1(m)
    ls = 0f0
    for l in Functors.fleaves(m)
        if l isa AbstractArray{<:Number}
            ls += sum(l)
        end
    end
    return ls
end

function loss2(m)
    sum(sum(l) for l in Functors.fleaves(m) if l isa AbstractArray{<:Number})
end

function loss3(m)
    sum([sum(l) for l in Functors.fleaves(m) if l isa AbstractArray{<:Number}])
end


function perf()
    m = Chain(Dense(128 => 128, relu), BatchNorm(3), Dense(128 => 10))
    @btime gradient(loss1, $m)[1]
    @btime gradient(loss2, $m)[1]
    @btime gradient(loss3, $m)[1]
    println()
end

perf(); #1st call
perf(); #2nd call
perf(); #3rd call

# OUTPUT
154.795 ms (1022652 allocations: 39.16 MiB)
1.734 ms (7605 allocations: 352.62 KiB)
1.314 ms (5948 allocations: 288.08 KiB)

258.556 ms (1658450 allocations: 63.37 MiB)
1.735 ms (7605 allocations: 352.62 KiB)
1.316 ms (5948 allocations: 288.08 KiB)

336.418 ms (2154374 allocations: 82.29 MiB)
1.739 ms (7605 allocations: 352.62 KiB)
1.319 ms (5948 allocations: 288.08 KiB)

What's going on?

Guide contributeur

Direction de recherche: Examinez l'augmentation des allocations mémoire dans les appels de gradient. Commencez par examiner l'implémentation du gradient de Zygote pour les boucles par rapport aux compréhensions. Le problème montre que loss1 (utilisant une boucle) provoque des allocations croissantes, tandis que loss2 et loss3 (compréhensions) ne le font pas. Examinez le code généré pour loss1 pour identifier pourquoi les allocations augmentent à chaque appel. Envisagez d'utiliser des outils de suivi d'allocation comme @allocated ou Profile.
Stack technique: Aucun
Domaine: performance
Type d'issue: Performance
Difficulté: 4
Temps estimé: 3-5 jours
Statut d'activité: Ancienne
Clarté: Plutôt claire
Prérequis: JuliaAutomatic differentiationMemory profiling
Accessibilité débutant: 20

Métriques du dépôt

Description

Guide contributeur

Recevez de nouvelles issues Easy par e-mail.