60 minute blitz uses stacked Dense layers with no activation function · FluxML/model-zoo#339

Métriques du dépôt

Stars: (934 stars)
Métriques de merge PR: (Aucune PR mergée en 30 j)

Description

In the 60 minute blitz tutorial, we use a sequence of stacked Dense layers, each with no activation function. This doesn't make much sense, as multiple linear operators can always be combined down into a single linear operator:

julia> using Flux
       model = Chain(
           Dense(200, 120, bias=false),
           Dense(120, 84, bias=false),
           Dense(84, 10, bias=false),
       )

       model_condensed = Chain(
           Dense(model[3].W * model[2].W * model[1].W),
       )

       x = randn(200)
       sum(abs, model(x) .- model_condensed(x))
2.4189600187907168e-6

While yes, there are machine precision/rounding issues that cause it to not be exactly equivalent, you don't get any material benefit from multiple stacked Dense layers, and in fact you get a performance penalty due to the same values moving in and out of CPU cache.

It would be better to either add nonlinearities between these Dense layers to increase model flexibility, or replace them with a single Dense layer that directly drops from rank 200 to 10.

Guide contributeur

Direction de recherche: Localisez le fichier 'tutorials/60 minute blitz/60 minute blitz.jl' aux lignes 333-335. Remplacez les couches Dense empilées sans activation soit en ajoutant une activation non linéaire (par exemple relu) entre chaque couche Dense, soit en les fusionnant en une seule couche Dense. Assurez vous que le changement est cohérent avec l'intention du tutoriel. Aucune PR liée n'existe encore, soumettez donc une PR mettant à jour le code du tutoriel.
Stack technique: Aucun
Domaine: machine learningdocumentation
Type d'issue: Bug
Difficulté: 3
Temps estimé: Moins d'une heure
Statut d'activité: Ancienne
Clarté: Claire
Prérequis: FluxActivation functionsLinear algebra
Accessibilité débutant: 70

Métriques du dépôt

Description

Guide contributeur

Recevez de nouvelles issues Easy par e-mail.