esup-pod

Arborescence des pages

Comparaison des versions

Légende

  • Ces lignes ont été ajoutées. Ce mot a été ajouté.
  • Ces lignes ont été supprimées. Ce mot a été supprimé.
  • La mise en forme a été modifiée.

Utilisation de l'autotranscription dans Pod:

Dans le fichier custom/settings-local.py, il est possible d’ajouter les paramètres suivant :

- USE_TRANSCRIPTION : Booléen indiquant si la transcription des vidéos doit être activée pour les langues disponibles (def: False)


- VAD_AGRESSIVITY : Agressivité du VAD pour la robustesse vis à vis du bruit [0-4[ (def: 1)

- SAMPLE_WINDOW : Taille de la fenêtre de détection du VAD [10, 20, 30] (def: 30)

- SAMPLE_OVERLAP : Décalage de la fenêtre de détection (def: 300)

- THRESHOLD_VOICED : Pourcentage de Frame devant être vocale pour considérer un échantillon audio comme tel (def: 80)

- THRESHOLD_UNVOICED : Pourcentage de Frame devant être du silence pour considérer un échantillon audio comme tel (def: 90)


- DS_PARAM : Un dictionnaire de la forme { lang: sub_dict }

    lang est le diminutif de la langue prise en charge, comme les valeurs de Video.main_lang

    sub_dict est un dictionnaire de la forme :

    {

       'alphabet': path_to_alphabet.txt,            # alphabet;txt contient tous les caractères de la langue lang

       'model': path_to_output_graph.pbmm,      # le modèle deepspeech

       'lm': path_to_lm.binary,             # le fichier de probabilités construit avec kenlm

       'trie': path_to_trie,                    # le fichier trie créé avec generate_trie à partir de lm.binary et alphabet.txt

       'n_features': 26,            # Number of MFCC features to use

       'n_context': 9,          # Size of the context window used for producing timesteps in the input vector

       'beam_width': 500,           # Beam width used in the CTC decoder when building candidate transcriptions

       'lm_alpha': 0.75,            # The alpha hyperparameter of the CTC decoder / Language Model weight

       'lm_beta': 1.85          # The beta hyperparameter of the CTC decoder / Word insertion bonus

    }

Pour construire un modèle DeepSpeech :

...