Historique de la page

Utilisation de l'autotranscription dans Pod:

Dans le fichier custom/settings-local.py, il est possible d’ajouter les paramètres suivant :

- USE_TRANSCRIPTION : Booléen indiquant si la transcription des vidéos doit être activée pour les langues disponibles (def: False)

- VAD_AGRESSIVITY : Agressivité du VAD pour la robustesse vis à vis du bruit [0-4[ (def: 1)

- SAMPLE_WINDOW : Taille de la fenêtre de détection du VAD [10, 20, 30] (def: 30)

- SAMPLE_OVERLAP : Décalage de la fenêtre de détection (def: 300)

- THRESHOLD_VOICED : Pourcentage de Frame devant être vocale pour considérer un échantillon audio comme tel (def: 80)

- THRESHOLD_UNVOICED : Pourcentage de Frame devant être du silence pour considérer un échantillon audio comme tel (def: 90)

- DS_PARAM : Un dictionnaire de la forme { lang: sub_dict }

lang est le diminutif de la langue prise en charge, comme les valeurs de Video.main_lang

sub_dict est un dictionnaire de la forme :

{

'alphabet': path_to_alphabet.txt, # alphabet;txt contient tous les caractères de la langue lang

'model': path_to_output_graph.pbmm, # le modèle deepspeech

'lm': path_to_lm.binary, # le fichier de probabilités construit avec kenlm

'trie': path_to_trie, # le fichier trie créé avec generate_trie à partir de lm.binary et alphabet.txt

'n_features': 26, # Number of MFCC features to use

'n_context': 9, # Size of the context window used for producing timesteps in the input vector

'beam_width': 500, # Beam width used in the CTC decoder when building candidate transcriptions

'lm_alpha': 0.75, # The alpha hyperparameter of the CTC decoder / Language Model weight

'lm_beta': 1.85 # The beta hyperparameter of the CTC decoder / Word insertion bonus

}

...