Utilisation de l'autotranscription dans Pod:
Dans le fichier custom/settings-local.py, il est possible d’ajouter les paramètres suivant :
- USE_TRANSCRIPTION : Booléen indiquant si la transcription des vidéos doit être activée pour les langues disponibles (def: False)
- VAD_AGRESSIVITY : Agressivité du VAD pour la robustesse vis à vis du bruit [0-4[ (def: 1)
- SAMPLE_WINDOW : Taille de la fenêtre de détection du VAD [10, 20, 30] (def: 30)
- SAMPLE_OVERLAP : Décalage de la fenêtre de détection (def: 300)
- THRESHOLD_VOICED : Pourcentage de Frame devant être vocale pour considérer un échantillon audio comme tel (def: 80)
- THRESHOLD_UNVOICED : Pourcentage de Frame devant être du silence pour considérer un échantillon audio comme tel (def: 90)
- DS_PARAM : Un dictionnaire de la forme { lang: sub_dict }
lang est le diminutif de la langue prise en charge, comme les valeurs de Video.main_lang
sub_dict est un dictionnaire de la forme :
{
'alphabet': path_to_alphabet.txt, # alphabet;txt contient tous les caractères de la langue lang
'model': path_to_output_graph.pbmm, # le modèle deepspeech
'lm': path_to_lm.binary, # le fichier de probabilités construit avec kenlm
'trie': path_to_trie, # le fichier trie créé avec generate_trie à partir de lm.binary et alphabet.txt
'n_features': 26, # Number of MFCC features to use
'n_context': 9, # Size of the context window used for producing timesteps in the input vector
'beam_width': 500, # Beam width used in the CTC decoder when building candidate transcriptions
'lm_alpha': 0.75, # The alpha hyperparameter of the CTC decoder / Language Model weight
'lm_beta': 1.85 # The beta hyperparameter of the CTC decoder / Word insertion bonus
}
Pour construire un modèle DeepSpeech :
...