W266_Project

W266 Project - Automatic Speech Recognition using Transducers

Base model

Implemented in se2seq.ipynb file

Model Parameters

LSTM RNN with hidden layer size 1024
Both Encoder and Decoder use 2 layer cascaded LSTMs
Dropout of 0.2 and teacher forcing ratio of 90%
ADAM optimizer with exponential decay of learning rate

Transducer model

Implemented in transducer_asr.ipynb file

Model Parameters

GRU RNN with hidden layer size 1024
The Encoder uses 3 layer cascaded GRU and decoder uses one layer GRU
Dropout of 0.1
ADAM optimizer with exponential decay of learning rate

Transducer model with speech input

Implemented in asr_train.ipynb file

Speech data samples at 16KHz, Hanning window of 20msec and 10mse overlap
64 MFCC coefficient computer using 512 DFT
Computationally very intensive - hence did not train the model completely

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
common		common
configs		configs
scripts		scripts
transducer		transducer
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
W266_Project.pdf		W266_Project.pdf
alignments.png		alignments.png
asr_train.ipynb		asr_train.ipynb
encoder_decoder.png		encoder_decoder.png
se2seq_base.ipynb		se2seq_base.ipynb
trans_module.png		trans_module.png
transducer_asr.ipynb		transducer_asr.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

W266_Project

Base model

Model Parameters

Transducer model

Model Parameters

Transducer model with speech input

About

Releases

Packages

Contributors 2

Languages

License

MadhuAtBerkeley/w266_Project

Folders and files

Latest commit

History

Repository files navigation

W266_Project

Base model

Model Parameters

Transducer model

Model Parameters

Transducer model with speech input

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages