Audiovisual classification of vocal outbursts in human conversation using Long-Short-Term Memory networks

14 years 2 months ago

Download ibug.doc.ic.ac.uk

We investigate classiﬁcation of non-linguistic vocalisations with a novel audiovisual approach and Long Short-Term Memory (LSTM) Recurrent Neural Networks as highly successful dynamic sequence classiﬁers. As database of evaluation serves this year’s Paralinguistic Challenge’s Audiovisual Interest Corpus of human-to-human natural conversation. For video-based analysis we compare shape and appearance based features. These are fused in an early manner with typical audio descriptors. The results show signiﬁcant improvements of LSTM networks over a static approach based on Support Vector Machines. More important, we can show a signiﬁcant gain in performance when fusing audio and visual shape features.

Florian Eyben, Stavros Petridis, Björn Schull

Real-time Traffic

Audiovisual Interest Corpus | ICASSP 2011 | Recurrent Neural Networks | Signal Processing | Successful Dynamic Sequence |

claim paper

Post Info
More Details (n/a)

Added	21 Aug 2011
Updated	21 Aug 2011
Type	Journal
Year	2011
Where	ICASSP
Authors	Florian Eyben, Stavros Petridis, Björn Schuller, Georgios Tzimiropoulos, Stefanos Zafeiriou, Maja Pantic

Comments (0)

Sciweavers

Audiovisual classification of vocal outbursts in human conversation using Long-Short-Term Memory networks

Audiovisual Interest Corpus | ICASSP 2011 | Recurrent Neural Networks | Signal Processing | Successful Dynamic Sequence |

Explore & Download

Productivity Tools

Document Tools

Image Tools

Sciweavers