Sciweavers

Free Online Productivity Tools i2Speak i2Symbol i2OCR iTex2Img iWeb2Print iWeb2Shot i2Type iPdf2Split iPdf2Merge i2Bopomofo i2Arabic i2Style i2Image i2PDF iLatex2Rtf Sci2ools

84

EMNLP
2009

favoriteEmaildiscussreport

133views Natural Language Processing» more EMNLP 2009»

Unsupervised Tokenization for Machine Translation

14 years 9 months ago

Unsupervised Tokenization for Machine Translation

Download www.cs.rochester.edu

Training a statistical machine translation starts with tokenizing a parallel corpus. Some languages such as Chinese do not incorporate spacing in their writing system, which creates a challenge for tokenization. Moreover, morphologically rich languages such as Korean present an even bigger challenge, since optimal token boundaries for machine translation in these languages are often unclear. Both rule-based solutions and statistical solutions are currently used. In this paper, we present unsupervised methods to solve tokenization problem. Our methods incorporate information available from parallel corpus to determine a good tokenization for machine translation.

Tagyoung Chung, Daniel Gildea

Real-time Traffic

EMNLP 2009 | Machine Translation | Natural Language Processing | Parallel Corpus | Tokenization |

claim paper

Related Content

» Unsupervised cleansing of noisy text

» Unsupervised Measurement of Translation Quality Using Multiengine Bidirectional Translatio...

» Contextual Modeling for Meeting Translation Using Unsupervised Word Sense Disambiguation

» Weakly Supervised Named Entity Transliteration and Discovery from Multilingual Comparable ...

» Linguistically Motivated Unsupervised Segmentation for Machine Translation

» Unsupervised Search for the Optimal Segmentation for Statistical Machine Translation

» Unsupervised Discriminative Language Model Training for Machine Translation using Simulate...

» Minimum ImputedRisk Unsupervised Discriminative Training for Machine Translation

» Estimating Word Translation Probabilities from Unrelated Monolingual Corpora Using the EM ...

Post Info
More Details (n/a)

Added	17 Feb 2011
Updated	17 Feb 2011
Type	Journal
Year	2009
Where	EMNLP
Authors	Tagyoung Chung, Daniel Gildea

Comments (0)