Sciweavers

Free Online Productivity Tools i2Speak i2Symbol i2OCR iTex2Img iWeb2Print iWeb2Shot i2Type iPdf2Split iPdf2Merge i2Bopomofo i2Arabic i2Style i2Image i2PDF iLatex2Rtf Sci2ools

32

SIGMOD
2004
ACM

favoriteEmaildiscussreport

182views Database» more SIGMOD 2004»

Efficient set joins on similarity predicates

14 years 9 months ago

Efficient set joins on similarity predicates

Download www.it.iitb.ac.in

In this paper we present an efficient, scalable and general algorithm for performing set joins on predicates involving various similarity measures like intersect size, Jaccard-coefficient, cosine similarity, and edit-distance. This expands the existing suite of algorithms for set joins on simpler predicates such as, set containment, equality and non-zero overlap. We start with a basic inverted index based probing method and add a sequence of optimizations that result in one to two orders of magnitude improvement in running time. The algorithm folds in a data partitioning strategy that can work efficiently with an index compressed to fit in any available amount of main memory. The optimizations used in our algorithm generalize to several weighted and unweighted measures of partial word overlap between sets.

Sunita Sarawagi, Alok Kirpal

Real-time Traffic

Database | Partial Word Overlap | Set Joins | SIGMOD 2004 | Various Similarity Measures |

claim paper

Related Content

» An Efficient Similarity Join Algorithm with Cosine Similarity Predicate

» Probabilistic Similarity Join on Uncertain Data

» Efficient Processing of Joins on Setvalued Attributes

» TrieJoin Efficient Triebased String Similarity Joins with EditDistance Constraints

» Efficient Set Similarity Joins Using Minprefixes

» EdJoin an efficient algorithm for similarity joins with edit distance constraints

» Topk Set Similarity Joins

» Scalable indexing of RDF graphs for efficient join processing

» Topk Similarity Join over Multivalued Objects

Post Info
More Details (n/a)

Added	08 Dec 2009
Updated	08 Dec 2009
Type	Conference
Year	2004
Where	SIGMOD
Authors	Sunita Sarawagi, Alok Kirpal

Comments (0)