Sciweavers

Free Online Productivity Tools i2Speak i2Symbol i2OCR iTex2Img iWeb2Print iWeb2Shot i2Type iPdf2Split iPdf2Merge i2Bopomofo i2Arabic i2Style i2Image i2PDF iLatex2Rtf Sci2ools

116

WWW
2007
ACM

150views Internet Technology» more WWW 2007»

Adaptive record extraction from web pages

16 years 4 months ago

Adaptive record extraction from web pages

Download www2007.org

We describe an adaptive method for extracting records from web pages. Our algorithm combines a weighted tree matching metric with clustering for obtaining data extraction patterns. We compare our method experimentally to the stateof-the-art, and show that our approach is very competitive for rigidly-structured records (such as product descriptions) and far superior for loosely-structured records. (such as entries on blogs). Categories and Subject Descriptors H.2.4 [Database Management]: Textual Databases; H.3.3 [Information Search and Retrieval]: Clustering General Terms Algorithms, Experimentation.

Justin Park, Denilson Barbosa

Real-time Traffic

Adaptive Method | Data Extraction Patterns | General Terms Algorithms | Internet Technology | WWW 2007 |

claim paper

Related Content

» Extraction of Flat and Nested Data Records from Web Pages

» Finding and Extracting Data Records from Web Pages

» ConceptualModelBased Data Extraction from MultipleRecord Web Pages

» A Novel Method for Bilingual Web Page Acquisition from Search Engine Web Records

» FiVaTech PageLevel Web Data Extraction from Template Pages

» NET A System for Extracting Web Data from Flat and Nested Data Records

» Extracting data records from the web using tag path clustering

» Deep web data extraction

» Mining data records in Web pages

Post Info
More Details (n/a)

Added	22 Nov 2009
Updated	22 Nov 2009
Type	Conference
Year	2007
Where	WWW
Authors	Justin Park, Denilson Barbosa

Comments (0)