Mid Sweden University

miun.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Generalizing Scraping the Web for Product Data: Product data enhancement
Mid Sweden University, Faculty of Science, Technology and Media, Department of Computer and Electrical Engineering (2023-).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

För industriföretag är det viktigt att ha rätt produktdata och information om rätt producent. Genom att ha tillgång till rätt producent kan ett företag spara pengar genom att köpa reservdelar direkt från producenten istället för att gå via en återförsäljare. Detta projekt syftar till att utveckla en generaliserad webbskrapare för att hitta produktdata på webben, analysera hur mycket data den kan extrahera och hur exakt den extraherade datan är. Extraktionen genomförs genom att manuellt inspektera HTML på webbsidor och hitta likheter i XPath för att försöka extrahera så exakta data som möjligt. Data för extrahering är tekniska data, produkttitel och andra data. Eftersom det inte finns något standardformat för hur en webbsida är uppbyggd måste extraktionen generaliseras för olika strukturer. Resultatet av testerna visar att även om det gick att skrapa data på mer strukturerade, liknande strukturerade webbplatser, är att skraparen inte är tillräckligt generaliserad för denna uppgift, och att cookiehantering är nödvändig för att få tillgång till många fler webbplatser.

Abstract [en]

For industrial companies having the right product data is essential as well as the information to the right producer. By having access to the right producer, a company can save money buying spare parts directly from the producer instead of going through a retailer. This project aims to develop a generalized web scraper for finding product data throughout the web, analyzing how much data it can extract and how accurate it can be. The extraction is implemented by manually inspecting the HTML of web pages finding similarities in the XPath to try to extract as accurate data as possible. The target data will be the technical data, title of the product and other data. Since there is no standard format on how a web page is built the extraction will need to be generalized for different structures. The result for the tests shows that while it managed to scrape data on more structured, similarly structured websites, the scraper is not generalized enough for this task, and that cookie handling is necessary to access many more sites.

Place, publisher, year, edition, pages
2024. , p. 42
National Category
Software Engineering
Identifiers
URN: urn:nbn:se:miun:diva-51625Local ID: DT-V24-G3-056OAI: oai:DiVA.org:miun-51625DiVA, id: diva2:1875013
Subject / course
Computer Engineering DT1
Educational program
Computer Science TDATG 180 higher education credits
Supervisors
Examiners
Available from: 2024-06-20 Created: 2024-06-20 Last updated: 2025-09-25Bibliographically approved

Open Access in DiVA

No full text in DiVA

Search in DiVA

By author/editor
Pettersson, Carl
By organisation
Department of Computer and Electrical Engineering (2023-)
Software Engineering

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 64 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf