Mittuniversitetet

miun.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Generalizing Scraping the Web for Product Data: Product data enhancement
Mittuniversitetet, Fakulteten för naturvetenskap, teknik och medier, Institutionen för data- och elektroteknik (2023-).
2024 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
Abstract [sv]

För industriföretag är det viktigt att ha rätt produktdata och information om rätt producent. Genom att ha tillgång till rätt producent kan ett företag spara pengar genom att köpa reservdelar direkt från producenten istället för att gå via en återförsäljare. Detta projekt syftar till att utveckla en generaliserad webbskrapare för att hitta produktdata på webben, analysera hur mycket data den kan extrahera och hur exakt den extraherade datan är. Extraktionen genomförs genom att manuellt inspektera HTML på webbsidor och hitta likheter i XPath för att försöka extrahera så exakta data som möjligt. Data för extrahering är tekniska data, produkttitel och andra data. Eftersom det inte finns något standardformat för hur en webbsida är uppbyggd måste extraktionen generaliseras för olika strukturer. Resultatet av testerna visar att även om det gick att skrapa data på mer strukturerade, liknande strukturerade webbplatser, är att skraparen inte är tillräckligt generaliserad för denna uppgift, och att cookiehantering är nödvändig för att få tillgång till många fler webbplatser.

Abstract [en]

For industrial companies having the right product data is essential as well as the information to the right producer. By having access to the right producer, a company can save money buying spare parts directly from the producer instead of going through a retailer. This project aims to develop a generalized web scraper for finding product data throughout the web, analyzing how much data it can extract and how accurate it can be. The extraction is implemented by manually inspecting the HTML of web pages finding similarities in the XPath to try to extract as accurate data as possible. The target data will be the technical data, title of the product and other data. Since there is no standard format on how a web page is built the extraction will need to be generalized for different structures. The result for the tests shows that while it managed to scrape data on more structured, similarly structured websites, the scraper is not generalized enough for this task, and that cookie handling is necessary to access many more sites.

Ort, förlag, år, upplaga, sidor
2024. , s. 42
Nationell ämneskategori
Programvaruteknik
Identifikatorer
URN: urn:nbn:se:miun:diva-51625Lokalt ID: DT-V24-G3-056OAI: oai:DiVA.org:miun-51625DiVA, id: diva2:1875013
Ämne / kurs
Datateknik DT1
Utbildningsprogram
Datateknik TDATG 180 hp
Handledare
Examinatorer
Tillgänglig från: 2024-06-20 Skapad: 2024-06-20 Senast uppdaterad: 2025-09-25Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Sök vidare i DiVA

Av författaren/redaktören
Pettersson, Carl
Av organisationen
Institutionen för data- och elektroteknik (2023-)
Programvaruteknik

Sök vidare utanför DiVA

GoogleGoogle Scholar

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 64 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf