För industriföretag är det viktigt att ha rätt produktdata och information om rätt producent. Genom att ha tillgång till rätt producent kan ett företag spara pengar genom att köpa reservdelar direkt från producenten istället för att gå via en återförsäljare. Detta projekt syftar till att utveckla en generaliserad webbskrapare för att hitta produktdata på webben, analysera hur mycket data den kan extrahera och hur exakt den extraherade datan är. Extraktionen genomförs genom att manuellt inspektera HTML på webbsidor och hitta likheter i XPath för att försöka extrahera så exakta data som möjligt. Data för extrahering är tekniska data, produkttitel och andra data. Eftersom det inte finns något standardformat för hur en webbsida är uppbyggd måste extraktionen generaliseras för olika strukturer. Resultatet av testerna visar att även om det gick att skrapa data på mer strukturerade, liknande strukturerade webbplatser, är att skraparen inte är tillräckligt generaliserad för denna uppgift, och att cookiehantering är nödvändig för att få tillgång till många fler webbplatser.
For industrial companies having the right product data is essential as well as the information to the right producer. By having access to the right producer, a company can save money buying spare parts directly from the producer instead of going through a retailer. This project aims to develop a generalized web scraper for finding product data throughout the web, analyzing how much data it can extract and how accurate it can be. The extraction is implemented by manually inspecting the HTML of web pages finding similarities in the XPath to try to extract as accurate data as possible. The target data will be the technical data, title of the product and other data. Since there is no standard format on how a web page is built the extraction will need to be generalized for different structures. The result for the tests shows that while it managed to scrape data on more structured, similarly structured websites, the scraper is not generalized enough for this task, and that cookie handling is necessary to access many more sites.