miun.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Genomsökning av filsystem för att hitta personuppgifter: Med Linear chain conditional random field och Regular expression
Mittuniversitetet, Fakulteten för naturvetenskap, teknik och medier, Avdelningen för informationssystem och -teknologi.
2018 (Svenska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
Abstract [en]

The new General Data Protection Regulation (GDPR) Act will apply to all companies within the European Union after 25 May. This means stricter legal requirements for companies that in some way store personal data. The goal of this project is therefore to make it easier for companies to meet the new legal requirements. This by creating a tool that searches file systems and visually shows the user in a graphical user interface which files contain personal data. The tool uses Named entity recognition with the Linear chain conditional random field algorithm which is a type of supervised learning method in machine learning. This algorithm is used in the project to find names and addresses in files. The different models are trained with different parameters and the training is done using the stanford NER library in Java. The models are tested by a test file containing 45,000 words where the models themselves can predict all classes to the words in the file. The models are then compared with each other using the measurements of precision, recall and F-score to find the best model. The tool also uses Regular Expression to find emails, IP numbers, and social security numbers. The result of the final machine learning model shows that it does not find all names and addresses, but that can be improved by increasing exercise data. However, this is something that requires a more powerful computer than the one used in this project. An analysis of how the Swedish language is built would also need to be done to apply the most appropriate parameters for the training of the model.

Abstract [sv]

Den nya lagen General data protection regulation (GDPR) började gälla för alla företag inom Europeiska unionen efter den 25 maj. Detta innebär att det blir strängare lagkrav för företag som på något sätt lagrar personuppgifter. Målet med detta projekt är därför att underlätta för företag att uppfylla de nya lagkraven. Detta genom att skapa ett verktyg som söker igenom filsystem och visuellt visar användaren i ett grafiskt användargränssnitt vilka filer som innehåller personuppgifter. Verktyget använder Named Entity Recognition med algoritmen Linear Chain Conditional Random Field som är en typ av ”supervised” learning metod inom maskininlärning. Denna algoritm används för att hitta namn och adresser i filer. De olika modellerna tränas med olika parametrar och träningen sker med hjälp av biblioteket Stanford NER i Java. Modellerna testas genom en testfil som innehåller 45 000 ord där modellerna själva får förutspå alla klasser till orden i filen. Modellerna jämförs sedan med varandra med hjälp av mätvärdena precision, recall och F-score för att hitta den bästa modellen. Verktyget använder även Regular expression för att hitta e- mails, IP-nummer och personnummer. Resultatet på den slutgiltiga maskininlärnings modellen visar att den inte hittar alla namn och adresser men att det är något som kan förbättras genom att öka träningsdata. Detta är dock något som kräver en kraftfullare dator än den som användes i detta projekt. En undersökning på hur det svenska språket är uppbyggt skulle även också behöva göras för att använda de lämpligaste parametrarna vid träningen av modellen.

Ort, förlag, år, upplaga, sidor
2018. , s. 38
Nyckelord [en]
GDPR, Linear chain conditional random field, Machine learning, Stanford NER, Precision, Recall, F-score, Regular expression
Nyckelord [sv]
GDPR, Linear chain conditional random field, Maskininlärning, Stanford NER, Precision, Recall, F-score, Regular expression
Nationell ämneskategori
Programvaruteknik
Identifikatorer
URN: urn:nbn:se:miun:diva-34069Lokalt ID: DT-V18-G3-001OAI: oai:DiVA.org:miun-34069DiVA, id: diva2:1229828
Ämne / kurs
Datateknik DT1
Utbildningsprogram
Datateknik TDATG 180 hp
Handledare
Examinatorer
Tillgänglig från: 2018-07-02 Skapad: 2018-07-02 Senast uppdaterad: 2018-07-02Bibliografiskt granskad

Open Access i DiVA

fulltext(717 kB)82 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 717 kBChecksumma SHA-512
c52dae6035f56438d57a12f50cacb7fc864e12a2eb525c1b0559f9fb76ae950b320a693eeca5da51042d1f571a5b86bcd1721a9626a3b9709105b55de3cd582c
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Afram, Gabriel
Av organisationen
Avdelningen för informationssystem och -teknologi
Programvaruteknik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 82 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 600 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf