Mid Sweden University

miun.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating On-Premise Language Models for Editorial Tasks
Mid Sweden University, Faculty of Science, Technology and Media, Department of Computer and Electrical Engineering (2023-).
Mid Sweden University, Faculty of Science, Technology and Media, Department of Computer and Electrical Engineering (2023-).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Användandet av molnbaserade språkmodeller blir allt vanligare i takt med att de blir mer tillgängliga, och deras kapacitet att bearbeta och generera text förbättras ständigt. Men för användare och organisationer som arbetar med känslig information uppstår en utmaning, eftersom all data som behandlas av dessa modeller överförs till serveroperatören. I och med detta växer behovet av så kallade On-Premisemodeller, som kan köras lokalt på en användares eller organisations egna servrar. Därför ämnar detta projekt till att identifiera, testa och jämföra flera on-premise-språkmodeller med inriktning på textbehandling. Detta inkluderar uppgifter som att upptäcka fel i stavning, grammatik och bruk av skiljetecken, samt att analysera språkanvändning. Projektet innebar att söka efter modeller på hemsidan HuggingFace.co som hanterar både svenska och engelska och sedan implementera dem på olika AWS EC2-instanser. Efter en inledande granskning av flera modeller, identifierades två särskilt lovande alternativ, Viking och GPT-SW3, som var tillräckligt kapabla att genomföra de mer avancerade sorters tester. De utvalda modellerna genomgick en omfattande process av prompt-engineering för att optimera deras prestanda och maximera deras förmåga att demonstrera sin kompetens. Efter detta skapades standardiserade tester för grammatik, stavning och bruk av skiljetecken, samt översättning. Dessutom skapades mer avancerade tester som inkluderade omstrukturering av text, samt förenkling och anpassning av texter till en specifik persona. Resultaten av dessa tester visade att båda prövade modeller hade god förmåga att korrigera fel i stavning, grammatik, och bruk av skiljetecken i texter, samt översättning av texter. GPT-SW3 visade även god förmåga i personatesterna, medan modellen Viking inte var kapabel till att genomföra denna sorts behandling av texter. Parallellt med testandet av språkmodellerna utvecklades ett skript för att analysera hårdvarans prestanda och kostnad under exekveringen av språkmodellerna. Detta skript kördes på flera olika AWS EC2-instanser, var och en utrustad med olika typer av hårdvara. Prestationerna från de olika instanserna jämfördes, och resultaten visade att körning av modellerna på Inferentia2chip gav den bästa prestandan och den lägsta kostnaden per genererat ord, fastän denna hårdvara hade den högsta timkostnaden. Alla CPUinstanser som testades presterade betydligt sämre än GPU-instansen, men var markant billigare att hyra per timme. Detta kan vara en fördel för on-demand-applikationer där kostnadseffektivitet prioriteras.

Abstract [en]

The use of cloud-based language models is becoming increasingly common as they become more accessible, and their capabilities to process and generate text are continually improving. However, a challenge arises for users and organizations handling sensitive data because all processed data is transmitted to the server operator. As a result, there’s a growing need for so-called On-Premise models, which can be operated locally on the servers of a user or organization. This project aims to identify, test, and compare several on-premise language models, "Focusing on tasks such as detecting errors in spelling, grammar, and punctuation, as well as analyzing language usage. The project involved searching for models that support both Swedish and English on the website Huggingface.co and implementing them on various AWS EC2 instances. After an initial assessment, two particularly promising models, Viking and GPT-SW3, were identified as capable enough for more detailed testing. The selected models underwent an extensive prompt-engineering process to optimize their performance and maximize their ability to demonstrate their capabilities. Following this, standardized tests for grammar, spelling, punctuation, and translation were developed. Additionally,more advanced tests were designed, including restructuring, simplifying, and adapting texts to specific personas. The results from the tests showed that both tested models had high proficiency in correcting errors regarding spelling, grammar, and punctuation, and in translating texts between Swedish and English. GPT-SW3 had high proficiency in rewriting texts to use other styles, such as using formal or simplistic language, while the Viking model had no proficiency in achieving these types of tasks. Concurrently with the model testing, a script was developed to analyze the performance and costs of the hardware during the model executions. This script was implemented on several AWS EC2 instances, each equipped with different hardware types. The performance of these instances was compared, and the results showed that running the models on the Inferentia2 chip offered the best performance and the lowest cost per generated word, despite having the highest hourly rental cost. All CPU instances tested performed significantly worse than the GPU instance but were a lot cheaper to rent per hour. This could be advantageous for on-demand applications where cost efficiency is a priority.

Place, publisher, year, edition, pages
2024. , p. 87
Keywords [en]
Language models, On-Premise, AI, Editorial tasks
Keywords [sv]
Språkmodeller, On-Premise, AI, Redaktionella uppgifter
National Category
Software Engineering
Identifiers
URN: urn:nbn:se:miun:diva-51624Local ID: DT-V24-G3-032OAI: oai:DiVA.org:miun-51624DiVA, id: diva2:1874990
Subject / course
Computer Engineering DT1
Educational program
Computer Science TDATG 180 higher education credits
Supervisors
Examiners
Available from: 2024-06-20 Created: 2024-06-20 Last updated: 2024-06-20Bibliographically approved

Open Access in DiVA

fulltext(3330 kB)130 downloads
File information
File name FULLTEXT01.pdfFile size 3330 kBChecksum SHA-512
0ed4919842cf6c88df397771e7097b13b417540b3922d975d5b52953d8ac13fe167feed28d12a44382f97f4da940ac0433bdd75a80baf8ae943cc7f670b24470
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Valo, AntonAndersson, Villiam
By organisation
Department of Computer and Electrical Engineering (2023-)
Software Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 131 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 102 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf