Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Djöfulsins, helvítis, andskotans pakk Vilhjálmur H. Vilhjálmsson Skoðun Af hverju umræðan um Eurovision, Ísrael og jólin hrynur þegar raunveruleikinn bankar upp á Hilmar Kristinsson Skoðun Stóra vandamál Kristrúnar er ekki Flokkur fólksins Jens Garðar Helgason Skoðun Svörin voru hroki og yfirlæti Davíð Bergmann Skoðun Þeir sem hafa verulega hagsmuni af því að segja ykkur ósatt Þórður Snær Júlíusson Skoðun Eurovision: Tímasetningin og atburðarásin sögðu meira en ákvörðunin Gunnar Salvarsson Skoðun Ný flugstöð á rekstarlausum flugvelli? Magnea Gná Jóhannsdóttir Skoðun Reykjalundur – lífsbjargandi þjónusta í 80 ár Magnús Sigurjón Olsen Guðmundsson Skoðun Úthaf efnahagsmála – fjárlög 2026 Halla Hrund Logadóttir Skoðun Að klifra upp í tunnurnar var bara byrjunin Anahita Sahar Babaei Skoðun Skoðun Skoðun Sjálfgefin íslenska – Hvernig? Ólafur Guðsteinn Kristjánsson skrifar Skoðun Vonbrigði í Vaxtamáli Breki Karlsson skrifar Skoðun Reykjalundur – lífsbjargandi þjónusta í 80 ár Magnús Sigurjón Olsen Guðmundsson skrifar Skoðun Svörin voru hroki og yfirlæti Davíð Bergmann skrifar Skoðun Umönnunarbilið – kapphlaupið við klukkuna og krónurnar Bryndís Elfa Valdemarsdóttir skrifar Skoðun Eurovision: Tímasetningin og atburðarásin sögðu meira en ákvörðunin Gunnar Salvarsson skrifar Skoðun Aðgerðarleysi er það sem kostar ungt fólk Jóhannes Óli Sveinsson skrifar Skoðun Að gera eða vera? Árni Sigurðsson skrifar Skoðun Af hverju umræðan um Eurovision, Ísrael og jólin hrynur þegar raunveruleikinn bankar upp á Hilmar Kristinsson skrifar Skoðun Skattablæti sem bitnar harðast á landsbyggðinni Þorgrímur Sigmundsson skrifar Skoðun Málfrelsi ungu kynslóðarinnar – og ábyrgðin sem bíður okkar Jóhann Ingi Óskarsson skrifar Skoðun „Við skulum syngja lítið lag...“ Arnar Eggert Thoroddsen skrifar Skoðun Norðurlöndin – kaffiklúbbur eða stórveldi? Hrannar Björn Arnarsson,Lars Barfoed,Maiken Poulsen Englund,Pyry Niemi,Torbjörn Nyström skrifar Skoðun Ný flugstöð á rekstarlausum flugvelli? Magnea Gná Jóhannsdóttir skrifar Skoðun ESB íhugar að fresta bensín- og dísilbanni til 2040 – Ísland herðir álögur á mótorhjól þrátt fyrir óraunhæfa rafvæðingu Unnar Már Magnússon skrifar Skoðun Þeir sem hafa verulega hagsmuni af því að segja ykkur ósatt Þórður Snær Júlíusson skrifar Skoðun Ísland: Meistari orkuþríþrautarinnar – sem stendur Jónas Hlynur Hallgrímsson skrifar Skoðun Úthaf efnahagsmála – fjárlög 2026 Halla Hrund Logadóttir skrifar Skoðun Þegar líf liggur við Ingibjörg Isaksen skrifar Skoðun Stóra vandamál Kristrúnar er ekki Flokkur fólksins Jens Garðar Helgason skrifar Skoðun Til stuðnings Fjarðarheiðargöngum Glúmur Björnsson skrifar Skoðun Út með slæma vana, inn með gleði og frið Dagbjört Harðardóttir skrifar Skoðun Markaðsmál eru ekki aukaatriði – þau eru grunnstoð Garðar Ingi Leifsson skrifar Skoðun Orkuþörf í íslenskum matvælaiðnaði á landsbyggðinni Sigurður Blöndal,Alexander Schepsky skrifar Skoðun Vanhugsuð kílómetragjöld og vantalin skattahækkun á árinu 2026 Vilhjálmur Hilmarsson skrifar Skoðun Að læra nýtt tungumál er maraþon, ekki spretthlaup Ólafur G. Skúlason skrifar Skoðun Mannréttindi í mótvindi Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Passaðu púlsinn í desember Sigrún Þóra Sveinsdóttir skrifar Skoðun Að klifra upp í tunnurnar var bara byrjunin Anahita Sahar Babaei skrifar Skoðun Jöfn tækifæri fyrir börn í borginni Stein Olav Romslo skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Af hverju umræðan um Eurovision, Ísrael og jólin hrynur þegar raunveruleikinn bankar upp á Hilmar Kristinsson Skoðun
Skoðun Umönnunarbilið – kapphlaupið við klukkuna og krónurnar Bryndís Elfa Valdemarsdóttir skrifar
Skoðun Eurovision: Tímasetningin og atburðarásin sögðu meira en ákvörðunin Gunnar Salvarsson skrifar
Skoðun Af hverju umræðan um Eurovision, Ísrael og jólin hrynur þegar raunveruleikinn bankar upp á Hilmar Kristinsson skrifar
Skoðun Norðurlöndin – kaffiklúbbur eða stórveldi? Hrannar Björn Arnarsson,Lars Barfoed,Maiken Poulsen Englund,Pyry Niemi,Torbjörn Nyström skrifar
Skoðun ESB íhugar að fresta bensín- og dísilbanni til 2040 – Ísland herðir álögur á mótorhjól þrátt fyrir óraunhæfa rafvæðingu Unnar Már Magnússon skrifar
Skoðun Orkuþörf í íslenskum matvælaiðnaði á landsbyggðinni Sigurður Blöndal,Alexander Schepsky skrifar
Skoðun Vanhugsuð kílómetragjöld og vantalin skattahækkun á árinu 2026 Vilhjálmur Hilmarsson skrifar
Af hverju umræðan um Eurovision, Ísrael og jólin hrynur þegar raunveruleikinn bankar upp á Hilmar Kristinsson Skoðun