Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Nýi Landspítalinn: klúður sem enginn þorir lengur að ræða Sigurður Sigurðsson Skoðun Stúdentapólitík er pólitík Ármann Leifsson Skoðun Getum við munað Ögmundur Ísak Ögmundsson Skoðun Rósa Björk Brynjólfsdóttir og aðförin að málfrelsi og frjálslyndi Hjörvar Sigurðsson Skoðun Þegar „erlend afskipti“ eru aðeins vandamál ef þau þjóna náttúrunni Arndís Kristjánsdóttir Skoðun Læra börn stafi og hljóð í Byrjendalæsi? Rannveig Oddsdóttir Skoðun Eru íþróttamenn heimskir? Gunnar Björgvinsson Skoðun Fyrir hverja eru leikskólar María Ellen Steingrímsdóttir Skoðun Áhrif mín á daglegt líf og störf Stefáns Eiríkssonar Eyrún Magnúsdóttir Skoðun Leiðtogi með reynslu, kjark og mannlega nálgun Kristín María Birgisdóttir Skoðun Skoðun Skoðun Leiðtogi með reynslu, kjark og mannlega nálgun Kristín María Birgisdóttir skrifar Skoðun Hundrað–múrinn rofinn! Anna Björg Jónsdóttir skrifar Skoðun Hvert stefnum við? Jasmina Vajzović skrifar Skoðun Hrunamannahreppur 5 - Kópavogur 0 Gunnar Gylfason skrifar Skoðun Nýja kvótakerfið hennar Hönnu Katrínar Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Skipulag á að þjóna fólki, ekki pólitískum prinsippum Kristín Thoroddsen skrifar Skoðun Þegar „erlend afskipti“ eru aðeins vandamál ef þau þjóna náttúrunni Arndís Kristjánsdóttir skrifar Skoðun Eru íþróttamenn heimskir? Gunnar Björgvinsson skrifar Skoðun Að grípa fólk í tíma – forvarnir sem virka á vinnumarkaði Guðrún Rakel Eiríksdóttir skrifar Skoðun Áhrif mín á daglegt líf og störf Stefáns Eiríkssonar Eyrún Magnúsdóttir skrifar Skoðun Nýi Landspítalinn: klúður sem enginn þorir lengur að ræða Sigurður Sigurðsson skrifar Skoðun Árangur byrjar í starfsmannahópnum Jana Katrín Knútsdóttir skrifar Skoðun Stúdentapólitík er pólitík Ármann Leifsson skrifar Skoðun Læra börn stafi og hljóð í Byrjendalæsi? Rannveig Oddsdóttir skrifar Skoðun Maðurinn sem ég kynntist í löggunni Þuríður B. Ægisdóttir skrifar Skoðun Árangur Dana í loftslagsmálum margfalt betri en Íslendinga Eyþór Eðvarðsson skrifar Skoðun Fyrir hverja eru leikskólar María Ellen Steingrímsdóttir skrifar Skoðun Hnefaleikameistarinn sem hefur aldrei keppt Ásgeir Jónsson skrifar Skoðun Getum við munað Ögmundur Ísak Ögmundsson skrifar Skoðun Fjölsmiðjan í 25 ár: Samfélagsleg fjárfesting sem borgar sig margfalt Davíð Bergmann skrifar Skoðun Rósa Björk Brynjólfsdóttir og aðförin að málfrelsi og frjálslyndi Hjörvar Sigurðsson skrifar Skoðun Flótti ríkisstjórnarinnar frá Flóttamannavegi Guðbjörg Oddný Jónasdóttir skrifar Skoðun Hvernig byggjum við upp hágæða almenningssamgöngur? Þórir Garðarsson skrifar Skoðun Urðum ekki yfir staðreyndir Anna Sigríður Guðnadóttir skrifar Skoðun Leysum leikskólamálin í Reykjavík Anna Björk Marteinsdóttir skrifar Skoðun Opinber áskorun til borgarstjóra: Hvar er kaffispjallið í Grafarvogi? Elísabet Gísladóttir skrifar Skoðun Þegar stæðaleitin verður að umferð: Reykjavík þarf skýrari lausnir Gunnar Einarsson skrifar Skoðun Bjargráð Heiða Kristín Helgadóttir skrifar Skoðun Prófkjör D-lista í Mosfellsbæ 31. janúar Ásgeir Sveinsson skrifar Skoðun Að framkvæma fyrst og spyrja svo Regína Hreinsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Þegar „erlend afskipti“ eru aðeins vandamál ef þau þjóna náttúrunni Arndís Kristjánsdóttir Skoðun
Skoðun Þegar „erlend afskipti“ eru aðeins vandamál ef þau þjóna náttúrunni Arndís Kristjánsdóttir skrifar
Skoðun Fjölsmiðjan í 25 ár: Samfélagsleg fjárfesting sem borgar sig margfalt Davíð Bergmann skrifar
Skoðun Rósa Björk Brynjólfsdóttir og aðförin að málfrelsi og frjálslyndi Hjörvar Sigurðsson skrifar
Skoðun Opinber áskorun til borgarstjóra: Hvar er kaffispjallið í Grafarvogi? Elísabet Gísladóttir skrifar
Skoðun Þegar stæðaleitin verður að umferð: Reykjavík þarf skýrari lausnir Gunnar Einarsson skrifar
Þegar „erlend afskipti“ eru aðeins vandamál ef þau þjóna náttúrunni Arndís Kristjánsdóttir Skoðun