Datorlingvistik

Datorlingvistik, eller språkteknologi, är ett tvärvetenskapligt forskningsfält som sysslar med datormodeller av naturligt språk. Forskningen drivs både av det teoretiska målet att förstå mänsklig språkanvändning och av praktiska tillämpningar såsom system för automatisk översättning, informationssökning och människa-dator-dialog.

Datorlingvistikgruppen vid Uppsala universitet bedriver forskning inom ett brett fält med fokus på flerspråkiga system, framför allt maskinöversättning, och system för grammatisk analys av text, särskilt dependensbaserad parsning. Ett annat fokusområde är digital humaniora, med projekt inom igenkänning av handskriven text, historisk textprocessning och lösning av historiska chiffer. Gruppen har en starkt empirisk inriktning och har bidragit till utvecklingen av ett antal verktyg och språkresurser, såsom MaltParser (datadriven dependensparser), UPlug (verktyg för länkning av parallellkorpusar), Swedish Treebank (syntaktiskt annoterad korpus) och OPUS (flerspråkig parallellkorpus).

Läs mer: Forskare | Publikationer | Seminarier | Utbildning (språkteknologi) twitter

Projekt, verktyg och resurser nedan

Forskningsprojekt

SWE-CLARIN utvecklar språkresurser och verktyg som baseras på språkteknologiska metoder och gör dessa tillgängliga och användbara för forskare framför allt inom humaniora och samhällsvetenskap. Exempelvis bygger vi en korpus av elevtexter skrivna på nationella prov i svenska och analyserar dessa utifrån språkliga särdrag, bildanalys m.m.

DECODE - Automatisk avkodning av historiska manuskript. Tusentals chiffrerade och hittills oavkodade historiska dokument, så kallade chiffer finns i arkiv, bibliotek och i privata händer både i hela Europa. Vi utvecklar resurser och verktyg för att automatiskt kunna avkoda dessa manuskript.

Att tilltala överheten: suppliker som kulturarv och källa till kunskap. Skrivelser från enskilda riktade till länsstyrelsen i Örebro län under 1700-talet (ca 60 volymer) kommer att indexeras, för att på så vis skapa bättre sökvägar samtidigt som det blir möjligt att klarlägga suppliken som litterär, språklig och juridisk form.

Universal Dependencies är ett projekt som syftar till utveckla enhetlig grammatisk annotering för många språk. 

Diskursorienterad statistisk maskinöversättning har som mål att utveckla översättningsmodeller som utnyttjar kontextuell information från hela diskursen så att översättningen blir mer flytande och koherent i sammanhanget.

Efficient Algorithms for Natural Language Processing Beyond Sentence Boundaries  är ett delprojekt inom eSSENCE - The e-Science Collaboration. Projektets syfte är att utveckla effektiva algoritmer som tillåter att kontextuell information utnyttjas för att förbättra kvaliteten för språkteknologiska tillämpningar, särskilt inom maskinöversättning.

Från närläsning till fjärrläsning är ett projekt som arbeter med datorstödd textanalys av det litterära kulturarvet.

PARSEME är ett  EU COST Action som behandlar flerordsuttryck inom automatisk satsanalys. 

q2b (From Quill to Bytes) arbetar med analys av handskrivna dokument och målet är med hjälp av teknologi från bildanalys och datorlingvistik möjliggöra sökning och transkription direkt från bilder av manuskript.

Tidigare projekt

Resurser och verktyg

Programvara och språkliga data (olika former av korpusar) är oumbärliga för forskning, utveckling av tillämpningar och undervisning inom datorlingvistik och språkteknologi. Det här är några fritt tillgängliga resurser framtagna av institutionens forskare (i samarbete med forskare på andra lärosäten):

  • MaltParser är ett system för datadriven dependensparsning.
  • Swedish Treebank är en svenskspråkig korpus med syntaktisk uppmärkning, OPUS och Universal Dependencies (flerspråkig syntaktiskt annoterad korpus).
  • Uplug är en verktygssamling för bearbetning, länkning och terminologiextraktion för parallella korpusar.
  • Riksdagsord är ett lexikon över ords användning i riksdagen.
  • Swegram är en automatisk lingvistisk analys av svenska texter