Datorlingvistik
Datorlingvistik, eller språkteknologi, är ett tvärvetenskapligt forskningsfält som sysslar med datormodeller av naturligt språk. Forskningen drivs både av det teoretiska målet att förstå mänsklig språkanvändning och av praktiska tillämpningar såsom system för automatisk översättning, informationssökning och människa-dator-dialog.
Datorlingvistikgruppen vid Uppsala universitet bedriver forskning inom ett brett fält med fokus på flerspråkiga system, framför allt maskinöversättning, och system för grammatisk analys av text, särskilt dependensbaserad parsning. Ett annat fokusområde är digital humaniora, med projekt som arbetar med analys av historiska och litterära texter och lösning av historiska chiffer. Gruppen har en starkt empirisk inriktning och har bidragit till utvecklingen av ett antal verktyg och språkresurser, såsom MaltParser (datadriven dependensparser), UPlug (verktyg för länkning av parallellkorpusar), Swedish Treebank (syntaktiskt annoterad korpus) och OPUS (flerspråkig parallellkorpus).
Läs mer: Forskare | Publikationer | Seminarier | Utbildning (språkteknologi)
Projekt, verktyg och resurser nedan
Forskningsprojekt
SWE-CLARIN utvecklar språkresurser och verktyg som baseras på språkteknologiska metoder och gör dessa tillgängliga och användbara för forskare framför allt inom humaniora och samhällsvetenskap. Exempelvis bygger vi en korpus av elevtexter skrivna på nationella prov i svenska och analyserar dessa utifrån språkliga särdrag, bildanalys m.m.
DECRYPT. Decryption of Secret Historical Manuscripts: collection, transcription, decipherment. Tusentals chiffrerade och hittills oavkodade historiska dokument, så kallade chiffer finns i arkiv, bibliotek och i privata händer både i hela Europa. Vi utvecklar resurser och verktyg för att automatiskt kunna avkoda dessa manuskript.
Att tilltala överheten: suppliker som kulturarv och källa till kunskap. Projektet syftar till att indexera, registrera, tillgängliggöra och utifrån vetenskapliga frågeställningar analysera en i svensk forskning underutnyttjad men rik källa: suppliker. Projektet bidrar även till det långsiktiga målet att göra äldre handskrivna texter maskinläsbara.
Universal Dependencies är ett projekt som syftar till utveckla enhetlig grammatisk annotering för många språk.
Diskursorienterad statistisk maskinöversättning har som mål att utveckla översättningsmodeller som utnyttjar kontextuell information från hela diskursen så att översättningen blir mer flytande och koherent i sammanhanget.
Framgångens mönster: Helhetsperspektiv på samtida bästsäljande fiktion (Patterns of Popularity: Towards a Holistic Understanding of Contemporary Bestselling Fiction). Ingår i Uppsala Computational Literary Studies Group (UCOL).
Hur skönlitteraturen gjorde svenskan modern. Fiktionsprosa, författare och språkförändring 1830–1930 (Fictional Prose and Language Change: The Role of Colloquialization in the history of Swedish 1830–1930). Ingår i Uppsala Computational Literary Studies Group (UCOL).
Arbetarrörelsens minne handlar om digitalisering av års- och verksamhetsberättelser från fackliga organisationer under perioden 1880–2018, och där vi från den datorlingvistiska sidan arbetar med förbättrad sökbarhet i det historiska materialet.
Resurser och verktyg
Programvara och språkliga data (olika former av korpusar) är oumbärliga för forskning, utveckling av tillämpningar och undervisning inom datorlingvistik och språkteknologi. Det här är några fritt tillgängliga resurser framtagna av institutionens forskare (i samarbete med forskare på andra lärosäten):
- MaltParser är ett system för datadriven dependensparsning.
- Swedish Treebank är en svenskspråkig korpus med syntaktisk uppmärkning, OPUS och Universal Dependencies (flerspråkig syntaktiskt annoterad korpus).
- Uplug är en verktygssamling för bearbetning, länkning och terminologiextraktion för parallella korpusar.
- Riksdagsord är ett lexikon över ords användning i riksdagen.
- Swegram är en automatisk lingvistisk analys av svenska texter