Ordklasstaggning

Ordklasstaggning är processen för att märka upp ordklass eller andra syntaktiska klasser till ord i en korpus,^[1] och det är en språkteknologisk metod. Före ordklasstaggning måste en separering av ord i en text göras, det kallas ordsegmentering (ibland tokenisering). Skiljetecken och interpunktionstecken som till exempel punkt (.), kommatecken (,), kolon (:), semikolon (;) och talstreck (-) separeras också från orden och märks upp.

Ordklasstaggning är en disambigueringsuppgift eftersom ord kan vara flertydiga. Problemet med ordklasstaggning är att särskilja flertydigheten, att välja rätt ordklass för kontexten.^[1] Ordklasstaggare är antingen regelbaserade eller stokastiska. Regelbaserad taggare, för automatisk tilldelning av ordklass, använder lexikon och en mängd handskrivna disambigueringsregler som avgör vilken ordklass ett ord tillhör genom att se till kontexten. En stokastisk taggare består av ett lexikon, en träningskorpus samt programvara som tillämpar den så kallade Viterbialgoritmen som hittar den troligaste tillståndsföljden i en dold Markovmodell. Lexikonet listar alla ord som förekommer i träningskorpusen antingen som lemmaformer eller som böjda former och deras möjliga ordklasstaggar. Ett lexikon är i regel finit, men vissa taggare tillämpar i stället en morfologisk skanner. En morfologisk skanners främsta fördel är att den kan tagga även ord som inte förekommer i lexikonet och på så sätt ”lära sig”. En träningskorpus fungerar som konsultation till lexikonet för att avgöra ett ords lexikala tillhörighet. Det är oerhört viktigt att träningskorpusen är helt tillförlitlig, således måste den taggas för hand.^[2]

Tagguppsättning

Tagguppsättningen kan se olika ut och innehålla mer eller mindre morfologisk information. PAROLE och SUC (Stockholm Umeå Corpus) är två ordklasstaggade korpusar.

Tagguppsättning för substantiv neutrum pluralis definit genitiv definieras på följande sätt:

PAROLE: NCNPG@DS ^[3]
SUC: NN NEU PLU DEF GEN ^[3]

Exempelmening

”Hunden jagade en liten katt på gården."

Meningen ordsegmenterad och taggad med SUC-tagguppsättningen

Hunden nn ut sg def nom
jagade vb prt akt
en dt ut sg ind
liten jj pos ut sg ind nom
katt nn ut sg ind nom
på pp
gården nn ut sg def nom
. mad --

Förklaring av taggarna ovan

nn ut sg def nom = substantiv utrum singularis definit nominativ
vb prt akt = verb preteritum aktiv
dt ut sg ind = determinerare utrum singularis indefinit
jj pos ut sg ind nom = adjektiv positiv utrum singularis indefinit nominativ
nn ut sg ind nom = substantiv utrum singularis indefinit nominativ
pp = preposition
nn ut sg def nom = substantiv utrum singularis definit nominativ
mad -- = meningsskiljande interpunktion

Utöver morfosyntaktisk annotering så kan en korpus också annoteras syntaktiskt (fraser, satser), semantiskt (tematiska roller) och pragmatiskt (till exempel identifikation av talakter). ^[4]

Källor

^ [a b] Jurafsky & Martin: ”Ordklasstaggning”, sidan 167. Speech and language processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 2009
^ F. Tamburini (2000). Annotazione grammaticale e lemmatizzazione di corpora in italiano, Linguistica e informatica: multimedialita', corpora e percorsi di apprendimento, Rossini Favretti R. (a cura di), Bulzoni, Roma, 57-73.
^ [a b] Ejerhed, Eva, Ridings, Daniel. ”Taggtabell”. Språkbanken. Språkbanken. http://spraakbanken.gu.se/parole/. Läst 5 juli 2010.
^ Lenci A., Montemagni S., Pirrelli V. (2005). Testo e computer. Roma: Carocci. Sidor 214-217

[ReferenceA-1] [a b] Jurafsky & Martin: ”Ordklasstaggning”, sidan 167. Speech and language processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 2009

[ReferenceB-2] F. Tamburini (2000). Annotazione grammaticale e lemmatizzazione di corpora in italiano, Linguistica e informatica: multimedialita', corpora e percorsi di apprendimento, Rossini Favretti R. (a cura di), Bulzoni, Roma, 57-73.

[spraakbanken.gu.se-3] [a b] Ejerhed, Eva, Ridings, Daniel. ”Taggtabell”. Språkbanken. Språkbanken. http://spraakbanken.gu.se/parole/. Läst 5 juli 2010.

[ReferenceC-4] Lenci A., Montemagni S., Pirrelli V. (2005). Testo e computer. Roma: Carocci. Sidor 214-217

[1]

[2]

[3]

[4]