Novosti:Sastanak projekta:
2007-05-31, 9:30, FFZG, B-003
Članak Computational Linguistic Models and Language Technologies for Croatian autorâ Bojane Dalbelo Bašić, Zdravka Dovedana, Ide Raffaelli, Sanje Seljan i Marka Tadića prihvaćen za konferenciju ITI2007 u Sekciji za jezične tehnologije.
Danas je bilo kakva empirijska, a time posredno opće- i specifičnolingvistička, istraživanja teško provesti bez pomoći računalnoga korpusa. Interpersonalna provjerljivost i egzaktna mjerljivost korpusnih podataka omogućuje lingvistici pristup jezičnome opisu koji se svojom strogošću može mjeriti s prirodnim znanostima. Ovaj projekt želi postići takvu korpusnolingvističku razinu u nekoliko ciljeva:
Svako sastavljanje i istraživanje korpusa donosi nove, često neočekivane rezultate i metode. Takvi uvidi u usustavljenu jezičnu građu često nadopunjuju intuitivno i introspektivno sagledavanje jezičnih pojava. U ovom se projektu očekuje čitav niz takvih novih teorijskih uvida, istraživačkih i metodoloških postupaka koji još nikad nisu bili provjereni u obradbi tako opsežne hrvatske jezične grade. Svrha je projekta osigurati hrvatskome jeziku reprezentativan korpus u skladu s najsuvremenijim dostignućima i spoznajama iz korpusne i računalne lingvistike. Taj bi korpus služio kao usustavljena jezična građa za sve vrste teorijskih i praktičnih kroatističkih, opće- i računalnolingvističkih istraživanja. Takav je korpus ujedno nezaobilazan i temeljni jezični resurs za izgradnju jezičnih tehnologija za hrvatski jezik (JTHJ). Razvitak JTHJ — što je i jedna od svrha nadređenoga programa — posredno će osigurati hrvatskome jeziku ravnopravno sudjelovanje u izgradnji informacijskoga društva tj. društva znanja u EU.
Broj projekta: MZOŠ 130-1300646-0645
Znanstveno područje: humanističke znanosti
Vrsta istraživanja: ciljana temeljna istraživanja
Prioritetno područje istraživanja: Društvene i humanističke znanosti i hrvatski identitet
Voditelj projekta: prof. dr. sc. Marko Tadić
Doprinos ostvarivanju kratkoročnih i dugoročnih ciljeva razvitka RH:
Ključne riječi: Hrvatski nacionalni korpus, korpusna lingvistika, označivanje vrsta riječi i gramatičkih kategorija, lematizacija, sintaktičko označivanje, semantičko označivanje
Objavljeni radovi: bib.irb.hr