:: Hrvatski jezični resursi i njihovo obilježavanje ::
>> NASLOVNICA | P1
Novosti, obavijesti i najave Novosti:

Sastanak projekta:
2007-05-31, 9:30, FFZG, B-003


Članak Computational Linguistic Models and Language Technologies for Croatian autorâ Bojane Dalbelo Bašić, Zdravka Dovedana, Ide Raffaelli, Sanje Seljan i Marka Tadića prihvaćen za konferenciju ITI2007 u Sekciji za jezične tehnologije.

Hrvatski jezični resursi i njihovo obilježavanje

Danas je bilo kakva empirijska, a time posredno opće- i specifičnolingvistička, istraživanja teško provesti bez pomoći računalnoga korpusa. Interpersonalna provjerljivost i egzaktna mjerljivost korpusnih podataka omogućuje lingvistici pristup jezičnome opisu koji se svojom strogošću može mjeriti s prirodnim znanostima. Ovaj projekt želi postići takvu korpusnolingvističku razinu u nekoliko ciljeva:

  1. proširiti postojeći Hrvatski nacionalni korpus (HNK) sa 101 na 200 milijuna pojavnica i pri tom posvetiti pozornost na uravnoteženo uzorkovanje tekstnih uzoraka prema različitim vrstama, medijima, žanrovima, područjima s kojih ti uzorci dolaze;
  2. obogatiti HNK lingvističkim oznakama na morfološkoj (vrste riječi, gramatičke kategorije, leme), sintaktičkoj (sintaktički odsječci, rečenične strukture) i semantičkoj (oznake leksičkoga značenja iz Hrvatskoga WordNeta);
  3. obaviti temeljna statistička istraživanja evidencije, frekvencije i distribucije jezičnih jedinica i njihovih kombinacija na više jezičnih razina;
  4. sastaviti stanovit broj manjih korpusa hrvatskoga jezika za pojedina specijalistička područja;
  5. za potrebe višejezičnih lingvističkih proučavanja odnosa identiteta hrvatskoga jezika u europskome okružju i razvitka višejezičnih jezičnih tehnologija (JT), sastaviti niz usporednih korpusa “hrvatski — jezik-X” opsega barem milijun pojavnica;
  6. sastaviti i usporedive korpuse ukoliko ne bude dovoljno paralelnih e-tekstova za sastavljanje usporednih korpusa.

Svako sastavljanje i istraživanje korpusa donosi nove, često neočekivane rezultate i metode. Takvi uvidi u usustavljenu jezičnu građu često nadopunjuju intuitivno i introspektivno sagledavanje jezičnih pojava. U ovom se projektu očekuje čitav niz takvih novih teorijskih uvida, istraživačkih i metodoloških postupaka koji još nikad nisu bili provjereni u obradbi tako opsežne hrvatske jezične grade. Svrha je projekta osigurati hrvatskome jeziku reprezentativan korpus u skladu s najsuvremenijim dostignućima i spoznajama iz korpusne i računalne lingvistike. Taj bi korpus služio kao usustavljena jezična građa za sve vrste teorijskih i praktičnih kroatističkih, opće- i računalnolingvističkih istraživanja. Takav je korpus ujedno nezaobilazan i temeljni jezični resurs za izgradnju jezičnih tehnologija za hrvatski jezik (JTHJ). Razvitak JTHJ — što je i jedna od svrha nadređenoga programa — posredno će osigurati hrvatskome jeziku ravnopravno sudjelovanje u izgradnji informacijskoga društva tj. društva znanja u EU.

Broj projekta: MZOŠ 130-1300646-0645

Znanstveno područje: humanističke znanosti

Vrsta istraživanja: ciljana temeljna istraživanja

Prioritetno područje istraživanja: Društvene i humanističke znanosti i hrvatski identitet

Voditelj projekta: prof. dr. sc. Marko Tadić

Doprinos ostvarivanju kratkoročnih i dugoročnih ciljeva razvitka RH:

Ključne riječi: Hrvatski nacionalni korpus, korpusna lingvistika, označivanje vrsta riječi i gramatičkih kategorija, lematizacija, sintaktičko označivanje, semantičko označivanje

Objavljeni radovi: bib.irb.hr

Design LABOO WEB DESIGN i MARKO TADIĆ. Validni XHTML i CSS.