2007/10/11
Elhuyar Fundazioko I+G taldeak, EHUko Informatika Fakultateko IXA taldearen laguntzarekin, CorpEus zerbitzua on line jarri du. Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du CorpEusek. Sartutako hitzaren (edo hitzen) lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean, eta orri horietan dauden hitzaren agerpen guztiak erakusten ditu bere testuinguruan, hainbat daturen araberako grafikoekin batera.
Irailaren 15 eta 16an Louvain-la Neuve (Belgika) herrian egindako WAC3 (Web as Corpus) nazioarteko kongresuan aurkeztu da CorpEus, eta oso harrera ona izan du. Tresnaren ezaugarriak oso interesgarriak iruditu zaizkie beste parte-hartzaileei, eta bertan erabilitako metodologia beste hizkuntza batzuentzat baliagarri izan daitekeela aipatu da.
Gaur egun, hizkuntza guztiek behar dituzte corpusak. Oso baliabide garrantzitsuak dira hizkuntza-teknologiak garatzeko, hiztegiak egiteko, hizkuntza bera arautzeko, itzulpenetan laguntzeko... Azken finean, hitzen erabilera errealen inguruko informazioa ematen digute corpusek: hitz bat beste bat baino gehiago erabili den, nola deklinatu edo idatzi ohi den, zer hitzekin konbinatzen den...
Corpusak egitea, berriz, lan garestia eta neketsua da, eta zaila da beti eguneratuta edukitzea. Horregatik, euskarazko corpusak gutxi eta txikiak dira, beste hizkuntzetakoekin konparatuta behintzat.
Hor dago, ordea, Internet edo amarauna, testu-bilduma erraldoia, guztion eskura, euskarazko beste edozein corpusetan baino askoz testu gehiagorekin, eta etengabe eguneratzen dena. Hori ere corpus bat da, nahiz eta linguistikoki etiketatu gabea den. Ondo legoke corpus gisa kontsultatu edo ustiatu ahal izatea. Hori da, hain justu, CorpEusek egiten duena.
CorpEusek Interneteko bilatzaileen APIak erabiltzen ditu hitz bat zer orritan agertzen den jakiteko. Baina bilaketa, Interneteko beste tresna eta bilatzaileek ez bezala, euskararen bi arazoak konponduta egiten du: lemaren arabera bilatzen du, eta euskarazko orriak soilik ematen ditu. Hori sorkuntza morfologikoaren eta iragazki-hitzen bidez lortzen da, EHUko Informatika Fakultateko IXA taldearen hainbat tresna erabiliz.
Ondoren, orri horietan dauden hitzaren agerpen guztiak erakusten ditu, bere testuinguruan. Hitzaren agerpen-kopurua ere erakusten du, eta hainbat faktoreren araberako grafikoak egiten ditu: forma, kategoria, aurreko hitzaren lema... Emaitzak hainbat faktoreren arabera ordenatu ditzake, eta emaitzen analisi linguistikoa ere erakusten du. Hainbat dokumentu-motarekin funtzionatzen du (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS).
Horrez gain, eskatutako hitzak aldaerak dituela detektatzen bada, bilaketa egiteaz gain, aldaerak proposatzen zaizkio erabiltzaileari, edo, eskatutakoa aldaera bada, forma estandarra. Hori horrela egiten da baita deklinabide-atzizkien aldaerekin ere. Gainera, ezagutzen ez diren hitzen kasuan, erregela fonologikoen bidez hitz estandar batera irits daitekeen begiratzen du CorpEusek, eta, hala bada, hori ere proposatzen du.
Erabiltzaileak hitz anbiguo edo ezezagun bat sartzen duenean, itzulitako analisien artean aukeratu dezake. Termino edo izen-sintagma osoen bilaketa lematizatua ere egin dezake, hitzak komatxo bikoitzen artean sartuz.
CorpEus bilatzaile nagusien APIak erabiltzeko prestatuta dago (Google, Google AJAX, Yahoo!, Windows Live Search), baina zerbitzu publikoa Windows Live Search-en bidez emango da oraingoz, hori baita baldintzarik egokienak eskaintzen dituen APIa (egunean 25.000 erabilera, Google-en 1.000 eta Yahoo-ren 10.000ren aldean).
CorpEus on line dago, http://www.corpeus.org helbidean. Bertako aurkezpenean eta laguntza-orrian dago informazio gehiago. Horrez gain, CorpEus toki hauetan aurkeztu edo agertu da:
- IEB 07 - Informatikari Euskaldunen Bilkura (Donostia, Euskal Herria, 2007/05/10): CorpEus eta EusBila aurkeztu ziren
- Elhuyar Zientzia eta Teknika aldizkaria (2007/07): CorpEusi buruzko artikulua agertu zen.
- WAC3 - Web As Corpus workshop (Louvain-la-Neuve, Belgika, 2007/09/15-16): CorpEusi buruzko artikulua argitaratu zen eta hitzaldia eman zen:
Babesleak:
Webgune honetako edukiak ezin dira erabili baimenik gabe.
Copyright © 2007 Elhuyar Fundazioa