11/10/2007
El grupo de I+D de Elhuyar Fundazioa, con la colaboración del grupo IXA de la Facultad de Informática de la UPV/EHU, ha puesto on line el servicio CorpEus. El servicio CorpEus permite consultar en Internet como si fuera un enorme corpus de euskera. Realiza una búsqueda de la palabra (o palabras) consultada en todas las páginas web en euskera de Internet y muestra todas las apariciones en su contexto, así como unos gráficos en función de varios datos.
CorpEus fue presentado en el congreso internacional WAC3 (Web as Corpus) realizado en Louvain-la Neuve (Bélgica) del 15 al 16 de septiembre, donde tuvo una gran acogida. A los participantes les parecieron muy interesantes las características de este instrumento y mencionaron que la metodología utilizada puede ser útil para otras lenguas.
Hoy en día todos los idiomas necesitan corpus. Son un recurso muy importante para el desarrollo de tecnologías lingüísticas, para confeccionar diccionarios, para normalizar el propio idioma, como ayuda en las traducciones, etc. A fin de cuentas, los corpus nos aportan información sobre el uso real de las palabras, es decir, nos dicen si una palabra se ha utilizado más que otra, cómo se suele declinar o escribir, con qué palabras se combina, etc.
Pero confeccionar un corpus es una tarea ardua y costosa, y es difícil mantenerlo siempre actualizado. Ese es el motivo por el que los corpus de euskera son pocos y pequeños, al menos en comparación con los de otras lenguas.
Sin embargo, tenemos Internet, una enorme colección de textos al alcance de todos con muchos más textos en euskera que cualquier corpus y que se actualiza continuamente. Eso también es un corpus, aunque este sin etiquetar lingüísticamente. Sería bueno poder consultarlo o explotarlo como corpus. Y eso es, precisamente, lo que hace CorpEus.
CorpEus utiliza las API de los buscadores de Internet para saber en qué páginas aparece la palabra consultada. Pero a diferencia de los demás buscadores y herramientas de Internet, realiza la búsqueda solucionando dos problemas del euskera: hace la búsqueda en función del lema, y sólo devuelve páginas en euskera. Eso se logra por medio de la creación morfológica y de palabras filtro, empleando varias herramientas del grupo IXA de la de la Facultad de Informática de la UPV/EHU.
Una vez realizada la búsqueda, CorpEus muestra, en su contexto, todas las palabras encontradas. También presenta el número de apariciones de la palabra, así como unos gráficos en función de varios factores —forma, categoría, lema de la palabra anterior, etc.—. A su vez, puede ordenar las palabras según varios factores y muestra el análisis lingüístico de los resultados. Funciona con varios tipos de documentos (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS).
Si se detecta que la palabra consultada tiene variantes, además de realizar la búsqueda, se proponen esas variantes al usuario; y si la palabra consultada es una variante, se propone la forma estándar. Y cuando CorpEus no conoce una palabra, prueba si puede llegar a una palabra estándar por medio de reglas fonológicas; en caso de que así sea, también la propone.
Cuando el usuario introduce una palabra desconocida o ambigua, puede elegir entre los análisis devueltos. Y también puede realizar búsquedas lematizadas de términos o sintagmas nominales, introduciendo las palabras entre comillas.
CorpEus está preparado para utilizar las APIs de los principales buscadores (Google, Google AJAX, Yahoo!, Windows Live Search), pero el servicio público se prestará, por ahora, por medio de Windows Live, ya que es la API que ofrece las mejores condiciones (más de 25.000 usos al día, frente a los 1.000 de Google y 10.000 de Yahoo!).
Volver al inicio de la páginaPatrocinadores:
Queda prohibido el uso de los contenidos de este sitio web sin permiso expreso.
Copyright © 2007 Elhuyar Fundazioa