Jueves, 11 de Marzo de 2010

El buscador perfecto en español

Internet. Un equipo de programadores y filólogos desarrolla herramientas para facilitar la navegación por la Red

JOSÉ MARÍA MATEOS ·11/03/2010 - 08:00h

Si en algún momento del futuro apareciese en castellano el verbo ofuseír, sea cual sea su significado, podemos asegurar que la primera persona de singular del presente de indicativo tomará la forma de "yo ofusío". Al menos, esa es la conjugación proporcionada por Onoma, el primer conjugador automático de lengua española que funciona a partir de un infinitivo dado, aunque este sea inventado, informando además de las irregularidades del verbo en cuestión. Este proyecto, desarrollado por la empresa española El Molino de Ideas, fue presentado recientemente en el CosmoCaixa de Alcobendas (Madrid).

El equipo programador, formado por ingenieros, filólogos y lingüistas, ha descubierto siete rasgos de las formas verbales que determinan que se produzca una irregularidad por ejemplo, que la sílaba tónica esté en la raíz del verbo y ha agrupado estas en únicamente cinco grupos diferenciados. El resultado de esta investigación es el software que se puede utilizar gratuitamente desde su página web.

Además, las ideas lingüísticas que hay detrás del conjugador están explicadas en El verbo en español. Construye tu propio verbo 1.0, un libro descargable de forma gratuita desde la web de El Molino y licenciado mediante Creative Commons. Se espera que este método de publicación permita que el trabajo desarrollado pueda llegar a más gente que si se hubiese optado por el modelo editorial clásico. "Primero, porque nos parece interesante: es una cosa que hemos descubierto y lo queremos compartir. Y luego, desde el punto de vista de la empresa, nos parece que preferimos invertir en prestigio para que El Molino sea conocido a esperar a que salga algo, ya que las editoriales no se están moviendo", afirma Eduardo Basterrechea, director general de El Molino y cofundador de la misma hace casi dos años junto con Miguel Ángel Jorge. Los editores, por el momento, "están observando". Han tenido conversaciones con Anaya y SM.

Pero Onoma, aún siendo el motivo de la presentación, no fue la estrella del evento. El objetivo de El Molino, tal y como se desveló al final de la presentación, es el desarrollo de un buscador que comprenda el lenguaje natural, sea capaz de entender la pregunta que realiza el usuario y ofrezca la respuesta basándose en lo que el sistema ha aprendido de forma automática, navegando por la red como lo haría una persona de carne y hueso. Este proyecto recibe el nombre de Ishmov (en homenaje a Isaac Asimov) y las previsiones de la empresa apuntan a que podría empezar a utilizarse a finales de 2011. Todo surge de un proceso de investigación lingüística: "En el fondo lo que queremos es entender el lenguaje humano, y creemos que el mejor negocio que hay es el buscador", comenta Basterrechea. Microsoft ya ha expresado su interés por este proyecto, aunque aún no se ha concretado nada.

Diferente a todo

El concepto suena similar a Wolfram Alpha (un buscador inteligente ideado por el físico británico Stephen Wolfram), pero va más allá: "Es algo completamente diferente. En nuestro caso queremos crear una especie de Wikipedia, pero hecha automáticamente por la máquina. Queremos que la máquina sea la que vaya investigando y encontrando soluciones, y que nos responda con ellas."

Hay más proyectos que han surgido en el camino hacia el buscador y que se encuentran en distintas etapas de desarrollo: Plankton, un corpus etiquetado de palabras en español; y Ashmera, un analizador morfológico y semántico.

"Nuestra idea era ir generando proyectos e ir vendiéndolos. Este proyecto [Onoma], más Ashmera, más Plankton, están pensados así. Lo ideal sería que llegase alguien y nos comprase el conjugador y el libro. Con el dinero seguiríamos desarrollando Ishmov", dice Basterrechea. Aunque a corto plazo el asunto de la financiación está resuelto, es un tema importante para una empresa que se dedica en exclusiva a investigar y desarrollar proyectos propios en el campo de la lingüística computacional. "Hay dos tipos de empresa: una que realiza un proyecto y luego lo explota, y empresas que los hacen porque se los encargan. Nosotros tenemos ideas, las desarrollamos y las vendemos", explica el director.

Adaptación a otras lenguas

Por el momento, Onoma solamente funciona con el español, aunque la adaptación a otras lenguas es un proyecto futuro. Luz Rello, responsable del área de lingüística, aclara que "en principio, se puede hacer con idiomas que se parezcan al español: lenguas románicas, porque se basa en la morfología del verbo. Con inglés no es posible porque la morfología del verbo es más simple, la modelización tendría que trascender hacia el nivel sintáctico más que a la morfología".

Hasta el momento, la investigación ha proporcionado resultados para publicar en revistas científicas, como explica Rello: "Tenemos dos futuras publicaciones, una en la Asociación Norteamericana de Lingüística Computacional; ahí publicaremos cómo se procesan los neologismos. La segunda publicación la queremos hacer en la Asociación de Lingüística Computacional, y ahí vamos a presentar el conjugador".