La gran cantidad de documentos en el entorno web de nuestra universidad, hace casi imposible su análisis y clasificación de dicha información. Es por esto que al iniciar la investigación de mi tema de tesis se empezará con el estudio de la extracción de la información y de la existencia de sistemas de extracción de información.
La Extracción de la información, hace referencia a la recuperación de la información , siendo su principal objetivo extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora, obteniendo así la información relevante e ignorar la irrelevante; otro objetivo es el reconocimiento de nombres de personas, organizaciones, lugares, expresiones temporales así como ciertas expresiones numéricas.
Con el desarrollo de sistemas de extracción de información automática se pretende filtrar los resultados de los contenidos de una forma menos laboriosa para los usuarios. Los sistemas de extracción de información realizan la tarea de buscar información muy concreta en colecciones de documentos, detectar la información relevante, extraerla y presentarla en un formato susceptible a ser tratado automáticamente más tarde.
Read the rest of this entry »