RSS

EXTRACCIÓN DE INFORMACIÓN

30 Oct

La gran cantidad  de documentos en el entorno web de nuestra universidad, hace casi imposible su análisis y clasificación de dicha información. Es por esto que al iniciar la investigación de mi tema de tesis se empezará con el estudio de la extracción de la información y de la existencia de sistemas de extracción de información.

La Extracción de la información, hace referencia a la  recuperación de la información , siendo su principal objetivo extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora, obteniendo así la información relevante e ignorar la irrelevante; otro objetivo  es el reconocimiento de nombres de personas, organizaciones, lugares, expresiones temporales así como ciertas expresiones numéricas.

Con el  desarrollo  de sistemas de  extracción de información automática se pretende filtrar los resultados de los contenidos  de una forma menos laboriosa para los usuarios. Los sistemas de extracción de información realizan la tarea de buscar información muy concreta en colecciones de documentos, detectar la información relevante, extraerla y presentarla en un formato susceptible a ser tratado automáticamente más tarde.


Existen dos tipos de extracción y recuperación de la información

1.      Clasificación Supervisada

Se basada en el aprendizaje de forma supervisada. Posee un algoritmo que produce una función que establece una correspondencia entre las entradas y las salidas deseadas del sistema. Un ejemplo de este tipo de algoritmo es el problema de clasificación, donde el sistema de aprendizaje trata de etiquetar (clasificar) una serie de vectores utilizando una entre varias categorías (clases). La base de conocimiento del sistema está formada por ejemplos de etiquetados anteriores.

2. clasificación de información no supervisada

La clasificación con aprendizaje no supervisado es el aprendizaje que no necesita de un profesor, supervisor o validador externo para realizar su aprendizaje. Son capaces de modificar sus parámetros internamente, adaptándose únicamente apoyándose en el conjunto de entrenamiento que requieren.  Su principal fundamento se basa en la redundancia que hay en el lenguaje natural y de esta forma poder sacar relaciones semánticas, distinguir expresiones superfluas, descubrir clases, etc.

3. Herramientas para la clasificación no supervisada

Las herramientas que ofrece el aprendizaje no supervisado para la extracción y recuperación de información se pueden clasificar en los siguientes grupos:

Clustering ,Entrenamiento y Aprendizaje, Mapas autoorganizactivos, donde destaca principalmente los mapas de Kohonen (Kohonen’s Feauture Map)

Filtrado y Clasificación de Información

En la actualidad existen canales y agregadores que nos permiten acceder a una gran cantidad de información, y sus tareas principales son clasificar y filtrar información.

Filtrar información es  dejar pasar parte de ésta y bloquear otra de acuerdo a un objetivo. En otros casos el objetivo es evitar información cuyos contenidos no son aptos para menores o tienen publicidad no solicitada. Un ejemplo muy popular es el filtrado de correo electrónico no deseado (spam). El filtrado de información también puede tener como objetivo personalizar y ajustar los agregadores de acuerdo a los intereses de un usuario o una comunidad de usuarios.

En el caso de clasificar la información, se debe decidir una o más categorías, entre un conjunto fijo de éstas, a las que se asocia determinada información, como cuando organizamos los archivos de nuestro computador en carpetas.

En otros casos, las categorías pueden referirse a un tipo de autor o el origen de la misma información. Por ejemplo, podríamos necesitar clasificar texto para detectar comentarios positivos y negativos.

Uno de los primeros sistemas automáticos se filtrado de contenido fue Open Directory Project, constituyéndose una ambiciosa iniciativa de comprometer editores humanos para clasificar la Web, a sus inicios  gozó de gran popularidad, pero a fines de los noventa, pero su impacto decreció en los últimos años.

Bibliografía:

1.      Introducción a la extracción de información, http://extraccioninformacion.latinowebs.com/

2.      Extracción de la información, http://es.wikipedia.org/wiki/Extracción_de_la_información

3.      Extracción y Recuperación de información temporal, escrito por: Dolores María Escrivá

4.      Extracción de información, http://www.gedlc.ulpgc.es/docencia/seminarios/pln/Extraccion_de_informacion

5.      Extracción de Información con Algoritmos de Clasificación, disponible en http://ccc.inaoep.mx/~mmontesg/tesis%20estudiantes/TesisMaestria-AlbertoTellez.pdf

Anuncios
 
 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

 
A %d blogueros les gusta esto: