Sistemas de Recuperação de Informação
Por: Graziele P. Silva
Recuperação de Informação lida com armazenamento automático e recuperação de documentos, que são de grande importância devido ao uso universal da linguagem para comunicação.
Com o crescimento do volume de publicações, ao longo dos anos, foram desenvolvidas técnicas de recuperação de informação para responder às necessidades dos usuários de bibliotecas, tradicionais ou digitais. A ferramenta mais importante para auxiliar o processo de recuperação é denominada índice, que é uma coleção de termos que indicam o local onde a informação desejada pode ser localizada. Estes termos devem ser organizados de forma a facilitar sua busca.
Atualmente já não se pode falar em crescimento do volume de publicações mas em uma verdadeira explosão. As bibliotecas digitais, que são publicações armazenadas e manipuladas eletronicamente, aparecem como um paradigma para melhorar a busca e apresentação de informações desejadas. A indexação ainda é a principal ferramenta para recuperação de informação.
A crescente complexidade dos objetos armazenados e o grande volume de dados exigem processos de recuperação cada vez mais sofisticados. Diante deste quadro, recuperação de informação apresenta a cada dia, novos desafios e se configura como uma área de significância maior.
Recuperação de informação é uma subárea da ciência da computação que estuda o armazenamento e recuperação automática de documentos, que são objetos de dados, geralmente textos. Um sistema de Recuperação de Informação (SRI) pode ser estruturado.
Os componentes do sistema incluem documentos, necessidades do usuário, gera a consulta formulada, e finalmente o processo de recuperação que, à partir das estruturas de dados e da consulta formulada, recupera uma lista de documentos considerados relevantes.
O processo de indexação envolve a criação de estruturas de dados associados à parte textual dos documentos, por exemplo, as estruturas de arranjos de sufixos (PAT arrays) e arquivos invertidos.
Estas estruturas podem conter dados sobre características dos termos na coleção de documentos, tais como a freqüência de cada termo em um documento.
O processo de especificação da consulta geralmente é uma tarefa difícil. Há freqüentemente uma distância semântica entre a real necessidade do usuário e o que ele expressa na consulta formulada. Essa distância é gerada pelo limitado conhecimento do usuário sobre o universo de pesquisa e pelo formalismo da linguagem de consulta.
O processo de recuperação consiste na geração de uma lista de documentos recuperados para responder a consulta formulada pelo usuário. Os índices construídos para uma coleção de documentos e são usados para acelerar esta tarefa. Além disso, a lista de documentos recuperados é classificada em ordem decrescente de um grau de similaridade entre o documento e a consulta.
O estudo da área de recuperação de informação é de grande utilidade para a comunidade de sistemas de informações em geral. De fato, com a explosão do número de documentos e usuários na Web, modelos para recuperação precisa de informações passaram a ser de muito maior importância.