Web scraping de dados referentes a indicadores relacionados à produção rural
Resumo
Este trabalho propõe-se a desenvolver uma Base de Dados representada por um ou mais arquivos CSV, contendo dados relativos ao contexto agrícola, de modo que seja possível permitir a realização de uma análise, e se possível auxiliar na tomada
de decisão acerca da produção agrícola e a realização de pesquisas futuras. Além disto, pretende-se disponibilizar esta Base de Dados criada na página do GIPAG (Grupo Interdisciplinar de Pesquisas Agroalimentares Georreferenciadas). Estes dados serão obtidos através do processo de Web Scraping, que é o processo de Extração de Informação aplicado na Web. Para tanto, foram realizadas revisão teórica sobre o processo de Web Scraping e sobre ferramentas que podem ser utilizadas para realizar este processo e que sejam compatíveis com a Linguagem de Programação Python. A linguagem foi escolhida para a realização do processo de Web Scraping, pois é versátil e possui diversas bibliotecas que facilitam a realização deste processo. Com base nesta revisão sobre as ferramentas de busca, elencou-se três com maior destaque, sendo elas, as seguintes ferramentas: Scrapy, Beautiful Soup e Selenium. Sobre cada ferramenta serão apresentadas as principais características, juntamente com dois exemplos de extração de dados com cada ferramenta. Em seguida, serão apresentados os estudos dos portais e os sistemas que implementam o processo de Web Scraping neles. Posteriormente serão descritos alguns dos principais dados presentes na base desenvolvida, detalhando sua fonte e relevância. Por fim, serão apresentadas as considerações finais e as
ideias para a continuidade deste trabalho.
Coleções
Os arquivos de licença a seguir estão associados a este item: