Web scraping de dados referentes a indicadores relacionados à produção rural

Mohr, Guilherme Alan

Visualizar/Abrir

TCC de Graduação (4.126Mb)

Data

2023-01-30

Autor

Mohr, Guilherme Alan

Metadata

Mostrar registro completo

Resumo

Este trabalho propõe-se a desenvolver uma Base de Dados representada por um ou mais arquivos CSV, contendo dados relativos ao contexto agrícola, de modo que seja possível permitir a realização de uma análise, e se possível auxiliar na tomada de decisão acerca da produção agrícola e a realização de pesquisas futuras. Além disto, pretende-se disponibilizar esta Base de Dados criada na página do GIPAG (Grupo Interdisciplinar de Pesquisas Agroalimentares Georreferenciadas). Estes dados serão obtidos através do processo de Web Scraping, que é o processo de Extração de Informação aplicado na Web. Para tanto, foram realizadas revisão teórica sobre o processo de Web Scraping e sobre ferramentas que podem ser utilizadas para realizar este processo e que sejam compatíveis com a Linguagem de Programação Python. A linguagem foi escolhida para a realização do processo de Web Scraping, pois é versátil e possui diversas bibliotecas que facilitam a realização deste processo. Com base nesta revisão sobre as ferramentas de busca, elencou-se três com maior destaque, sendo elas, as seguintes ferramentas: Scrapy, Beautiful Soup e Selenium. Sobre cada ferramenta serão apresentadas as principais características, juntamente com dois exemplos de extração de dados com cada ferramenta. Em seguida, serão apresentados os estudos dos portais e os sistemas que implementam o processo de Web Scraping neles. Posteriormente serão descritos alguns dos principais dados presentes na base desenvolvida, detalhando sua fonte e relevância. Por fim, serão apresentadas as considerações finais e as ideias para a continuidade deste trabalho.

URI

http://repositorio.ufsm.br/handle/1/29795

Coleções

TCC Tecnologia em Sistemas para Internet [17]

Os arquivos de licença a seguir estão associados a este item:

Creative Commons

Exceto quando indicado o contrário, a licença deste item é descrito como Acesso Aberto