segunda-feira, setembro 19, 2011

Extraindo dados dos artigos da Wikipédia em português

Um dos investimentos mais importantes da minha tese de doutorado foi (verbo no passado porque o trabalho está depositado e será defendido no dia 30/09... ainda esta semana posto sobre isso) o desenvolvimento de um software que permite a extração de dados quantitativos do histórico de edições da Wikipédia em português.

Com o apoio inestimável do prof. Alcione de Paiva Oliveira, do Departamento de Informática da UFV, e com grande dedicação do bolsista (por apenas um mês!) Charles Cássio da Silva, desenvolvemos em 2010 o WikipediAnalyserPT.

Interface do WikipediAnalyserPT
Após ser utilizado na tese (e meus artigos mais recentes), o software já está disponível para download. Por ter o código aberto, esperamos que outros programadores possam colaborar para seu aperfeiçoamento.

Para cada artigo pesquisado, a versão inicial deste aplicativo em Java gera uma planilha que, entre outros dados, permite mensurarmos, em cada artigo pesquisado:
- quantas edições foram feitas por quantos editores em um determinado período de tempo;
- que percentual dessas edições foi efetuado por editores não-cadastrados, bots, administradores e demais editores cadastrados da Wikipédia;
- qual a média de edições por mês e qual a média de edições por editores;
- quantas edições cada editor efetuou.
- quantas edições foram revertidas ou desfeitas, e por quais editores;
- quantas proteções foram aplicadas a um artigo, e qual o percentual de tempo no qual o artigo ficou protegido;
- qual o percentual de edições que incluiu ou excluiu conteúdo do artigo.

Mais explicações técnicas e uma explicação de como rodar o programa estão no arquivo .PDF disponível junto com o software.

Que seja útil para muitas pesquisas!


Nenhum comentário: