sexta-feira, setembro 30, 2011

Apresentação da tese

Tá aí o material que usarei estou usando na defesa da minha tese de doutorado.

No melhor espírito "on+off-line", este post foi programado para ser publicado às 14h, horário em que defesa deve estar começando.

Boa jornada para nós.



View more presentations from carlosdand.

quinta-feira, setembro 22, 2011

Defesa da tese de doutorado

Há quase quatro anos eu vinha aqui anunciar minha aprovação para cursar o doutorado em Estudos Linguísticos na UFMG.

Muitas leituras, análises, viagens, fins de semana, artigos, qualificação, orientações etc depois, é enfim hora de convidá-los para a defesa da tese "Processos editoriais auto-organizados na Wikipédia em português: a edição colaborativa de "'Biografias de Pessoas Vivas'".

A defesa começa às 14h do dia 30 de setembro de 2011 (sexta-feira) no auditório 2001 da Faculdade de Letras da UFMG.

Além da minha orientadora (Profa. Dra. Carla Viana Coscarelli), compõem a banca examinadora:
Prof. Dr. Júlio César Rosa de Araújo - UFC
Profa. Dra. Ana Elisa Ribeiro - CEFET/MG
Profa. Dra. Geane Carvalho Alzamora - UFMG
Profa. Dra. Vera Lúcia Menezes de Oliveira e Paiva - UFMG
Suplentes:
Prof. Dr. Milton do Nascimento - PUC/MG
Profa. Dra. Maria Aparecida Moura - UFMG

Abaixo, o resumo da tese. Assim que a versão final for gerada, publicarei o .PDF, é claro.

Resumo: A presente tese mapeia e analisa a dinâmica de edição de um conjunto de artigos da Wikipédia em português, visando identificar e caracterizar processos auto-organizados e colaborativos em sua rede de produção editorial, assim como a participação dos editores na reescrita dos artigos. Caracterizada pela abertura à participação que qualquer pessoa, a Wikipédia é um dos sites mais populares da atualidade e, em sua versão na língua portuguesa, possui cerca de 700 mil artigos escritos por editores voluntários. A seção 'Biografia de Pessoas Vivas' da qual foi extraída a amostra em análise no trabalho é regulada por uma 'política oficial' da Wikipédia e busca equilibrar a atualização frequente dos artigos ao rigor formal que caracteriza uma enciclopédia. O referencial teórico do trabalho é composto por referências de diferentes campos do conhecimento. Da Linguística Textual, discutimos os conceitos de texto (BEAUGRANDE, 1997; COSCARELLI, 2006), textualidade (COSTA VAL, 2004), retextualização e reescrita (MARCUSCHI, 2000; MATENCIO, 2002), e os relacionamos com os processos editoriais e com as atividades profissionais ligadas ao tratamento do texto nas redes de produção de livros e enciclopédias, especialmente após a adoção das tecnologias digitais. Em seguida, discutimos o modelo de produção editorial em rede alavancado pela internet sob inspiração da 'cultura hacker' e dos softwares livres. Nesta discussão, são fundamentais conceitos como 'produção de bens comuns por pares em rede' (BENKLER, 2006), 'Sabedoria das Multidões' (SUROWIECKI, 2007), 'produsage' (BRUNS, 2008), 'comunidade virtual' e 'agrupamento' (HAYTHORNTHWAITE, 2009), assim como suas interfaces com as redes tradicionais de produção editorial ('livro em rede' e 'wiki-jornalismo', por exemplo). Por fim, relacionamos a produção editorial em rede com o paradigma da complexidade, considerando a Wikipédia como um sistema adaptativo complexo (HOLLAND, 1995; LARSEN-FREEMAN e CAMERON, 2008) que, potencialmente, funciona de modo auto-organizado e emergente (DEBRUN, 1996a, 1996b; DE WOLF e HOLVOET, 2005). O estudo empírico é centrado em uma amostra de 91 biografias elaborada a partir das listas de personalidades brasileiras mais 'influentes' de 2009 publicadas pelas revistas 'Época' e 'Isto É'. Na etapa quantitativa de análise de dados, extraímos dados dos históricos dos artigos com um software desenvolvido para a pesquisa (WikipediAnalyserPT) e comparamos o processo de edição desses a partir de variáveis como total de edições, tipos de editores envolvidos, proteções impostas aos artigos e reversões, entre outros aspectos. Na etapa qualitativa, detalhamos a dinâmica de edição de cinco dos artigos da amostra, caracterizando as operações de tratamento do texto e as interações estabelecidas pelos editores. Três artigos foram selecionados em função da proximidade quantitativa de suas 'variáveis-chave': o do jornalista 'Franklin Martins', o da senadora 'Kátia Abreu' e o do dirigente esportivo 'Ricardo Teixeira'. São analisados e discutidos ainda dois dos artigos mais editados da amostragem, relativos aos jogadores de futebol 'Adriano Leite Ribeiro' e 'Ronaldo Luis Nazário de Lima'. Nos três artigos 'intermediários', identificamos uma relativa estabilidade (causada pela baixa média de edições por mês) entremeada por períodos curtos em que ocorreu um maior número de edições. Observamos também que alguns poucos editores são responsáveis pela elaboração dos textos preservados ao longo do tempo. Nos dois artigos mais editados, há uma ininterrupta movimentação dos editores, com destaque para vandalismos e guerras de edições. Embora também nestes artigos algumas poucas edições contribuam para as versões que permanecem publicadas, identificamos que a 'emergência' de um comportamento marcado por disputas ajuda a alavancar a colaboração entre os agentes. Ao final, discutimos, à luz dos dados analisados, as possibilidades e os desafios de uma 'wikificação' da produção editorial.

Palavras-chave: Wikipédia; edição; reescrita; colaboração; auto-organização; complexidade

segunda-feira, setembro 19, 2011

Extraindo dados dos artigos da Wikipédia em português

Um dos investimentos mais importantes da minha tese de doutorado foi (verbo no passado porque o trabalho está depositado e será defendido no dia 30/09... ainda esta semana posto sobre isso) o desenvolvimento de um software que permite a extração de dados quantitativos do histórico de edições da Wikipédia em português.

Com o apoio inestimável do prof. Alcione de Paiva Oliveira, do Departamento de Informática da UFV, e com grande dedicação do bolsista (por apenas um mês!) Charles Cássio da Silva, desenvolvemos em 2010 o WikipediAnalyserPT.

Interface do WikipediAnalyserPT
Após ser utilizado na tese (e meus artigos mais recentes), o software já está disponível para download. Por ter o código aberto, esperamos que outros programadores possam colaborar para seu aperfeiçoamento.

Para cada artigo pesquisado, a versão inicial deste aplicativo em Java gera uma planilha que, entre outros dados, permite mensurarmos, em cada artigo pesquisado:
- quantas edições foram feitas por quantos editores em um determinado período de tempo;
- que percentual dessas edições foi efetuado por editores não-cadastrados, bots, administradores e demais editores cadastrados da Wikipédia;
- qual a média de edições por mês e qual a média de edições por editores;
- quantas edições cada editor efetuou.
- quantas edições foram revertidas ou desfeitas, e por quais editores;
- quantas proteções foram aplicadas a um artigo, e qual o percentual de tempo no qual o artigo ficou protegido;
- qual o percentual de edições que incluiu ou excluiu conteúdo do artigo.

Mais explicações técnicas e uma explicação de como rodar o programa estão no arquivo .PDF disponível junto com o software.

Que seja útil para muitas pesquisas!