Base de Dados de Pesquisa

De Área Técnica
Ir para: navegação, pesquisa

Índice

Introdução

Em várias instâncias reconhece-se que a disponibilização aberta dos dados e dos resultados de pesquisa realizada com financiamento público gera, além do impacto científico, impacto social e econômico. Necessários para validar os resultados de pesquisa e a própria ciência, os dados de pesquisa viabilizam um princípio inerente à publicação científica, ou seja, de que qualquer pesquisador deve ser capaz de verificar, replicar ou reproduzir a pesquisa realizada, até mesmo reutilizar os dados e resultados de pesquisas prévias para promover novos avanços no conhecimento científico e tecnológico.

Os dados de pesquisa incluem: fatos e estatísticas recolhidas para posterior referência ou análise, documentos (texto, Word), planilhas (Excel, etc), cadernos de laboratório, cadernos de campo, diários, questionários, transcrições, fitas de áudio, fitas de vídeo, fotografias, filmes, sequências de proteínas ou genéticos, respostas de teste, slides, artefatos, amostras, coleção de objetos digitais adquiridos e gerados durante o processo de pesquisa, conteúdos de banco de dados (vídeo, áudio, texto, imagens), modelos, algoritmos, scripts, arquivos de log, software de simulação, metodologias e fluxos de trabalho, procedimentos operacionais, padrões e protocolos.

Uma vez que o volume de dados de pesquisa aumenta exponencialmente dia a dia, sua gestão e preservação requerem, além de políticas globais, governamentais e institucionais fortes e reconhecidas, a adequada coleta, curadoria, registro e armazenamento, bem como o acesso garantido, desafio que envolve, além dos próprios pesquisadores, instituições de pesquisa, agências de fomento, editores e publishers, bibliotecários e analistas.

Atentos a essa demanda, o Sistema Integrado de Bibliotecas da Universidade de São Paulo (SIBiUSP) iniciou um Projeto Piloto de implantação de um Repositório de Dados Científicos na USP, utilizando a plataforma Dataverse.

Contexto e Justificativa

A gestão de dados de pesquisa inicia-se com um plano consistente de identificação e coleta dos dados da pesquisa, elaborado pelo próprio pesquisador. Utilizando procedimentos adequados e padronizados, capazes de garantir a qualidade e a organização dos dados brutos coletados, o pesquisador seleciona parte desses dados para embasar sua pesquisa e os resultados. Nesse sentido, os dados e os metadados dos dados devem vir acompanhados de uma “documentação de dados” que seja compreensível, inteligível para outros pesquisadores. Observando que o processo de pesquisa em geral resulta em uma publicação acadêmica, técnica e/ou científica que apresenta os resultados de pesquisa, cabe ao pesquisador tornar esses dados disponíveis. Neste momento, o processo de gestão de dados ascende à instância institucional de produção acadêmica, científica e/ou técnica, que toma por base a publicação revisada e validada por pares, e os dados de pesquisa associados.

Em princípio, o catálogo de cada instituição deve listar todos os conjuntos de dados produzidos pela instituição e seus membros. Os conjuntos de dados podem ser restritos, embargados por certo período ou públicos. Muitas organizações e instituições em todo o mundo estão investindo no desenvolvimento de redes de repositórios que facilitam o acesso aberto e partilha de dados de pesquisa.

Editoras científicas internacionais como a Elsevier, Springer Nature e Wiley tornaram obrigatório o depósito de dados, pré-requisito para a aceitação de artigos submetidos à publicação. Existem vários repositórios de dados de pesquisa temáticos: arXiv para as ciências matemáticas e físicas, GEO para conjuntos de dados genômicos, repositório da Universidade de Oxford para textos e arquivos de materiais literários e linguísticos, UK Data Archive para as Ciências Sociais e Humanas. A PLOS possui um repositório de dados específico para cada área de conhecimento. É possível optar por enviar seus dados a um repositório de propósito geral, como o Zenodo. Da mesma forma, há diversas universidades e institutos de pesquisa que mantêm repositórios de dados institucionais.

Diretórios concorrem para agregar informações a respeito de repositórios de dados: o Open Science Directory congrega publicações científicas em acesso aberto, enquanto que o Re3data - Global Registry of Research Data Repositories, associado ao DataCite, identifica e descreve mais de 1.500 repositórios de dados disponíveis na web de todas as áreas de conhecimento. Em 2013, a Comissão Europeia lançou, no âmbito do programa Horizonte 2020, um projeto piloto para Repositório de Dados Abertos. Ainda em dezembro de 2013, lançou as diretrizes de gestão de dados abertos. Em Portugal, encontra-se em desenvolvimento o Repositório de Dados RCAAP.

Iniciativas no Brasil incluem o Banco de Dados de Exploração e Produção, a Cartilha Técnica de Publicação de Dados Abertos no Brasil, do Portal Brasileiro de Dados Abertos, o Repositório de Dados de Estudos Ecológicos do INPA, o Repositório de Dados Eleitorais, Orientações para Repositório de Dados de Mídia, entre outras iniciativas. A Fapesp – Fundação de Amparo à Pesquisa do Estado de São Paulo também tem se posicionado fortemente a favor da gestão em acesso aberto dos dados de pesquisa, por meio do Programa Fapesp de Pesquisa em eScience.

A constatação de que os dados são gerados para diferentes propósitos, por diferentes comunidades acadêmicas e científicas, por meio de diferentes processos, intensifica ainda mais a percepção da diversidade e riqueza de tais produtos. Nesse sentido, sobressai a importância do adequado registro dos dados de pesquisa e compartilhamento para o desenvolvimento da ciência em geral.

A gestão de dados de pesquisa (em inglês Research Data Management – RDM) envolve serviços, ferramentas e infra-estruturas que envolvem o ciclo de vida da pesquisa como um todo. Os vários aspectos da RDM são frequentemente distribuídos em diferentes serviços de apoio e departamentos acadêmicos (por exemplo Escritórios de Pesquisa, Serviços de TI e Bibliotecas). Os pesquisadores necessitam de apoio no planejamento, organização, segurança, documentação e partilha, preparação dos conjuntos de dados para depósito e preservação, bem como nas questões relacionadas a direitos autorais, licenciamento e propriedade intelectual. Nesse sentido, o papel das bibliotecas e dos bibliotecários envolve a identificação e localização de dados, apoio às condições de acesso e reutilização de dados, suporte à citação e referenciação, até a correta organização e preservação. Efetivamente, muitas bibliotecas (e bibliotecários) já realizam a gestão de dados de pesquisa.

Congregando pessoas, processos e tecnologias, a infraestrutura que suporta serviços de dados de pesquisa deve ser robusta e ágil, capaz de armazenar grandes volumes de dados em distintos formatos, garantindo a interoperabilidade e compartilhamento de dados e informações com outros sistemas.

Histórico e Principais Referências

Em fevereiro de 2007, aconteceu o lançamento da STM Brussels Declaration, que esclareceu o papel das editoras científicas (STM Publishers) em relação à publicação científica, técnica e médica. Entre os signatários estavam 35 editoras, incluindo a Blackwell, Elsevier, John Wiley & Sons, Macmillan, Nature, Oxford University Press, Sage, Springer, Taylor & Francis, e oito associações de editores. O documento estabeleceu, entre outros tópicos, os princípios do acesso público aos dados de pesquisa.

Em 2008, quando o Conselho Internacional para a Ciência (Interdisciplinary Body of the International Council for Science – ICSU) reuniu-se em Maputo, Moçambique, foi criado o Sistema Mundial de Dados - World Data System – WDS, uma organização interdisciplinar que promove a gestão de longo prazo, e o acesso universal e equitativo aos dados científicos de qualidade, assim como os serviços de dados, produtos e informações em toda a gama de disciplinas das ciências naturais às ciências sociais e as humanidades. O ICSU-WDS visa facilitar a pesquisa científica, ao coordenar e apoiar serviços de dados científicos confiáveis para o fornecimento, uso e preservação de conjuntos relevantes de dados, integrando gestores de dados e editoras científicas.

Research dataEm julho de 2013, fundou-se a Aliança de Dados de Pesquisa – Research Data Alliance – RDA, uma organização internacional para o desenvolvimento de infraestrutura e promoção de atividades orientadas a reduzir as barreiras de troca e compartilhamento de dados. Congrega grupos de trabalho e grupos de interesse dedicados a discutir e elaborar diretrizes e recomendações para a gestão de dados de pesquisa, incluindo certificação de repositórios, reprodutibilidade de dados, dados publicados e editoras científicas, big data, etc.

Em novembro de 2013, novamente as editoras científicas vieram a público para anunciar a permissão da mineração de dados e textos com fins científicos na União Europeia. Os signatários da STM Text and Data Mining for non-commercial scientific research se comprometeram a conceder as licenças de direitos autorais necessários para permitir a mineração de textos e dados de conteúdo protegido por direitos autorais e outros objetos, em condições razoáveis, para fins de investigação científica não comercial na União Europeia, garantindo as devidas salvaguardas técnicas e tecnológicas.

Finalmente, em 2014, foi assinada a Joint Declaration of Data Citation Principles, a partir da qual as editoras endossaram os princípios da FORCE11 e reforçaram o pressuposto de que os dados da pesquisa são parte integrante do registro acadêmico. Desta forma, além de assegurar que os pesquisadores obtenham o crédito adequado por seu trabalho, os princípios da citação de dados estabelecem que os dados de pesquisa devem estar facilmente acessíveis, ser devidamente preservados, citados e referenciados.

Isso significa que os dados passam a ser produtos citáveis, aos quais deve ser dada a devida atribuição e crédito como evidências de pesquisa. Além disso, é preciso atribuir aos dados um identificador único que garanta o acesso persistente e fácil localização por meio de metadados que descrevam especificidades dos dados, documentos e materiais associados, e permitam sua recuperação e verificação. O DataCite é uma é uma organização internacional sem fins lucrativos que fornece identificadores persistentes (DOIs) para dados de pesquisa. Os métodos de citação de dados devem ser suficientemente flexíveis para acomodar as práticas variantes entre as comunidades, mas não devem diferir tanto a ponto de comprometer a interoperabilidade das práticas de citação de dados.

Para obter informações sobre repositórios públicos de dados, consulte o R3Data – Registry of Research Data Repositories - uma ferramenta de busca de repositórios de dados. De 2012 a 2016, mais de 1.500 repositórios foram indexados no R3Data.

Caso não haja repositórios públicos estruturados na sua área de conhecimento, repositórios não estruturados como Figshare e Dryad são alternativas possíveis, além de outros recursos como o Dataverse, Zenodo, DataHub, DANS, que seguem os Princípios FAIR: to be Findable, Accessible, Interoperable, Reusable.

Para saber mais sobre provedores de dados, consulte: https://www.openarchives.org/Register/BrowseSites.

Tipos de Dados de Pesquisa

Tipo de Recurso DataCite Schema Dublin Core Schema
Coleção (Collection) Uma agregação de recursos, que podem abranger coleções de um tipo de recurso, bem como tipos misturados. Uma coleção é descrita como um grupo, cujas partes também podem ser descritas separadamente. Uma agregação de itens. O termo coleção significa que o recurso é descrito como um grupo; suas partes podem ser descritas separadamente e navegadas.
Conjunto de Dados (Datasets) Dados codificados em uma estrutura definida. Ex. xml, csv, etc. Informações estruturadas codificadas em listas, tabelas, bancos de dados, etc., que normalmente estarão em um formato disponível para o processamento direto da máquina. Por exemplo - planilhas, bancos de dados, dados GIS, dados midi. Observe que números e palavras não estruturados normalmente serão considerados como texto de tipo.
Evento (Event) Uma ocorrência não persistente e baseada em tempo. Uma ocorrência não persistente e baseada em tempo. Metadados para um evento fornecem informações descritivas que são a base para a descoberta da finalidade, localização, duração, agentes responsáveis e links para eventos e recursos relacionados. O recurso do tipo evento pode não ser recuperável se a instanciação descrita expirou ou ainda está por ocorrer. Exemplos - exposição, web-casting, conferência, workshop, performance, conflagração.
Imagem (Image) Um conteúdo que não é textual. Imagens digitais ou digitalizadas, desenhos ou fotografias. O conteúdo é principalmente uma representação visual simbólica diferente de texto. Por exemplo - imagens e fotografias de objetos físicos, pinturas, gravuras, desenhos, outras imagens e gráficos, animações e imagens em movimento, filmes, diagramas, mapas, notação musical. Observe que a imagem pode incluir representações eletrônicas e físicas.
Modelo (Model) Uma abstração, conceito gráfico ou matemático ou modelo de visualização que representa objetos empíricos, fenômenos, ou processos físicos. Uma abstração do real, ou seja, alguma generalização e interpretação. Modelos podem ser considerados uma representação simbólica. Exemplos incluem modelos de desempenho, modelos de custo, modelos mecânicos, etc.
Objeto físico (PhysicalObject) Um objeto tridimensional inanimado ou substância Um objeto ou substância não humana. Por exemplo - um computador, a grande pirâmide, uma escultura, trigo. Observe que representações digitais de, ou substitutos para, essas coisas devem usar imagem, texto ou um dos outros tipos.
Recurso Interativo(InteractiveResource) Um recurso que requer interação do usuário para ser entendido, executado ou experimentado. Um recurso que requer interação do usuário para ser entendido, executado ou experimentado. Por exemplo - formulários em páginas da Web, applets, objetos de aprendizado de multimídia, serviços de bate-papo, realidade virtual.
Serviço (Service) Um sistema organizado de aparatos, aparelhos, pessoas, etc., para fornecer alguma função (s) requerida pelos usuários finais. Worflow. Um sistema que fornece uma ou mais funções de valor para o usuário final. Os exemplos incluem: um serviço de fotocópia, um serviço bancário, um serviço de autenticação, empréstimos entre bibliotecas, um Z39.50 ou um servidor da Web.
Software (Software) Um programa de computador em código fonte (texto) ou forma compilada. Use esta categoria também para todos os componentes de software de apoio à pesquisa acadêmica. Um programa de computador em forma de fonte ou compilada que pode estar disponível para instalação de forma não-transitória em outra máquina. Para software que existe apenas para criar um ambiente interativo, use interativo.
Som (Sound) Um recurso principalmente destinado a ser ouvido. Um recurso cujo conteúdo é principalmente áudio ou destinado a ser realizado em áudio. Por exemplo - música, fala, sons gravados. Esta categoria inclui notação musical, incluindo pontuação, que não é realizada no som.
Texto (Text) Um recurso que consiste principalmente de palavras para leitura. Datapaper: uma publicação factual e objetiva com intenção focada em identificar e descrever dados específicos, conjuntos de dados ou coleções de dados para facilitar a descoberta. Um recurso cujo conteúdo é principalmente composto por palavras para leitura. Por exemplo - livros, cartas, dissertações, poemas, jornais, artigos, arquivos de listas de discussão. Observe que os fac-símiles ou imagens de textos ainda são do gênero texto.

Metadados de Dados de Pesquisa

Segundo orientações da Cartilha de Dados Abertos do Governo Brasileiro, adaptadas ao contexto acadêmico, são metadados obrigatórios e desejáveis:

Metadados obrigatórios

  • Título: Nome do conjunto de dados.
  • Descrição: Uma breve explicação sobre os dados.
  • Catálogo origem: Página (URL) do órgão onde está publicado o conjunto de dados.
  • Criador: Nome completo do responsável pela publicação do conjunto de dados
  • Órgão responsável: Nome e sigla do órgão ou entidade responsável pela publicação do conjunto de dados.
  • Categorias no VCGE: O Vocabulário Controlado de Governo Eletrônico é uma lista hierarquizada de assuntos do governo que utiliza termos comuns e é voltada para a sociedade. Para navegar e escolher as categorias acesse o VCGE em http://vocab.e.gov.br/2011/03/vcge.
  • Recursos: Um conjunto de dados pode ser composto por mais de um arquivo de dados. O critério básico para separar vários recursos em mais de um conjunto de dados é a constatação de que eles divergem em vários metadados.
  • Identificador: URL persistente que aponta para o recurso na Web como o DOI.
  • Título: Nome do recurso.
  • Formato: Formato do recurso. Ex.: XML, JSON, CSV, etc.
  • Descrição: Breve detalhamento sobre o conteúdo do recurso.

Metadados desejáveis:

  • Etiquetas: Lista de palavras chaves relacionadas ao conjunto de dados, e que são úteis na classificação e busca dele.
  • Autoria: Instituição ou pessoa responsável pela produção do recurso.
  • Documentação: URL de documento que expõe detalhes sobre o conjunto de dados.
  • Cobertura geográfica: Localização ou região geográfica a que se referem os dados. Ex.: Recife.
  • Cobertura temporal: Data ou período à que referem os dados. Ex.: 03/2012.
  • Granularidade geográfica: Precisão geográfica da cobertura geográfica. Ex.: municipal.
  • Granularidade temporal: Precisão temporal da cobertura temporal. Ex.: mês.
  • Frequência de atualização: Frequência temporal com que o conjunto de dados é atualizado.
  • Referências: Relações com outros conjuntos de dados.
  • Metodologia: Processo de criação dos dados.
  • Vocabulário/ontologia: Documentos estruturados com metadados específicos do conjunto de dados.

Referências Teóricas

Planos de Gestão de Dados de Pesquisa

Ferramentas Computacionais para a GDP:

Exemplos de Modelos de Planos de Gestão de Dados:

Serviços de Gestão de Dados de Pesquisa

STANFORD UNIVERSITY LIBRARIES. Data Management Services. Stanford, 2016. Disponível em: <https://library.stanford.edu/research/data-management-services> Acesso em: 14 junho 2016.

MIT LIBRARIES. Data management. Boston, MIT, 2016. Disponível em: <https://libraries.mit.edu/data-management/> Acesso em: 14 junho 2016.

UNIVERSITY COLLEGE LONDON LIBRARY SERVICE. Planning ahead Research Data Management. London, 2016. Disponível em: <https://www.ucl.ac.uk/library/research-support/research-data/best-practices/guides/planning

Repositórios de Dados de Pesquisa e Metabuscadores

NACIONAIS

INTERNACIONAIS

Guias e Diretrizes

  • DUDZIAK, Elisabeth. Dados de Pesquisa agora devem ser armazenados e citados. 2016. Disponível em: <http://www.sibi.usp.br/?p=6189> Acesso em: 10 de agosto de 2016.

Apresentações e Palestras

CORRÊA, Pedro Luiz Pizzigatti. Gestão de dados de pesquisa: desafios e perspectivas. In: WORKSHOP DE PRODUÇÃO CIENTÍFICA PARA EQUIPES DO SIBIUSP. 28 junho 2016. Disponível em: <http://www.sibi.usp.br/noticias/workshop-producao-cientifica-equipes-sibiusp/> Acesso em: nov. 2016