Extrato do projeto apresentado em novembro de 2018 para o edital FAPERJ 11/2018. A execução se iniciou em novembro de 2019, quando os recursos foram liberados.
É sabido no mundo científico que dado e informação são insumos básicos para o desenvolvimento da pesquisa e da inovação. Historicamente, cientistas utilizam informação das mais diferentes fontes para subsidiar suas pesquisas e basear suas teorias para desenvolver novos conhecimentos.
Nos dias atuais, um novo paradigma vem se configurando na produção de conhecimento, no trabalho científico e nas relações entre ciência, tecnologia, inovação, informação e dados de pesquisa. A “Ciência Aberta”, cunhada por Nielsen (2011), autor do livro Reinventing Discovery, traz a ideia de que o conhecimento científico de todos os tipos deve ser compartilhado abertamente tão cedo quanto for possível no seu processo de descoberta. Esse termo expressa uma nova abordagem para o processo científico baseado no trabalho cooperativo e em novas maneiras de difundir conhecimento usando tecnologias e novas ferramentas colaborativas (MOEDAS, C, 2016).
No entanto, este é um tema complexo em constante evolução, sendo alvo de estudo em diversas áreas do conhecimento. Descreve um movimento em curso, um processo de acesso às práticas de pesquisa de produção de conhecimento em que as pessoas são livres para usar, reutilizar e distribuir, sem restrições legais, tecnológicas ou sociais, em um ciclo de pesquisa científica que é transparente e aberto, voltado para a colaboração. É um conceito guarda-chuva que abarca diversas iniciativas de acesso livre à comunidade como um todo. Tem no seu centro a percepção de que o conhecimento científico é patrimônio da humanidade e, portanto, deve ser disponibilizado livremente para que todos os cidadãos possam acessá-los livremente sem quaisquer restrições econômicas ou legais. Entre tais iniciativas podemos destacar o Acesso aberto à informação científica, os Recursos educacionais abertos, os Dados de pesquisa abertos, as Ferramentas abertas, a Ciência cidadã e a Inovação aberta. A Ciência Aberta tem impacto em todo o ciclo da pesquisa, desde seu início até a sua publicação e na forma como esse ciclo é organizado.
Nesse contexto de Ciência Aberta se destacam os Dados de Pesquisa, que tem se tornado uma questão contemporânea que caracteriza a pesquisa nas últimas duas décadas. Novos métodos, instrumentos e ferramentas apoiados no armazenamento digital, na capacidade computacional e na simulação por programas de computador determinam um novo padrão de descoberta científica e de formulação de hipóteses denominado eScience ou Quarto Paradigma Científico. Observa-se uma verdadeira revolução em volume, complexidade e importância dos dados nas atividades científicas: também chamada era do Big Data Científico (CESAR JÚNIOR, 2011).
Não apenas dados gerados por grandes simulações, mas também as planilhas, tabelas, e achados e uma ampla variedade de coleções de dados de pesquisa são fontes de informação importantes para o avanço da ciência. Segundo Ferguson e colaboradores (2014), mais da metade das descobertas científicas não aparecem na literatura publicada, mas ficam guardadas nas gavetas e nos computadores pessoais dos pesquisadores. A literatura relata como motivos do não compartilhamento: hipóteses não confirmadas, resultados negativos e dados considerados auxiliares aos estudos já publicados.
A literatura relata vários benefícios para os pesquisadores na publicação dos dados abertos de pesquisa: incentiva a investigação e o debate científico; possibilita novas formas de colaboração entre usuários e criadores de dados; colabora para o aperfeiçoamento e validação dos métodos científicos; aumenta a eficiência da pesquisa, evitando a duplicação de esforços através da disponibilização imediata de ferramentas de pesquisa, protocolos e exemplos de boas práticas, pela redução do custo de formação de coleção de dados e pela promoção e adoção de padrões abertos; aumenta a visibilidade do impacto e a visibilidade dos resultados de pesquisa; contribui para dar os devidos créditos ao criador dos dados; oferece importantes recursos para a educação e a capacitação e promove a inovação e potencializa novos usos para os dados.
Nesse contexto cabe o conceito de “cauda longa da ciência”, onde um grande número de pequenos grupos de pesquisadores e laboratórios geram no seu dia a dia de pesquisa uma ampla variedade de coleções de dados de pesquisa. Embora tenham esse caráter individual, essas coleções estão sendo reconhecidas como ativos informacionais de alto valor, que coletivamente têm o potencial de ser mais relevante que a soma de suas partes (WYBORN & LEHNERT, 2016). A importância desses dados para a inovação é destacada por Sales e Sayão (2018), que afirmam que os dados da cauda longa da ciência representam a maior parcela de dados produzida pela ciência e constituem um território de constante criatividade e inovação que precisam ser revelados, integrados e compartilhados.
Segundo Heidorn (2008), o acesso a dados de pesquisa pode ter um impacto muito substancial na ciência, a cauda longa é um terreno fértil para novas ideias. Na maioria das vezes, quando projetos de larga escala que geram dados de grande volume são desenvolvidos, as perguntas a serem respondidas são relativamente bem entendidas. Um paralelo pode ser visto na bibliometria, em que artigos de alto impacto não são necessariamente encontrados em periódicos de alto impacto (SEGLEN, 1997, SUN & GILES, 2007).
Em 2016, a União Europeia lançou o relatório final com as recomendações do Grupo de Especialistas de Alto Nível do European Open Science Cloud (EOSC). Esse relatório apresenta as diretrizes para criação de uma infraestrutura de sistemas e serviços de apoio à ciência aberta, em especial, aos dados de pesquisa, visando possibilitar que esses dados sejam estruturados de forma que possam ser encontráveis, acessíveis, interoperáveis e reutilizáveis; podendo ser compartilhados através de diferentes fronteiras geográficas, sociais e disciplinares. O documento aponta problemas relativos à complexidade dos dados de cada área do conhecimento, à escassez de recursos humanos especializados no assunto, além daqueles de ordem estrutural que lidam com o sistema arcaico de recompensa e financiamento da pesquisa, sustentado pela cultura de publicação de artigo, que nem sempre favorece o compartilhamento e a reutilização de dados.
O relatório também apresenta em sua conclusão que a infraestrutura seria tecnicamente concebida por meio de uma web de dados e serviços FAIR apoiados por protocolos abertos. FAIR é um acrônimo para: Findable, Accessible, Interoperable e Reusable (encontráveis, acessíveis, interoperáveis e reutilizáveis). São princípios concebidos em 2014, para endossar um conjunto mensurável de princípios denominados FAIR Data Principles, que ganharam o reconhecimento mundial, sendo considerados úteis para se pensar no melhor uso e reuso dos dados. Se por um lado apoiam a descoberta de conhecimento e inovação, dão suporte aos dados e integração do conhecimento; por outro lado, promovem o compartilhamento e a reutilização de dados, são independentes entre as disciplinas além de ajudarem os dados e metadados a serem “legíveis por máquina”. O Plano de Ação FAIR Data 2018-2020 é um instrumento colaborativo voltado para a adoção desses princípios, sendo necessária a criação de iniciativas que promovam os FAIR em todas as fases do ciclo de vida dos dados, sendo o GO FAIR uma delas. É uma iniciativa global, inicialmente apoiada pelos governos holandês, alemão e francês, que visa à implementação das práticas do EOSC por meio de uma internet global de dados e serviços FAIR. Está estruturada para atender às recomendações do EOCS através de ambiente de pesquisas e inovações orientado a dados.
Recentemente, a Fundação de Apoio à Pesquisa do Estado de São Paulo – FAPESP, anunciou que em determinadas modalidades e chamadas será necessário anexar às propostas de submissão um “Plano de Gestão de Dados”, alinhado ao FAIR. Este plano deve responder a duas perguntas básicas: a) quais dados serão gerados pelo projeto; e b) como estes serão preservados e disponibilizados, considerando questões éticas, legais, de confidencialidade e outras. (FAPESP, 2017)
É importante destacar que, por perceber o potencial desses princípios, o Instituto Brasileiro de Informação em Ciência e Tecnológica (IBICT), com a participação da UNIRIO, Fundação Oswaldo Cruz (Fiocruz), Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA) e outras instituições iniciou as negociações de parceria com a iniciativa GO FAIR, com o intuito de encaminhar a adoção desses princípios dando os primeiros passos para a inserção brasileira no processo de compartilhamento e reuso dos dados de pesquisa alinhados aos princípios FAIR (HENNING, et.al, 2018).
O grupo de trabalho da Rede de Dados de Pesquisa Brasileira (RDP Brasil) é formado por pesquisadores da Rede Nacional de Ensino e Pesquisa (RNP) e do Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict) em colaboração com a Universidade Federal do Rio Grande do Sul (UFRGS) e Universidade do Rio Grande (FURG). Esse grupo está desenvolvendo em conjunto um projeto sobre o Acesso Aberto a Dados de Pesquisa (AADP). Dentre as ações em desenvolvimento está a aplicação de um questionário para pesquisadores de todas as áreas do conhecimento e para todos os tipos de instituições brasileiras para avaliar suas opiniões sobre o compartilhamento, acesso, reuso e gestão de dados de pesquisa. Dados preliminares desta investigação, apresentados em abril de 2018 no The Latin America and the Caribbean Scientific Data Management Workshop, indicam que 63,6% dos pesquisadores tem pouca familiaridade com a gestão de dados de pesquisa e 23,2% não sabe nada sobre o assunto (CIUFFO, 2018).
Tanto a literatura quanto dados empíricos acima relatados demonstram a necessidade de disseminação dos conceitos relativos a Dados de Pesquisa: somente conhecendo o que são, como podem ser úteis e quais as vantagens em compartilhar seus dados é que os pesquisadores podem se apropriar das práticas de pesquisa envolvidas na Ciência Aberta.
No Brasil as iniciativas de publicação de dados em repositórios ainda são tímidas. A já citada RDP Brasil publicou recentemente seu primeiro relatório de pesquisa identificando repositórios brasileiros que disponibilizam dados de pesquisa, e suas características relacionadas à abrangência, à temática, aos padrões de metadados e aos softwares utilizados. Foram identificados 15 repositórios, sendo quatro de abrangência internacional (envolvendo várias instituições), sete de abrangência nacional e cinco de abrangência multi-institucional. Nesses repositórios, predominam as temáticas voltadas às Ciências Sociais Aplicadas, às Ciências Agrarias, às Ciências Exatas e da Terra, às Ciências Biológicas e à Engenharia (PAVÃO et al., 2018). Além desses repositórios nacionais, há o diretório internacional Research Data Repositories Information (Re3data), considerado a mais abrangente fonte de referência de infraestruturas de dados de pesquisa, com mais de 2 mil repositórios de dados de pesquisa, categorizados por tipos de dados, por tema e por país. Esse é um manancial de dados a ser explorado, a chamada cauda longa da ciência a ser minerada como fonte de inspiração para projetos de pesquisa e de inovação.
Em maio de 2018 o Programa de Pós-graduação em Biblioteconomia da Unirio lançou um edital para seleção para alunos de mestrado profissional com a temática de Gestão de Dados de Pesquisa, visando a qualificação de profissionais para esse mercado emergente.
Em 10 outubro de 2018 foi aprovada a Resolução 5.055 que dispõe sobre a Política de Acesso Aberto à Informação Técnico-Científica e aos Dados de Pesquisa da Unirio, indicando a criação do Repositório Institucional Horus e o Repositório DataHorus para depósito da produção técnico-científica da comunidade universitária.
A exigência da publicação de Dados de Pesquisa no Brasil é uma questão de tempo. Há mais de uma década já são mandatórios pelas principais agências de fomento governamentais e privadas na América do Norte, Europa e Austrália. No Brasil a Fundação de Apoio à Pesquisa do Estado de São Paulo – FAPESP, anunciou que em determinadas modalidades e chamadas será necessário anexar às propostas de submissão um “Plano de Gestão de Dados”.
Diante da importância das fontes de informação da Ciência Aberta e, mais especificamente, dos Dados Abertos de Pesquisa como insumo para a geração de inovação, esse projeto de pesquisa se propõe a disseminar os conceitos da Ciência Aberta e apoiar o uso de Dados Abertos de Pesquisa para os grupos de pesquisa da Unirio de diferentes temáticas. A proposta envolve pesquisadores de cinco diferentes Centros da universidade – Centro de Ciências Humanas e Sociais (CCH), Instituto de Biociências (IBIO); Centro de Ciências Jurídicas e Políticas (CCJP); Centro de Ciências Biológicas e da Saúde (CCBS) e Centro de Ciências Exatas e Tecnologia (CCET) – e seis grandes áreas do conhecimento: Ciências Sociais Aplicadas; Ciências Biológicas; Ciências da Saúde; Ciências Exatas e da Terra; Ciências Humanas e Engenharias.
A proposta de pesquisa aqui apresentada tem dois aspectos importantes:
● a disseminação das fontes informacionais relativas à Ciência Aberta e aos Dados Abertos de Pesquisa para que os pesquisadores as utilizem em seus projetos de pesquisa e inovação;
● o letramento informacional relativo a esses temas, de forma a que a médio prazo os pesquisadores envolvidos percebam a importância de também serem geradores de dados de pesquisa.
Objetivo geral
Estruturar um laboratório para desenvolvimento de projetos de pesquisa voltados ao uso de diferentes fontes da Ciência Aberta e Dados de Pesquisa como apoio à inovação tecnológica e social em diferentes áreas do conhecimento.
Objetivos específicos
1. Identificar, no universo de áreas de conhecimento da Unirio, aquelas que possuem maior alinhamento com ações de compartilhamento de Dados de Pesquisa;
2. Disseminar os conceitos de Ciência Aberta e Dados de Pesquisa e seu potencial para a inovação;
3. Capacitar alunos de pós-graduação e pesquisadores de diferentes programas de pós-graduação no uso de fontes da Ciência Aberta e Dados de Pesquisa como insumo para o desenvolvimento de pesquisas com potencial inovador.
1. Levantamento da competência informacional dos pesquisadores da Unirio sobre dados de pesquisa;
2. Realização de três eventos sobre: ciência aberta, dados abertos, princípios FAIR;
3. Realização de três Workshops (com uso de metodologias participativas) sobre uso de dados abertos de pesquisa;
4. Criação de web site e perfis em redes sociais;
5. Criação de material didático geral e temáticos (diferentes domínios do conhecimento) para cursos presenciais e online.
● Maior disseminação dos conceitos de Ciência Aberta e Dados de Pesquisa;
● Conscientização dos pesquisadores da Unirio acerca da importância do compartilhamento dos dados de Pesquisa;
● Formação de alunos de pós-graduação;
● Material didático sobre Dados de Pesquisa;
● Disseminação dos resultados da pesquisa através de website, artigos publicados e redes sociais;
● Realização de eventos para divulgação dos temas na Unirio e no Estado do Rio de Janeiro.
● Ação proativa para antecipação da questão da exigência de publicação de dados de pesquisa pelos órgãos de fomento, criando uma cultura de compartilhamento de dados entre os pesquisadores da instituição;
● Inserção de pesquisadores e pós-graduação nas atividades deste projeto, o que propiciará o incremento das atividades acadêmicas de ensino e pesquisa;
● Capacitar pesquisadores e pós-graduandos brasileiros para a concorrência em editais nacionais e internacionais que exijam Plano de Gestão de Dados alinhados ao FAIR;
● Não foi identificado nenhum grupo de pesquisa cadastrado no Diretório de Grupos de Pesquisa do CNPq até a presente data que trate de Dados de Pesquisa relacionado a insumo para inovação. Essa abordagem possibilitará a criação de um novo grupo de pesquisa sobre o tema, de caráter multidisciplinar: envolvendo inicialmente pesquisadores em seis grandes áreas: Ciências Biológicas; Ciências da Saúde; Ciências Exatas e da Terra; Ciências Humanas; Ciências Sociais Aplicadas e Engenharias.
CESAR JÚNIOR, Roberto Marcondes. Do mundo aos dados e dos dados ao conhecimento. In: HEY, Tony; TANSLEY, Stewart; TOLLE, Kristin (Org.). O quarto paradigma: descobertas científicas na era da eScience. São Paulo: Oficina do Texto, 2011.
CIUFFO, Leandro. RNP support to data-driven research. Disponível em < https://drive.google.com/file/d/1HIq-PiHcgoAYufYtO0a0ey2n0goSyS37/view?usp=sharing >. Acesso em 13 nov. 2018.
COMMISSION HIGH LEVEL EXPERT GROUP ON THE EUROPEAN OPEN SCIENCE CLOUD. Realising the European Open Science Cloud, European Commission, 2016. Disponível em: <https://ec.europa.eu/research/openscience/pdf/realising_the_european_open_science_cloud_2016.pdf>. Acesso em: 26 out. 2018.
FAPESP. Plano de Gestão de Dados, 2017. Disponível em: <http://www.fapesp.br/gestaodedados>. Acesso em: 26, jun, 2018.
FERGUSON, Adam et al. Big data from small-data: data sharing in the ‘long tail’ of neuroscience. Nature Neuroscience, v. 17, n.11, p.1442-1447 Nov. 2014. Disponível em: <https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4728080/>. Acesso em: 7 nov. 2018.
HEIDORN, Bryan P. Shedding light on the Dark Data in the Long Tail. Library Trends, v. 57, n. 2, p. 280-299, 2008. Disponível em: <https://www.ideals.illinois.edu/bitstream/ handle/2142/9127/Heidorn_LongTail_PreprintwEdits.doc.pdf?sequence=7>. Acesso em: 23 out. 2018.
MOEDAS, C. Open Innovation, Open Science and Open to the World–A Vision for Europe. Luxembourg: Publications Office of the European Union, 2016.
NIELSEN, Michael. Reinventing Discovery: The new era of Networked Science, 2001. Disponível em: <http://press.princeton.edu/chapters/s9517.pdf>Acesso em: 28 out. 2018.
PAVÃO, Caterina Groposo et al.. Acesso aberto a dados de pesquisa no Brasil: repositórios brasileiros de dados de pesquisa: relatório 2018. Disponivel em: < https://dadosdepesquisa.rnp.br/wp-content/uploads/2018/09/RDPBrasil-AcessoAbertoDadosPesquisaBrasil-_RepositoriosBrasileiros.pdf >. Acesso em: 13 nov. 2018.
SALES, L. F.; SAYÃO, L. F. A ciência invisível: revelando os dados da cauda longa da pesquisa. Encontro Nacional de Pesquisa em Ciência da Informação, 2018, Londrina. Anais do XIX ENANCIB, 2018. p.4180-4199. Disponivel em: < http://enancib.marilia.unesp.br/index.php/XIXENANCIB/xixenancib/paper/viewFile/1538/1855>. Acesso em: 10 nov 2018.
SEGLEN, Per O. Why the impact factor of journals should not be used for evaluating research. BMJ: British Medical Journal, v. 314, n. 7079, p. 498, 1997.
WYBORN, Leslie; LEHNERT, Kerstin. Exploiting the long tail of scientific data: Making small data BIG. In: ERESEARCH AUSTRALASIA CONFERENCE, Melbourne, Australia, 10-14 Oct.2016. Anais… Melbourne, Australia, 2016. Disponível em: <https://eresearchau.files.wordpress.com/2016/03/eresau2016_paper_88.pdf>.