Este repositorio presenta los elementos básicos para reproducir un análisis de contexto de inserción y mercadeo para un servidor PrePrints y de Datos en Latinoamérica y mundo de habla hispana.
A continuación se describe la organización del presente repositorio de datos y códigos. Para trabajar con la API de Sherpa seguimos las orientaciones de Sherpa Services en donde se indica que hay que crear un usuario en el sistema para acceder al API key necesaria para consultar los datos.
Las orientaciones específicas del Metadata Schema se encuentran también en la documentación de Sherpa y se específica los diferentes item-type
y los metadatos disponibles específicamente para item-type
: repository
.
El material que aquí se encuentra muestra una primera aproximación generalista a los datos que Sherpa muestra específicamente para item-type
: repository
, es decir filtrado para repositorios. Dentro de éste se pueden encontrar distintos content_types
con los siguientes valores: journal_articles
, bibliographic_references
, conference_and_workshop_papers
, theses_and_dissertations
, unpub_reports_and_working_papers
, books_chapters_and_sections
, datasets
, learning_objects
, software
, patents
, other_special_item_types
. Aquí se muestran todos los content_types
para item-type
: repository
.
/DataFrame/import-repositories.py
crea el dataframe completo llamando a la API de Sherpa y filtrando específicamente que sean repositorios:item-type
:repository
. Se excluyen los demásitem-type
:funder
,funder_group
,publisher
,publisher_policy
,publication
. Adicionalmente, dentro deitem-type
:repository
solo se consultan y exportan los siguientes campos:repository_id
repository_name
repository_type
repository_url
organisation_name
organisation_country
metadata_record_count
full_text_record_count
./DataFrame/dataframe.csv
es el archivo exportado de/DataFrame/import-repositories.py
./DataFrame/dataframe-validacion.py
con este archivo se hace una validación del dataframe para corroborar que sea correcto. En este caso se corre un código para filtrar y mostrar todos los repositorios conorganisation_country
identificados conbr
. Arroja el mismo resultado de 173 repositorios que muestran las estadísticas oficiales de OpenDOAR para Brazil al día de la fecha (26/3/2024)./DataFrame/tabla-lat-esp.py
crea una tabla que filtra/DataFrame/dataframe.csv
por países de Latinoamérica más España y los ordena acorde a la cantidad de repositorios registrados en Sherpa, de mayor a menor. Adicionalmente, se mapea todos los identificadores de los países para colocar una etiqueta legible a cada una./DataFrame/tabla-lat-esp.html
es el archivo exportado de/DataFrame/tabla-lat-esp.py
./DataFrame/top_5_lat_esp.py
crea la tabla que filtra países de Latinoamérica más España en/DataFrame/dataframe.csv
y filtra los 5 repositorios con mayor número de contenido depositado en cada país según el valor enmetadata_record_count
. A su vez, el valor arrojado se ordena de mayor a menor y en orden de países según se muestra en/DataFrame/tabla-lat-esp.html
./DataFrame/top_5_lat_esp.html
es la tabla exportada de/DataFrame/top_5_lat_esp.py
./DataFrame/import-dataframe-enriquecido.py
código que agrega a/DataFrame/import-repositories.py
los camposoai_url
software
content_types
content_subjects
. Arroja 1 resultado más que/DataFrame/import-repositories.py
debido a la fecha de consulta. Esta consulta se realizó el día 28/3/2024./DataFrame/dataframe-enriquecido.csv
es el archivo exportado de/DataFrame/import-dataframe-enriquecido.py
. Es el archivo esencial sobre el que se trabajará en los directorios que siguen.
Se incluyen los content_types
: journal_articles
, bibliographic_references
, conference_and_workshop_papers
y unpub_reports_and_working_papers
. No se identifican facilmente los servidores PrePrints en OpenDOAR. Se tomo el criterio de búsqueda por la palabra "preprint" en el búscador web y se indentificaron los repositorios existentes con ese criterio. Se puede reproducir la segmentación aquí. En base a esto, los 7 resultados de la búsqueda por nombre tienen como content_types
los seleccionados aquí.
/DataFrame/PrePrints/tabla-lat-esp-preprints.py
crea una tabla que filtra/DataFrame/dataframe-enriquecido.csv
por países de Latinoamérica más España y los ordena acorde a la cantidad de repositorios registrados en Sherpa, de mayor a menor. Adicionalmente, se mapea todos los identificadores de los países para colocar una etiqueta legible a cada una. Se incluyen solo los que tengan al menos una coinicidencia concontent_types
:journal_articles
,bibliographic_references
,conference_and_workshop_papers
ounpub_reports_and_working_papers
./DataFrame/PrePrints/tabla-lat-esp-preprints.html
es el archivo exportado de/DataFrame/PrePrints/tabla-lat-esp-preprints.py
./DataFrame/PrePrints/top5-lat-esp-preprints.py
crea la tabla que filtra países de Latinoamérica más España en/DataFrame/dataframe-enriquecido.csv
y filtra los 5 repositorios con mayor número de contenido depositado en cada país según el valor enmetadata_record_count
. A su vez, el valor arrojado se ordena de mayor a menor y en orden de países según se muestra en/DataFrame/PrePrints/tabla-lat-esp-preprints.html
y se mantiene el filtro decontent_types
específico para PrePrints./DataFrame/PrePrints/top5-lat-esp-preprints.html
es el archivo exportado de/DataFrame/PrePrints/top5-lat-esp-preprints.py
.
Se incluyen los content_types
: datasets
y theses_and_dissertations
. La identificación de esta tipología es más clara en OpenDOAR que para PrePrints.
/DataFrame/DataSets/tabla-lat-esp-datasets.py
crea una tabla que filtra/DataFrame/dataframe-enriquecido.csv
por países de Latinoamérica más España y los ordena acorde a la cantidad de repositorios registrados en Sherpa, de mayor a menor. Adicionalmente, se mapea todos los identificadores de los países para colocar una etiqueta legible a cada una. Se incluyen solo los que tengan al menos una coinicidencia concontent_types
:datasets
otheses_and_dissertations
./DataFrame/DataSets/tabla-lat-esp-datasets.html
es el archivo exportado de/DataFrame/DataSets/tabla-lat-esp-datasets.py
./DataFrame/DataSets/top5-lat-esp-datasets.py
crea la tabla que filtra países de Latinoamérica más España en/DataFrame/dataframe-enriquecido.csv
y filtra los 5 repositorios con mayor número de contenido depositado en cada país según el valor enmetadata_record_count
. A su vez, el valor arrojado se ordena de mayor a menor y en orden de países según se muestra en/DataFrame/DataSets/tabla-lat-esp-datasets.html
y se mantiene el filtro decontent_types
específico para DataSets./DataFrame/DataSets/top5-lat-esp-datasets.html
es el archivo exportado de/DataFrame/DataSets/top5-lat-esp-datasets.py
.
Los códigos Python fueron realizados con la ayuda de ChatGPT, corridos en local, testeados y modificados para la correcta realización. Finalmente, se cargan en GitHub.