← Volver al índice | Arquitectura IA | Gobernanza Datasets
Deep Research — Bancos de Datos de Animales Marinos para el IEO
Tipo: Documentación de Investigación — Deep Research
Audiencia: Equipo de desarrollo, científicos de datos, investigadores
Fecha: 20 de marzo de 2026
Objetivo: Identificar bancos de datos concretos de animales marinos utilizables para pruebas, generación de datos sintéticos y scraping
Relacionado con: Gobernanza Datasets | Análisis LLM Departamental | Arquitectura IA
1. Contexto y Motivación
El IEO (Centro Oceanográfico de Málaga, IEO-CSIC) trabaja con tres departamentos principales —Pesquerías, Acuicultura y Medio Marino— cada uno con necesidades de datos muy específicas:
| Departamento |
Datos Principales |
Tipos de Animales |
| Pesquerías |
Otolitos, biometrías, capturas, evaluación de stocks |
Peces óseos (merluza, sardina, anchoa, atún) |
| Acuicultura |
Cultivos, crecimiento, reproducción |
Dorada, lubina, rodaballo, moluscos bivalvos |
| Medio Marino |
Biodiversidad, inventarios, distribuciones |
Cetáceos, tortugas, aves marinas, invertebrados bentónicos |
Para desarrollar y probar la plataforma de IA necesitamos:
1. Datos reales de referencia para validar modelos
2. Datos sintéticos realistas para pruebas de carga y desarrollo
3. Imágenes de especies marinas para entrenar/validar visión por computador
2. Bancos de Datos del IEO (Propios)
2.1 Catálogo de Datos del IEO
| Aspecto |
Detalle |
| URL |
https://datos.ieo.es |
| Contenido |
641 datasets de biota, 38 datasets de mamíferos marinos |
| Formato |
Metadatos ISO 19115, datos en diversos formatos |
| Licencia |
Datos públicos del CSIC |
| Relevancia |
🔴 Directa — datos propios del cliente |
2.2 Colecciones Históricas del IEO Málaga
- Colección Líquido (desde 1907): especímenes en alcohol/formol
- Colección Seca (desde 1913): otolitos, escamas, conchas
- Volumen: +3.400 especímenes catalogados
- Digitalización: en curso (proyecto TAXON)
2.3 Campañas Oceanográficas
El IEO realiza ~30 campañas anuales con ~200 científicos. Campañas relevantes para nuestro ámbito:
| Campaña |
Área |
Tipo de Datos |
| ECOMED |
Mediterráneo |
Arrastre demersal, biometrías de peces |
| MEDITS |
Mediterráneo |
Evaluación de stocks demersales |
| PELACUS |
Atlántico Norte |
Acústica y huevos de pelágicos (sardina, anchoa) |
| ARSA |
Golfo de Cádiz |
Arrastre demersal de profundidad |
| MEDIAS |
Mediterráneo |
Acústica para pelágicos pequeños |
3. Bancos de Datos Internacionales — Taxonomía y Especies
3.1 WoRMS — World Register of Marine Species
| Aspecto |
Detalle |
| URL |
https://www.marinespecies.org |
| Contenido |
Registro taxonómico autoritativo de todas las especies marinas conocidas |
| Volumen |
+240.000 nombres válidos de especies |
| API REST |
✅ Pública — https://www.marinespecies.org/rest/ |
| Licencia |
CC-BY |
| Uso para IEO |
Taxonomía de referencia, validación de nombres, AphiaIDs |
# Ejemplo: buscar especie por nombre
GET https://www.marinespecies.org/rest/AphiaRecordsByName/Merluccius+merluccius
[!TIP]
WoRMS proporciona AphiaIDs que actúan como identificador universal entre todas las demás bases de datos marinas. Es el nexo de unión de todo el ecosistema.
3.2 FishBase
| Aspecto |
Detalle |
| URL |
https://www.fishbase.se |
| Contenido |
Información biológica de todos los peces óseos y cartilaginosos conocidos |
| Volumen |
+35.000 especies, +60.000 nombres comunes, +70.000 imágenes |
| API |
✅ https://fishbase.ropensci.org (REST) + paquete R rfishbase |
| Licencia |
CC-BY-NC |
| Datos clave |
Morfología, hábitat, dieta, reproducción, tallas, distribución |
3.3 SeaLifeBase
| Aspecto |
Detalle |
| URL |
https://www.sealifebase.se |
| Contenido |
Complemento de FishBase para invertebrados y otros organismos marinos no-pez |
| Volumen |
~200.000 registros de especies |
| API |
✅ https://fishbase.ropensci.org/sealifebase + paquete R rfishbase |
| Licencia |
CC-BY-NC |
| Uso para IEO |
Crustáceos, moluscos, equinodermos del departamento de Medio Marino |
4. Bancos de Datos de Ocurrencias y Distribución
| Aspecto |
Detalle |
| URL |
https://obis.org |
| Contenido |
Registros georeferenciados de especies marinas |
| Volumen |
+100 millones de registros, miles de datasets |
| API REST |
✅ Pública — https://api.obis.org/v3/ |
| Licencia |
CC-BY (mayoritariamente) |
| Filtros |
Taxón, geometría WKT, fecha, profundidad |
# Ejemplo: ocurrencias de Merluccius merluccius en el Mediterráneo
GET https://api.obis.org/v3/occurrence?scientificname=Merluccius+merluccius&geometry=POLYGON((-6+35,37+35,37+45,-6+45,-6+35))
| Aspecto |
Detalle |
| URL |
https://www.gbif.org |
| Contenido |
Registros de biodiversidad (terrestre + marina) |
| Volumen |
+2.400 millones de registros totales |
| API REST |
✅ Pública — https://api.gbif.org/v1/ |
| Descarga masiva |
✅ API asíncrona de descargas (requiere cuenta gratuita) |
| Python |
pygbif |
| Filtro España |
country=ES + taxonKey para grupos marinos |
[!IMPORTANT]
El IEO-CSIC contribuye datasets a GBIF. Algunos datos del propio IEO pueden descargarse desde aquí.
4.3 iNaturalist
| Aspecto |
Detalle |
| URL |
https://www.inaturalist.org |
| Contenido |
Observaciones ciudadanas con foto, geolocalización e identificación |
| Volumen |
+200 millones de observaciones (incluye marinas) |
| API REST |
✅ Pública — https://api.inaturalist.org/v1/ |
| Python |
pyinaturalist |
| Filtro marino |
Por taxon_id de grupos marinos + place_id costero |
| Uso para IEO |
Imágenes geolocalizadas de especies + identificación comunitaria |
5. Bancos de Datos Especializados — Pesquerías y Otolitos
5.1 ICES SmartDots — Lectura de Edad por Otolitos
| Aspecto |
Detalle |
| URL |
https://smartdots.ices.dk |
| Contenido |
Imágenes de otolitos con anotaciones de edad por expertos |
| Formato |
Imágenes + JSON via Web API |
| API |
✅ Web API REST (requiere token de autenticación ICES) |
| Licencia |
CC-BY 4.0 |
| Relevancia |
🔴 Crítica — directamente mencionado en la documentación del proyecto |
[!IMPORTANT]
El modelo U-Net-Otolitos del proyecto está entrenado con datos de ICES SmartDots + IEO. Este es el banco de datos más relevante para el departamento de Pesquerías.
| Aspecto |
Detalle |
| URL |
https://aforo.cmima.csic.es |
| Contenido |
Imágenes de alta resolución de otolitos sagitales + análisis de forma |
| Volumen |
9.822 imágenes, 2.980 especies, 289 familias |
| Cobertura |
Mediterráneo, Canarias, Antártida, Namibia |
| Operador |
ICM-CSIC (mismo CSIC que el IEO) |
| Licencia |
Acceso abierto |
| Relevancia |
🔴 Crítica — otolitos del Mediterráneo, mismo organismo (CSIC) |
5.3 ICES Data Portal — Datos de Pesquerías
| Aspecto |
Detalle |
| URL |
https://data.ices.dk |
| Contenido |
Evaluaciones de stocks, capturas, esfuerzo pesquero, datos ambientales |
| Volumen |
+300 millones de mediciones |
| API |
✅ Web services para datos de stock assessment |
| Licencia |
ICES Data Policy (generalmente abierta) |
| Datos clave |
Capturas por especie/zona/año, tallas, madurez, peso |
6. Bancos de Datos Ambientales y Oceanográficos
6.1 Copernicus Marine Service (CMEMS)
| Aspecto |
Detalle |
| URL |
https://marine.copernicus.eu |
| Contenido |
Datos físicos y biogeoquímicos del océano |
| Variables |
Temperatura, salinidad, corrientes, clorofila-a, fitoplancton |
| API Python |
✅ copernicusmarine (Copernicus Marine Toolbox) |
| Licencia |
Gratuita con registro |
| Mediterráneo |
Productos específicos: MEDSEA_* |
6.2 EMODnet — European Marine Observation and Data Network
| Aspecto |
Detalle |
| URL |
https://emodnet.ec.europa.eu |
| Portales |
Biology, Chemistry, Bathymetry, Geology, Physics, Human Activities |
| API |
✅ OGC WFS/WCS + ERDDAP |
| R/Python |
emodnet.wfs (R), OGC clients (Python) |
| Licencia |
Abierta (datos europeos armonizados) |
| Uso para IEO |
Distribución de especies, datos medioambientales de contexto |
7. Datasets de Imágenes para IA/Computer Vision
7.1 Datasets de Imágenes de Peces
| Dataset |
Especies |
Imágenes |
Fuente |
Uso |
| FathomNet |
233 clases |
80.000+ imgs, 106K localizaciones |
MBARI/Deep-sea |
Detección submarina |
| FishNet |
Multi-especie |
Gran escala |
CVPR benchmark |
Reconocimiento + rasgos funcionales |
| Mediterranean Fish Dataset |
20 spp. mediterráneas |
18.400+ peces, 1.600+ imágenes |
Frontiers in Marine Science |
🔴 Ideal para IEO |
| Croatian Fish Dataset |
12 spp. Adriático |
794 imágenes |
FGVC research |
Clasificación fina |
| SEAMAPD21 |
Peces de arrecife |
Gran escala |
NOAA |
Object detection |
| Deep Vision Fish |
Pelágicos comerciales |
Cámaras de arrastre |
IMR Norway |
Clasificación automática |
| Fish Species (Kaggle) |
13 especies |
8.242 imágenes anotadas |
Kaggle |
Entrenamiento/benchmark |
| Marine Animals (Kaggle) |
5 categorías |
1.241 entrenamiento |
Kaggle |
Clasificación básica |
[!TIP]
El Mediterranean Fish Dataset (20 especies, +18.400 especímenes) es el más alineado con el IEO Málaga por cobertura geográfica y taxonomía.
7.2 Datasets Especializados
| Dataset |
Contenido |
Uso para IEO |
| ICES SmartDots |
Imágenes de otolitos anotados con edad |
Entrenamiento U-Net-Otolitos |
| AFORO |
9.822 imágenes de otolitos (forma) |
Validación de identificación por otolito |
| Deep-sea JODD |
8.151 imágenes, 19 categorías organismos |
Detección deep-sea |
| iNaturalist (marino) |
Millones de fotos con ID comunitaria |
Data augmentation + validación |
8. Estrategia de Datos Sintéticos
8.1 Herramientas de Generación de Datos Tabulares
| Herramienta |
Tipo |
Uso para IEO |
Python |
| SDV (Synthetic Data Vault) |
Copulas gaussianas + GANs |
Generar biometrías sintéticas que mantengan correlaciones reales |
pip install sdv |
| CTGAN |
GAN condicional tabular |
Datos de capturas con distribuciones realistas |
pip install ctgan |
| Faker |
Generador de datos falsos |
Metadatos: nombres de campaña, códigos IEO, investigadores |
pip install faker |
| ydata-synthetic |
GANs + TimeGAN |
Series temporales de capturas/biometrías |
pip install ydata-synthetic |
| synthcity |
Multi-método (privacidad) |
Datos anonimizados para compartir |
pip install synthcity |
8.2 Esquema de Datos Sintéticos para el IEO
# Ejemplo: generación de muestras biológicas sintéticas con SDV
from sdv.single_table import GaussianCopulaSynthesizer
from sdv.metadata import SingleTableMetadata
# Esquema de una muestra biológica del IEO
schema = {
"codigo_interno": "IEOMA-{DEPARTAMENTO}-{SECUENCIA:04d}",
"especie": "Merluccius merluccius", # de WoRMS/FishBase
"nombre_comun": "Merluza europea",
"longitud_total_cm": 35.2, # distribución normal
"peso_g": 420.0, # correlacionado con longitud
"sexo": "H", # M/H/I
"madurez": "III", # escala I-VI
"edad_anios": 3, # lectura de otolito
"zona_captura": "GSA06", # áreas FAO/GFCM
"profundidad_m": 120,
"fecha_captura": "2025-11-15",
"campana": "ECOMED-2025",
"latitud": 36.7213,
"longitud": -4.4214,
"temperatura_superficie_c": 18.5, # de Copernicus CMEMS
}
8.3 Augmentation de Imágenes
| Técnica |
Herramienta |
Uso |
| Rotación, flip, crop |
albumentations |
Aumentar dataset de fotos de especímenes |
| Color jitter, contraste |
torchvision.transforms |
Simular condiciones de iluminación |
| Style transfer |
Modelos generativos |
Simular diferentes fondos/escenas |
| Synthetic otolith generation |
U-Net + GANs |
Generar otolitos sintéticos para entrenamiento |
| Background randomization |
Segment Anything |
Separar espécimen de fondo y recomponer |
9. Plan de Scraping y Automatización
9.1 APIs Directas (Sin Scraping)
| Fuente |
Método |
Datos Obtenidos |
Coste |
| WoRMS REST |
GET /AphiaRecords* |
Taxonomía completa |
Gratis |
| FishBase API |
rfishbase / REST |
Biología de 35K+ peces |
Gratis |
| OBIS API |
GET /occurrence |
Ocurrencias georeferenciadas |
Gratis |
| GBIF API |
POST /occurrence/download |
Descarga masiva de ocurrencias |
Gratis (cuenta) |
| iNaturalist API |
GET /observations |
Fotos + identificaciones |
Gratis (rate-limited) |
| ICES SmartDots |
Web API REST |
Imágenes de otolitos + edad |
Gratis (token) |
| Copernicus |
Python toolbox |
Datos oceanográficos |
Gratis (cuenta) |
| EMODnet |
OGC WFS/WCS |
Biología marina europea |
Gratis |
9.2 Scripts de Scraping Recomendados
Para fuentes sin API formal:
| Fuente |
Método |
Herramienta |
| AFORO (otolitos CSIC) |
Web scraping de imágenes |
Selenium + BeautifulSoup |
| Catálogo IEO |
Descarga de metadatos CSW |
OWSLib (Python) |
| Publicaciones IEO digitalizadas |
Extracción de tablas de PDFs |
tabula-py + pdfplumber |
10. Mapa de Alineación con Departamentos del IEO
flowchart TB
subgraph PESQ ["Pesquerías"]
P1["ICES SmartDots"]
P2["AFORO Otolitos"]
P3["ICES Data Portal"]
P4["FishBase"]
end
subgraph ACUI ["Acuicultura"]
A1["FishBase"]
A2["SeaLifeBase"]
A3["GBIF"]
end
subgraph MMAR ["Medio Marino"]
M1["OBIS"]
M2["EMODnet Biology"]
M3["iNaturalist"]
M4["WoRMS"]
M5["Copernicus CMEMS"]
end
subgraph TRANS ["Transversales"]
T1["WoRMS - taxonomía"]
T2["GBIF - ocurrencias"]
T3["Mediterranean Fish Dataset"]
T4["FathomNet - deep learning"]
end
P1 --> T1
P4 --> T1
M1 --> T1
A2 --> T1
style PESQ fill:#e74c3c,color:#fff
style ACUI fill:#2ecc71,color:#fff
style MMAR fill:#3498db,color:#fff
style TRANS fill:#f39c12,color:#fff
11. Resumen Ejecutivo — Top 10 Bancos de Datos Prioritarios
| # |
Base de Datos |
Prioridad |
Tipo de Datos |
API |
Departamento |
| 1 |
ICES SmartDots |
🔴 Crítica |
Otolitos + edad |
✅ REST |
Pesquerías |
| 2 |
AFORO |
🔴 Crítica |
Otolitos (forma) |
⚠️ Web |
Pesquerías |
| 3 |
WoRMS |
🔴 Crítica |
Taxonomía |
✅ REST |
Todos |
| 4 |
FishBase |
🟠 Alta |
Biología de peces |
✅ REST |
Pesquerías, Acuicultura |
| 5 |
OBIS |
🟠 Alta |
Ocurrencias marinas |
✅ REST |
Medio Marino |
| 6 |
Mediterranean Fish Dataset |
🟠 Alta |
Imágenes de peces |
⬇️ Descarga |
IA / Computer Vision |
| 7 |
GBIF |
🟡 Media |
Biodiversidad global |
✅ REST |
Todos |
| 8 |
EMODnet Biology |
🟡 Media |
Distribución europea |
✅ OGC |
Medio Marino |
| 9 |
Copernicus CMEMS |
🟡 Media |
Oceanografía física |
✅ Python |
Contexto ambiental |
| 10 |
iNaturalist |
🟢 Complementaria |
Fotos ciudadanas |
✅ REST |
Validación IA |
12. Predicción de Espacio en Disco
12.1 Estimación por Fuente de Datos
| # |
Base de Datos |
Tipo |
Alcance Descarga |
Tamaño Estimado |
Notas |
| 1 |
WoRMS |
Tabular (CSV/JSON) |
Dump completo (~240K especies) |
~500 MB |
Taxonomía + clasificaciones + sinónimos |
| 2 |
FishBase |
Tabular + imágenes |
Base de datos completa |
~3 GB |
~35K especies, 70K+ fotos (thumbnails) |
| 3 |
SeaLifeBase |
Tabular |
~200K registros |
~800 MB |
Invertebrados, complementa FishBase |
| 4 |
OBIS |
Tabular (TSV/Parquet) |
Export completo (168M registros) |
~50 GB |
GeoParquet via AWS S3. Filtrado España: ~2-5 GB |
| 5 |
GBIF |
Tabular (CSV) |
España marino (~30M ocurrencias) |
~8-12 GB |
ZIP comprimido ~3-4 GB, descomprimido ~12 GB |
| 6 |
iNaturalist |
Tabular + imágenes |
Marino España (~500K obs.) |
~15-25 GB |
Fotos a resolución media (~50 KB/foto) |
| 7 |
ICES SmartDots |
Imágenes de otolitos |
Colección por eventos (~10K imgs) |
~8-15 GB |
Imágenes alta resolución (~1-2 MB/otolito) |
| 8 |
AFORO |
Imágenes de otolitos |
9.822 imágenes |
~12-20 GB |
Alta resolución + datos de forma |
| 9 |
ICES Data Portal |
Tabular (CSV) |
Stocks pesqueros + series |
~2-5 GB |
Capturas, evaluaciones, series temporales |
| 10 |
Copernicus CMEMS |
NetCDF/zarr |
Mediterráneo (biogeoquímica) |
~50-200 GB |
Según variables y rango temporal seleccionado |
| 11 |
EMODnet Biology |
Tabular + vectorial |
Europa marina |
~3-8 GB |
Distribución de especies europeas |
12.2 Datasets de Imágenes para IA
| Dataset |
Imágenes |
Resolución Típica |
Tamaño Estimado |
Notas |
| FathomNet |
448.273 |
Variable (submarina) |
~80-120 GB |
Descarga programática, no bulk |
| Mediterranean Fish Dataset |
1.600+ (18.400 peces) |
1920×1080 |
~3-5 GB |
🔴 Prioritario para IEO |
| FishNet (completo) |
94.532 |
Variable |
~20-30 GB |
Multi-especie global |
| Fish Species (Kaggle) |
8.242 |
~640×480 |
~500 MB |
Benchmark rápido |
| Croatian Fish Dataset |
794 |
Alta resolución |
~200 MB |
FGVC Adriático |
| SEAMAPD21 |
Gran escala |
Variable |
~15-25 GB |
Peces de arrecife |
| Deep Vision Fish |
Variable |
Cámara de arrastre |
~5-10 GB |
Pelágicos comerciales |
12.3 Datos Sintéticos Generados
| Componente |
Volumen Estimado |
Tamaño Estimado |
Notas |
| Biometrías sintéticas (SDV) |
1M registros |
~500 MB |
CSV/Parquet con correlaciones reales |
| Metadatos sintéticos (Faker) |
100K muestras |
~50 MB |
Códigos IEO, campañas, fechas |
| Imágenes aumentadas |
50K imágenes |
~10-15 GB |
Augmentation de datasets reales |
| Embeddings precalculados |
~500K vectores 768d |
~3 GB |
ChromaDB/pgvector |
12.4 Resumen por Perfil de Uso
pie title Distribución de Espacio en Disco - Perfil Recomendado
"Imágenes IA" : 45
"Datos Oceanográficos" : 25
"Ocurrencias" : 15
"Taxonomía" : 5
"Datos Sintéticos" : 7
"Embeddings" : 3
| Perfil |
Descripción |
Espacio Total |
Qué Incluye |
| 🟢 Mínimo Viable |
Solo lo esencial para desarrollo y pruebas |
~25-35 GB |
WoRMS + FishBase + Med Fish Dataset + SmartDots (subset) + datos sintéticos |
| 🟠 Recomendado |
Desarrollo completo + validación IA |
~120-180 GB |
Mínimo + OBIS (filtrado) + GBIF España + AFORO + iNaturalist (subset) + FathomNet (subset) + embeddings |
| 🔴 Completo (Research) |
Corpus investigación íntegro |
~500-850 GB |
Todo lo anterior + OBIS completo + Copernicus CMEMS + EMODnet + FathomNet completo + FishNet |
12.5 Desglose del Perfil Recomendado (~150 GB)
| Categoría |
Fuentes |
Tamaño |
% Total |
| Imágenes para IA |
Med Fish + SmartDots + AFORO + iNaturalist subset + FathomNet subset |
~65 GB |
43% |
| Datos oceanográficos |
Copernicus CMEMS (Mediterráneo, variables clave) |
~35 GB |
23% |
| Ocurrencias/distribución |
OBIS (España) + GBIF (España marino) + EMODnet |
~22 GB |
15% |
| Taxonomía/biología |
WoRMS + FishBase + SeaLifeBase |
~4,5 GB |
3% |
| Datos pesqueros |
ICES Data Portal (stocks + series) |
~4 GB |
3% |
| Datos sintéticos |
SDV + Faker + augmentation |
~16 GB |
11% |
| Embeddings/índices |
ChromaDB + pgvector |
~3 GB |
2% |
12.6 Requisitos de Infraestructura
| Aspecto |
Mínimo Viable |
Recomendado |
Completo |
| Disco SSD |
50 GB (con margen) |
250 GB |
1 TB |
| RAM para procesamiento |
8 GB |
16 GB |
32 GB |
| VRAM (modelos IA) |
8 GB |
16 GB |
24 GB |
| Ancho de banda descarga |
~5 GB/h |
~5 GB/h |
~5 GB/h |
| Tiempo estimado descarga |
~6 horas |
~30 horas |
~170 horas |
[!WARNING]
Los tiempos de descarga son estimaciones conservadoras. Algunas APIs (iNaturalist, SmartDots) tienen rate limiting que puede multiplicar el tiempo por 5-10x. Se recomienda ejecutar descargas en paralelo por fuente y usar caché local.
[!TIP]
Estrategia recomendada: Empezar por el perfil Mínimo Viable (~25 GB) para tener datos funcionales en pocas horas, e ir ampliando progresivamente según las necesidades de cada departamento.
13. Próximos Pasos Recomendados
- Inmediato: Crear scripts de descarga para WoRMS + FishBase (taxonomía base)
- Corto plazo: Solicitar acceso a ICES SmartDots API (token) y descargar imágenes de otolitos
- Corto plazo: Descargar Mediterranean Fish Dataset para pruebas de computer vision
- Medio plazo: Implementar pipeline SDV para generación de biometrías sintéticas
- Medio plazo: Configurar ingesta OBIS + GBIF filtrado por Mediterráneo/Atlántico español
- Largo plazo: Construir dataset multimodal IEO (imágenes + metadatos + embeddings)
Documentos Relacionados
| Nivel |
Documento |
Descripción |
| Investigación |
Gobernanza Datasets |
Políticas de datos y licencias |
| Arquitectura |
Arquitectura IA |
Pipeline de IA, modelos, embeddings |
| Arquitectura |
MLOps Workflows |
Registro de modelos, datasets de entrenamiento |
| Especificación |
API |
Esquema de muestras biológicas |