Снова о том, что такое GBIF и как туда попадают данные проекта "Флора России" на iNaturalist

Дорогие друзья!

Постепенно к сообществу проекта "Флора России" присоединяются всё новые пользователи. Изредка мы рассказываем о том, как взаимодействуют iNaturalist и GBIF.

Итак, Global Biodiversity Information Facility - это глобальная платформа-агрегатор данных о биоразнообразии. Их здесь очень много: 1 647 583 407 фактов присутствия того или иного вида в той или иной точке. Это и наблюдения, и образцы, и окаменелости, и данные литературы. Чтобы все эти данные оказались доступны в одном месте (https://www.gbif.org/), 1631 организация по всему миру объединили здесь свои 55 780 баз данных - больших и малых. Любой пользователь может освоить несложную поисковую систему GBIF и найти то, что ему интересно.

Конечно, среди баз данных о биоразнообразии есть очень большие массивы! Вот, как выглядит десятка самых больших:

  1. EOD - eBird Observation Dataset 705 008 469
  2. Artportalen (Swedish Species Observation System) 79 602 691
  3. Observation.org, Nature data from around the World 39 969 765
  4. DOF - Observations from the Danish Ornithological Society 25 669 981
  5. Norwegian Species Observation Service 24 225 957
  6. iNaturalist Research-grade Observations 23 378 237
  7. INPN - Données flore des CBN agrégées par la FCBN 20 999 334
  8. Southern African Bird Atlas Project 2 14 541 771
  9. Waarnemingen.be - Bird occurrences in Flanders and the Brussels Capital Region, Belgium 12 811 851
  10. OEH Atlas of NSW Wildlife 12 583 688

А вот как выглядит другая десятка - с данными по сосудистым растениям.

  1. INPN - Données flore des CBN agrégées par la FCBN 20 960 245
  2. Artportalen (Swedish Species Observation System) 13 555 956
  3. Dutch Vegetation Database 11 108 794
  4. The Danish Environmental Portal, species and habitats-database "Danmarks Miljøportals Naturdatabase" 10 299 611
  5. Pl@ntNet automatically identified occurrences 9 634 639
  6. iNaturalist Research-grade Observations 8 735 166
  7. Flore du Bassin parisien (CBNBP) 7 788 041
  8. Flora von Deutschland (Phanerogamen) 7 657 152
  9. Floristic records from survey studies of the Bayerisches Landesamt für Umwelt 7 112 618
  10. Occurrence Data of Vascular Plants collected or compiled for the Flora of Bavaria 6 994 791

Как видно из обоих списков, данные из iNaturalist являются одним из ведущих источников данных в GBIF - как по всем группам живых организмов, так и по сосудистым растениям. Смотрите карту этих точек. Как говорится, наша страна самая большая в мире, поэтому нам придётся больше всех в мире работать. Верно?

Если вы хотите что-то выгрузить из iNaturalist в табличном виде, то, прежде всего, появится вот такое сообщение: "Большие объёмы экспорта тормозят нашу инфраструктуру и усложняют для нас введение новых изменений. Следует рассмотреть другие источники. GBIF принимает большинство наших лицензированных наблюдений исследовательского уровня, и их инструменты экспорта превосходны. Экспорт GBIF также идет с doi, который вы можете указать, если публикуете исследования на основе данных, которые вы экспортируете, и эти ссылки чрезвычайно полезны для нас, поскольку они позволяют нам видеть, как используются данные iNat". Сейчас таких публикаций уже 965.

На iNaturalist сейчас почти 57 млн наблюдений, а в GBIF попадает лишь 23,4 млн. Почему? Дело в том, что одновременно:

  • наблюдение должно иметь исследовательский статус;
  • наблюдение должно иметь открытую лицензию (CC0, CC-BY, CC-BY-NC);
  • а сами данные при этом публикуются с задержкой (сейчас данные от 7.01.2021).

Давайте сравним две ссылки на одно и то же наблюдение:

https://www.gbif.org/occurrence/2882925758
https://www.inaturalist.org/observations/61666594

Автор не указал своего настоящего имени в профиле, поэтому в GBIF он числится как "ctahkih". Не нужно менять ник - достаточно указать настоящее имя в профиле в соответствующем разделе. В паспорте образца в iNaturalist в правом нижнем углу есть ссылка на GBIF, также как и обратная ссылка на сайте GBIF, появившаяся в момент заливки. Интересно и то, что это наблюдение было создано с помощью приложения Seek.

У GBIF своя номенклатура, которая автоматически стыкуется с названиями iNat, а также имеется в расширенном поиске фильтр по автору находки, так что можете выбрать и посмотреть, какие ваши наблюдения попали в GBIF. Недавно там появился поиск по административным единицам (правда, карта заложена 10-летней давности, так что границы Москвы и Подмосковья, например, старые).

Если вы хотите, чтобы ваши наблюдения попали в GBIF, то необходимо удостовериться, что у вас выставлена открытая лицензия. О том, как это сделать написано с иллюстрацией в этом посте: https://www.inaturalist.org/projects/flora-of-russia/journal/39331-obnovlen-massiv-dannyh-inaturalist-v-gbif-11-avgusta . Если у вас не проставлена лицензия, то в карточке каждого наблюдения у вас в правом нижнем углу написано "Все права защищены", если проставлена, то, как правило, - "Некоторые права защищены".

Итак, наблюдения из России, которые публикуются в iNaturalist, попадают в GBIF тремя путями:
1) загрузка новых наблюдений (поле и архивы);
2) определение бэклога;
3) изменение пользователями настроек своих лицензий.

По противоположным причинам наблюдения могут быть автоматически отозваны из GBIF:
1) наблюдение удалено пользователем из iNaturalist;
2) наблюдение с исследовательским уровнем лишилось его (было переопределено);
3) пользователь поставил жёсткую лицензию для всех своих фотографий;
4) наблюдению присвоен статус "обыкновенное" (по разным причинам).

На данный момент, в GBIF индексируется 5,85 млн записей о биоразнообразии России - 5,73 млн с основной территории и 0,12 млн из Крыма. При этом, iNaturalist является самым большим по объему источником данных о природе России (занимает долю 19,6%), и эта доля постоянно растёт.

Вот, какие массивы данных по биоразнообразию России являются крупнейшими:

  1. iNaturalist Research-grade Observations 1 119 624
  2. Moscow University Herbarium (MW) 663 356
  3. RU-BIRDS.RU, Birds observations database from Russia and neighboring regions. Zoological Museum of M.V. Lomonosov Moscow State University. 405 324
  4. EOD - eBird Observation Dataset 282 227
  5. Geographically tagged INSDC sequences 195 451
  6. Locations of plants on dot distribution maps in the Flora of Siberia (Flora Sibiraea, 1987–1997) 169 854
  7. A grid-based database on vascular plant distribution in Vladimir Oblast, Russia 123 054
  8. Finnish Floristic Database (Finnish Museum of Natural History Collections) 106 396
  9. Birds of Northern Eurasia 86 992
  10. Chronicle of Nature - Phenology of Plants of Zhiguli Nature Reserve 86 524

А вот, какие массивы данных самые большие по сосудистым растениям России:

  1. iNaturalist Research-grade Observations 743 969
  2. Moscow University Herbarium (MW) 591 237
  3. Locations of plants on dot distribution maps in the Flora of Siberia (Flora Sibiraea, 1987–1997) 169 854
  4. A grid-based database on vascular plant distribution in Vladimir Oblast, Russia 123 054
  5. Finnish Floristic Database (Finnish Museum of Natural History Collections) 106 029
  6. Chronicle of Nature - Phenology of Plants of Zhiguli Nature Reserve 86 524
  7. MHA Herbarium: collections of vascular plants 72 378
  8. Pl@ntNet automatically identified occurrences 71 567
  9. A global database for the distributions of crop wild relatives 69 255
  10. Chronicle of Nature - Phenology of Plants of FSE Zapovednoe Podlemorye 54 792

Традиционно: тэги тех участников, кто еще не перешел на открытые лицензии (таких 14%). Вдруг, передумают?

Вот пользователи (из числа топ-500 наблюдателей по флоре России), которые пока не перешли на свободные лицензии, а потому их данные не идут в GBIF:

@merlu: -1507 набл.
@sergeyus: -1456 набл.
@natalya1406: -1453 набл.
@evgeniy_benikhanov: -1263 набл.
@tarasov: -1076 набл.
@vera_chistyakova: -757 набл.
@naturalist19164: -699 набл.
@annalaenko: -695 набл.
@naturalist26231: -624 набл.
@nellysemenova: -619 набл.
@artem2013: -518 набл.
@ledum: -506 набл.
@entomokot: -504 набл.
@tatyana20: -503 набл.
@khairulla: -501 набл.
@nadya9: -499 набл.
@alakey: -484 набл.
@nikita_grechesky: -465 набл.
@missnarjess: -454 набл.
@naturalist38499: -412 набл.
@deniszhbir: -403 набл.
@svetlana_koveshnikova: -403 набл.
@olgakrilova: -402 набл.
@natalia_trifuz: -391 набл.
@naturalist35087: -389 набл.
@daria1813: -387 набл.
@naturalist14385: -384 набл.
@annagamzina: -382 набл.
@julujka: -372 набл.
@julia_fodina: -368 набл.
@marinakhanduyk: -368 набл.
@simonkamnev: -358 набл.
@irinaber: -344 набл.
@kkatya: -340 набл.
@naturalist33665: -320 набл.
@proshinmaxim: -315 набл.
@borovicheveugene: -309 набл.
@lubovschnaider: -308 набл.
@dmitry_kulakov: -307 набл.
@olesiahaha: -306 набл.
@vera124: -304 набл.
@vicia: -304 набл.
@angelinaguryanova: -300 набл.
@yanabykova09: -289 набл.
@corylus_avellana: -287 набл.
@keytmaksimova: -283 набл.
@alena_golovchenko: -277 набл.
@angelina237: -274 набл.
@marinakrygina: -271 набл.
@anastasialoseva: -269 набл.
@rudentzova: -266 набл.
@naturalist_nadezhda: -263 набл.
@digitata: -257 набл.
@acanthisflammea: -252 набл.
@karpova: -251 набл.
@freikeit: -251 набл.
@naturalist13989: -250 набл.
@irinaki: -249 набл.
@verba: -247 набл.
@denis190: -243 набл.
@naturalist34384: -235 набл.
@naturalist38875: -231 набл.
@nataliashevchenko: -224 набл.
@naturalist36862: -220 набл.
@zoyagolovkova: -220 набл.
@naturalist31500: -220 набл.
@lianarebrova2011: -217 набл.
@naturalist41466: -215 набл.
@nekto: -215 набл.
@naturalist42003: -214 набл.
@polivin_emil: -210 набл.
@naturalist16000: -154 набл.
@natalia_polyakova: -84 набл.
@alebedev: -49 набл.
@shatrova71: -31 набл.

Отдельно отмечу, что все (!!!) топ-100 наблюдателей проекта "Флора России" перешли на свободные лицензии (в топ-200 пока 8 человек этого не сделали). Доля наблюдений проекта, заблокированных жёсткими лицензиями, сократилась до 13,0%! Это наше большое общее достижение в деле открытого доступа к данным о биоразнообразии. Большое спасибо, что не оставили без внимания предыдущие посты о GBIF. Возможно, в этот раз отклик будет еще шире.

Зачем всё это нужно?

Самый простой ответ заключается в том, что именно из GBIF исследователи выгружают данные о растениях, грибах и животных в удобном виде (csv-выгрузки). Каждая такая выгрузка получает doi, с помощью которого отслеживаются цитирования в научных исследованиях. Так, массив данных iNaturalist (https://www.gbif.org/dataset/50c9509d-22c7-4a22-a47d-8c48425ef4a7), как уже отмечалось выше, процитирован через GBIF уже 965 раз! Это рекорд среди всех участников GBIF.

Posted on January 20, 2021 06:08 PM by apseregin apseregin

Comments

Добрый день! В настройках профиля напротив лицензии (cc)-by-nc, которая выбрана у меня, стоит зелёная пометка, что данные должны идти в GBIF. Разве это не так?

Posted by corylus_avellana about 3 years ago

Оля, привет! Спасибо за комментарии. Это оказался глюк на моей стороне при сборке базы. Проверил 3 раза со всех сторон, все твои наблюдения действительно в GBIF.

Posted by apseregin about 3 years ago

Add a Comment

Sign In or Sign Up to add comments