«Атлас флоры России», или для чего нужны данные iNaturalist

Дорогие друзья!

На портале Цифрового гербария МГУ опубликован второй релиз сеточных карт «Атласа флоры России».

https://plant.depo.msu.ru/open/public/search?collection=ATLAS

Это хороший повод рассказать вам о работе, которую ведёт наша научная группа по созданию большой новой сводки по флоре страны. Пост длинный, иллюстрированный и, на наш взгляд, исключительно важный - пожалуйста, прочитайте его до конца.


ТЕКУЩИЕ КАРТЫ

Первый релиз карт «Атласа флоры России» на 8246 видов был опубликован в конце мая 2022 года (https://vk.com/wall-134484155_3386). В начале ноября к нему были добавлены карты на 812 редких видов (https://vk.com/wall-134484155_3561), а часть карт мы успели почистить и опубликовать в отредактированном виде (https://vk.com/wall-134484155_3593).

В течение нескольких месяцев мы занимались чисткой, сверкой и верификацией карт и исходных данных: убирали явные ошибки, отмечали сомнительные указания, выделяли заносные популяции у синантропных видов. Часть видов пришлось убрать - это случайно оказавшиеся в исходном датасете гибриды, культурные растения или ошибочно определенные виды. Заметную роль в исправлении карт играл полный отказ от ненадёжных источников, если мы в них регулярно находили ошибки.

Второй релиз опубликован на нашем портале 15 февраля 2023 года, он охватывает все виды флоры России, кроме видов, известных из одного квадрата, и некоторых заносных видов. Карты доступны в карточках образцов в Цифровом гербарии МГУ (https://plant.depo.msu.ru/ ).

Исходные данные автоматически нормированы на умеренно широкую концепцию видов Catalogue of Life. Полный комплект включает карты на 8793 вида: для 4882 видов карты были проверены и исправлены вручную, а еще у 3911 видов были в полуавтоматическом режиме устранены некоторые сбои в исходном массиве данных. Сейчас мы работаем над их проверкой.

Эмпирический опыт показывает, что на этапе проверки треть карт в исправлениях не нуждается, а у двух третей, напротив, хотя бы одну точку приходится убирать или отмечать как сомнительную после проверки исходников. Так что работы много.

Автор карт: Сергей Дудов (@svdudov). В редактировании данных первого релиза принимали участие Наталья Гамова (@natalia_gamova), Сергей Дудов (@svdudov), Ольга Морозова, Алексей Серегин (@apseregin), Юлия Шнер (@julia_shner).


ДАННЫЕ

Сеточные карты по квадратам 100×100 км сделаны на основе датасета FLORUS проекта «Атлас флоры России». Этот массив данных включает в себя предварительно очищенные данные GBIF (в т.ч. сведения из Цифрового гербария МГУ), полные данные проекта «Флора России» на iNaturalist, а также ранее не публиковавшиеся базы данных В.В. Чепиноги, Д.В. Санданова, О.В. Морозовой, Н.Н. Лащинского, Н.И. Макуниной, А.Ю. Королюка, И.Б. Кучерова. Общий объем исходных данных по флоре России – около 6,5 млн точек (700 тыс. указаний для отдельных квадратов). Эта работа идет по гранту РНФ. Карта распределения числа отмеченных видов очищенного датасета дана ниже.

Сеточное картирование является эффективным инструментом для (1) отображения пространственных закономерностей; (2) агрегации и нормирования разнородных данных, собранных с различной пространственной плотностью; (3) установления белых пятен и планирования дальнейших полевых исследований; (4) последующего анализа данных.

С момента выгрузки и этапа стандартизации данных (весна 2022 г.) мы не добавляли в генеральный датасет новые данные. Это важный следующий этап - научиться относительно быстро добавлять в получившиеся очищенные карты такие данные, которые не будут нас отбрасывать на этап повторной массовой проверки материалов.

Кроме того, нам неизбежно придётся работать в условиях постоянно уточняемой номенклатуры. Так, за 10 месяцев с момента выгрузки данных и верификации номенклатуры у 2% видов в Catalogue of Life были изменены названия. Как правило, это перенос вида в другой род в результате молекулярных ревизий (простой случай), изменение ранга таксона (был вид, стала разновидность), прямая синонимизация нескольких видов или небольшое уточнение орфографии.

Мы стараемся поддерживать живую связь наших данных с внешними таксономическими источниками. В этом есть как свои минусы (нестабильность номенклатуры, сведение в синонимы хороших видов по незнанию), так и плюсы (отслеживание новаций в мировой научной литературе через внешние базы, автоматический поиск различных номенклатурных нестыковок).


ПРИМЕРЫ

На картах наиболее распространённых и массовых видов (например, иван-чая узколистного) хорошо видны как природные закономерности их распространения, так и неравномерность имеющихся данных.

В частности, иван-чай, с одной стороны, отсутствует в сухостепных и пустынных районах каспийско-черноморского региона, а, с другой, отсутствует в арктических и высокоарктических тундрах. Точки в Сибири по этому виду наглядно демонстрируют реально низкую плотность флористических данных в таёжных районах Красноярского края, Якутии, отдельных горных районах Сибири и Дальнего Востока. Напротив, плотность данных из таёжных районов европейской части и Западной Сибири, а также Чукотки и Камчатки приближается при выбранном масштабе сетки к сплошному.

Карты «Атласа флоры России» используют сетку 100x100 км. Каждая карта содержит информацию о числе исходных точек и числе квадратов, где был отмечен вид. Так, Rosa acicularis известна из 1165 квадратов (максимальная отметка).

Неочищенные данные содержали некоторое число случайных ошибок. Прежде всего, нашей задачей было установить системные ошибки в данных. Одной из таких ошибок стали «центроиды страны». Некоторые базы данных, размещенные в GBIF, добавляют координаты центра страны к отдельным записям. Два примера даны на картах выше. Как правило, «центроиды страны» располагались в бассейне Среднего Енисея, однако их местонахождение не совпадало в разных датасетах. Последовательное установление источников однотипных ошибок на разных картах позволило свести их к минимуму.

Ещё одна важная процедура – очистка карт от точек, где вид известен только в культуре. Так, виноград амурский (Vitis amurensis) известен как культурное растение в нескольких пунктах европейской части России. Данная карта демонстрирует относительно простой случай – первичный (природный) ареал вида на Дальнем Востоке чётко очерчен.

Карты для видов, известных в России только из одного квадрата (около 1000 видов), пока не подготовлены, поскольку данные о распространении этих растений не имеют значимости для дальнейшего кластерного анализа, а среди видов много ошибочных указаний. Приоритетной задачей является чистка данных по более распространённым видам.

Чистка данных включала не только исключение ошибочных указаний и местонахождений в культуре, но и, по возможности, дифференцированного указания природного (первичного) ареала и заносных популяций. Так, например, на карте вяза гладкого (Ulmus laevis) как заносные показаны популяции к востоку от Тюмени. В сомнительных случаях, вторичный ареал не отделялся от первичного (находки на севере европейской части).


КАК Я МОГУ ПОМОЧЬ?

На этом этапе мы аккуратно учитываем сведения по квадратам 100×100 км, что позволяет нам хотя бы наполовину закрывать таёжные районы Красноярского края и Якутии, откуда данных мало. Тем не менее, очевидно, что по европейской части, Кавказу, югу Сибири и Дальнего Востока мы можем переходить на более подробные сетки.

Для каждого региона Ярослав Магазов (@yaroslavmagazov) готовит сеточные карты для перераспределения усилий участников проекта «Флора России» на iNaturalist. И это не пустые слова. Мы искренне убеждены, что общими усилиями мы можем более равномерно собрать географические данные о растениях России.

Мы начали с наиболее активных регионов и постепенно двигаемся вниз по рейтингу. В обзорах этого года мы уже рассказали о: 1) Московской области, 2) Москве, 3) Иркутской области, 4) Республике Крым, 5) Брянской области, 6) Курской области, 7) Свердловской области, 8) Тульской области, 9) Новосибирской области, 10) Челябинской области, 11) Воронежской области, 12) Нижегородской области, 13) Алтайском крае, 14) Мордовии, 15) Севастополе, 16) Владимирской области, 17) Краснодарском крае, 18) Татарстане, 19) Калининградской области, 20) Костромской области, 21) Ярославской области, 22) Башкирии, 23) Омской области, 24) Камчатском крае.

Так что если у вас будет возможность этим летом в своем регионе закрыть какой-нибудь пустой квадратик в стороне от основных пятен данных, то это, с одной стороны, сделает вас в какой-то мере первооткрывателем, а, с другой стороны, даст больше сведений и по более крупным квадратам.

Пока не наступило лето, то другой хорошей возможностью принять участие в большом общем деле по наполнению карт «Атласа флоры России» является помогатор Цифрового гербария МГУ. Здесь любой участник может помочь с вводом данных гербарных образцов: дата сбора, фамилия коллектора, регион сбора, инвентарный номер, координаты с этикеток. Это заметно ускоряет процесс геопривязки образцов.


ЧТО ДАЛЬШЕ?

Задачи, которые стоят перед нами, понятны и, по своему, исключительно сложны:

1) АССЕНИЗАЦИЯ - завершить первичную чистку карт (третий релиз);

2) ИРРИГАЦИЯ - отладить включение новых данных (в т.ч. данных iNaturalist, добавленных с апреля 2022 г.);

3) РЕНОВАЦИЯ - обновить датасет и проверить, как новые данные легли на карты (четвёртый релиз);

4) ПАСПОРТИЗАЦИЯ - соотнести карты с чеклистом (списком) флоры России, найти пропуски и устранить явные нестыковки (пятый релиз);

5) КОММУНИКАЦИЯ - привлечь знатоков отдельных групп и региональных флор для тщательного анализа подготовленного комплекта (чеклист с картой на каждый вид) (шестой релиз).


Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @alexandrtichonov, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @tr3gl_svg, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

Posted on February 19, 2023 04:23 AM by apseregin apseregin

Comments

Стало заметно лучше.
А чеклист (список) флоры России в каком виде существует?

Posted by aleksandrebel about 1 year ago

@aleksandrebel, Александр, спасибо за отзыв! Если не вдаваться в детали: Черепанов-95 с автоматическим соотнесением с Catalogue of Life. Тот же путь мы прошли с образцами Цифрового гербария МГУ.

Внешне выглядит нормально, но внутри всё чрезвычайно сыро (плюс минус как с картами) и я пока это дело отложил в сторону. Сначала нужно привести в божеский вид карты. Наверно, не стоило их уже в мае выносить в общественное пространство (положительных отзывов от знающих людей не было), но, с другой стороны, очевиден прогресс.

@svdudov, @julia_shner, добавите что-нибудь?

Posted by apseregin about 1 year ago

Вот здесь одна точка на территории Бурятии. Интересно было бы узнать, откуда исходные данные.
https://plant.depo.msu.ru/open/public/scan.jpg?pcode=MW0220734&fp-type=florus
Точка в Алтайском крае - ошибочное определение (2 наблюдения на iNaturalist - исправлены на P. miliaceum s.l.)

Posted by aleksandrebel about 1 year ago

По поводу источников. Если данных нет в GBIF, на iNaturalist, то их нет в на ваших картах? Но данные существуют - например, в региональных гербариях, в публикациях последних лет, и не только последних лет - они не попадают? Что с этим делать?

Posted by a-travva 3 months ago

Алексей Петрович с командой делали же привязку многих региональных флор для GBIF, вероятно эти данные тоже попали на карту.. Или я ошибаюсь?

Posted by yurii_basov 3 months ago

Из текста выходит, что распределение усилий будут публиковаться для оставшихся регионов с отсечкой 2022г. Тогда вопрос - будут ли публиковаться распределение усилий для регионов из Топ-24 с отческой 2023г.?

Posted by denis_ivanov 3 months ago

Надеюсь мы так и до насекомых доберёмся. Хотел бы научиться делать подобные сеточные карты. Надеюсь у вас останутся силы и на обучение заинтересованных в создании таких какрт.

Posted by chimik 3 months ago

@a-travva, выход только один - вам необходимо искать возможности оцифровки коллекций (хотя бы в виде таблиц с геопривязками). То же верно и для литературы. Совсем идеально - выкладывать их затем в GBIF.

Мы работаем только с электронными данными. То, что мы переводим в электронный вид из литературы своими силами (как отметил @yurii_basov) - мы выбираем действительно белые пятна и, в основном, работы с большим объемом точных данных (стандартных картосхем на все виды, списков видов по точкам и проч.).

Кроме того, обращу внимание, что мы пока чистим данные двухлетней давности (осталось доделать 560 видов из примерно 9800). Почти всё делаем вдвоём. Так что с вас таблицы - с нас их интеграция в будущие обновлённые датасеты для карт. Я думаю, что, по большому счёту, процесс только начинается.

Posted by apseregin 3 months ago

@denis_ivanov, это пост годовой давности. Я добавил актуальную ссылку на карты "Атласа", и он снова у всех мелькнул в ленте. Актуализации "Распределения" в этом году не будет. Главная причина - почти ничего на этих картах за год не поменялось, а сил и времени на них уходит очень много.

Posted by apseregin 3 months ago

@chimik, мы работаем не с готовыми ГИС-системами, а создаем свою экосистему в R. Если совсем коротко - вам необходимо готовить таблицы с минимальным набором данных формата GBIF (если совсем просто - вид/координаты). А уж карты вам кто-нибудь сделает (мы вряд ли за это возьмемся).

Posted by apseregin 3 months ago

Спасибо, понятно. Пока не привык к этой штуке.)

Posted by denis_ivanov 3 months ago

По идее, создание датасета для GBIF по публикациям раздела "флористические находки" - вовсе не абстракция. Этот подход успешно реализуется, например, во флористических заметках в Botanica Pacifica (тех "сборных" статьях, что стали выходить там в последние годы)

Было бы чудесно, если бы все издания так агрегировали аналогичные данные - хотя бы раз в год, скажем - потому что вычитывать все тексты всё равно сложнее и дольше, увы..

Кстати, интересно, важно и ценно и обратное - отметить ошибки, - те, про которые стало вот уже известно, что это ошибки для определённого региона (скажем, достоверно недавно ревизовали гербарий и т.п.), а в литературе ещё "по инерции" все упоминают как было.

Posted by natalia_gamova 3 months ago

Add a Comment

Sign In or Sign Up to add comments