Новая модель автоматического распознавания видов: запущен обсчёт

Дорогие друзья!

Позавчера iNaturalist сообщил о начале обсчёта новой модели распознавания видов. Она будет включать 47 000 видов, что на 9 000 больше, чем сейчас. Точнее, не видов, а таксонов, поскольку иногда для обучения используются рода или семейства, в которых виды пока не преодолели пороговые значения по объему накопленных данных.

Обещано несколько небольших, но важных технических новшеств, которые позволят улучшить качество автоматических определений и скорость формирования и выхода новых моделей. Оригинальный пост от Алекса Шепарда (@alexshepard) с некоторыми подробностями тут.

Разумеется, нам снова захотелось понять, какие виды флоры России будут включены в их число. В июле, когда вышла текущая модель, мы провели сходную работу. В этот раз был использован тот же протокол действий, а значит результаты можно сравнивать.

Почему это важно для нашего сообщества? После выхода прошлой модели мы затеяли уникальный эксперимент по целенаправленному поиску и документации видов, которым чуть-чуть не хватает до включения в модель. Так появилась копилка "Флоры России". Каждый раз, когда проект "Флора России" достигал очередной круглой отметки, мы обновляли списки видов в копилке. Это принесло свои плоды: мы успели достигнуть пороговой отсечки в 100 наблюдений по нескольким сотням видам. Теперь уже точно известно, что ещё 469 видов флоры России будут включены в новую модель, выход которой ожидается весной.

Очень важно отметить, что когда вид впервые включается в модель, для её обучения используются только наблюдения, определённые людьми - авторами находок и (или) экспертами. Соответственно, именно первый обучающий набор данных, несмотря на небольшой объем фотоматериалов, является самым чистым в плане правильности определений. В дальнейшем, волей или неволей, к нему примешиваются фотографии, в определении которых может принимать участие сама модель.

Для обучения новой модели будет использоваться не более 5 фотографий из одного наблюдения, даже если их было загружено больше (сейчас лимит составляет 20 фотографий на одно наблюдение).

Все цифры ниже даны на 7.10.2021 включительно - на следующий день был запущен обсчёт модели.


ОБЩАЯ ЧАСТЬ

На iNaturalist имеются наблюдения 122 869 видов сосудистых растений. В среднем (есть взять данные WCVP/POWO, World Plants и Leipzig List) во флоре мира насчитывается 350 000 видов сосудистых растений, а это значит, что на iNaturalist представлено уже 35% мировой флоры.

Более 100 наблюдений всех категорий имеются у 17 422 видов сосудистых растений. Именно порог в 100 наблюдений является минимальным условием для включения в модель автоматического распознавания. Минимальным, но не единственным. В этот раз из модели будут полностью исключены гибриды (возможно, их вернут в будущем). Таким образом, остаётся 17 292 вида мировой флоры.

Если у вида есть 100 наблюдений, но нет 50 проверяемых наблюдений (все наблюдения, кроме "обыкновенных"), то они также не входят в модель. Таких видов 198 штук. Остаётся 17 094 видов сосудистых растений, которые и войдут в весеннюю модель (5% мировой флоры или 14% того, что есть на iNaturalist).

Казалось бы, это совсем немного. Но эти виды охватывают 27 809 360 наблюдений из 29 454 764 по всем сосудистым растениям. Т.е. потенциально 94,4% реально наблюдаемых растений должны быть знакомы системе. Это цифры по миру. Давайте посмотрим, что у нас в России.


РОССИЯ

В нашем проекте "Флора России" 7560 видов - это 60,5% от общей оценки видового богатства страны (оценка Р.В. Камелина). Ещё около 1000 видов есть в бэклоге, но пока не верифицированы. Впрочем, это сугубо экспертная оценка.

Из них в модель, которая сейчас обсчитывается, будет включено как минимум 3149 видов (41,7%), что на 469 видов / 6% больше, чем в прошлой модели, которой мы сейчас пользуемся (в ней 2680 видов, т.е. 36% к моменту релиза). Это существенно больше, чем среднемировой показатель (5%).

Пересчитаем на наблюдения. Если бы новая модель заработала прямо сейчас, то ей потенциально должны были быть известны 1 457 440 наблюдений из 1 515 817 штук (96,1%), что на 1,6% больше, чем в прошлой модели, которой мы сейчас пользуемся (она потенциально покрывала на момент выхода 94,5% наблюдений). Этот показатель чуть-чуть (на 1,7%) больше мирового.


РЕГИОНАЛЬНАЯ ЧАСТЬ

В июле в связи с выходом действующей модели мы посчитали для 12 региональных флор, сколько видов и сколько наблюдений она потенциально накрывает в каждом из субъектов. Мы взяли следующие регионы, по которым, с одной стороны, много наблюдений, а с другой стороны, они показывают хорошую пространственную неоднородность флоры России. Это были:

Алтайский край
Брянская область
Дагестан
Иркутская область
Камчатка
Краснодарский край
Красноярский край
Крым
Москва
Приморский край
Республика Алтай
Свердловская область

Давайте сравним результаты, которые обещает будущая модель против статистики нынешней модели.

Цифры, данные ниже - это доли видов, которые входят в модель, от общего списка видов, имеющихся в соответствующем региональном проекте. Сравниваются две модели: текущая (вышла в июле) и будущая (начало обсчёта - октябрь).

Алтайский край: 75,6 - 81,0
Брянская область: 91,9 - 92,6
Дагестан: 49,5 - 55,3
Иркутская область: 67,7 - 74,7
Камчатка: 64,0 - 70,6
Краснодарский край: 68,3 - 73,6
Красноярский край: 62,0 - 68,8
Крым: 65,8 - 72,2
Москва: 90,1 - 89,9
Приморский край: 46,2 - 53,3
Республика Алтай: 57,0 - 65,0
Свердловская область: 82,1 - 84,0

Максимальный прирост по доле потенциально узнаваемых видов будет по Республике Алтай (+8,0% видов), Приморскому краю (+7,1% видов) и Иркутской области (+7,0% видов).

Следующее сравнение - по доле потенциально накрываемых моделью наблюдений, входящих в соответствующий региональный проект. Тут также сравниваются две модели: текущая (вышла в июле) и будущая (начало обсчёта - октябрь).

Алтайский край: 92,9 - 95,2
Брянская область: 99,3 - 98,9
Дагестан: 61,1 - 68,6
Иркутская область: 89 - 94,2
Камчатка: 82,4 - 89,6
Краснодарский край: 83,7 - 89,6
Красноярский край: 75,5 - 80,7
Крым: 83,4 - 92,1
Москва: 99,7 - 99,1
Приморский край: 52,7 - 64,3
Республика Алтай: 76,6 - 85,5
Свердловская область: 97,4 - 97,9

Максимальный прирост по доле потенциально узнаваемых наблюдений будет по Приморскому краю (+11,6% наблюдений), Республике Алтай (+8,9% наблюдений) и Крыму (+8,7% наблюдений). Сразу за ними идут Дагестан (+7,5%) и Камчатка (+7,2%). Небольшое сокращение долей по Брянской области и Москве связано с исключением гибридов из модели.


КОПИЛКА

Ещё летом как раз для того, чтобы привлечь внимание к видам флоры России, которые в ближайшие месяцы могут дополнить модель автоматического распознавания, мы запустили копилку "Флоры России". В ней собраны данные по 300 видам-кандидатам. По этим растениям нужно набрать минимум 100 наблюдений. С июля по начало октября мы успели вынуть из нашей копилки 469 видов флоры России! Фантастический результат, друзья!

По вновь сформированным спискам пришлось полностью перенастроить таксономические фильтры нашей копилки. Сейчас в ней снова 300 видов, по каждому из которых в системе есть от 73 до 99 наблюдений. Для включения в следующую модель (обсчёт начнётся, вероятно, в конце весны) им нужно как и раньше набрать 100 наблюдений.

Как работает копилка? Весной, летом и осенью, когда растения доступны для распознавания, стоит внимательно посмотреть какие виды растут непосредственно в том месте, где вы находитесь. Нужно попробовать выявить их популяции и сделать такое число наблюдений, чтобы они были включены в модель. Всю зиму копилка будет пополняться архивными фотографиями.

Виды, которые будут при этом достигать отсечки в 100 наблюдений, будут исключаться из нее. Так, в период с 08 по 23 октября уже 12 видов, которые не успели попасть в новую обсчитываемую модель, прошли рубеж в 100 наблюдений:

Viola gmeliniana Фиалка Гмелина
Erodium stephanianum Аистник Стефана
Coronilla coronata Вязель корончатый
Lathyrus pannonicus Чина венгерская
Rubus hirtus Ежевика щетинистая
Veronica agrestis Вероника пашенная
Iris variegata Ирис пёстрый
Atriplex oblongifolia Лебеда продолговатолистная
Huperzia serrata Баранец пильчатый
Alyssum hirsutum Бурачок шершавый
Chenopodium opulifolium Марь калинолистная
Cleistogenes squarrosa Змеёвка растопыренная

Очень надеемся, что к следующей модели мы снова вынем из копилки 400-500 видов флоры нашей страны.

Posted on October 24, 2021 03:21 AM by apseregin apseregin

Comments

No comments yet.

Add a Comment

Sign In or Sign Up to add comments