Снова обновлена "Копилка" (31 марта 2023 г.)

Дорогие друзья!

В эфире снова новости компьютерного зрения. Напомним, что в восьмой модели автоматического распознавания видов, которая была запущена 19 августа 2022 г., были второй раз использованы новые критерии отбора видов для обучающего датасета: теперь минимальный порог равен не ста наблюдениям, а ста фотографиям. Осенью 2022 г. был анонсирован новый алгоритм добавления видов в модель автоматического распознавания: примерно раз в месяц те виды, которые добрались до квалификационного порога, добавляются в модель без пересчёта включенных ранее видов. Это позволило заметно ускорить включение новых растений. Новая модель (v2.2, т.е. вторая ежемесячная порция обновлений грандиозной второй модели) основана на данных, выгруженных из системы 19 февраля 2023 г. - в ней появилось 398 новых видов растений, в т.ч. 43 вида проекта "Флора России".

После этого дополнения модели, мы быстро сделали чистку "Копилки флоры России". Оказалось, что с 20 января сразу 41 из 300 видов копилки стали известны системе, и она их предлагает пользователям при определении снимков (в скобках число наблюдений этих видов из всех стран на iNaturalist):

Athyrium yokoscense 155
Agrostis canina 140
Callitriche cophocarpa 125
Allium praescissum 101
Melilotus neapolitanus 99
Trigonotis radicans 99
Erysimum marschallianum 93
Allium lineare 93
Bistorta elliptica 92
Aster incisus 92
Gagea bulbifera 91
Alnus japonica 88
Schulzia crinita 88
Centaurea sterilis 85
Potentilla gelida 84
Anemonastrum speciosum 80
Myosotis incrassata 79
Callitriche hermaphroditica 78
Oxytropis adamsiana 78
Potamogeton trichoides 77
Seseli buchtormense 77
Phyllodoce aleutica 76
Allium cretaceum 76
Salix vinogradovii 75
Herniaria polygama 74
Galium tenuissimum 74
Adenophora pereskiifolia 73
Lathyrus pallescens 72
Dactylorhiza salina 72
Ephedra procera 71
Astragalus propinquus 71
Galium verticillatum 70
Bupleurum triradiatum 70
Astrantia trifida 69
Astragalus tenuifolius 68
Gagea triflora 68
Valerianella turgida 68
Galium octonarium 68
Sideritis euxina 67
Psephellus turgaicus 65
Aristolochia steupii 63

Даже сам по себе этот факт примечательный - вдумайтесь, каждый месяц ещё несколько десятков видов флоры России становятся известными моделям компьютерного зрения iNaturalist. В большинстве регионов свыше 95% загружаемых фотографий (в Средней России 99%) относится к таким видам, которые известны системе, а, значит, чем лучше и правильнее пользователь фотографирует объект, тем больше шансов, что он сразу получит верный ответ. Тут скорее может подвести пространственная неполнота данных или сезонные дырки в наблюдениях. Не забывайте, что параметр "увиденные поблизости" учитывает как географическую близость (квадрат 3 на 3 градуса), так и сезонность (интервал 3 месяца - текущий и два соседних). Собственно, по этой причине модель вам не предложит новозеландских эндемиков в Подмосковье или подснежников осенью.

Так что если вам действительно важно быстро узнать, что это за растение, не дожидаясь отклика экспертов, неторопливо делайте аккуратные снимки с разных ракурсов и обязательно перечитайте пост "Как снимать, что снимать: учимся у классиков. Особенно это будет актуально летом, когда возможности экспертного сообщества на порядок ниже потока свежих летних фотографий.

Итак, после обновления копилки наш список снова включает 300 видов (правда, теперь гораздо более редких). После выхода обновлений мы будем регулярно менять виды, преодолевшие этот порог, на те, что находятся ниже по списку.

Кроме того, в связи с коррекцией номенклатуры и активной работы экспертов в копилке появилось несколько видов с большим числом наблюдений, для которых модель будет пересчитана с нуля:

Heracleum sibiricum Борщевик сибирский
Cirsium esculentum Бодяк съедобный
Artemisia glauca Полынь сизая
Vicia ramuliflora Горошек разветвлённый
Stevenia tenuifolia Перистоволосник тонколистный
Erysimum diffusum Желтушник развесистый


АЛГОРИТМ ВКЛЮЧЕНИЯ ВИДОВ В КОПИЛКУ

1) Ждём выхода новой модели и релиза в блоге iNaturalist по этому поводу.
2) Берем полный список видов проекта "Флора России".
3) Скриптом проверяем, какие виды не включены в текущую модель компьютерного зрения.
4) Убираем из "Копилки" виды, попавшие в текущую модель.
5) Берем топ-300 видов по числу наблюдений проекта "Флора России" (в этот раз порог 34 наблюдения).
6) Добавляем ВСЕ их наблюдения с фото из всех стран в копилку - для обучения используются в т.ч. наблюдения, сделанные в культуре.
7) Делаем новые наблюдения этих видов, загружаем их на сайт, проверяем определения.
8) См. пункт 1.


КАК МОЖНО ПОМОЧЬ?

НОВЫЕ ГАДЖЕТЫ. Для ряда видов имеется недостаточное разнообразие устройств: напрямую в релизах iNaturalist об этом не говорится, но Алекс Шепард в комментариях к постам рассказал, что наложены дополнительные ограничения на разнообразие источников, из которых поступают фотографии. При выгрузке обучающего набора фотографий из их метаданных берутся сведения, на какие устройства был снят тот или иной вид. К сожалению, точные значения пороговых отметок при этом не обнародованы. Если небольшое разнообразие устройств и наблюдателей не позволяет сделать обучающую выборку репрезентативной, то такой вид оставляется в сторонке для дальнейшего накопления данных. Такие ограничения вводятся потому, что, как показал эмпирический опыт, при обучении модель становится сильно зависимой от типа и марки устройств, на которые производилась съемка и, например, может узнавать какой-то вид, снятый на айфонах, но не видеть его на прочих фотографиях.

НОВЫЕ ОПРЕДЕЛЕНИЯ. Несмотря на преодоление пороговых отметок, многие виды пока не включены в модель. Почему? У части видов пока недостаточная доля наблюдений исследовательского уровня (особенно у видов с большим числом наблюдений из-за рубежа, а также в сложных группах типа Alchemilla, Thymus, Carex и т.п.). Так что без участия экспертов в определении фото видов-кандидатов совершенствование модели компьютерного зрения невозможно в принципе. Например, большое число видов флоры Приморья не включены в модель из-за большого числа неподтверждённых наблюдений из Южной Кореи.

НОВЫЕ ФОТО. Цель копилки - максимально ускорить процесс сбора фотографий по видам, которым чуть-чуть не хватает для включения в модель автоматического распознавания видов. Эти фото будут использованы в следующем обучающем наборе. Все мы замечаем, что каждый раз модель становится всё более компетентной и редко допускает грубые ошибки. Участники целенаправленно пополняют копилку, ориентируясь как на список видов (добавляя региональные фильтры), так и на карту, по которой мы можем глянуть на ближайшие точки видов-кандидатов и постараться сделать дополнительные наблюдения именно этих видов. Поверьте: такие поиски даже в соседнем лесу могут превратиться в увлекательное приключение! Но не забывайте, что из каждого наблюдения на обучение модели пойдёт только 5 фотографий (для соответствия критерию по разнообразию гаджетов).

Вот все формальные пороги для новых видов:

  • ранг вида (гибриды, подвиды и разновидности не включаются)
  • минимум 100 фото
  • 50% фото имеют определение сообщества
  • не более 5 фото из одного наблюдения

Иными словами, по текущим правилам, всего 20 исключительно полных наблюдений "исследовательского уровня" достаточно для включения нового вида в модель.

Региональные примеры

РЕЗУЛЬТАТ. Именно первое включение вида в модель основано на наиболее чистом датасете фотонаблюдений, поскольку эти изображения вручную определены экспертами и наблюдателями (без учета мнения модели). Затем неизбежно начинают накапливаться ошибки, основанные на использовании подсказок, и обучение следующей модели хотя бы частично становится основанным на автоматически определенных фотографиях. Впрочем, обучающий массив при этом неизбежно растёт.


Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @alexandrtichonov, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @tr3gl_svg, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

Небольшой опрос по биоблицам.

Posted on April 2, 2023 04:20 AM by apseregin apseregin

Comments

No comments yet.

Add a Comment

Sign In or Sign Up to add comments