Снова обновлена "Копилка" (23 сентября 2023 г.)

Дорогие друзья!

В эфире снова новости компьютерного зрения. Напомним, что в восьмой модели автоматического распознавания видов, которая была запущена 19 августа 2022 г., были использованы новые критерии отбора видов для обучающего датасета: теперь минимальный порог равен не ста наблюдениям, а ста фотографиям. Осенью 2022 г. был анонсирован новый алгоритм добавления видов в модель автоматического распознавания: примерно раз в месяц те виды, которые добрались до квалификационного порога, добавляются в модель без пересчёта включенных ранее видов. Это позволило заметно ускорить включение новых растений.

Новая модель (v2.7, т.е. седьмая ежемесячная порция обновлений грандиозной второй модели) основана на данных, выгруженных из системы 20 августа 2023 г. - в ней появилось сразу 468 новых видов растений, в т.ч. 69 (!) видов проекта "Флора России".

После этого дополнения модели, мы быстро сделали чистку "Копилки флоры России". Оказалось, что с 23 августа сразу 69 из 600 видов копилки стали известны системе, и она их предлагает пользователям при определении снимков:

Alchemilla hirsuticaulis Манжетка шершавостебельная
Dracocephalum olchonense Змееголовник ольхонский
Salix nummularia Ива монетолистная
Trifolium polyphyllum Клевер многолистный
Centaurea trichocephala Василёк волосистоголовый
Rhododendron parvifolium Рододендрон мелколистный
Lepisorus ussuriensis Лепизорус уссурийский
Rumex ucranicus Щавель украинский
Artemisia messerschmidtiana Полынь Мессершмидта
Chenopodium karoi Марь Каро
Linum komarovii Лён Комарова
Saussurea tilesii Соссюрея Тилезиева
Cirsium echinus Бодяк ежовый
Silene sibirica Смолёвка сибирская
Oxytropis erecta Остролодочник прямой
Castilleja arctica Кастиллея арктическая
Hypericum attenuatum Зверобой оттянутый
Caulophyllum robustum Стеблелист мощный
Geranium gracile Герань стройная
Actaea dahurica Клопогон даурский
Oxytropis oxyphylla Остролодочник остролистный
Silene fimbriata Смолёвка бахромчатая
Astragalus calycinus Астрагал чашечковый
Astragalus galegiformis Астрагал козлятниковый
Alchemilla sericea Манжетка шёлковая
Arctophila fulva Северолюбка рыжеватая
Tilia mandshurica Липа маньчжурская
Silene paucifolia Смолёвка малолистная
Artemisia stolonifera Полынь побегоносная
Astilbe chinensis Астильба китайская
Medicago cretacea Люцерна меловая
Taraxacum bessarabicum Одуванчик бессарабский
Cerastium nemorale Ясколка дубравная
Galium dahuricum Подмаренник даурский
Salix kochiana ива коха
Euphorbia borodinii Молочай Бородина
Sedum gracile Очиток стройный
Saussurea salsa Соссюрея солончаковая
Asyneuma japonicum Свободноцветка японская
Ancathia igniaria Анкафия огненная
Achnatherum bromoides Чий костёровидный
Allium inaequale Лук неравный
Cephalaria litvinovii Головчатка Литвинова
Suaeda prostrata Сведа простёртая
Sanicula chinensis Подлесник китайский
Euphorbia oblongifolia Молочай продолговатолистный
Draba rigida Крупка жесткая
Artemisia furcata Полынь вильчатая
Liparis kumokiri Глянцелистник Кумокири
Geranium renardii Герань Ренарда
Actaea asiatica Воронец азиатский
Teucrium hircanicum Дубровник гирканский
Euphrasia hirtella Очанка волосистенькая
Hydrocharis dubia Водокрас Сомнительный
Artemisia rutifolia Полынь рутолистная
Carex korshinskyi Осока Коржинского
Diarthron altaica Стеллеропсис алтайский
Kemulariella caucasica Кемуляриелла кавказская
Silene lacera Хлопушка разрезная
Petrosimonia brachiata Петросимония раскидистая
Paraquilegia microphylla Лжеводосбор мелколистный
Gelasia ensifolia Козелец мечелистный
Saxifraga juniperifolia Камнеломка можжевельниколистная
Saussurea schanginiana Соссюрея Шангина
Callianthemum sajanense красивоцвет саянский
Primula auriculata Первоцвет ушковатый
Abies holophylla Пихта цельнолистная
Oxygraphis glacialis Ледянка ледниковая
Subularia aquatica Шильница водяная

Некоторые виды (с большинством наблюдений из-за границы) прошли порог, так и не побывав в нашей копилке:

Carex lachenalii Осока Лашеналя
Selaginella sibirica Плаунок сибирский
Allium bidentatum Лук двузубый
Micranthes porsildiana Камнеломка Порсилда
Alchemilla filicaulis Манжетка тонкостебельная
Silene chersonensis Смолёвка херсонская
Salix myrsinites Ива миртолистная
Iris pontica Ирис черноморский
Tragopogon heterospermus Козлобородник разносемянный
Salvia deserta Шалфей пустынный
Onosma arenaria Оносма песчаная
Alchemilla glaucescens Манжетка сизоватая
Aristolochia contorta Кирказон скрученный
Iberis amara Иберийка горькая

Итак, каждый месяц ещё несколько десятков видов флоры России становятся известными моделям компьютерного зрения iNaturalist. В большинстве регионов свыше 95% загружаемых фотографий (в Средней России 99%) относится к таким видам, которые известны системе, а, значит, чем лучше и правильнее пользователь фотографирует объект, тем больше шансов, что он сразу получит верный ответ. Тут скорее может подвести пространственная неполнота данных или сезонные дырки в наблюдениях. Не забывайте, что параметр "увиденные поблизости" учитывает как географическую близость (квадрат 3 на 3 градуса), так и сезонность (интервал 3 месяца - текущий и два соседних). Собственно, по этой причине модель вам не предложит новозеландских эндемиков в Подмосковье или подснежников осенью.

Вчера (22 сентября 2023 г.) после 4-часового технического отключения платформы произошло исключительно важное событие - теперь для подсказок системы компьютерного зрения используются не данные о находках, а так называемые "модели" (обсчитанные экологические модели, показывающие вероятностную карту возможных встреч вида). Этому посвящен отдельный пост. Релиз по этой теме в журнале проекта "Флора России" обязательно будет, но позже: надо со всем аккуратно разобраться.

Если вам действительно важно быстро узнать, что это за растение, не дожидаясь отклика экспертов (что важно во время летнего пика наблюдений), неторопливо делайте аккуратные снимки с разных ракурсов и обязательно перечитайте пост "Как снимать, что снимать: учимся у классиков. Особенно это актуально летом, когда возможности экспертного сообщества на порядок ниже потока свежих летних фотографий.

После обновления копилки мы ее немного сократили, убрав 69 добавленных в модель видов и 31 наиболее редкий вид - теперь наш список включает 500 видов. После выхода обновлений мы будем регулярно менять виды, преодолевшие этот порог, на те, что находятся ниже по списку.


АЛГОРИТМ ВКЛЮЧЕНИЯ ВИДОВ В КОПИЛКУ

1) Ждём выхода новой модели и релиза в блоге iNaturalist по этому поводу.
2) Берем полный список видов проекта "Флора России".
3) Скриптом проверяем, какие виды не включены в текущую модель компьютерного зрения.
4) Убираем из "Копилки" виды, попавшие в текущую модель.
5) Берем топ-500 видов по числу наблюдений проекта "Флора России" (в этот раз порог 28 наблюдений).
6) Добавляем ВСЕ их наблюдения с фото из всех стран в копилку - для обучения используются в т.ч. наблюдения, сделанные в культуре.
7) Делаем новые наблюдения этих видов, загружаем их на сайт, проверяем определения.
8) См. пункт 1.


КАК МОЖНО ПОМОЧЬ?

НОВЫЕ ДАННЫЕ. Поскольку теперь используется новый алгоритм для географического уточнения подсказок системы, то ещё более важными становятся новые наблюдения всех видов, в том числе обычных и хорошо знакомых системам компьютерного зрения. Каждая новая точка будет уточнять модели ареалов, а, значит, делать предсказания еще более точными.

НОВЫЕ ФОТО. Цель копилки - максимально ускорить процесс сбора фотографий по видам, которым чуть-чуть не хватает для включения в модель автоматического распознавания видов. Эти фото будут использованы в следующем обучающем наборе. Все мы замечаем, что каждый раз модель становится всё более компетентной и редко допускает грубые ошибки. Участники целенаправленно пополняют копилку, ориентируясь как на список видов (добавляя региональные фильтры), так и на карту, по которой мы можем глянуть на ближайшие точки видов-кандидатов и постараться сделать дополнительные наблюдения именно этих видов. Поверьте: такие поиски даже в соседнем лесу могут превратиться в увлекательное приключение! Но не забывайте, что из каждого наблюдения на обучение модели пойдёт только 5 фотографий (для соответствия критерию по разнообразию гаджетов).

Вот все формальные пороги для новых видов:

  • ранг вида (гибриды, подвиды и разновидности не включаются)
  • минимум 100 фото
  • 50% фото имеют определение сообщества
  • не более 5 фото из одного наблюдения

Иными словами, по текущим правилам, всего 20 исключительно полных наблюдений "исследовательского уровня" (минимум по 5 фото в каждом) достаточно для включения нового вида в модель.

Региональные примеры

НОВЫЕ ГАДЖЕТЫ. Для ряда видов имеется недостаточное разнообразие устройств: напрямую в релизах iNaturalist об этом не говорится, но Алекс Шепард в комментариях к постам рассказал, что наложены дополнительные ограничения на разнообразие источников, из которых поступают фотографии. При выгрузке обучающего набора фотографий из их метаданных берутся сведения, на какие устройства был снят тот или иной вид. К сожалению, точные значения пороговых отметок при этом не обнародованы. Если небольшое разнообразие устройств и наблюдателей не позволяет сделать обучающую выборку репрезентативной, то такой вид оставляется в сторонке для дальнейшего накопления данных. Такие ограничения вводятся потому, что, как показал эмпирический опыт, при обучении модель становится сильно зависимой от типа и марки устройств, на которые производилась съемка и, например, может узнавать какой-то вид, снятый на айфонах, но не видеть его на прочих фотографиях.

ДРУГИЕ ФЕНОФАЗЫ. Многие виды, которые не включены в систему, скупо представлены, например, в плодах или в вегетативном состоянии. А это особенно актуально осенью! Для надежного определения видов с помощью алгоритмов компьютерного зрения нужны фотографии растений в различные сезоны. Так что съемки одного и того же вида в том же месте, но, например, с жёолтыми листьями или ранней весной также очень полезны для совершенствования нейросетевых алгоритмов.

НОВЫЕ ОПРЕДЕЛЕНИЯ. Как и в целом на iNaturalist, очень многое зависит от экспертов и их работы. Несмотря на преодоление пороговых отметок, многие виды пока не включены в модель. Почему? У части видов пока недостаточная доля наблюдений исследовательского уровня (особенно у видов с большим числом наблюдений из-за рубежа, а также в сложных группах типа Alchemilla, Euphrasia, Carex и т.п.). Так что без участия экспертов в определении фото видов-кандидатов совершенствование модели компьютерного зрения невозможно в принципе. Например, довольно много видов флоры Приморья не включены в модель из-за большого числа неподтверждённых наблюдений из Южной Кореи.

РЕЗУЛЬТАТ. Именно первое включение вида в модель основано на наиболее чистом датасете фотонаблюдений, поскольку эти изображения вручную определены экспертами и наблюдателями (без учета мнения модели). Затем неизбежно начинают накапливаться ошибки, основанные на использовании подсказок, и обучение следующей модели хотя бы частично становится основанным на автоматически определенных фотографиях. Впрочем, обучающий массив при этом неизбежно растёт.


Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m, @kot_s76, @eugenia_wiskasoid, @veksha, @fretkus, @m2011, @sasha_sashevich, @olga_chernyagina, @natalya_fomina, @andrey_55, @mihail_antropov, @ceu4, @stanislav_murashkin, @anna_mitroshenkova, @ashache (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

Posted on September 23, 2023 04:32 PM by apseregin apseregin

Comments

No comments yet.

Add a Comment

Sign In or Sign Up to add comments