Снова обновлена "Копилка" (13 мая 2023 г.)

Дорогие друзья!

В эфире снова новости компьютерного зрения. Напомним, что в восьмой модели автоматического распознавания видов, которая была запущена 19 августа 2022 г., были использованы новые критерии отбора видов для обучающего датасета: теперь минимальный порог равен не ста наблюдениям, а ста фотографиям. Осенью 2022 г. был анонсирован новый алгоритм добавления видов в модель автоматического распознавания: примерно раз в месяц те виды, которые добрались до квалификационного порога, добавляются в модель без пересчёта включенных ранее видов. Это позволило заметно ускорить включение новых растений.

Новая модель (v2.3, т.е. третья ежемесячная порция обновлений грандиозной второй модели) основана на данных, выгруженных из системы 2 апреля 2023 г. - в ней появилось сразу 544 новых вида растений, в т.ч. 44 вида проекта "Флора России".

После этого дополнения модели, мы быстро сделали чистку "Копилки флоры России". Оказалось, что с 31 марта сразу 23 из 300 видов копилки стали известны системе, и она их предлагает пользователям при определении снимков:

Heracleum sibiricum Борщевик сибирский
Cirsium esculentum Бодяк съедобный
Artemisia glauca Полынь сизая
Smelowskia parryoides Эрмания парриевидная
Helianthemum georgicum Солнцецвет грузинский
Papaver microcarpum Мак мелкоплодный
Corydalis conorhiza Хохлатка коническикорневая
Bupleurum longiradiatum Володушка длиннолучевая
Limonium tomentellum Кермек опушённый
Allium obliquum лук косой
Verbascum gnaphalodes Коровяк черноморский
Potentilla flagellaris Лапчатка плетистая
Sparganium glomeratum Ежеголовник скученный
Polygala wolfgangiana Истод Вольфганга
Hesperis steveniana Вечерница Стевена
Salix reptans Ива ползучая
Potamogeton compressus Рдест сплюснутый
Chamaesciadium acaule Низкозонтичник бесстебельный
Scutellaria pekinensis Шлемник пекинский
Erigeron caucasicus Мелколепестник кавказский
Galanthus alpinus Подснежник альпийский
Lonicera caucasica Жимолость кавказская
Festuca ambigua Вульпия реснитчатая

Некоторые виды (с большинством наблюдений из-за границы) прошли порог, так и не побывав в нашей копилке:

Globularia trichosantha Шаровница волосоцветковая
Lycopus lucidus Зюзник блестящий
Astragalus laguroides Астрагал заячий
Cuscuta approximata Повилика сближенная
Dianthus polymorphus Гвоздика изменчивая
Buglossoides czernjajevii Буглосоидес Черняева
Lonicera hispida Жимолость щетинистая
Quercus macranthera Дуб крупнопыльниковый
Iris arenaria Ирис песчаный
Orostachys thyrsiflora Горноколосник метельчатый
Eleocharis quinqueflora Болотница пятицветковая
Noccaea praecox Нокея ранняя
Trifolium grandiflorum Клевер крупноцветковый
Trillium tschonoskii Триллиум Чоноски
Securigera cretica Секироплодник критский
Rhamphospermum nigrum Горчица чёрная
Achillea pannonica Тысячелистник венгерский
Caragana scythica Карагана скифская
Cnidium monnieri Жгун-корень Монье
Arnebia guttata Арнебия пятнистая
Hepatica transsilvanica Печёночница трансильванская

Итак, каждый месяц ещё несколько десятков видов флоры России становятся известными моделям компьютерного зрения iNaturalist. В большинстве регионов свыше 95% загружаемых фотографий (в Средней России 99%) относится к таким видам, которые известны системе, а, значит, чем лучше и правильнее пользователь фотографирует объект, тем больше шансов, что он сразу получит верный ответ. Тут скорее может подвести пространственная неполнота данных или сезонные дырки в наблюдениях. Не забывайте, что параметр "увиденные поблизости" учитывает как географическую близость (квадрат 3 на 3 градуса), так и сезонность (интервал 3 месяца - текущий и два соседних). Собственно, по этой причине модель вам не предложит новозеландских эндемиков в Подмосковье или подснежников осенью.

Так что если вам действительно важно быстро узнать, что это за растение, не дожидаясь отклика экспертов (что важно во время летнего пика наблюдений), неторопливо делайте аккуратные снимки с разных ракурсов и обязательно перечитайте пост "Как снимать, что снимать: учимся у классиков. Особенно это будет актуально летом, когда возможности экспертного сообщества на порядок ниже потока свежих летних фотографий.

После обновления копилки наш список снова включает 300 видов (правда, теперь гораздо более редких). После выхода обновлений мы будем регулярно менять виды, преодолевшие этот порог, на те, что находятся ниже по списку.


АЛГОРИТМ ВКЛЮЧЕНИЯ ВИДОВ В КОПИЛКУ

1) Ждём выхода новой модели и релиза в блоге iNaturalist по этому поводу.
2) Берем полный список видов проекта "Флора России".
3) Скриптом проверяем, какие виды не включены в текущую модель компьютерного зрения.
4) Убираем из "Копилки" виды, попавшие в текущую модель.
5) Берем топ-300 видов по числу наблюдений проекта "Флора России" (в этот раз порог 33 наблюдения).
6) Добавляем ВСЕ их наблюдения с фото из всех стран в копилку - для обучения используются в т.ч. наблюдения, сделанные в культуре.
7) Делаем новые наблюдения этих видов, загружаем их на сайт, проверяем определения.
8) См. пункт 1.


КАК МОЖНО ПОМОЧЬ?

НОВЫЕ ГАДЖЕТЫ. Для ряда видов имеется недостаточное разнообразие устройств: напрямую в релизах iNaturalist об этом не говорится, но Алекс Шепард в комментариях к постам рассказал, что наложены дополнительные ограничения на разнообразие источников, из которых поступают фотографии. При выгрузке обучающего набора фотографий из их метаданных берутся сведения, на какие устройства был снят тот или иной вид. К сожалению, точные значения пороговых отметок при этом не обнародованы. Если небольшое разнообразие устройств и наблюдателей не позволяет сделать обучающую выборку репрезентативной, то такой вид оставляется в сторонке для дальнейшего накопления данных. Такие ограничения вводятся потому, что, как показал эмпирический опыт, при обучении модель становится сильно зависимой от типа и марки устройств, на которые производилась съемка и, например, может узнавать какой-то вид, снятый на айфонах, но не видеть его на прочих фотографиях.

НОВЫЕ ОПРЕДЕЛЕНИЯ. Несмотря на преодоление пороговых отметок, многие виды пока не включены в модель. Почему? У части видов пока недостаточная доля наблюдений исследовательского уровня (особенно у видов с большим числом наблюдений из-за рубежа, а также в сложных группах типа Alchemilla, Thymus, Carex и т.п.). Так что без участия экспертов в определении фото видов-кандидатов совершенствование модели компьютерного зрения невозможно в принципе. Например, довольно много видов флоры Приморья не включены в модель из-за большого числа неподтверждённых наблюдений из Южной Кореи.

НОВЫЕ ФОТО. Цель копилки - максимально ускорить процесс сбора фотографий по видам, которым чуть-чуть не хватает для включения в модель автоматического распознавания видов. Эти фото будут использованы в следующем обучающем наборе. Все мы замечаем, что каждый раз модель становится всё более компетентной и редко допускает грубые ошибки. Участники целенаправленно пополняют копилку, ориентируясь как на список видов (добавляя региональные фильтры), так и на карту, по которой мы можем глянуть на ближайшие точки видов-кандидатов и постараться сделать дополнительные наблюдения именно этих видов. Поверьте: такие поиски даже в соседнем лесу могут превратиться в увлекательное приключение! Но не забывайте, что из каждого наблюдения на обучение модели пойдёт только 5 фотографий (для соответствия критерию по разнообразию гаджетов).

Вот все формальные пороги для новых видов:

  • ранг вида (гибриды, подвиды и разновидности не включаются)
  • минимум 100 фото
  • 50% фото имеют определение сообщества
  • не более 5 фото из одного наблюдения

Иными словами, по текущим правилам, всего 20 исключительно полных наблюдений "исследовательского уровня" достаточно для включения нового вида в модель.

Региональные примеры

РЕЗУЛЬТАТ. Именно первое включение вида в модель основано на наиболее чистом датасете фотонаблюдений, поскольку эти изображения вручную определены экспертами и наблюдателями (без учета мнения модели). Затем неизбежно начинают накапливаться ошибки, основанные на использовании подсказок, и обучение следующей модели хотя бы частично становится основанным на автоматически определенных фотографиях. Впрочем, обучающий массив при этом неизбежно растёт.


Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @alexandrtichonov, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @tr3gl_svg, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m, @kot_s76, @eugenia_wiskasoid, @veksha, @fretkus, @m2011, @sasha_sashevich (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

Posted on May 13, 2023 03:55 AM by apseregin apseregin

Comments

Правильно ли я понимаю, что если у меня есть ещё несколько фотографий гроздовника из тех же мест и тем же фотоаппаратом, что и вывешенные, то это уже не столь интересно?

https://www.inaturalist.org/observations?place_id=any&project_id=111785&taxon_id=55327&ttl=900&user_id=1434599&verifiable=any

Posted by prokhozhyj 12 months ago

@prokhozhyj, Георгий, в этом случае всё пойдёт в дело. Критерий "одно и то же устройство" работает, когда половина наблюдений на iNaturalist какого-либо вида сделана одним человеком (точнее, устройством). Повторюсь, этот критерий точно нигде не описан, поэтому это эмпирическая догадка. По гроздовникам вообще фотографий много не бывает

Posted by apseregin 12 months ago

Add a Comment

Sign In or Sign Up to add comments