Открытые лицензии: текущее состояние

Дорогие друзья!

Это отчёт о текущем состоянии дел об использовании открытых лицензий в проекте "Флора России" (CC0, CC-BY, CC-BY-NC).


ЗАЧЕМ ЭТО НУЖНО?

Использование этих лицензий необходимо для трёх основных вещей: (1) бесплатного хранения ваших фотографий, (2) передачи данных в GBIF (единая точка доступа к 90 000 баз данных о биоразнообразии), (3) участия в "Атласе флоры России".

(1) Бесплатное хранение фотографий. Платформа iNaturalist является бесплатным для пользователей сервисом с колоссальным массивом данных о биоразнообразии. Здесь совсем нет рекламы. Помимо финансовой помощи частного фонда, который взял на себя финансирование iNaturalist до 2030 года, есть ещё и программа по сокращению издержек. Так, компания Amazon покрывает счета по хранению лицензированных фотографий (см. обращение Скота Лоари по этому вопросу с переводом на русский). Издержки по хранению фотографий без лицензий несёт уже iNaturalist.

(2) Передача данных в GBIF - Global Biodiversity Information Facility. Это единая точка доступа ко всем базам данных о биоразнообразии, включая коллекции, системы наблюдений, оцифрованные архивы и прочее. В январе 2023 года iNaturalist стал крупнейшим поставщиком данных по сосудистым растениям в GBIF. Все данные в GBIF находятся в открытом доступе, который обеспечивается одним из трёх типов лицензий - CC0, CC-BY, CC-BY-NC. Россия находится на 15-м месте в мире по числу находок сосудистых растений в GBIF и на 25-м месте по всем группам.

(3) Данные для "Атласа флоры России", который создается в МГУ, мы берем из GBIF. Те массивы, которые мы формируем сами, мы целиком и полностью выкладываем в GBIF (пример №1, пример №2, пример №3). Это обеспечивает единство структуры данных и возможность быстрого и надежного их обновления. Если какие-то данные из iNaturalist не попадают в GBIF, мы их вынуждены игнорировать. Предварительные карты "Атласа флоры России" по сетке 100x100 км доступны для 9000 видов в карточках образцов Цифрового гербария МГУ (примеры: женьшень, брусника, можжевельник колючий).


ОБЩАЯ СТАТИСТИКА

В проекте "Флора России" 91,8% наблюдений размещены по CC0, CC-BY, CC-BY-NC. Живые счётчики:

В России (проверяемые наблюдения, все группы) 91,0% наблюдений размещены по CC0, CC-BY, CC-BY-NC. Живые счётчики:


ИСПОЛЬЗОВАНИЕ ЛИЦЕНЗИЙ: ТОП-НАБЛЮДАТЕЛИ

Всего пять человек из топ-500 наблюдателей флоры России снабжают свои наблюдения пометкой "Все права защищены".

@alyona_osipova
@naturalist49367
@vladimir_dvorkin
@alenalatsveeva
@daba (последние наблюдения)

Ещё три человека из Мордовии также не перешли на лицензии CC0, CC-BY, CC-BY-NC. По какой-то причине они используют экзотическую лицензию CC-BY-NC-SA, которая блокирует отправку наблюдений в GBIF. Не могу сказать, с чем это связано, но учётки явно связанные и, очевидно, это сделано сознательно (ранее эти данные были в GBIF). Возможно, участники смогут прояснить это в комментариях. Сам GBIF эту лицензию не относит к открытым и не использует в своей работе.

@irinaber
@hapugin88
@gennadiychugunov

Ещё пять участников отошли от дел, не поменяв лицензии:

@sergeyus (не появлялся с 18.11.2021)
@natalya1406 (не появлялась с 23.11.2020)
@artyom_t (не появлялся с 24.05.2023)
@annalaenko (не появлялась с 31.05.2023)
@nikita_grechesky (не появлялся с 12.12.2022)


КАК ПЕРЕЙТИ НА ЛИЦЕНЗИИ CC0, CC-BY, CC-BY-NC?

Подробная инструкция дана здесь: https://www.inaturalist.org/posts/84612 . В разделе "Контроль" можно узнать, какая у вас текущая лицензия.


КАК Я МОГУ ПОМОЧЬ?

Прежде всего, убедитесь что вы используете для своих наблюдений одну из открытых лицензий (CC0, CC-BY, CC-BY-NC). В правом нижнем углу страницы с наблюдением (браузерная версия) стоит соответствующий значок. Например, чёрный прямоугольник с буквами "CC BY-NC" и сопроводительной надписью "Некоторые права защищены".

Если вы встретите в iNaturalist у наблюдателей из России наблюдение с настройками "Все права защищены", просто киньте ему ссылку на этот пост - возможно, он передумает.


ВМЕСТО ЗАКЛЮЧЕНИЯ

Россия - ведущая страна на iNaturalist по использованию открытых лицензий. Если в мире доля наблюдений с открытыми лицензиями немного превышает 71%, то в России она находится на уровне 91%.

Если в настройках проектов существовала бы возможность настройки лицензий, то правильнее было бы включать во "Флору России" только наблюдения с лицензиями CC0, CC-BY, CC-BY-NC. Закончить этот пост я бы хотел словами Скота Лоари, со-директора iNaturalist: "The default license on iNat is the Creative Commons Attribution-Non-Commercial (CC BY-NC) license, which prohibits commercial use. However, we encourage you to choose a more open license like the Attribution license (CC BY), or to simply relinquish any rights to content you create on iNat through the CC0 dedication". ("Лицензия по умолчанию на iNaturalist – это некоммерческая лицензия Creative Commons (CC BY-NC), которая запрещает коммерческое использование. Однако мы рекомендуем вам выбрать более открытую лицензию, такую как лицензия с указанием авторства (CC BY), или даже отказаться от любых прав на контент, который вы создаете на iNaturalist (CC0)").


Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m, @kot_s76, @eugenia_wiskasoid, @veksha, @fretkus, @m2011, @sasha_sashevich, @olga_chernyagina, @natalya_fomina, @andrey_55, @mihail_antropov, @ceu4, @stanislav_murashkin, @anna_mitroshenkova, @ashache, @qoi, @al_fa, @odonatachr (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

Posted on October 13, 2023 04:02 AM by apseregin apseregin

Comments

Друзья, давайте также не будем забывать, что за хранение КАЖДОГО снимка, даже с правильной лицензией, кто-то платит. И что хранение КАЖДОГО снимка порождает экологический след. Поэтому давайте воздерживаться от публикации наблюдений, которые не могут быть определены до вида и принести тем самым пользу проекту. Не нужно в погоне за цифрой загружать размытые снимки и снимки отличного качества, но с заведомо неполной информацией (часть листика, ягодка и т.п.). Также не стоит в рамках одного наблюдения загружать однотипные снимки, не добавляющие никакой новой информации к уже имеющимся - выберите из группы таких снимков один, самый лучший по качеству. Хочется, конечно, занимать престижные места в общемировом зачете по количеству наблюдений, но еще престижнее, если 99,9% всех сделанных в России наблюдений будут определены до вида. Понятно, что такая цель идеальна и на практике не достижима, но к ней стоит стремиться.

Posted by al_fa 7 months ago

Зачастую бывает, что наблюдение, не определимое до вида для одного - очевидный вид для другого. Смотрю к примеру порой на наблюдения Алексея Петровича Серегина и удивляюсь когда он злаки или осоки по одним листьям определяет. Плюс мне к примеру, по работе, часто бывает важно знать не столько вид, сколько хотя бы примерную группу видов или род, особенно если речь о засохших или еще не вегетирующих растениях. Хотя в целом, ваша мысль конечно ясна и верна

Posted by yurii_basov 7 months ago

@al_fa, если вы попытаетесь даже на супер снимках сделать 99,9% определений, десятая часть будет неверными. Собственно, сам подход, что можно определить всё - в корне неверный и порождает ошибки.
Поживите на iNaturalist ещё немного, осмотритесь, пообвыкнете.

Posted by apseregin 7 months ago

Коллеги, я уже не первый раз получаю подобное замечание о лицензии (кстати, нет "правильной" или "неправильной" - каждый сам вправе выбрать лицензию - на то нам выбор в настройках и дается, я считаю). Но осознанный отказ от передачи в GBIF данных связан со знакомством с контентом этой базы. Например, по Республике Мордовия же оказалось, что как-то получилась региональная флора там оцифрована. Просмотр находок ряда видов показало, что несколько видов привязано к одной и той же точке, но не к их реальным местам находок. Вероятно, авторы этих наборов данных так привязали, не опираясь на авторов находок, местных, региональных, ботаников, а основываясь на чем-то другом - это не мое дело, в конце концов. Но сейчас информация о распространении видов в определенных наборах данных в GBIF ложная (хотя, возможно, и не вся - и я смотрел только по Мордовии). Поэтому, работая с iNaturalist, я предпочитаю оставлять свои данные здесь. И я согласен с @al_fa - вместо погони за количеством лучше сконцентрироваться на качестве и детальности отображения географического распространения растений на определенных территориях. Именно этой цели и служит iNaturalist - заполнению "белых пятен". Надеюсь, с этим все наши коллеги согласны.

Posted by hapugin88 7 months ago

Ну и плюс компьютерное зрение учится по наборам данных. Именно по большим объемам снимков разного качества модель получает возможность предлагать виды с очень большой надежностью. Данных много не бывает. Да и вы же буквально на днях критиковали Плантариум за пренебрежительное отношение к снимкам с телефонов, если я верно помню.

Posted by apseregin 7 months ago

@hapugin88, Анатолий, спасибо, что написали! Если есть желание помочь с геопривязками по флоре Мордовии для Цифрового гербария МГУ (поскольку по Мордовии именно мы генерим большой объем данных по растениям) - буду искренне благодарен. У нас, разумеется, до всего руки никогда не дойдут и помощь от авторов находок, местных, региональных, ботаников безусловно всячески приветствуется.
Ну и, судя по всему, вы пользуетесь GBIF, а, значит, он очень нужен

Posted by apseregin 7 months ago

@apseregin Плантариум просто впадает в другую крайность, требуя, чтобы фотографии были высочайшего качества и сняты на профессиональное оборудование или дорогой смартфон. Данных много не бывает, но, если я правильно все понимаю, модель учится именно на идентифицированных снимках. А если вид определен неверно, и никто этого не заметил и не исправил, то тем самым и точность модели уменьшается. А снимки, которые не удалось определить до вида, в модели также не должны учитываться и тем самым для нее бесполезны. Разве не так?

Posted by al_fa 7 months ago

@apseregin Алексей Петрович, к сожалению, времени совсем нет (к несчастью, я думаю, что у многих коллег именно так). Но новые находки по Мордовии постоянно публикуются нами (региональными ботаниками) с координатами, и зачастую со ссылками на iNaturalist. Все, конечно, в открытом доступе после выхода публикаций в свет. По Красной книге Мордовии (2017) совсем все хорошо (относительно). Данные Красной книги (в смысле места находок) в рамках работы над изданием были геопривязаны общими усилиями авторов Красной книги. Поэтому данные 2017 года имеются (можно посмотреть в Supplement к статье https://doi.org/10.1080/11956860.2020.1753293). Возможно, потом опубликуем эту информацию как набор данных в какой-то статье. После 2017 года все опубликовано или готовится к публикации. :)

Posted by hapugin88 7 months ago

@al_fa, не совсем так. Для обучения модели используются все фотографии вида. Предел 1000 штук (уже с 900 штук появляется эффект "переобученности"). Из них не менее 50% (ну или добегает до 100%, если виды обычные) должны быть исследовательского уровня. Далее, делается обязательное допущение, что вероятность того, что вид определен верно, равна 95%. Я не специалист по компьютерному зрению, но в какой-то модели они это забыли сделать, и потом даже был релиз по этому поводу. В итоге, фото из наблюдений исследовательского уровня постепенно как бы выдавливают из этой 1000 снимков неверифицированные данные. "Исследовательский статус" - это условность, сами наблюдения от его получения не становятся ни лучше, ни хуже. Да и были у нас в прошлом адские случаи, когда заводились мегакнопконажиматели, подтверждавшие вообще всё подряд. До сих пор чистим.

Что-то я сегодня говорливый. Братцы, @al_fa, @hapugin88, спасибо, что мы тут все неравнодушные - это главное.

Posted by apseregin 7 months ago

@hapugin88 С геопривязкой данных на iNaturalist тоже могут быть сложности. В начале сезона, когда я только начинал знакомиться с iNaturalist и делал снимки с помощью мобильного приложения, я обратил внимание на странности: просматривая свою ленту в режиме карты, а не плитки, я видел некоторые свои наблюдения в точках, где я заведомо не был. Методом тыка выяснилось, что определение координаты в приложении осуществляется методом последовательных приближений, и если в месте наблюдения плохая связь или плохая погода, то процесс привязки может остановиться на полпути и дать приблизительную координату с большим разбросом. То же самое происходит, если сохранить наблюдение в приложении до того момента, когда процесс привязки полностью завершился. Поэтому потом приходилось тратить время и с помощью дневника перемещать наблюдения на нужное место. Не уверен, что абсолютно все пользователи, особенно новички, знают про эту особенность мобильного приложения. А еще оно сильно сажает аккумулятор, поэтому я в последнее время просто делаю снимки на камеру смартфона, где проблемы с геопривязкой возникают намного реже, а потом загружаю наблюдения через сайт.

Posted by al_fa 7 months ago

@hapugin88, в общем, я всегда готов к сотрудничеству - любые удобные для работы выгрузки из Цифрового гербария МГУ в любое время могу скинуть. Кнопку "Сообщить об ошибке" тоже у нас на портале никто по мордовской флоре никогда не нажимал, а вот по некоторым другим регионам мы здорово всё почистили.

Posted by apseregin 7 months ago

@al_fa перепроверять свои же наблюдения в iNat - это обязательный элемент работы с ресурсом. Связь - это само собой, плюс сбои в работе. Это не исключение, а частая норма. У меня и при хорошей связи плотва оказалась в чистом поле на лугах. Поэтому после загрузки всегда нужно перепроверять.

Posted by hapugin88 7 months ago

@apseregin просто не приходило в голову перепроверять информацию Цифрового гербария МГУ.
Хотя для примера потом можно посмотреть. Спасибо за идею!

Posted by hapugin88 7 months ago

А еще оно сильно сажает аккумулятор, поэтому я в последнее время просто делаю снимки на камеру смартфона, где проблемы с геопривязкой возникают намного реже, а потом загружаю наблюдения через сайт.

Я вообще не могу себе представить сколь-либо качественную работу с айнатом через приложение. Оно тупит, тормозит, теряет то фоточки, то метаинформацию. Плюс с телефона банально неудобно обрезать и фильтровать снимки. И да, это не говоря о не всегда хорошей связи.
Поэтому вначале снял на телефон, потом пришёл домой, слил проводком на комп, отфильтровал, обрезал, и после этого выложил через сайт.
А уж если параллельно с телефоном снимать на фотоаппарат...

@nikita_grechesky (не появлялся с 12.12.2022)
При этом последнее наблюдение сделано в начале этого сентября)

Posted by kildor 7 months ago

И что хранение КАЖДОГО снимка порождает экологический след. Поэтому давайте воздерживаться от публикации наблюдений, которые не могут быть определены до вида и принести тем самым пользу проекту.

Но также не нужно забывать о том, что один необработанный снимок с телефона весит столько же сколько 3-5, а то и больше снимков откадрированных. Поэтому не ленитесь немного обрезать. Это ещё и удобство для экспертов и VM. Плюс айнат ресайзит загруженные снимки, поэтому если объект занимает меньшую часть кадра, мелкие его детали просто исчезнут.

Posted by kildor 7 months ago

С геолокацией в Москве и Подмосковье полная беда, точки смещаются на километр - полтора

Posted by julia_shner 7 months ago

В iNaturalist лицензии для самого наблюдения (таксон+дата+геолокация+locality notes+notes), для фотографий и для аудиозаписей выбиратеся отдельно. У меня выбрано CC By. Подумалось вот что - лицензии СС кроме CCO могут представлять неудобство для тех, кто использует в научных работах большие массивы данных iNaturalist или GBIF, например, для картирования - а ведь в этих больших данных и состоит ценность этих ресурсов для науки. Допустим, условие аттрибуции BY означает, что в работе должны быть упомянуты все авторы всех использованных наблюдений с таким условием, которых там могут быть сотни. С одной стороны - это всего лишь один абзац, с другой - зачем кого-то принуждать делать эту малозначимую работу. (Я честно надеюсь что этот пункт лицензии авторы таких сводок как правило игнорируют.)

Я решил поменять лицензию для самих наблюдений на CC0 (public domain), оставив C0 BY для фотографий. И, кстати, вопрос - не составит ли несовпадение открытых лицензий наблюдения и фотографий технической проблемы для импорта в GBIF, хотя обе они среди приемлемых?

С позицией "ухода из GBIF" из-за того, что там часть данных некачественна - принципиально не согласен. Брак бывает в любых данных (в том числе и в любых собственных), а необходимость критического к ним отношения при работе никто не отменял. Но первое дело все же чтобы они были, и чем больше, тем лучше.

Posted by oleg_kosterin 7 months ago

не составит ли несовпадение открытых лицензий наблюдения и фотографий технической проблемы для импорта в GBIF, хотя обе они среди приемлемых?

Не составит, поскольку GBIF не хранит на своих серверах сами фотографии, а только даёт на них ссылку. При этом iNaturalist в качестве такой ссылки отправляет в GBIF ссылку на лёгкую картинку. Если на время отключается сервер iNat, то в выдаче GBIF картинок тоже нет, а метаданные сидят.

Что касается системы кросс-ссылок при CC-BY, но GBIF генерит doi конкретной выгрузки, где учитывается связь с реально использованными записями. На сегодняшний день уже отслеживаются конкретные ссылки на образцы конкретных авторов (https://bionomia.net/ , сайт краудсорсинговый, можно поучаствовать). То же самое планировалось сделать и для наблюдений, но технически пока это сложно. В любом случае, doi выгрузок хранится и рано или поздно пригодится.

Posted by apseregin 7 months ago

"Что касается системы кросс-ссылок при CC-BY, но GBIF генерит doi конкретной выгрузки, где учитывается связь с реально использованными записями"
Даже если "но"- это описка от "то", то все равно ничего не понял! Что такое конкретная выгрузка? Что такое связь с использованными записями? Каким образом она учитывается? Что такое конкретные образцы конкретных авторов (образцы чего, где?). Где хранится doi выгрузок и для чего? Как и для чего они пригодятся когда-нибудь?

Впрочем, наверное, не стоит тратить время на ответы - мое непонимание скорее всего связано просто с тем, что я пока не пользуюсь GBIF, а для целей картирования видов использую выгрузки именно из iNaturalist (по моим группам сверх них в гбифе мало, если вообще есть, а работать с изначально разноформатными данными неудобно), в статьях же ссылаюсь на весь массив данных из iNaturalist в GBIF - по их совершенно неудобоворимой рекомендованной ссылке iNaturalist contributors, iNautralist (2023) - которая конфликтует (путается) со ссылкой на собственно iNaturalist (2023), что не объяснить никакому copy editor.

Posted by oleg_kosterin 7 months ago

Между прочим, поменять лицензию на наблюдения задним числом мне не удалось. Система после основательной задержки возвращает - something went wrong, cannot fetch, раз за разом - и поменяла лицензию только в десяти последних наблюдениях. Посмотрю что с этим станет завтра. Как бы не навредило это действие.

И между прочим, это говорит, что благое стремление кого-то поменять лицензию на открытую может столкнуться с техническими сложностями, к сожалению.

Posted by oleg_kosterin 7 months ago

@oleg_kosterin, у самого первого загруженного вами наблюдения (https://www.inaturalist.org/observations/37186742 ) лицензия наблюдения уже поменялась на CC0. И в поиске тоже всё работает: https://www.inaturalist.org/observations?license=CC0&place_id=7161&view=observers

Вот тут написано про doi выгрузок из GBIF: https://www.gbif.org/ru/citation-guidelines . Мои пояснения будут всего лишь пересказом этого.

Posted by apseregin 7 months ago

Спасибо. Я нажимал на Ctrl-F5 (чистая перезагрузка), но прогресса не видел даже у одиннадцатого.
Спасибо за ссылку, почитаю

Posted by oleg_kosterin 7 months ago

Add a Comment

Sign In or Sign Up to add comments