データの出典について
niwaの植物データはどこから来て、どう検証され、出典が一致しないときにどう扱うかについて。
出典について
各植物ページ下部に「出典」セクションがあります。そのページに書かれている事実は、いずれもそこに挙げた一次資料・観察データ・編集判断の組み合わせから来ています。
個々の事実の横に印(記号・チップ・確信度のパーセンテージ)はつけません。植物の植え付け時期は、医療や法律のような争点ではなく、出典をすべて並べて読者が判断する形で十分です。
データの来歴
一次資料:日本の公的機関(東京都建設局、環境省自然環境局、国立環境研究所など)、学術団体(日本生態学会、日本のレッドデータ検索)、海外の植物標本機関(RHS、Plants of the World Online)の公開資料。institutional層と内部で呼んでいます。
コミュニティ・観察:iNaturalistへ提出された観察データ、写真からのCLIPゼロショット推定(ラウンド5の実験)、ユーザーがアップロードした植え付け記録の集約。location-aware aggregateとして、ご近所での観察データに使います。
編集物・園芸百科:ヤサシイエンゲイ等の信頼できるオンライン植物図鑑、NHK趣味の園芸の公開掲示板。ラウンド10で構築したテキスト抽出パイプラインで、構造化された事実として取り込みます。
カタログ編集者:niwaの編集スタッフ。複数の出典が一致しない事実について、どれを採るかを決めます。
出典が一致しないとき
原則:機関 > コミュニティ集約 > 単一の逸話。新しいデータは古いデータより優先されます(recency-weighted)。
例えばアスチルベの植え付け適期について、ヤサシイエンゲイは「2月~3月上旬/10月~12月」と書き、niwaの既存カタログは「3月/4月/10月」と書いていたとします。両者は重なっており衝突ではないので、両者を含む和集合(2月〜4月+10月〜12月)を採ります。
本当に対立する場合、編集者が機関データを優先して片方を選びます。その判断は出典のメタデータに記録されますが、ページ上には反映されません。
ロスのある部分について
すべての植物について、すべての地域で、すべての季節を網羅できているわけではありません。地域シフトは平均的な気候推定値に基づくもので、標高・微気候・品種で前後します。
iNaturalistの観察データは観察者が訪れた場所に偏っています。観察者の少ない地域は精度が落ちます。
テキスト抽出には誤りがあります(ラウンド10のPOCで〜90%の精度)。誤りに気づいた読者からの報告は歓迎です。
貢献するには
/upload/から自分の植物の写真を投稿できます(iNaturalistのアカウントがあれば連動します)。投稿された観察は集約後、ご近所で咲いている植物セクションに反映されます。
ソースコードと植物データはGitHub上で公開されており、Pull Requestを送れば編集者が確認します。
参考文献
本ページのデザイン判断は、出典提示UIに関するいくつかの研究を踏まえています:
Liao, Q. V. (2024). Designing Human-AI Interactions for Trust Calibration. — チップ/ドット型の信頼度UIは、しばしばユーザーの判断を悪化させる。
Metzger, M. J., & Flanagin, A. J. (2013). Credibility and trust of information in online environments. — 同調ヒューリスティック(複数の出典がある=信頼できる)は錯覚を生む。
Ding, Y., et al. (2025). Citation Laundering in Generative AI. AAAI. — 自動引用は出典の整合性チェックを通り抜けてしまう。