在處理大規模衛星影像分析時,計算成本往往是決定專案能否落地的關鍵。當我們需要對數以萬計平方公里的地圖更新,或是追蹤全球森林覆蓋率時,模型推論的開銷會變得極其驚人。Allen Institute for AI 最近發布的 OlmoEarth v1.1 就在這方面做出了突破,在維持原有性能的前提下,將計算成本降低了最多三倍。對於開發者來說,這不僅是速度的提升,更是讓全球規模的環境監測變得可行。
理解遙感影像的 Token 化過程
要理解 OlmoEarth v1.1 如何達成優化,首先要理解 Transformer 架構架如何處理衛星影像。Transformer 不能直接讀取圖片,必須將影像轉換為 Token(令牌),也就是模型可以理解的最小數據單位。
以常用的 Sentinel-2 衛星影像為例,輸入數據包含高度、寬度、時間維度以及 12 個不同的光譜通道(Channels)。傳統的做法是將影像切分成固定大小的 Patch(區塊),而 OlmoEarth v1 採取的是基於解析度的切分方式。由於 Sentinel-2 的不同通道有不同的解析度(10米、20米、60米),v1 版本會為每個解析度在每個時間點各生成一個 Token。
簡單來說,如果一張影像有 2 個時間點,一個區塊就會產生 6 個 Token(2 個時間點 乘以 3 種解析度)。這種做法雖然能精確捕捉不同解析度的特徵,但會導致 Token 總數大幅增加。
計算成本的平方律與瓶頸
在 Transformer 模型中,計算成本與 Token 序列長度的平方成正比。這意味著如果 Token 數量增加三倍,計算量並非線性增加,而是呈指數級成長。
對於工程師而言,衡量計算量的一個重要指標是 MACs(Multiply-Accumulate operations,乘加運算次數)。MACs 越低,代表模型在進行一次前向傳播(Forward Pass)時需要的運算越少,推論速度越快,且對硬體資源的佔用越低。
OlmoEarth v1.1 的核心優化方向就是減少 Token 的數量,從而直接砍掉大量的計算開銷。
從多 Token 到單 Token 的挑戰
OlmoEarth v1.1 嘗試將原本分開的解析度 Token 合併為單一 Token。理論上,這樣可以直接將 Token 數量減少到原來的三分之一,從而大幅降低預訓練、微調(Fine-tuning)與推論的成本。
然而,這種簡化會帶來性能下降的風險。初步實驗發現,直接合併 Token 會導致模型在遙感基準測試(如 m-eurosat kNN)中性能下降約 10 個百分點。這是因為將不同波段的分辨率分開,能讓模型更容易學習到跨波段的複雜關係。
為了在減少 Token 數量的同時不犧牲準確率,研究團隊並非單純修改數據結構,而是重新設計了預訓練方案(Pre-training regimen)。透過調整訓練算法,讓模型在單一 Token 的結構下依然能捕捉到關鍵的空間與光譜特徵。
實務影響與選擇建議
對於實際部署模型的工程師,OlmoEarth v1.1 提供了 Base、Tiny 與 Nano 三種尺寸,讓開發者能根據自己的計算預算選擇合適的模型。
如果你目前正在使用 OlmoEarth v1,切換到 v1.1 的最大好處是微調與推論速度的顯著提升。雖然在某些特定任務中可能會出現輕微的性能回退(Regression),但對於大多數需要大規模處理數據的場景,三倍的效率提升遠比微小的精度損失更具價值。
總結來說,OlmoEarth v1.1 的意義在於證明了透過優化 Token 策略與預訓練方法,可以在不大幅改變模型規模的情況下,極大地降低遙感 AI 的運算門檻,讓地球規模的環境監測變得更加經濟且高效。
來源:huggingface.co (OlmoEarth v1.1: A more efficient family of models)
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。