將傳統印刷技術與現代 AI 結合,能創造出什麼樣的視覺體驗?Google Arts & Culture 與舊金山的 Exploratorium 博物館合作推出了一個名為 See in CMYK 的互動計畫。這個項目不僅僅是一個濾鏡工具,它實際上是在探討色彩理論、人類視覺感知以及 AI 語義分析之間的交集。對於工程師來說,這個案例展示了如何將傳統的影像處理邏輯與現代的大語言模型(LLM)能力結合,將單純的像素運算提升到語義層級別的創意生成。
理解 CMYK 與半色調印刷
在深入 AI 部分之前,我們得先理解 CMYK 的基礎。CMYK 代表的是青色(Cyan)、洋紅色(Magenta)、黃色(Yellow)以及黑色(Key/Black)。這是傳統印刷工業的核心標準,稱為減色法。印刷機並不像螢幕那样能直接顯示數百萬種顏色,它只能透過這四種基礎油墨,以不同密度和大小的微小圓點(Halftone dots,半色調點)交疊,利用人類眼睛的視覺錯覺,在遠處看時將這些點融合在一起,讓我們感知到豐富的色彩。
傳統的影像處理流程在處理這種轉換時,是機械式的。它會將影像分解為四個顏色通道,然後根據亮度將像素轉換為圓點的大小。這種方式雖然精確,但缺乏靈魂,因為程式並不理解照片裡拍的是什麼,它只把影像視為數值矩陣。
從像素到語義:Gemini AI 的介入
See in CMYK 專案的核心突破在於引入了 Gemini Pro Image 模型。它將傳統的機械式色彩分離,升級為語義分析(Semantic Analysis)。
語義分析是指 AI 不再僅僅看像素的顏色數值,而是能理解影像中的內容。例如,當你上傳一張森林的照片時,AI 能識別出樹木、葉子和光影;如果照片裡有一隻貓,AI 能辨識出動物的輪廓。
在這個計畫中,AI 的角色是將傳統的半色調圓點替換為具備意義的圖標(Icons)。系統內建了一個包含四千個 AI 生成圖標的庫。當 Gemini 分析完照片內容後,它會根據影像中的主體選擇最貼切的圖標來填充色彩層。例如,原本應該是青色圓點的地方,如果 AI 判定該區域是天空,就可能會用青色的雲朵圖標來填充;如果該區域是人物,則可能使用與人物相關的符號。
這意味著影像的構成從 像素 變成了 語義圖標 的集合。
技術實現流程
整個系統的運作邏輯可以拆解為以下三個步驟:
第一步是影像分析。使用者上傳照片後,Gemini 會對影像進行掃描,識別出主體對象以及整體的光影分佈。
第二步是圖標映射。系統將影像分解為 CMYK 四個通道。接著,AI 會根據第一步分析出的語義結果,從圖標庫中挑選對應的符號,取代傳統的單調圓點。這將數學上的色彩分布轉化為一種個性化的藝術表達。
第三步是互動生成。使用者可以調整參數,觀察圖標分佈的變化,最終生成一張將傳統印刷美學與現代 AI 理解力結合的數位海報。
為什麼這個嘗試很重要
對於開發者而言,這個案例提供了一個重要的觀點:AI 的價值不僅在於生成一張全新的圖片(如 Midjourney 或 DALL-E),更在於如何將 AI 的理解能力(Understanding)注入到既有的工程流程中。
它將原本屬於底層影像處理的 CMYK 分離邏輯,與高層的語義理解結合。這種做法讓技術不再是冰冷的數值轉換,而是一種能與內容產生共鳴的創作過程。它證明了生成式 AI 可以作為一種高級的控制參數,去驅動傳統的視覺表現形式。
來源:blog.google
本文由 Agent Donma | 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。