1 minute read

鴿子當醫師?牠們學會了判讀乳癌切片,卻在另一項任務上徹底失敗


以下為虛構對話,人物與情節為創作,科學內容來源標註於文末。

▌午餐時段

麵店的午間人聲混著湯底的味道。Dg 把筷子插進碗裡,一副要宣布大事的樣子。

「Liy,妳知道嗎,鴿子可以看出乳癌。」

Liy 正在擦旁邊那桌的桌面。「鴿子會看病?」

「對,科學證實的。牠們啄一啄螢幕,就能分辨良性惡性,準確率快九成。」

「那很厲害。」她把抹布折起來,「牠看完會跟醫生講嗎?」

Dg 愣了一下。「不是……牠不用講,牠是啄按鈕。藍色惡性,黃色良性。」

「那誰看按鈕?」

「研究人員。」

「所以還是要有人看。」Liy 點點頭,把這件事放下,去端另一桌的麵。

Dg 對著她的背影張了張嘴,覺得哪裡被帶歪了,但說不上來。

他低頭,發現自己那碗麵已經泡軟了。

▌一隻不夠

Liy 回來收空碗。Dg 不死心,想把場面救回來。

「重點是,一隻鴿子其實沒那麼準。是要很多隻一起投票,準確率才會飆到九成九。這叫——」他想了一下,挑了個聽起來夠氣派的,「flock sourcing,群體的智慧。就像牛頓說的,站在巨人的肩膀上。」

Liy 停下來。「鴿子站在誰的肩膀上?」

「不是,這是比喻。意思是靠很多……」

「很多鴿子疊起來?」她認真地想像了一下,「最下面那隻會被壓扁。」

「不是疊,是把牠們的答案加起來。」

「喔。」Liy 把碗收進托盤,「那為什麼一隻不準,很多隻加起來就準?牠們又沒有商量。」

Dg 張開嘴,準備說一句很有學問的話。然後發現他不知道。

「就是……加起來就比較準。」

「加起來。」Liy 重複了一次,像是在確認這句話本身有沒有意義。她端著托盤往廚房走。

「那如果牠們全部都猜錯一樣的地方呢?」

Dg 沒接上。

廚房傳來老闆喊單的聲音,蓋過了他原本想說的話。


關鍵亮點:

  • 鴿子在乳房病理切片任務上,準確率從第一天的 50%(純猜測)升至第 15 天的約 85%,且能類推到從未見過的新切片。
  • 在最困難的乳房腫塊判讀任務上,鴿子只會「背答案」,換成新影像就完全失敗——但人類放射科醫師面對同類影像也只有約 80% 準確率。
  • 「群體共識」(flock sourcing)讓 4 隻鴿子的判斷加總後,AUC 衝上 0.99,遠勝任何單一個體。

一場違反直覺的實驗

2015 年,加州大學戴維斯分校的病理學家 Richard Levenson 與愛荷華大學的心理學家 Edward Wasserman 合作,在《PLOS ONE》發表了一篇標題聽起來像玩笑的論文:《鴿子(Columba livia)作為病理與放射乳癌影像的可訓練觀察者》。

這個點子其實有現實動機。Levenson 曾說,如果給他看 10 張影像,他沒問題;但要他看 10,000 張,他會煩躁到崩潰。而鴿子不會。研究團隊想知道:這種以視覺覓食為生、擁有驚人視覺記憶的鳥,能不能成為「便宜、可重複使用」的醫學影像觀察者?

為什麼是鴿子?

鴿子是四色視覺(tetrachromat),比人類的三色視覺多一個感光維度;牠們的視覺記憶也極為出色,能記住超過 1,800 張影像。更關鍵的是,鴿子大腦中負責視覺辨識的神經通路(基底核與皮質—紋狀體連結),在功能上與人類相當接近。

鴿子在操作制約箱中啄選觸控螢幕上的影像

圖:實驗中,鴿子在裝有觸控螢幕的操作制約箱內,啄選藍色或黃色按鈕來判讀影像。


三個實驗,三種難度

很多媒體把這項研究簡化成「16 隻鴿子排排坐判讀乳癌」,但實情更有層次。研究並非單一實驗,而是三個獨立、難度遞增的實驗,各用不同的鴿子分組,合計 16 隻。

實驗 任務 鴿子數 結果
實驗一 病理切片(良性 vs 惡性) 8 隻 成功學習,且能類推到新切片
實驗二 乳房攝影微鈣化點判讀 4 隻 成功學習,類推效果略遜於實驗一
實驗三 乳房攝影腫塊良惡性判讀 4 隻 訓練成功,但完全無法類推到新影像

實驗環境是裝有觸控螢幕的操作制約箱。鴿子啄選藍色(惡性)或黃色(良性)按鈕,答對給予飼料丸,答錯則進入「修正試驗」直到答對。為了排除「聰明漢斯效應」(Clever Hans effect,動物從人類無意識的肢體線索取得提示),整個學習過程沒有任何人類在場——全程由電腦自動進行。

病理切片:漂亮的成功

在實驗一,鴿子第一天的準確率約 50%(等同瞎猜),但經過 13 至 15 天訓練後,穩定升到約 85%。即使把切片旋轉、翻轉,準確率也只小幅下滑(86%→77%),且差異未達統計顯著。


死記硬背,還是真的學會了?

這是整項研究最關鍵的一問。如果鴿子只是把訓練用的影像「背起來」,那牠們根本沒學到任何診斷能力。

為了檢驗這點,研究者拿出全新、從未出現過的切片。結果鴿子在新切片上的準確率仍達 85%,與訓練集的 87% 幾乎無異——這證明牠們不是背答案,而是真的學會了辨識特徵。在微鈣化點任務(實驗二)上也類似:訓練集約 84%,新影像約 72%,雖略低,但仍顯著高於亂猜。

然後,實驗三狠狠地打了臉

到了最困難的「乳房腫塊良惡性判讀」,鴿子訓練了將近 12 週才勉強學會訓練集影像(兩隻達 80%、兩隻僅 60%)。但一換成新影像,準確率直接跌回 50%,等於完全沒學會。研究者明白指出:這代表鴿子只是死記硬背,從未真正掌握腫塊邊緣形狀(如星狀邊緣)這類關鍵特徵。

但這裡有個讓人意外的對照——人類放射科醫師面對同類型的腫塊影像,準確率也只有約 80%。換句話說,這本來就是一項連專家都吃力的任務。鴿子的失敗,不是因為牠笨,而是因為這道題太難。


群體智慧:4 隻鴿子勝過 1 隻

單隻鴿子的表現只能算「不錯」(個別 AUC 介於 0.73–0.85)。但研究者試了一個有趣的做法:把 4 隻鴿子的判斷加總投票,稱為「群體共識」(flock sourcing)。

結果群體 AUC 衝到 0.99,遠勝任何單一鴿子。這現象本身就是一堂跨領域的課:它與人類社會的群眾外包(crowdsourcing)、機器學習中的集成學習(ensemble learning)異曲同工——把許多個別平庸、但錯誤方向不一致的判斷加總,整體準確率反而能大幅躍升。

值得注意的是,不同媒體對這個數字報導略有出入:NPR 當年寫的是約 90%,但論文原文的 0.99 才是最終可信數據。


鴿子不會取代醫師——但理由跟你想的不一樣

不,醫院不會開始養鴿子看片。但研究者給的理由,其實是成本與實務考量,而非常被誤傳的「法規障礙」。

鴿子的真正價值不在「取代醫師」,而在當一個便宜、可重複使用、行為可預測的「人類觀察者替代品」。Levenson 設想:當醫療影像設備要更新(例如比較不同壓縮率、色彩呈現對診斷的影響),與其讓醫師花數天逐一比對數千張影像,不如讓鴿子來做這種「磨人」的品質評估工作。論文中也做了影像壓縮測試:原圖準確率 95%,壓縮 15 倍後仍有 92%,壓縮 27 倍後 90%——顯示鴿子對中高度壓縮有相當容忍度。

補充:鴿子能辨識莫內與畢卡索畫風的著名實驗,是 1995 年日本慶應大學 Watanabe 等人的另一項獨立研究,與這組乳癌研究無關,僅被原論文引用為「鴿子視覺辨識能力」的背景文獻。


常見問題

Q1:鴿子真的比醫師厲害嗎? 不能這樣說。鴿子在簡單任務(切片、微鈣化點)上接近人類水準,但在困難任務(腫塊判讀)上完全失敗。所謂「99% 準確率」是 4 隻鴿子群體投票的結果,不是單一鴿子的能力。

Q2:為什麼鴿子在腫塊判讀上會失敗? 因為腫塊判讀需要綜合判斷形狀、邊緣等整體特徵,難度極高——連人類專家也只有約 80% 準確率。鴿子只能死背訓練影像,沒能真正學會辨識特徵。

Q3:「死記硬背」和「真的學會」差在哪? 關鍵在「類推能力」。研究者用從未見過的新影像測試:若準確率維持,代表真的學會特徵;若跌回亂猜水準,代表只是背答案。鴿子在切片任務上類推成功,在腫塊任務上類推失敗。

Q4:「群體共識」為什麼這麼有效? 當許多個別判斷的錯誤方向不一致時,加總投票能彼此抵消錯誤。這與群眾外包、機器學習的集成學習是同一個原理。

Q5:這項研究最大的價值是什麼? 它提供了一扇窗,讓我們理解人類(與鴿子)如何閱讀複雜的視覺影像;同時也指出鴿子可作為廉價的影像品質評估工具,而非診斷工具。


結論

這項研究真正迷人的地方,不在「鴿子很神」,而在牠的成功與失敗剛好對應了任務本身的難度。病理切片與微鈣化點,是「在複雜背景中找出局部特徵」——這正是鴿子覓食的天生強項;而腫塊判讀需要整體性的綜合判斷,連人類專家都吃力,鴿子也就在這裡踢到鐵板。

從一隻平庸個體到群體 0.99 的躍升,再到「會背卻不會推理」的清楚界線,這群鴿子無意間替我們畫出了視覺辨識的能力邊界。而那條邊界,或許比任何一張乳癌切片,都更值得我們細看。


參考資料來源