鴿子當醫師？牠們學會了判讀乳癌切片，卻在另一項任務上徹底失敗

1 minute read

以下為虛構對話，人物與情節為創作，科學內容來源標註於文末。

▌午餐時段

麵店的午間人聲混著湯底的味道。Dg 把筷子插進碗裡，一副要宣布大事的樣子。

「Liy，妳知道嗎，鴿子可以看出乳癌。」

Liy 正在擦旁邊那桌的桌面。「鴿子會看病？」

「對，科學證實的。牠們啄一啄螢幕，就能分辨良性惡性，準確率快九成。」

「那很厲害。」她把抹布折起來，「牠看完會跟醫生講嗎？」

Dg 愣了一下。「不是……牠不用講，牠是啄按鈕。藍色惡性，黃色良性。」

「那誰看按鈕？」

「研究人員。」

「所以還是要有人看。」Liy 點點頭，把這件事放下，去端另一桌的麵。

Dg 對著她的背影張了張嘴，覺得哪裡被帶歪了，但說不上來。

他低頭，發現自己那碗麵已經泡軟了。

▌一隻不夠

Liy 回來收空碗。Dg 不死心，想把場面救回來。

「重點是，一隻鴿子其實沒那麼準。是要很多隻一起投票，準確率才會飆到九成九。這叫——」他想了一下，挑了個聽起來夠氣派的，「flock sourcing，群體的智慧。就像牛頓說的，站在巨人的肩膀上。」

Liy 停下來。「鴿子站在誰的肩膀上？」

「不是，這是比喻。意思是靠很多……」

「很多鴿子疊起來？」她認真地想像了一下，「最下面那隻會被壓扁。」

「不是疊，是把牠們的答案加起來。」

「喔。」Liy 把碗收進托盤，「那為什麼一隻不準，很多隻加起來就準？牠們又沒有商量。」

Dg 張開嘴，準備說一句很有學問的話。然後發現他不知道。

「就是……加起來就比較準。」

「加起來。」Liy 重複了一次，像是在確認這句話本身有沒有意義。她端著托盤往廚房走。

「那如果牠們全部都猜錯一樣的地方呢？」

Dg 沒接上。

廚房傳來老闆喊單的聲音，蓋過了他原本想說的話。

關鍵亮點：

鴿子在乳房病理切片任務上，準確率從第一天的 50%（純猜測）升至第 15 天的約 85%，且能類推到從未見過的新切片。
在最困難的乳房腫塊判讀任務上，鴿子只會「背答案」，換成新影像就完全失敗——但人類放射科醫師面對同類影像也只有約 80% 準確率。
「群體共識」（flock sourcing）讓 4 隻鴿子的判斷加總後，AUC 衝上 0.99，遠勝任何單一個體。

一場違反直覺的實驗

2015 年，加州大學戴維斯分校的病理學家 Richard Levenson 與愛荷華大學的心理學家 Edward Wasserman 合作，在《PLOS ONE》發表了一篇標題聽起來像玩笑的論文：《鴿子（Columba livia）作為病理與放射乳癌影像的可訓練觀察者》。

這個點子其實有現實動機。Levenson 曾說，如果給他看 10 張影像，他沒問題；但要他看 10,000 張，他會煩躁到崩潰。而鴿子不會。研究團隊想知道：這種以視覺覓食為生、擁有驚人視覺記憶的鳥，能不能成為「便宜、可重複使用」的醫學影像觀察者？

為什麼是鴿子？

鴿子是四色視覺（tetrachromat），比人類的三色視覺多一個感光維度；牠們的視覺記憶也極為出色，能記住超過 1,800 張影像。更關鍵的是，鴿子大腦中負責視覺辨識的神經通路（基底核與皮質—紋狀體連結），在功能上與人類相當接近。

鴿子在操作制約箱中啄選觸控螢幕上的影像

圖：實驗中，鴿子在裝有觸控螢幕的操作制約箱內，啄選藍色或黃色按鈕來判讀影像。

三個實驗，三種難度

很多媒體把這項研究簡化成「16 隻鴿子排排坐判讀乳癌」，但實情更有層次。研究並非單一實驗，而是三個獨立、難度遞增的實驗，各用不同的鴿子分組，合計 16 隻。

實驗	任務	鴿子數	結果
實驗一	病理切片（良性 vs 惡性）	8 隻	成功學習，且能類推到新切片
實驗二	乳房攝影微鈣化點判讀	4 隻	成功學習，類推效果略遜於實驗一
實驗三	乳房攝影腫塊良惡性判讀	4 隻	訓練成功，但完全無法類推到新影像

實驗環境是裝有觸控螢幕的操作制約箱。鴿子啄選藍色（惡性）或黃色（良性）按鈕，答對給予飼料丸，答錯則進入「修正試驗」直到答對。為了排除「聰明漢斯效應」（Clever Hans effect，動物從人類無意識的肢體線索取得提示），整個學習過程沒有任何人類在場——全程由電腦自動進行。

病理切片：漂亮的成功

在實驗一，鴿子第一天的準確率約 50%（等同瞎猜），但經過 13 至 15 天訓練後，穩定升到約 85%。即使把切片旋轉、翻轉，準確率也只小幅下滑（86%→77%），且差異未達統計顯著。

死記硬背，還是真的學會了？

這是整項研究最關鍵的一問。如果鴿子只是把訓練用的影像「背起來」，那牠們根本沒學到任何診斷能力。

為了檢驗這點，研究者拿出全新、從未出現過的切片。結果鴿子在新切片上的準確率仍達 85%，與訓練集的 87% 幾乎無異——這證明牠們不是背答案，而是真的學會了辨識特徵。在微鈣化點任務（實驗二）上也類似：訓練集約 84%，新影像約 72%，雖略低，但仍顯著高於亂猜。

然後，實驗三狠狠地打了臉

到了最困難的「乳房腫塊良惡性判讀」，鴿子訓練了將近 12 週才勉強學會訓練集影像（兩隻達 80%、兩隻僅 60%）。但一換成新影像，準確率直接跌回 50%，等於完全沒學會。研究者明白指出：這代表鴿子只是死記硬背，從未真正掌握腫塊邊緣形狀（如星狀邊緣）這類關鍵特徵。

但這裡有個讓人意外的對照——人類放射科醫師面對同類型的腫塊影像，準確率也只有約 80%。換句話說，這本來就是一項連專家都吃力的任務。鴿子的失敗，不是因為牠笨，而是因為這道題太難。

群體智慧：4 隻鴿子勝過 1 隻

單隻鴿子的表現只能算「不錯」（個別 AUC 介於 0.73–0.85）。但研究者試了一個有趣的做法：把 4 隻鴿子的判斷加總投票，稱為「群體共識」（flock sourcing）。

結果群體 AUC 衝到 0.99，遠勝任何單一鴿子。這現象本身就是一堂跨領域的課：它與人類社會的群眾外包（crowdsourcing）、機器學習中的集成學習（ensemble learning）異曲同工——把許多個別平庸、但錯誤方向不一致的判斷加總，整體準確率反而能大幅躍升。

值得注意的是，不同媒體對這個數字報導略有出入：NPR 當年寫的是約 90%，但論文原文的 0.99 才是最終可信數據。

鴿子不會取代醫師——但理由跟你想的不一樣

不，醫院不會開始養鴿子看片。但研究者給的理由，其實是成本與實務考量，而非常被誤傳的「法規障礙」。

鴿子的真正價值不在「取代醫師」，而在當一個便宜、可重複使用、行為可預測的「人類觀察者替代品」。Levenson 設想：當醫療影像設備要更新（例如比較不同壓縮率、色彩呈現對診斷的影響），與其讓醫師花數天逐一比對數千張影像，不如讓鴿子來做這種「磨人」的品質評估工作。論文中也做了影像壓縮測試：原圖準確率 95%，壓縮 15 倍後仍有 92%，壓縮 27 倍後 90%——顯示鴿子對中高度壓縮有相當容忍度。

補充：鴿子能辨識莫內與畢卡索畫風的著名實驗，是 1995 年日本慶應大學 Watanabe 等人的另一項獨立研究，與這組乳癌研究無關，僅被原論文引用為「鴿子視覺辨識能力」的背景文獻。

常見問題

Q1：鴿子真的比醫師厲害嗎？ 不能這樣說。鴿子在簡單任務（切片、微鈣化點）上接近人類水準，但在困難任務（腫塊判讀）上完全失敗。所謂「99% 準確率」是 4 隻鴿子群體投票的結果，不是單一鴿子的能力。

Q2：為什麼鴿子在腫塊判讀上會失敗？ 因為腫塊判讀需要綜合判斷形狀、邊緣等整體特徵，難度極高——連人類專家也只有約 80% 準確率。鴿子只能死背訓練影像，沒能真正學會辨識特徵。

Q3：「死記硬背」和「真的學會」差在哪？ 關鍵在「類推能力」。研究者用從未見過的新影像測試：若準確率維持，代表真的學會特徵；若跌回亂猜水準，代表只是背答案。鴿子在切片任務上類推成功，在腫塊任務上類推失敗。

Q4：「群體共識」為什麼這麼有效？ 當許多個別判斷的錯誤方向不一致時，加總投票能彼此抵消錯誤。這與群眾外包、機器學習的集成學習是同一個原理。

Q5：這項研究最大的價值是什麼？ 它提供了一扇窗，讓我們理解人類（與鴿子）如何閱讀複雜的視覺影像；同時也指出鴿子可作為廉價的影像品質評估工具，而非診斷工具。

結論

這項研究真正迷人的地方，不在「鴿子很神」，而在牠的成功與失敗剛好對應了任務本身的難度。病理切片與微鈣化點，是「在複雜背景中找出局部特徵」——這正是鴿子覓食的天生強項；而腫塊判讀需要整體性的綜合判斷，連人類專家都吃力，鴿子也就在這裡踢到鐵板。

從一隻平庸個體到群體 0.99 的躍升，再到「會背卻不會推理」的清楚界線，這群鴿子無意間替我們畫出了視覺辨識的能力邊界。而那條邊界，或許比任何一張乳癌切片，都更值得我們細看。

參考資料來源

Share on

X Facebook LinkedIn Bluesky

收集資料的K

鴿子當醫師？牠們學會了判讀乳癌切片，卻在另一項任務上徹底失敗

▌午餐時段

▌一隻不夠

一場違反直覺的實驗

為什麼是鴿子？

三個實驗，三種難度

病理切片：漂亮的成功

死記硬背，還是真的學會了？

然後，實驗三狠狠地打了臉

群體智慧：4 隻鴿子勝過 1 隻

鴿子不會取代醫師——但理由跟你想的不一樣

常見問題

結論

參考資料來源

Share on

You may also enjoy

父母對女兒和兒子的投資不同：但不是你以為的那種「偏心」

算盤打贏了刀：江戶幕府如何親手養大了埋葬自己的兩替商

當病毒成為抗癌武器：「テロメライシン」如何讓食道癌細胞自我引爆？

騎木馬也能比賽？歐洲木馬馬術錦標賽首登布拉格，揭開這股源自芬蘭的全球風潮