產品筆記
2026.05.17
·
約 7 分鐘
·
by Hone 編輯部
我們開始幫你算 Brier 分數——一個關於「把握度」的產品決定
大多數人記得自己「決定對不對」,卻不記得當初「有多確定」。我們做了一個功能,逼你把把握度寫下來——然後用 Brier 分數告訴你,你的自信值不值得相信。
我們在 Insights 裡加了一個叫「校準分數」的東西。它不告訴你決策做得好不好,它告訴你一件更難堪的事:你說「我有八成把握」的時候,到底有沒有八成。
這是 Apexhone Phase 8 留存系統的第一個功能,藏在 Insights 洞察看板 裡,需要累積 10 筆已回顧的決策才會解鎖。這篇想說明:為什麼我們花力氣做一個「會讓你不太舒服」的數字。
你以為你在追蹤對錯,其實你該追蹤把握度
大多數人回顧決策時,問的是「我這個決定對不對」。這個問題有兩個毛病。第一,很多決策的結果要好幾年才明朗;第二,單一一次「對」可能只是運氣好——一個糟糕的決策過程偶爾也會撞對結果。
真正能在「結果還沒揭曉」之前就改善的,是你的把握度校準(calibration)。校準的意思是:當你說「我有 70% 把握」的那些決策,最後大約真的有七成成真。這跟 過度自信偏誤 是同一枚硬幣的兩面——校準差,通常就是系統性地高估自己。
Brier 分數:把「自信」變成可以算的東西
Brier 分數由氣象學家 Glenn Brier 在 1950 年提出,原本拿來評估天氣預報——「降雨機率 70%」這種說法準不準。算法很簡單:把你事前的把握度(換算成 0 到 1 的機率)減去實際結果(成真是 1、沒成真是 0),取平方。分數越低越好,0 是完美校準。
一個說「我 90% 確定」結果卻錯了的人,Brier 罰他 0.81;一個老實說「我只有 60% 把握」結果也錯了的人,只被罰 0.36。換句話說,這個分數懲罰的不是「猜錯」,而是「錯得太篤定」。
為什麼是 7 個等級,不是讓你填百分比
我們本來可以做一個讓你直接輸入「73%」的欄位。但研究與我們自己的測試都顯示:人對小數點的精度是假的。你說 73% 和 71% 之間並沒有真實的判斷差異,那只是介面給你的錯覺。
所以記錄決策時,把握度是 7 個離散等級——從「幾乎不可能」到「幾乎篤定」。七個剛好夠表達層次,又不會逼你假裝有自己沒有的精度。事後回顧時你只需要回答結果成真了沒,系統把兩邊湊起來算 Brier。
想看看這個流程,可以從 新增一筆決策 開始——把握度欄位就在你選完框架之後。
為什麼要等 10 筆才解鎖
校準曲線是統計物件。3 筆資料畫出來的「曲線」沒有意義,只會讓你對著雜訊腦補。10 筆是我們抓的最低門檻——不是因為它統計上足夠(其實還不夠),而是因為低於這個數,這個功能弊大於利。我們寧可晚一點給你一個有意義的數字,也不要早早給你一個會誤導你的數字。
這條原則跟我們做 其他產品決定 的邏輯一致:不為了「讓你早點看到東西」而給你一個其實在傷害你的功能。
校準好,不等於變謙虛
常見的誤解是「校準分數會教我凡事少說一點把握」。不對。如果你把所有決策都報「50% 把握」,你確實很難被 Brier 重罰,但你的預測也變得毫無資訊量——一個永遠說「可能會、也可能不會」的人,根本沒有在做判斷。
好的校準是雙向的:該有把握時敢給高分、該猶豫時誠實給低分。它要訓練的是把你的自信「對準」現實,不是把自信整體調低。這也是為什麼我們建議搭配 內外部觀點 一起用——先看基率,再決定你的把握度該落在哪裡。為什麼這件事這麼難,可以讀 過度自信為什麼是大腦的預設值。
校準分數現在對所有累積滿 10 筆回顧的用戶開放,Pro 升級 會在曲線之外加上偏誤分群,看你在哪一類決策上特別過度自信。如果你還沒開始,先 記一筆——校準是練出來的,不是想出來的。
延伸閱讀
2026.05.19
偏誤指紋:12 條規則幫你的決策貼標籤——這算 AI 嗎?
你記一筆決策,系統會自動猜你可能踩了哪些認知偏誤。有人問這是不是用了 AI。答案是沒有——而且我們是刻意不用的。
2026.05.18
週日的紙本備忘錄:為什麼我們不用推播提醒你回顧
大多數 app 用紅點和推播搶你的注意力。我們選了一個更慢的東西:每個禮拜天,一封像紙本備忘錄的 email。這是刻意的。
2026.05.16
決策殘骸案例:Kodak、Blockbuster、Theranos——他們本來能用什麼框架救自己
三個被寫進商學院的失敗案例,事後 Pre-mortem 一遍:在哪個關鍵節點,套用哪個框架,就能逆轉結局。