人能夠提出好問題嗎|宋宋的讀論文筆記 week 0429

06-06

來自專欄認知與計算的實證科學

在上篇專欄文章中，枝蔚提到了「語言如何讓人更聰明」，恰巧我上周在journal club上講了一篇想法類似的研究（其實是因為上周並沒有讀其他文章，自我檢討），所以決定借這個機會介紹一下。

Rothe A, Lake BM, Gureckis T. Do people ask good questions? 2018 [cited 2018 Mar 23]; Available from: https://psyarxiv.com/eanku

我們無時無刻不在從外界獲取信息。有些情況下，信息獲取被程式化成按一個按鈕（e.g. 點開天氣app查明天的天氣信息），但更多的情況下，我們運用語言來提問。由於自然語言的複雜性和靈活性，在實驗室中研究人如何獲取信息，常常是利用前一種情景；然而，更有趣，更貼近生活實際的問題則是後者。由於我們可以自由地組織語言，一個有意思的問題便是：我們所提的問題能不能最有效地獲取信息呢？

舉個例子，一群人出去玩的時候我們經常會玩一個殺時間的遊戲：其中一個人在心裡想一個人物，剩下的人可以問20個能用「是」或「否」來回答的問題，努力猜出這個人物。玩了幾次之後就會發現，大家一上來的前幾個問題一定會是「這是個現實生活中的人嗎」，「這是個男/女性嗎」，以及關於國籍、年齡（年代）之類的問題，而不會有人一上來就問「這個人是個科學家嗎」。這樣看來，我們都能夠判斷出在遊戲的情境下，什麼問題是最有信息量的，換句話說，通過問一個什麼樣的問題，能夠讓你最快地縮小範圍。一個非常具體的問題（例如問「這個人是個科學家嗎」），如果得到「是」的回答，能夠幫助我們迅速把可能的範圍縮小，然而在這樣的問題下得到「是」的概率本身極低；在這裡，最有效的問題，是不斷地二分，這樣不論答案是什麼都能排除一半的可能性。看上去，至少在這個遊戲里，我們能夠問出很不錯的問題。（此處quote老闆：有意思的是，小孩子玩這個遊戲的時候玩得很差，他們總是會一上來就問非常具體的問題，例如「這個人是聖誕老人嗎」。感覺這很有意思，不知道有沒有人研究過，小孩子為什麼玩不好這個遊戲呢？是他們不能評估問題的信息量嗎？或者更基礎的，是不是他們不能很好地理解概率的概念？又或者他們對於「人」這個集合所包含的內容是列舉式的——他們可能只認識有限個的人，而不理解「人」是個很大的集合併有很多的子結構？）

Rothe, Lake and Gureckis (2018)依託一個叫battleship的遊戲來研究人是否能提出好的問題。經典的battelship遊戲是這樣的：在一個6x6棋盤上隱藏著三條船（每條船都是一格寬，二至四格長，三條船分別是紅、藍、紫色，沒有船的水域是灰色），遊戲者可以翻開有限個格子來獲知那些格子上是船還是水域。在有限的取樣結束後，遊戲者需要猜測剩下的格子的顏色（即是船還是水域，如果是船，是哪條船）。

經典的battleship遊戲 (from Rothe, Lake and Gureckis, 2018)

在這個遊戲設定下，遊戲者獲取信息的方式是翻開格子。但是如果改變遊戲規則，允許對於棋盤信息進行自由提問，人能不能夠問出比翻開一個格子更有信息量的問題呢？（當然，公平起見，這裡要求不能同時問好幾個問題，例如不能用「and/or」來連接子問題。問題需要能夠用一個詞、一個數字、是/否或者一個坐標來回答。這樣就避免了例如「紅色的船在哪兒」這樣的問題）。

考慮到可操作性，參與實驗的遊戲者並不從頭開始玩這個遊戲，而是在預先設定好的情景下問一個問題，他們並不會得到答案，也不用像在經典的battleship遊戲中那樣猜測棋盤，但是實驗者要求他們假想自己在這個問題過後要做這些事。

可以問一個問題的battleship遊戲 (from Rothe, Lake and Gureckis, 2018)

18個實驗情景，遊戲者會以這些進行了一半的遊戲（有一些格子已經被翻開了）為基礎，問一個問題，並（在假想中）用這個的答案來更好地猜測剩下的棋盤 (from Rothe, Lake and Gureckis, 2018)。你會問什麼樣的問題呢？

實驗者欣慰地發現，在給遊戲者以問問題的自由時，他們很少會問「XX格是什麼顏色」這樣的問題，而這種問題正是在經典的battleship遊戲中唯一能「問」的。驚喜的是，有一些遊戲者能夠問出「告訴我紅色船所在的其中一個格子的坐標」這樣的「展示式」問題。「展示式」問題能夠幫助遊戲者100%地確定船所在的其中一個格子的顏色，相比而言，不知道能不能正好問到船所在位置的「XX格是什麼顏色」這樣的問題就沒那麼有效。當然，「展示式」問題只佔所有問題的一小部分，如果有興趣的話，可以去看文章中的表1，列舉了所有被問到過的問題。

不是所有的問題都能夠直觀地比出高下，為了量化問題的質量，作者提出了兩個指標，一個基於問題能給遊戲者帶來多少新的信息(Expected information gain, EIG)，另一個基於問題能幫助遊戲者在猜測棋盤組成時候能多猜對多少個格子(最大化收益；Expected savings, ES)。這兩個指標在大多數情況下是一致的，一個好問題很多時候同時有很大的信息量以及能夠幫助確定棋盤上更多的格子；在一些情況下，這兩個指標會不一致（例如「總共多少個格子上有船」這個問題的信息量很大，但對於猜測每個格子上具體是什麼幫助不大）。

通過分析遊戲者提出來的總共六百多個問題，作者發現，雖然有些遊戲者能夠提出一些很棒的問題（例如前面提到的「展示型」問題，它們的EIG和ES都很高），但是大多數的問題遠遠不能最大化信息量或者最大化對於猜測棋盤的幫助，即人們在提問時既不遵循最大化EIG，也不遵循最大化ES。與此相對的是，如果提供給遊戲者備選的問題（實驗二），人們大多能選出最好的問題。這樣看來，提出一個好問題比評估問題的好壞要困難得多。另外，作者比較了EIG和ES兩個模型對於實驗二結果的預測，並發現，與最大化信息的模型相比，最大化收益模型能夠更好地描述大多數人提出的問題。由於這個遊戲的目標就是能猜對更多的棋盤格，這樣的結果並不讓人意外。

個人覺得，研究在自然狀態下用語言提出的問題是個非常非常有趣的方向。這個領域還很年輕，這個研究本身也有很多可以提高的地方。比如，只讓人提一個問題是不是局限性太大；被試並不真的得到答案也不用真的猜測棋盤的話，他們真的有在認真想問題嗎；很多問題（比如「展示式」）的答案可能有很多，提問者可能會思考：回答者究竟會選擇哪個答案？回答者是在幫我還是想妨礙我呢？這會引入提問者和回答者之間的社會性情境，等等。

為了解決前兩個問題，我們需要一個能夠理解並回答問題的機器，在實驗過程當中為遊戲者的問題提供答案（當然也可以人來做了，只不過這就需要極大的人工成本）。這也就回到了枝蔚上一篇文章中提到的「怎麼讓機器學會人類語言？」。我很期待在這個領域裡cogsci和AI互相促進發展。