一個文本里的所有詞不變,順序隨機後,那麼熵改變了多少?如何計算?
01-02
這裡的熵指香農的信息熵。如果以詞為單元,重新排序後熵也不變,因為只和頻率有關。但由於word order的存在,語言有一種long-range correlations,如何去掉這個影響呢,或者說這個相關性帶來的信息熵是多少呢?
謝邀。題目和描述是兩個問題。
@dy.zhao 的回答是正確的,已經解決了題目中的問題。不再贅述。而描述中的問題似乎題主又說得不很清楚,我按照我的理解回答一下,不知道能不能幫到題主。
首先,使用信息熵時必需確定合適的對象。一般來說,要研究何種規模上出現的規律,就要選擇相應規模的對象。以英語為例,如果要研究字母出現的頻率問題,就應該直接以字母本身為對象,26個字母如果平均出現,熵沒有改變
對於存在long range correlation的序列而言,ground state是corrleated,打亂之後的序列是小概率高能量事件,所謂的高能量無非就是說它相對於你模型的偏離大了
推薦閱讀:
※同樣是數據分析方法,為什麼時間序列分析沒有數據挖掘或機器學習那麼火?
※如何深入理解時間序列分析中的平穩性?
※計量經濟學、時間序列分析和機器學習三者有什麼區別與聯繫?
