Kinect 的視頻捕捉和語音識別技術能在 iPad 上實現嗎？

01-13

iPad 目前還是多點觸摸技術，如果能結合 Kinect 的技術，那麼我就能讓孩子們各自找一個卡通角色，然後找一個孩子當攝影師，將孩子們自編自導的演出錄製下來，回頭就立即實時轉成了帶有實景的三維動畫片，要是加上立體技術，那就更好了。---以上這個想法，可能實現嗎？

1）Kinect本身並沒有做精確三維建模的能力。Kinect的視頻捕捉的特點在於除了視頻之外，還經過紅外線的深度探測器，因此可以感知大致的人的肢體部位和運動軌跡。這個估計是粗糙的，足夠玩遊戲，但是不能夠形成一個精準的三維臉或身體的模型。（你玩Kinect的時候可以看出精確度）

2）逼真的三維動畫的繪製需要巨大的CPU和內存，不是Kinect和iPad可以做到的。不過做個好玩的應用應用還是可能的，比如說如果iPad有Kinect的硬體配置，在一個乾淨的場景，捕捉一兩個孩子的四肢運動軌跡，然後把這些軌跡移植到一個簡單的卡通身上，做出簡單的動畫。這應該還是可能的。

3）你的應用好像和語音識別無關，不過ipad是足夠做一定的語音識別的。另外，有些回答質疑蘋果是否有語音識別技術和專利。蘋果和微軟的語音產品都是我啟動和負責的，兩個公司都license了我的博士論文，並且擁有自己的IP，也有能力做好應用。

4）補充一點：下面看到這個消息，應該補充上面1）的答覆：

朱龑，http://LiveSino.net作者，兼微軟愛慕…

僅補充一點。Avatar Kinect 支持臉部表情識別，這意味著可以做臉部的3D關鍵點模型。至於是否精確，真實地還原應該是不行的，但卡通虛擬形象的表情足夠叻。

這個提問和提問者想要做的事情涉及到4類東西：

1. kinect（一種帶紅外攝像頭和麥克風陣列的外設）

2. 動作捕捉或者語音識別（演算法）

3. 三維動畫編輯軟體

4 ipad， xbox， pc（計算設備）

要回答這個問題得對這四個方面都做解釋，也就是說得先回答下面這一系列問題：

kinect 作為一個外設能和ipad連接么？類似kinect這樣的外設能集成到pad這樣的設備裡面么？ ipad的系統能支持kinect的識別演算法么？ ipad上可以做高質量的三維動畫編輯么？

大家的回答從不同方面證明了這件事靠現在的技術不靠譜。但做技術的人不願意說技術做不到，所以很多人給了其他解決方案。這個問題的標準答案應當是：

Kinect 的視頻捕捉和語音識別技術不能在 iPad 上實現。

技術上應該不成問題，不過如果完全基於Kinect這套東西，有幾個因素不能忽略：

-Kinect的核心硬體包括RGB攝像頭、深度探測器和多陣列麥克風等，意味著ipad的身材和重量可能都會發福

-Kincct使用獨立電源，同時會佔用大量CPU的運算機能，作為移動設備，ipad是否吃得消

-Kinect的定製晶元和微軟的語音識別技術申報了大量專利，蘋果在ios上潛心研發的語音識別和相關技術能否另闢蹊徑並同樣給力？

即時動態建模的演算法我見過兩種：

一個是劍橋某學生弄的名叫ProFORMA的程序，

另一個是Microsoft自己的Photosynth,

不知道兩者在移動設備上的資源消耗如何……

iPad上的感測器會越來越多，可以做更多功能豐富出彩的應用，但採用Kinect方式的感測器成本相對造價還比較高，基於這個原因，用Kinect加任何設備都可以非得iPad了，可以實現卻實用價值不一定很高，比如Kinect Airplane項目（Xbox 360 #Kinect#破解高手，製作無人駕駛Kinect Airplane。http://sinaurl.cn/hbioQD）就很有意思，但純屬極客玩具。

Update：http://tech.qq.com/a/20110209/000064.htm 商業價值：Kinect與人機交互的未來這篇報導挺全面，作為資料推薦一下，對Kinect特別感興趣的還可以看看TgBus http://xbox360.tgbus.com/zt/kinect/ 這個Kinect專題。

五六年過去了，蘋果這次終於把這個做進來了

你這是要自己拍《阿凡達》啊，大導演卡梅隆經過了14年的醞釀，耗資5億美元才能做出來的東西，應該不是短時間內用簡單的設備就能突破的，且等個百年的技術進步吧！

最新的消息是，ios5中將支持面部識別，並開放API介面給開發者，而且ios5中的語音識別API也可能開放，不過kinect目前在這方面是遠遠領先的

樓主的想法特別贊，很有創意，我覺得都是完全可以實現的，只是成本和收益的問題，就是說實現起來很費勁，但不會給微軟創造多少收益。開復老師說的那兩個問題也都是可以解決的，一是三維建模精度問題，kinect用了一個攝像頭捕捉影響，一個紅外探測儀探測深度，而沒有用兩個攝像頭，因為攝像頭成本比紅外探測儀成本高，僅此而已，所以如果微軟用兩個攝像頭，並且提高感光元件精度和幀率的話，是可以實現較為精準的三維建模的，第二個是cpu計算問題，這種圖像處理是很消耗cpu的，因為圖像處理牽扯很多浮點計算，cpu算浮點不行，針對這個問題有兩個方案，一個是雲計算，把數據放server上算，算好再給你，當然是假設網路傳輸沒問題，另一個方案是後期處理，沒必要用ipad實時處理。

要在ipad上實現Avatar臉部表情應用，實時的視頻捕捉演算法複雜度也是比較大的，不過可以在精確度和複雜度上做一個折中，結合語音處理技術，視頻演算法完成粗粒度頭部運作捕捉，利用聲音來驅動臉部表情和嘴唇變化，如果是非3D的卡通虛擬形象，語音技術可以簡單些。

我想過類似的東西打算拿來排戲對走位跟檢查表演一致性...

（聽用途就知道不是什麼可以創業的點子啊唉）

以前大學做畢設的時候看到過荷蘭一些教授做的一些視頻動作捕捉實驗視頻，那真是巨大的好幾排機器矩陣……不過動作捕捉很靈敏，一些複雜的肢體動作跳舞什麼的都能捕捉到。