&> At a Wednesday press conference in Seattle, Amazon announced a service that would go along with its newly debuted 「Fire Phone.」 Called Firefly, this new technology is packaged in an app that can identify up to 100 million objects. For the most part, this feature will integrate with the Amazon marketplace, allowing you to take photos of products and buy them from Amazon, but the technology used to make it run will also be available to developers in an SDK available now.
Update: Amazon』s new Firefly, Dynamic Perspective pull ahead on machine vision
Amazon debuts Firefly technology上簡要看了一下視頻,Amazon Fire Phone 的識別並不是一個general purpose的方案,還是在於基於視覺和聲音信息識別商品方便購買。視屏里看基本可以分從幾種:
3. 商品的圖像識別。Amazon既然宣布了支持上百萬種商品,應該是對已有商品在圖像和文字標識上進行過訓練的(bag of words)。因為發布商品的包裝類型都比較固定,而且是肯定要進行入庫拍照上網的,所以這個建庫的過程相對於google image搜索這種,難度也要小很多。識別的實現可能有兩種方式:
a) OCR進行文字提取,提取商品名稱或者其他字元信息作為關鍵字,然後進入已經訓練好的圖像庫進行匹配。訓練好的特徵信息應該是雲端的,考慮到上傳數據的大小,大多數情況下應該是這種方式(至少視頻展示出來的都可以如此進行)。b) 沒有文字的情況下直接根據特徵,到圖像資料庫中匹配。
A. Text recognizers: 泛指圖像文本識別(Image Text Recognizer),有別於OCR(Optical Character Recognition),而是類似名片識別,拍照翻譯等功能,其終極問題是 Google』s New Street View Image Recognition Algorithm Can Beat Most CAPTCHAs
B. Audio recognizers: 音頻識別,如歌曲識別(這一領域的先驅Shazam使用戶可以在任何地方通過歌曲的任何一個音軌對其進行識別),電視節目識別等;
C. Image recognizers: 圖像識別,主要是基於內容的圖像搜索(Content Based Image Retrival),更近一步講是類似重複圖片檢測(Near-duplicate Image Detection),只要是資料庫中存在的樣本圖像,只要查詢圖片是對其的重採樣或編輯,總是可以找到原樣本圖片,這樣就給人造成可以識別上億商品的表象,說白了就是一對一的匹配,而非廣義的圖像識別。
這三項與小李子在KDD2012開幕式上演講提到的九個需要解決的計算機問題的前三個OCR、語音識別、圖像搜索(Nine Real Hard Problems We』d Like You to Solve [Abstract, Slides: PDF])[4]不謀(也可能是有謀)而合,儘管有所出入,但大抵是這個意思。可咱貝爺已經實現了,而且意指很明顯,肯定能用它賺上錢,小李子你在忙啥,忙著跟Ng秀基情么?
2009年A9收購Snaptell[1],A9是amazon的子公司。Snaptell主要業務是手機圖像檢索,即通過手機攝像頭抓拍到的圖像搜索相關信息。官方介紹他們的演算法非常之精準,可以對付遮擋,光照不均,扭曲,透視,縮放等等,總之很牛。他們的演算法名字叫"highly accurate and robust
algorithm for image matching: Accumulated Signed Gradient(ASG)"。創始人之一Rajeev Motwan在斯坦福大學指導過google創始人Larry Page 和Sergey Brin[2]。