萬物互聯時代,人與機器的交互方式已經不再是鼠標鍵盤所能勝任得了的。而語音作為最自然的交互工具,目前被廣泛認定為智能家居乃至物聯網的入口。既然是入口,覬覦者自然也少不到哪里去,與國際上知名的谷歌、蘋果、亞馬遜,以及國內的百度、搜狗、科大訊飛等企業相比,云知聲這家語音識別企業的量級顯然并不大。
面對這群雄爭霸的局面,云知聲IoT副總裁陳吉勝在CES Asia 2017展會的現場告訴動點科技,云知聲的優勢在于技術、產品設計、產品落地的三位一體。而其中,將技術落地到用戶愿意購買的產品是關鍵。
在加入云知聲之前,陳吉勝與云知聲創始人黃偉都是摩托羅拉的老同事,當時便已經開始研究語音識別、語音合成以及圖像識別等新型人機自然交互方案,黃偉當時負責算法的研發,而陳吉勝負責算法的工程落地。之后陳吉勝又到了埃森哲任通信及高科技事業部經理,為國內華為等電信廠商提供圖像處理方面的一些解決方案。再之后他還去了像索尼愛立信這樣的手機公司。直到2015年6月陳吉勝加入云知聲,負責云知聲的技術落地與產品化。
好算法并不是會看論文就能得到的
人工智能大火,相關創業企業也越來越多,而這些企業所采用的技術在本質上基本都是深度學習。然而,有人卻認為人工智能時代算法并不重要,因為業界一旦有好的算法出現,很快就能出現在學術界的論文里,企業只要會看這些大多來自國外的論文,便能得到這些最先進的算法。
對此,陳吉勝認為這個說法有待商榷。“會看論文并將它實現只是最基本的要求,這是在PC上實現的,但在PC上能實現與在設備上實現卻是兩個不同的概念,比如在手機上也能實現PC上的算法,但功耗呢?因為手機不像PC是連接電源的,所以算法要做進一步的優化,這只是一個簡單的例子,主要是想說明,看懂論文、輸出算法只是入門,離真正做出消費者愿意購買的產品,這只是萬里長城第一步,人才并不那么好找。”
“其實算法上的核心壁壘還是挺高的。”陳吉勝表示,在算法方面云知聲CTO梁家恩專門帶領著一個博士碩士比例“相當高”的算法團隊專門負責,“這是我們的核心競爭力之一。”
算法只是一方面,產品如何落地更關鍵
“不過,光有技術也是不行的,你還要將技術做成可落地可商業化的產品。這一塊需要有豐富的工程經驗,因此我們還組建了一個研發團隊和一個實施落地的團隊。”陳吉勝表示他們最擅長的便是后兩者,即產品研發和落地。“雖然后面兩個團隊工程師相對于核心算法團隊更好找,但想要將產品做得非常好,其實門檻也非常高。你需要找到既要懂工程又要懂算法還要懂產品的人才。這便是我們的另一個核心競爭力。”
“我們看見有很多公司,他雖然有很好的技術,但卻一直沒有辦法實用化和產品化。”陳吉勝認為其主要問題就出在缺乏好的產品研發和落地實施團隊上。
為了說明這一點,陳吉勝還舉例認為如今在語音識別領域,備受追捧的多麥克風陣列方案其實就沒有考慮好技術如何落地。“現在都在說多麥克風陣列效果好,而且是麥克風越多效果越好,在理論上這的確是對的。但是難道就不能換個思路,以更少的麥克風實現多麥克風的效果?多一個麥克就意味著多一些成本,而且多麥克與少麥克在使用一段時間后哪個會更容易出問題呢?顯然是多麥克風方案,這是個概率問題,且意味著更高的維修成本。”
陳吉勝還表示,云知聲在美的、格力的智能家居方案中就為了便于制造落地采用了最簡單的兩麥克風方案,“難道是說我們做不了4個、6+1個甚至更多的麥克嗎?試想在設備上打兩個洞與打4個甚至更多個洞,哪個更簡單?而且要使兩個洞都保持在一個軸心上,是完全不用操心的——兩點確定一條直線。”
不僅如此,陳吉勝還認為開發出一個好的算法只是萬里長城的第一步,而后面技術落地方面還有千萬步要走。具體而言,陳吉勝認為技術落地至少還有以下這些坑需要注意:
1、交互設計。“就拿語音識別舉例,企業說自己產品的識別率可達95%,但用戶是不會知道這個數字的,他只會在使用過程中不斷感知到產品的識別到底好不好,而感知就是交互設計,這第一件事情就能難,怎么讓用戶愿意來使用這個產品。比如人跟一個智能音響的交流,就必須要非常符合人的使用習慣。而一個產品要做到符合人的使用習慣,這對設計的要求就非常之高。絕大部分產品都不符合人的使用習慣,否者也就不會只有一家蘋果了。”
2、要將產品做穩定。從一個demo到用戶可以長時間使用而不出問題的產品,這是非常關鍵也是比較難的。
3、降低成本。你要將成本不斷地往下降,而且性能還不能有什么損失,這也非常考驗工程團隊。
“這些步驟聽起來很枯燥,大家認為其理所當然要做好,但要將其變為現實,這些步驟你就必須要一步步地走過去。”陳吉勝如此表示。
算法、設計、工程的三位一體化
此外,陳吉勝認為在人工智能或者說是語音識別領域,各大公司按技術先進與否其實可以分成幾個檔次,一些公司可能會在稍微高一點的檔次上面,而另一些公司則處于相對低一點的檔次上。“目前人工智能領域主要運用的深度學習就像是一種兵法,大家得到的兵法都一樣,但更關鍵的其實在于如何運用這些兵法。”
“做得好就能更快落地,更快落地就能得到這個場景下更有價值的數據,而更好的數據又能使產品更加地完善。這是一個正向循環的過程。”陳吉勝表示云知聲便做到了算法、產品設計、工程落地的三位一體化:
對于甲方客戶而言,他們開始可能會有多種方案進行嘗試,但在最后,他們會尋找一個最可行的方案。陳吉勝認為云知聲很有機會最后中選這個合作方的。“我們信心的最終來源就在于算法技術、工程能力、設計能力的三位一體化,這是根本原因。而表現上則可能是我們得到了很多大客戶認可,并經歷了非常嚴密的測試。”據了解,云知聲目前的合作伙伴已超過2萬家,覆蓋車載、家居、醫療等領域。
另外,巧婦難為無米之炊,在人工智能領域,數據一直都是至關重要的。像蘋果Siri、搜狗輸入法等等依靠硬件或軟件的巨大市場占有率,似乎在數據收集方面有著先天的優勢。對此,陳吉勝強調,“在很多實際公開場合下,其實并沒有太多人愿意用語音。而我們的語音數據更多來源于特定場景,比如車里和家居里面等私密環境,用戶愿意放開嗓子說,而且很多時候不用反而還不方便。所以我們得到的是一些在垂直領域內非常有價值的數據。”陳吉勝說到。
值得一提的是,面對搜狗、科大訊飛、蘋果、谷歌等競爭對手,陳吉勝認為分級并不意味著第一檔以外的企業就完全沒有機會了,“如果你認為只有最好的技術才有人買,那不就意味著這些方案的價格要高到天上去了嗎?市面上有吃十塊錢雞腿的,也有吃5塊錢雞腿的。”陳吉勝表示。
打造“云端芯”生態閉環
據了解,為了加速語音識別技術的落地,云知聲打造了一個“云端芯”的一體化的解決方案,主要包括AI芯、AIUI、AI Service。
“AI芯是一種專門的芯片,用來跑離線的智能。而芯片最終還是要運用到終端設備上的,因此需要與人有一定的交互,這就是說需要AIUI,而交互有時候也是需要有云端支持的,這就是AI Service。”陳吉勝表示,“芯片有非常多種,CPU用來做通用處理,GPU用來做圖像方面的專用處理,而我們的芯片就用來做聲音方面的專用處理。”
另外,陳吉勝表示做芯片是一件高風險的事,而之所以一定要做AI芯片,其實也是為了技術能以更低的成本更快地落地。“并不是說通用芯片不夠用,而是說通用芯片不合適。通用芯片的計算能力對于語音處理而言已經足夠用了,但犯不著。比如,你花大價錢買了一個大房子,卻只是用來晚上睡覺,太浪費了。”
云知聲的AI芯片(Uni One)目前還在研發中,將內置DNN處理單元,兼容多麥克風、多操作系統。未來,AI芯將以模組的形式提供給客戶,客戶有了模組就意味著有了一整套云端芯的服務。
值得一提的是,就在不久前,云知聲又發布了一款名叫Pandora的語音中控方案,將遠場語音識別、語義理解等復雜的AI技術元素整合為一個整體方案。基于“Pandora”方案打造一款專屬語音中控產品的研發周期可以控制在6個月,大大降低了產品化難度與風險。
據了解,云知聲成立于2012年6月29日,總部位于北京,在上海、深圳設有分公司,目前員工超過200人。其最新透露的融資消息是2015年底已經完成數千萬美金的B+輪融資。