人工智慧真的已經到達技術瓶頸了嗎?Annaiaa2020-04-14 16:08:01

人工智慧的範疇很廣,只能說目前在深度學習這塊,遇到了一些瓶頸。

現在最好的影象識別演算法,計算量可能是Alexnet演算法的1000倍,但只能把效果提升一點點,沒有達到等價收益,所以大家會覺得深度學習是不是又到了天花板,這個問題確實存在。

但並不代表人工智慧進入天花板。人工智慧正在進入另外一個領域,不再靠單一演算法打天下,解決問題,而進入一個新的階段,依靠工程化、功能和平臺化來解決實際的問題。即便是深度學習的應用,也越來越元件化了,只是平臺的一個工具,整個應用流程的一個環節。透過綜合許多演算法,最終取得一個相對較好的效果,這是更現實的情況

人工智慧真的已經到達技術瓶頸了嗎?科學檔案2020-04-14 14:36:48

先說結論,我認為並沒有達到技術瓶頸期。想反,應該是技術爆發期,最近一年的技術進步比前三年的進步還要多。

目前人工智慧的問題在於落地困難,人們預期過高,覺得自己什麼都不用做,AI都應該搞定,但其實AI更需要培養,需要深度瞭解行業,才能真的用起來。好在目前大家都越來越重視落地,預期人工智慧邁過落地這個門檻後更加大有可為。

人工智慧真的已經到達技術瓶頸了嗎?

人工智慧真的已經到達技術瓶頸了嗎?困難群眾代表2020-04-14 14:53:34

目前,AI發展的瓶頸主要有以下三點:

1。對資料的極度貪婪和依賴;

2。執行機制和模型的不透明;

3。脆弱性,錯誤不可控。

這三點缺陷導致了想象中的AI與真實落地的AI之間形成了幾重落差。

Gap 1:(想象的)大資料VS(現實的)小資料、髒資料、假資料、違規資料、孤島資料

在資料行業摸爬滾打多年、最近轉行到AI創業公司的資料分析師“小J”頗有感悟:“這些年,媒體和各行各業言必稱大資料,客戶看到自己資料庫存了多少TB甚至PB了,就以為自己有大資料;問客戶某某資料有沒有,客戶滿口說有。等實際入場後才發現,資料根本不可用,有些欄位錯得離譜,有些欄位又太稀疏,等你做完清理後,剩下的資料可能跑個邏輯迴歸都夠嗆,根本沒法上深度學習。

有些資料需要手工生成,質量也不可靠。有一次做浙江某輪胎廠的故障檢測專案,故障樣本是工廠每月被客戶退回來的問題輪胎,幾百上千個在露天的空場上堆成小山,落滿了灰,只好僱人爬上去把灰擦一擦看清楚型號批次,再把資訊和故障記下來。大熱天的,又髒又累,後來就有人學會了偷懶,假造資料。

還有資料孤島,比如A、B企業的資料維度都比較單一,但可以互補,需要放到一起才有價值,而A和B出於監管考慮又不能交換資料。一些大企業內部也有資料孤島,實質是部門競爭、不願配合,非要鬧到大老闆那兒去。即使老闆拍板下來要打通,也有各種手段讓你的效果大打折扣,脫敏、二次加工、延時等等。

資料來源有時打打擦邊球也是公開的秘密了。在一些資訊保安措施不那麼嚴格的行業,找內部人員用硬碟拷資料是最經濟有效的。幾乎所有公司都在用爬蟲,前不久有公司剛被抓,爬簡歷上的個人隱私牟利,算是行業反面教材了。”

Gap 2:AI訓練測試資料VS實際執行環境資料

如果把訓練好的模型作為軟體模組來整合,模組的輸出受輸入資料分佈變化的影響,不能按模組之間的合約(contract)“辦事”,造成其他模組無法正常工作。

更難受的是,何時、何種情況下會“違約”,無法預先界定。所以當系統給AI軟體模組一個任務時,它能不能完成,能完成到什麼程度,沒準。

這就好比一個公司告訴你,在我司測試環境下,行人檢測模型準確率為99。99999%;但在您的實際駕駛環境中,預計準確率在97%~99%之間,且我司既不確保準確率有多少,也無法判斷何時準確率會異常。這車您還敢開嗎?

如果把訓練演算法作為軟體模組來整合呢?也有新問題。

訓練演算法的輸出依賴訓練資料,而生產環境中的資料受太多因素干擾:隱藏的資訊反饋迴圈、未宣告的呼叫模組,都會讓資料相互影響,不可控、不好追查。此外,在給真實客戶做AI專案時,不同專案、專案不同階段,都會帶來不同的資料,從而影響演算法網路結構設計和模型引數設定。

有多年工程及演算法經驗、待過網際網路大廠也做過to B專案的“老P”說:“做AI專案,客戶第一次會給一小撮資料樣本讓你理解業務資料,等你入場做PoC(Proof of Concept,可行性驗證)時會拿到批次的真實歷史資料,等專案上生產環境你會碰到更實時的資料,等執行一段時間後又必然會遇到各種新情況,例如客戶的使用者定位調整了、政策有變導致業務環境變了等等。

這四個不同階段,你所認知的客戶資料的特點和分佈都會變,而變化就意味著可能要重調超引數,重設網路結構,甚至重新取捨演算法……折騰啊,但沒辦法,這就是做AI專案的命。”

更要命的是,這是長期的“折騰”;是時間、地點、人物不定的折騰;得去客戶現場折騰,而不能遠端雲折騰;得派很貴的、掌握鍊金經驗和調參玄學的演算法工程師去折騰,而不能讓普通軟體工程師去折騰。

這就引出了AI落地時的第三個落差,也是最現實的挑戰:

Gap 3:AI to B專案對高階演算法人才長期駐場的強需求VS此類人才的駐場成本和意願

為什麼to B專案通常都要駐場? 現階段,大中型企業才有足夠的資料、業務場景和錢做AI,而大公司對資料又有超強保護意識,資料不出門、不落地。要碰資料可以,請到客戶現場來,有時還要求用客戶提供的電腦幹活。

為什麼要長期駐場?

典型的AI to B專案有以下幾個流程:

1。初步理解客戶業務場景和需求;

2。初步調研客戶資料情況;

3。可行性判斷和初步方案設計;

4。深度理解客戶業務,細化或調整AI演算法目標和達到目標的路徑;

5。深度理解客戶資料構成、語義、質量和分佈等細節,細化或調整演算法方案和模型結構;

6。資料清洗和特徵工程;

7。部署測試環境,訓練並調參模型(效果不好的話要回到步驟4、5、6進行最佳化);

8。生產環境部署上線,除錯生產bug(如資料洩露);

9。持續監控生產環境輸入輸出資料變化,並隨時回到步驟4、5、6。

這裡的4、5、6、7、8、9必須在客戶現場完成,1、2可遠端完成但也需要與客戶互動,只有步驟3完全不涉及客戶環境。

先說步驟4、5、6、7、8,短則兩三月,長則大半年,跟客戶配合程度有關,跟資料質量有關,跟問題複雜度、成熟度有關。更重要的,跟鍊金運氣有關。

最頭疼的是9,前面的步驟即使週期再長,也有結束的一天,但步驟9(生產環境監控最佳化)卻永無寧日,因為業務環境和資料變化是不可避免的,而演算法模型不一定能自動適應到最佳狀態。

為什麼要高階演算法人才長期駐場?

正如Rahimi所說,深度學習的理論不完備,演算法模型的執行機制不可知,因此,各種除錯最佳化能不能成功,靠的是經驗加運氣,能力難以快速複製。

這就像學中醫一樣,初級醫師要成長為高階人才,需要做過很多專案,遇過很多情況,成功、失敗經驗都豐富的老中醫手把手帶,靠專案和悟性不斷積累“望聞問切”的經驗。

然而,行業的另一面現實卻是,想讓高階演算法工程師長期駐場,太難了。

首先,駐場意味著人員很難複用,沒法一人同時幹N個專案,薪資成本是個問題。

其次,搞技術的通常不喜歡駐場,尤其是有經驗的高階人才,一般歲數不小、有家有娃,長期出差有困難。

最後,公司裡許多高階演算法人才可能是在基礎研究或底層架構部門,專案工程團隊未必請得動。

BAT某雲行業銷售負責人“阿K”,一度對AI專案滿懷憧憬,但後來寧可去賣CDN:“我們今年中了一個千萬級的標,其中的AI模組很關鍵。中標之後專案組都很興奮,但是要幹活時,麻煩了。

客戶很看重資料資訊保安,對外部駐場人員管得很嚴,每天上班要指紋打卡,封閉會議室辦公,桌面必須保持清潔,否則罰款甚至通報批評。

客戶給的IT支援比較少,我們工程師都說,駐場的SDE(Software Develope Engineer)其實是Someone Do Everything,跟在自家公司時比,駐場乾的事太雜了,還沒有延續性,不利於他們的技術發展。

現場跟客戶溝通遇到些技術分歧時,人家好歹是甲方,我不提醒吧,有些工程師能讓客戶下不來臺;我說他兩句吧,人就說駐場要看客戶臉色,不想幹了。

結果這專案還沒做到一半,比較資深的兩個AI工程師就回去了,只好換了幾個畢業沒多久的頂著,專案進展很慢,客戶很不爽。別給我搞爛尾了,哎。”

BAT另一朵雲的行業售前總監、最近絞盡腦汁往自己行業裡整合AI元素的“老W”說:“有一次客戶讓我們做AI專案PoC,要比較高階的人駐場。我好說歹說,找AI研究部門借了幾個人,出差去客戶那兒幹了一個半月,結果專案沒成。以後再找,他們就再也不搭理了。

人家本來就不愛參與客戶專案,又發不了paper,這麼貴的人工成本花出去,又不一定能成為年終績效上的業績。”

駐場需求強烈,且得不到高效滿足,是AI公司無法做到真正產品化(從業務運營角度的產品化)的重要原因。困於客戶專案的PoC、交付和維護,脫身無門,也就無法大規模擴張。

吳恩達曾說:“如果普通人能在不到一秒的時間內完成某項腦力工作,那麼我們很可能可以在現在或不遠的將來用AI將其自動化。”

或許更符合事實的情況是這樣:如果普通人能在不到一秒的時間內完成某項腦力工作,那麼我們很可能可以在現在或不遠的將來用AI將其自動化,如果不行,至少可以找到一個符合條件的客戶,把我們最貴的演算法科學家砸進去,做一個demo出來。

人工智慧真的已經到達技術瓶頸了嗎?參與的樂趣2020-04-14 15:57:01

不但沒有達到,應該定性為是剛剛開始。

現在僅僅是4個環節簡單的自能處理:環境及危險程度的自動監測識別+系統及區域性邏輯的中心處理+執行機構的機械運動或位移等+系統反饋及修正在處理。

下一步的發展空間:除了中心大系統智慧處理以外,會有個各級的獨立的小智慧系統,就像天體運動一樣,每個載體都有自己獨立執行軌道,自己的執行規則,在系統統一管理下有自己的開始及結束,無窮的細分下去,正所謂大到天體小到細菌,那才是智慧的未來。

還需要人類繼續努力,經過不斷髮現發展,一代一代人的不斷探索才會接近目標的,也許幾十年,也許上百年,也許更多年……。就像人類文明一樣,會一直伴隨人類走下去的。

人工智慧真的已經到達技術瓶頸了嗎?落天沉2020-04-14 15:02:51

才剛開始,其實人類製造代替腦力的工具,已經很久了,從電腦雛形開始的,未來會更加強大,為了更好替人類分擔腦力勞動。