<address id="fvz1z"></address>

              <th id="fvz1z"></th><dl id="fvz1z"><th id="fvz1z"><form id="fvz1z"></form></th></dl>

                  <rp id="fvz1z"></rp>
                微信
                關注官方微信
                手機版
                華夏小康網  >  滾動 > 正文

                突破AI工業化瓶頸,專業數據服務平臺化是關鍵

                一份最新的全球《2021人工智能與機器學習現狀》調研報告顯示:2021年,53%的AI團隊報告預算在50萬美元到500萬美元之間(而2020年約為三分之一),這個強烈的信號表明AI對于各行各業各種規模企業的成功變得越來越重要。這份由全球領先的AI數據服務平臺公司澳鵬(Appen)連續第7年發布的AI現狀年度報告還強調,在2020年由于新冠疫情,各規模的企業都加速推進了AI戰略,并且在2021年還將繼續保持這種勢頭。

                 

                在中國,AI技術應用開始全面覆蓋日常生活、科學研究、社會治理、商業創新和國家安全等經濟社會的關鍵領域,以空前的廣度和深度推動社會發展。由中國信通院與中國人工智能產業發展聯盟推出的《2021人工智能核心產業白皮書》指出,工程技術正在引領AI產業 -- 技術成本快速下降,同等算法水平所需計算量每8個月降低一倍、成本降低百倍,涌現了多樣化的研發和技術服務平臺,這些說明AI正從技術理論突破過渡到工程化落地應用的階段。

                 

                深度神經網絡是當前AI的主要模型,而監督學習則是構建(訓練)深度神經網絡的主要方法,監督學習所需要的大規模、高質量的人工標注數據集是AI產業發展的剛需,也是AI工業化的主要瓶頸之一。在中國,正在大量涌現AI數據標注產業基地,但當前的AI數據標注產業仍處于初級階段。澳鵬公司產品研發總監張童皓表示,用戶對于數據規模、質量和多樣性等要求越來越高,專業化數據服務平臺是AI工業化的突破口。

                 

                AI領先一步的秘訣

                 

                獲得大規模、高質量的人工標注數據,這不僅是中國企業AI實踐成功和AI工業化的關鍵,在全球也是類似的剛需。無論從全球還是中國市場來說,專業的數據標注服務商都是AI工業化領先一步的關鍵。澳鵬《2021人工智能與機器學習現狀》調研報告指出,獲取足夠的優質訓練數據來部署AI是各種規模企業成功的重大障礙,而全球絕大多數企業都在某種程度上采用了專業數據供應商 -- 這反映了數據采集、準備和管理是AI面臨的首要挑戰。

                 
                \

                人工智能項目部署和投資回報 ,來源:《2021人工智能與機器學習現狀》,澳鵬

                根據澳鵬的調研,使用專業數據供應商的企業表示他們在AI部署方面領先于其他企業的可能性要高1.5倍,而落后的可能性要低4倍,也就是說使用專業數據供應商的企業部署了更多的AI項目,而且實現了更大的投資回報率。特別是,澳鵬發現使用專業數據供應商的企業更有可能將AI部署到生產環境。

                 

                此外,AI部署是一個持續的過程,而不是一勞永逸。去年,80%的被調研企業至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受訪者表示至少每月更新一次模型,高于 2020年的45%。而與較小的企業相比,大型企業更有可能更新AI模型,至少每季度更新一次的比例為91%。其中,使用專業數據供應商的企業最有可能每月更新其模型。

                 

                就中國市場來說,以數據標注為代表的專業數據服務行業才剛剛起步,相關技術發展程度低,屬于勞動力密集型行業,而且該行業缺乏大型專業數據供應商和服務商,行業以中小企業為主,呈現高度的競爭狀態。在另一方面,數據標注正從簡單、重復的拉框標注向精細化方向發展,也就是說數據標注行業正從簡單的勞動力密集型向專業型數據服務過渡。

                 

                AI數據服務專業化

                 

                當前,中國的AI行業和AI應用正在高速發展,相應帶動了AI數據標注行業的快速成長。特別是AI用戶對于AI數據標注質量的要求越來越高、越來越精細化和專業化,諸如自動駕駛、工業制造等智能應用場景越來越復雜,高質量、精細化的標注數據將直接影響算法模型的效果。

                 
                \

                文本數據標注示例

                張童皓在加入澳鵬之前供職于人工智能視覺公司,再之前在攜程和e-Bay都從事過大數據和數據智能相關產品的研發工作。張童皓介紹,自2015年國內AI行業掀起新一輪熱潮以來,用戶對于AI訓練數據的要求越來越高。以圖像類項目為例,由于支持高清圖像設備的大量出現、流媒體的普及等,相應對訓練數據質量要求水漲船高,例如對圖像分割任務就要求標注打點的位置與實際像素之間的偏離不超過1到3個像素,對語音的切分要在毫秒級且前后兩段不能有重疊或空隙。

                 

                除了要求更高質量的訓練數據外,由于深度神經網絡的模型效果與訓練數據的規模呈正相關性,當前很多客戶不僅需要海量的高質量訓練數據,而且還要覆蓋更多的場景,也就是對同一個場景提出不同的數據標注要求。再加上很多AI場景都仍屬于探索階段、場景需求多變,例如智能駕駛從早期的目標跟蹤到后來的遮擋、連續性等出現了不同的訴求,因此不同團隊需要標注不同的數據屬性,很容易出現一個圖像數據集卻有多種不同標注要求的情況。當然,在AI模型生命周期的不同研發階段,也可能提出完全不同的數據標注要求。這是由于AI模型在迭代的過程中,需要用數據進行模型訓練和效果驗證,如果模型效果不理想就需要調整方向,這就意味著新一輪的數據標注處理。

                 

                此外,由于數據合規性和隱私保護的要求越來越高,純云端的數據標注平臺和服務就無法全部滿足企業用戶要求,這就要求私有化部署的數據標注平臺和眾包管理平臺。不過,私有化部署固然能夠更好的保障數據安全,但其部署和維護成本較高,這也帶來了相應的挑戰。

                 

                突破AI工業化瓶頸

                 

                專業化的AI訓練數據標注平臺及眾包管理平臺是當前中國AI工業化瓶頸的重要突破口之一,這也是澳鵬(Appen)進入中國市場的重要原因。澳鵬迄今已經有25年的歷史,擁有業內先進的人工智能輔助數據標注平臺和一體化AI數據及資源管理平臺,以及全球100多萬名技能嫻熟的眾包資源 -- 來自全球170多個國家和70,000個地區,支持235多種語言和方言。澳鵬中國團隊從2019年就開始就重新構建面向中國市場的AI數據標注平臺、相應的工具以及眾包資源渠道和管理平臺,2021年澳鵬大中華區正式成立并獨立運作。

                 

                作為全球領先的AI訓練數據服務提供商,澳鵬的拳頭產品和服務就是數據標注平臺和眾包資源。針對中國市場,澳鵬中國研發中心借鑒公司在海外的實戰經驗,重新獨立開發了中國版本的數據服務平臺。張童皓強調,之所以選擇重新開發中國市場的數據標注平臺版本,這一方面是針對中國客戶的用戶習慣與特色需求,另一方面是切合中國市場的數據監管和法規遵從要求。例如,澳鵬中國數據標注平臺的公有云版就部署在國內,完全符合中國企業用戶對數據安全的要求。

                 
                \

                澳鵬中國數據標注平臺支持混合云部署

                澳鵬中國數據標注平臺共有三大功能:資源管理、項目管理和標注工具箱。其中,資源管理部分對接了澳鵬全渠道資源,包括簽約供應商以及眾包人員和澳鵬在無錫和大連的內部標注中心團隊;項目管理部分,作為一家綜合性數據服務公司,澳鵬平臺提供了項目配置和管理、工作流配置、數據資源分配和質檢等功能;標注工具箱方面,支持視頻、圖像和音頻的標注和轉錄、文本標注與翻譯,全覆蓋文本、音頻、2D和3D圖像等,還提供了智能輔助標注工具。

                 

                數據標注是一個復雜的系統工程,由標注員和質檢員一起協同工作。在這個協同的過程中,有數據的提交和打回等復雜操作。此外,澳鵬作為一家綜合性專業數據服務公司,平臺上往往存在多個并行任務,任務屬性各不相同,有的要求流轉非?、有的單條數據工作時間很長,項目組規模從幾十人到上萬不等,因此澳鵬中國數據標注平臺選擇了開源的分布式消息隊列Pulsar作為底層基礎架構。Pulsar被視為下一代企業級分布式消息系統,是Kafka的替代型技術,其特點包括多租戶、低延遲、讀寫分離、跨地域復制、快速擴容、靈活容錯等特性。

                 

                張童皓強調,較前沿的技術架構給平臺帶來了吞吐性能方面的競爭優勢,除此以外,澳鵬全球眾包資源的對接也是其獨有優勢,而即使是在國內也有獨到的眾包資源 -- 3000人規模的中文專業醫學數據標注團隊,都具有臨床執業資格和豐富醫學項目經驗,可對醫學影像和問答進行高效標注。

                 

                自研專業化數據標注平臺

                 

                專業化數據標注平臺是數據標注行業的核心競爭力,也是AI工業化的關鍵平臺之一。在全球,具備專業化數據標注平臺及其能力的數據服務商屈指可數,澳鵬就是其中之一。隨著澳鵬進入中國市場,也將專業化數據標注平臺的實踐帶入中國市場,由澳鵬中國研發中心全自研的澳鵬中國數據標注平臺是一個國產化的數據標注平臺,該平臺定位于全流程一站式人機協同高質量數據平臺,具備從數據需求提出到策略制定、數據收集、高精度標注/分類、數據分析和數據服務,直到數據全量交付的核心場景功能。

                 
                \

                大多數澳鵬標注工具都內置了AI輔助標注功能

                張童皓介紹,澳鵬中國數據標注平臺具有多種獨到的專業技術。其中的標注工具箱在多語言和復雜圖像處理方面極具競爭力:圖像語義分割技術,可以在保證像素級精度同時,實現10分鐘處理一張圖的高速處理;隨著2D圖像的視頻全結構化趨勢,澳鵬平臺可以同時識別視頻中的多類型目標,可進行點、線、框和多邊型融合的復雜標注而且支持連續幀,而傳統工具僅為單模式單幀;在3D圖像處理方面,由于3D圖像數據難于理解以及查看不便(即3D空間中的點狀物密集聚集在一起形成的3D點云),澳鵬投入了大量研發資源,開發了拉框標注和語義分割等一整套的標注工具,其中拉框標注支持2D&3D融合標注、自動貼合、連續幀跟蹤、可定義對象實例關系、高度集成質檢和交付流程等,而最具特色的2D&3D融合標注可將3D物體映射到2D圖像中進行關聯。

                 

                澳鵬中國數據標注平臺還提供了:數據有效性驗證規則配置功能,例如一輛車消失了多長時間就被視為數據異常,可及時提醒標注員或質檢員進行糾正;在數據驗收方面,為客戶提供了最低粒度驗收或打回,即不是對一整張圖進行驗收或打回,而是對其中的一個框或一個點進行精準的驗收和打回,這樣標注員就可以直接對被打回的問題數據進行修正;澳鵬中國數據標注平臺的標注工具可實現99.9%的準確率,可達到5分鐘一張、1秒一幀極速質檢,在交互、超大數據加載、實時切幀進行渲染等方面都達到了行業第一。

                 

                在澳鵬中國數據標注工具底層有一個通用的技術組件,這就是模板引擎。開發模板引擎的目的,在于澳鵬是一家綜合數據服務提供商,支持多家客戶并行并發多種標注任務,因此通過模板引擎讓內部團隊可以簡單編寫腳本代碼后就能定制化不同標注工具,以支持不同客戶的不同標注任務。

                 

                澳鵬中國數據標注平臺也可以被私有化部署到企業內部,因此對于企業客戶來說,該平臺還提供了多種企業級能力,包括靈活的工作流配置、多資源組合管理、多種部署方式等。在靈活的工作流配置方面,企業的項目經理通過選項勾選,就可以靈活配置不同的工作流,實現不同的數據流轉策略和流程。例如,有的文本標注項目,單條數據處理的速度非?,就可以配置為讓標注員一次領取多條數據;有的翻譯標注項目,當標注時出現錯別字時,就可以配置為質檢員直接修改而無須打回,這樣就避免了反復提交數據的時間浪費;而對于3D點云標注項目,一條圖像數據可達300多幀,標注時間不僅非常長而且需要處理完成后馬上提交質檢以及及時修正問題。

                 

                在多資源組合管理方面,澳鵬中國數據標注平臺可以讓企業同時配置管理內部的標注團隊和外部的供應商及眾包資源。在多種部署方式方面,澳鵬中國數據標注平臺支持SaaS、私有化部署、混合云方式等,可實現從標注員向客戶提交數據文件全程不經由澳鵬中國的服務器,通過物理切割而最大限度保障企業數據的隱私與安全。澳鵬中國數據標注平臺還支持白名單、后臺日志審計等運營方式,從而在大幅縮減企業服務器運營成本的同時,加速項目上線時間,達到兼顧安全與效率的項目運營優化。

                 

                張童皓強調澳鵬中國數據標注平臺作為國產自研的數據標注平臺,還研發了很多獨有的數據標注能力,包括3D點云車道線自動識別、專業的ASR智能語音識別引擎、AI輔助標注等,不僅克服了行業中的難點和挑戰,還大幅提升了標注和審核的效率和生產力。作為一家服務于AI產業和項目的數據服務商,澳鵬在AI倫理道德、法規遵從等方面都有專門的策略、技術和管理機制,確?蛻舻捻椖吭谧畲蟪潭壬媳苊膺@些方面的問題。

                 

                總結而言: 以澳鵬為代表的專業數據標注服務商及其國產自研專業數據標注平臺,是AI工業化的一大標志。這代表了AI數據標注服務正從簡單的勞動力密集型向專業數據服務和工業化組織過渡,而高質量、大規模、多樣化的標注數據及其工業化生產,將進一步推動AI工業化的早日到來。屆時,AI技術無疑將更廣泛和更深刻的影響社會與經濟發展。

                 

                《人工智能與機器學習現狀》白皮書

                 

                各公司AI預算比去年同步增長55%

                 

                AI項目的負責人職位發生了大面積改動

                 

                對于數據安全的重視逐漸增加

                 

                業務決策者和技術人員的分歧

                 

                新冠疫情下,企業加速推進了人工智能戰略

                 

                企業對外部數據提供商的選擇能夠大幅度影響AI項目的成功率

                編輯:MM
                返回頂部