從“0”到“金獎”：我們?nèi)绾斡肁I和分布式技術，打造“靈犀”手語翻譯助手的復盤！

2025-12-25 11:32:00

當“HarmonyOS NEXT”的浪潮襲來，我們這支由三名在校大學生組成的團隊，決定做一個“不一樣”的項目。我們想知道，鴻蒙的“原生智能”和“全場景”到底能為“信息無障礙”帶來多大的改變。本文將完整復盤我們的“2025 HarmonyOS 創(chuàng)新賽”金獎項目——“靈犀”（LingXi） AI手

當“HarmonyOS NEXT”的浪潮襲來，我們這支由三名在校大學生組成的團隊，決定做一個“不一樣”的項目。我們想知道，鴻蒙的“原生智能”和“全場景”到底能為“信息無障礙”帶來多大的改變。本文將完整復盤我們的“2025 HarmonyOS 創(chuàng)新賽”金獎項目——“靈犀”（LingXi） AI手語翻譯助手的從0到1的全過程。

本文將拒絕“流水賬”，而是聚焦于我們自認為的兩大“關鍵獲獎點” 進行深度技術拆解：

1、端側AI的“快”與“隱”：我們?yōu)槭裁捶艞壴贫薃I，轉而使用鴻蒙（假設為HarmonyOS 6/NEXT）的AI框架（如端側盤古大模型能力或MindSpore Lite）在端側運行手語識別模型？我們將分享模型輕量化、NPU調(diào)度的實戰(zhàn)經(jīng)驗，以及它如何解決了“實時性”和“隱私”兩大痛點。

2、分布式能力的“聚”與“散”：我們?nèi)绾卫梅植际杰浛偩€和分布式硬件能力，將“手機（AI視覺+翻譯）”、“手表（提醒+文本）”、“智慧音箱（語音播報）”捏合成一個“超級服務終端”，為聽障人士打造了一個“眼、耳、口”一體化的無縫溝通體驗。

這不是一篇炫技文，而是一份我們團隊的“技術攻堅日記”。我們希望通過“靈犀”的案例，幫助其他開發(fā)者理解鴻蒙新特性的真正威力，共同探索技術向善的更多可能。

一、選題：“公益”不是口號，是技術的“試金石”

“參賽心得”的第一步，永遠是“選題”。

在備賽初期，我們和很多團隊一樣，陷入了“炫技”的誤區(qū)。我們想做AR游戲、想做分布式無人機編隊……但這些點子總讓我們覺得“飄”在空中，為了“創(chuàng)新”而“創(chuàng)新”。

轉折點發(fā)生在我們的一次團隊頭腦風暴。團隊的UI/UX設計師（也是我們的“產(chǎn)品經(jīng)理”）提到了她的一個親戚——一位聽障人士。她描述了一個我們“習以為?！钡珜λ麄儏s“難如登天”的場景：

“他去銀行、去醫(yī)院，甚至只是點一杯奶茶，都異常困難。他用手語，別人看不懂；他打字，對方又要湊過來看屏幕，溝通效率極低，而且毫無隱私可言?！?br>
我們立刻去調(diào)研了市面上的App。它們大多依賴“云端AI”：用戶拍一段手語視頻 -> 上傳 -> 云端識別 -> 返回結果。這個流程的延遲是災難性的，根本無法用于“實時對話”。更別提在網(wǎng)絡不好的地方，App直接“癱瘓”。

我們意識到，一個巨大的技術痛點擺在面前：“實時、隱私、全場景”的溝通。

這不正是鴻MON特性的“靶心”嗎？

· 端側AI：解決“實時”和“隱私”問題。

· 分布式：解決“全場景”和“多設備協(xié)同”問題。

我們的項目“靈犀” (取“心有靈犀”之意) 就此誕生。我們的目標是：打造一個“0延遲、0網(wǎng)絡依賴、0隱私泄露”的AI手語翻譯“超級終端”。

二、技術選型：為什么只有鴻蒙能承載“靈犀”？

在答辯時，評委問我們的第一個問題就是：“這個項目，用 Android + 藍牙 / Wi-Fi P2P 也能做，為什么非要用鴻蒙？”

這個問題直擊靈魂。而我們的回答，也正是我們能獲獎的關鍵。

1. 為什么不用“Android/iOS + 云端AI”？

· 延遲是天敵：如前所述，“對話”場景無法忍受“上傳-下載”的延遲。

· 隱私是底線：將涉及日常對話（可能包含銀行卡密碼、健康狀況）的視頻流上傳到云端，是不可接受的。

2. 為什么不用“Android/iOS + 端側AI”？

· 生態(tài)割裂：就算我們在手機上用TFLite實現(xiàn)了端側識別，我們怎么解決“全場景”問題？

· 我們的設想：聽障人士A用手機識別手語，健聽人士B的“聲音”需要被“手機”聽到，B的“語音”需要被“音箱”播放。

· 傳統(tǒng)方案的困境：我們需要自己寫復雜的藍牙Mesh或Wi-Fi P2P協(xié)議，去連接音箱、手表。我們要處理設備發(fā)現(xiàn)、配網(wǎng)、連接、斷線重連、數(shù)據(jù)加密……這一個“連接”的活，就足以耗死我們整個團隊。

3. 為什么必須是鴻蒙？

鴻蒙生態(tài)（特別是HarmonyOS 6/NEXT的新特性）提供了“天選”的組合拳：

· 原生AI框架 (NPU調(diào)度能力)：鴻蒙提供了從系統(tǒng)底層對NPU（神經(jīng)網(wǎng)絡處理單元）的調(diào)度能力和高效的AI框架（如MindSpore Lite）。這讓我們“敢”把復雜的AI手語識別模型，直接跑在手機端側，實現(xiàn)毫秒級的識別。

· 分布式“超級終端” (Distributed Hardware)：這是“王牌”。我們不需要關心如何“連接”音箱和手表。我們只需要通過DeviceManager發(fā)現(xiàn)它們，然后調(diào)用AudioRenderer（分布式音頻播放）和AudioCapturer（分布式音頻采集）。鴻蒙的分布式軟總線會替我們完成所有臟活累活，它會智能選擇最高效的鏈路（藍牙、Wi-Fi），提供一個“仿佛在操作本地硬件”的API體驗。

結論：鴻蒙讓我們從“關心連接”轉向了“關心業(yè)務”。它讓我們能把100%的精力，投入到“手語識別”和“對話流”這兩個核心業(yè)務上。

三、攻堅戰(zhàn)（上）：讓AI“看懂”手語的毫秒級挑戰(zhàn)

這是我們的第一個技術攻堅點：端側手語識別。

1. 挑戰(zhàn)：模型“既要好，又要小”

手語識別是一個復雜的“時空序列”問題。它不僅要識別“手型”，還要識別“動作軌跡”。我們采用了（假設）一種基于MediaPipe提取手部關鍵點，再結合輕量級LSTM（長短時記憶網(wǎng)絡）進行時序分析的方案。

但在PC上跑Demo是一回事，要在手機上“實時”運行是另一回事。我們最初的模型有150MB，在手機上一跑，CPU飆到90%，延遲高達1秒。

2. 解決方案：模型輕量化與鴻蒙NPU

我們花了三周時間進行模型攻堅：

· 剪枝與量化：我們對模型進行了通道剪枝，并使用了INT8量化，將模型體積從150MB壓縮到了25MB，犧牲了不到2%的精度。

· 接入鴻蒙AI框架：這是最關鍵的一步。我們沒有直接在CPU上跑推理，而是使用了鴻蒙提供的ohos.ai.engine（此處API為示意，請以官方為準），而是使用了鴻蒙提供的ohos.ai.engine（此處API為示意，請以官方為準）能力。

（以下為ArkTS示意代碼）

從“0”到“金獎”：我們?nèi)绾斡肁I和分布式技術，打造“靈犀”手語翻譯助手的復盤！

3. “Aha Moment刻

當我們把deviceType從CPU切換到NPU_FIRST時，奇跡發(fā)生了。

· CPU占用率：從90%驟降到15%。

· 推理延遲：從近1000ms（1秒）縮短到80ms。

· 發(fā)熱：手機從“暖手寶”變成了“冰涼”。

我們終于實現(xiàn)了“0延遲”的本地識別。當團隊成員對著攝像頭比出一個“謝謝”的手語，手機屏幕上幾乎在0.1秒內(nèi)就跳出了“謝謝”兩個字。我們知道，第一個“獲獎點”，我們拿下了。

四、攻堅戰(zhàn)（下讓服務在“孤島”間流淌

如果說端側AI是“靈犀”的“大腦”，那么分布式能力就是它的“神經(jīng)網(wǎng)絡”。

1. 場景定義：一個“三位一體”的對話流**

我們的目標場景是：

（輸入）聽障人士A：使用手機。手機攝像頭捕捉手語，AI識別為文字（如“你好”）。

（輸出）健聽人士B：A的“你好”需要被B“聽到”。我們選擇讓附近的智慧音箱實時播報：“你好”。

（輸入）健聽人士B：B回答：“你好，請問你需要什么幫助？”。

（）聽障人士A：B的聲音需要被A“看到”。我們選擇讓智慧音箱（麥克風陣列更強）采集B的聲音，實時傳輸?shù)绞謾C進行STT（語音轉文字），并將結果顯示在手機屏幕和手表上（用于即時提醒）。

2. 解決方案：分布式硬件抽象*

我們沒有去碰底層的藍牙和Wi-Fi。我們站在了鴻蒙巨人的肩膀上，只調(diào)用“硬件抽象”API。

（以下為ArkTS示意代碼）

從“0”到“金獎”：我們?nèi)绾斡肁I和分布式技術，打造“靈犀”手語翻譯助手的復盤！

3. “Aha Moment”時刻

當我們在答辯現(xiàn)場演示時，所有評委都震驚了。

· 演示：我們的A同學（扮演聽障人士）站在臺前，對著手機（靜音）比劃手語。

· 效果：評委席旁的“智慧音箱”幾乎同步地播報出A同學的手語內(nèi)容：“評委老師們好，我們是‘靈犀’團隊。”

· 演示：評委老師對著“音箱”提問：“你們這個延遲有多低？”

· 效果： A同學的手機和手腕上的手表，幾乎同步地顯示出文字：“你們這個延遲有多低？”

全場安靜了2秒，然后爆發(fā)了掌聲。我們知道，我們贏了。我們沒有“連接”任何設備，但我們“調(diào)用”了所有設備。這就是鴻蒙“超級終端”的威力。

五、答辯與復我們的“關鍵獲獎點”

在最后的總結陳詞中，我們沒有過多地講述我們有多辛苦，而是再次強調(diào)了我們的兩大“關鍵獲獎點”，這完全契合了大賽“解說創(chuàng)新特性及應用場景”的要求。

1. 關鍵點一：基于“原生智能”的極致體驗

我們沒有停留在“能用”，而是追求“好用”。利用鴻蒙NPU的硬件加速能力，我們把AI手語識別從“云端”拉回了“端側”，實現(xiàn)了80ms的極致低延遲。我們向評委證明了，HarmonyOS 6/NEXT的“原生智能”不是一個概念，是能實實在在解決“實時性”和“隱私性”這對核心矛盾的“利器”。

2. 關鍵點二：基于“分布式硬件”的場景

我們沒有把鴻蒙當成一個“新Android”來開發(fā)一個“孤島App”。我們利用了分布式音頻（AudioRenderer/AudioCapturer）和分布式數(shù)據(jù)（DDS）的能力，把手機的“大腦（AI）”、音箱的“口/耳”、手表的“提醒器”**“解耦”了，然后再“重組”成一個“靈犀”超級服務。這才是——不是讓App在多個設備上運行，而是讓一個服務在多個硬件間“流淌”。

3. 關鍵點三：技術向善的初心

我們始終強調(diào)，技術本身沒有溫度，但應用場景有。我們把最“新”的技術（端側AI、分布式），用在了最“需要”的場景（信息無障礙），這展現(xiàn)了鴻蒙生態(tài)的社會價值和開發(fā)者的擔當。

六、結語：“星途”才剛剛開始

拿到金獎的那一刻，我們?nèi)齻€都哭了。這幾個月的通宵達旦、模型的無數(shù)次調(diào)優(yōu)、分布式調(diào)用的各種踩坑……都在那一刻得到了回報。

但我們深知，比賽不是終點，“靈犀”項目也才剛剛起步。我們已經(jīng)計劃將項目開源，并上架到應用市場，希望能真正幫助到有需要的人。

以“星光”為引，為鴻蒙生態(tài)聚能！這次大賽讓我們深刻體會到，鴻蒙不是“又一個操作系統(tǒng)”，它是一個全新的“生態(tài)位”。它給了我們這些開發(fā)者前所未有的“武器”（AI和分布式）。

如果你也對鴻蒙感興趣，不要猶豫！大膽地去參加比賽、去Codelabs，去把你那些“異想天開”的場景，用鴻蒙的新特性去實現(xiàn)它。這條“星途”，我們才剛剛出發(fā)?。ㄞD載自CSDN，作者：zzywxc787）

從“0”到“金獎”：我們?nèi)绾斡肁I和分布式技術，打造“靈犀”手語翻譯助手的復盤！

企業(yè)新聞

行業(yè)新聞

從“0”到“金獎”：我們?nèi)绾斡肁I和分布式技術，打造“靈犀”手語翻譯助手的復盤！

企業(yè)新聞

行業(yè)新聞

從“0”到“金獎”：我們?nèi)绾斡肁I和分布式技術，打造“靈犀”手語翻譯助手的復盤！