OpenAI GPT-4V 已識得用 Apple iPhone!未經訓練即自行完成網購

| 周傳禮 | 16-11-2023 01:05 | |

AI 發展迅速,最近有研究指利用 GPT-4V 技術開發的 MM-Navigator 模型,可以在不經訓練下,於 iPhone 上自行完成網購操作,實用性極高,亦比 iPhone 預載的 SIRI 更智能化。當然 MM-Navigator 在未訓練下,操作上雖有出錯,但成功率亦達 75%,而且錯誤亦可作出修正。

即刻【按此】,用 App 睇更多產品開箱科技影片

一句指令.自行網購

透過 GPT-4V 為核心而開發的 MM-Navigator 模型,用家只需輸入一句購物指令,MM-Navigator 即可以在 iPhone 上,自行完成購物任務。今次任務要求 MM-Navigator 購買奶泡器,而且價格限於 $50-100。然後 MM-Navigator 成功找到 Amazon App 位置,打開 App 又懂得在搜尋欄輸入「奶泡器」,並設定價格範圍在 $50 - 100,並找到合適價位的奶泡器,並完成下單。

GPT-4V 回饋的每一步,操作都與人相近。

GPT-4V 回饋的每一步,操作都與人相近。

屏幕分區.隨意標示

MM_Navigator 模型會將屏幕上可以輕觸的位置進行數字標記,而且標記時數字隨意擺放,而 GPT-4V 核心在網購任務上,對不同標記的功能有切合人類的理解,所以整個購物過程,幾乎完全等同人類的操作,表現相當出色。

 理解能力.尚可提升

雖然 MM-Navigator 有不俗的理解力,但處理其他指令時,有成功的時候,亦有失敗的時候。由於 MM-Navigator 未經訓練,所以對其他 APP 介面的理解未達人類水平,理解能力約為人類的 75%,但如經過訓練調教,即可解決問題。

失敗

成功

【相關文章】

【相關文章】

【相關文章】

Source:arXiv

相關文章

Page 1 of 9