復旦團隊研發(fā)大模型“眸思”,助力視障者“看見”世界
只需一枚攝像頭和一對耳機,便能將畫面轉化成語言,描繪場景、提示風險,讓視障者出行更安全、生活更便捷。
“聽見世界”App街道行走模式圖。本文圖片均為 復旦大學 供圖
日前,在復旦大學自然語言處理實驗室(FudanNLP)師生的努力下,基于多模態(tài)大模型“復旦·眸思”(MouSi)為視障者量身打造的“聽見世界”APP上線,將成為視障人士的生活助手與智能管家。
2023年上半年,由復旦大學自然語言處理實驗室開發(fā)的MOSS被稱為中國版的GPT,僅用半年時間后,多模態(tài)模型“眸思”問世。
“眸思”與MOSS同音,但和基于文本的MOSS不同,它能夠理解并識別圖片內容,致力于成為視障者的一雙“眸”。
設計使用概念圖。
基于“眸思”的“聽見世界”APP,為視障者日常生活需求量身打造設計三種模式。
在街道行走模式下,“眸思”如一位忠實的向導,紅綠燈、十字路口、障礙物……它將細致掃描道路情況,提示潛在風險,陪伴視障者安全通行“看不見”的漫漫長路。
在自由問答模式下,“眸思”則是一位貼心的朋友,讓視力障礙者走進博物館、藝術館、公園,幫助捕捉四周景象的每個細節(jié),用聲音構建豐富的生活場景,傳遞每一處日常之美。
在尋物模式下,“眸思”將成為一名可靠的管家,被移動的手杖、最愛口味的牛奶……日常物件的尋覓過程變得輕松無壓力。
據(jù)研究團隊透露,中國盲人數(shù)量有1700多萬,也就是說,每一百人中就有一位。但為什么在大多數(shù)人的認知里極少在街上看到盲人?這是因為,面對大量不安全因素,他們難以獨自跨出家門。
復旦大學自然語言實驗室張奇教授說,人工智能發(fā)展日新月異,科技應該要改變更多人的生活,希望“眸思”能夠幫助視障人士走出家門,讓他們可以嘗試更多工作,為人生書寫更多可能。”
項目落地背后,是一支年輕的團隊和開放的氛圍,從本科生到博士生共25名復旦學子及桂韜等多位教師、專家的加入,才有了“眸思”接續(xù)“MOSS”的成功。
張奇介紹,該項目的主導者實際上都是“初出茅廬”的學生們,在組內頭腦風暴會上,年輕學子總能提出開創(chuàng)性想法,能夠找到另辟蹊徑的解決辦法。
自去年9月以來,為了更好地感受視障者的難處,團隊成員同樣模擬真實情境,蒙眼探索視障者“黑暗”世界,并邀請視障人士加入,進一步摸清真實而具體的需求。
復旦大學研究團隊。
今年上半年,團隊將結合AR升級APP內的定位精度細化至亞米級別,下半年團隊希望將“眸思”升級到基于視頻的判斷。更多模式也正在開發(fā)中,比如閱讀模式服務盲人朋友點菜、讀書等場景,解說模式承擔無障礙電影解說員的工作等。
在政府的支持下,團隊計劃與NGO組織、智算中心和硬件廠商等開展合作,致力于讓視障者免費使用產品和相關服務。
預計今年3月,“聽見世界”APP將完成第一輪測試,并在中國一、二線城市和地區(qū)同步開啟試點,根據(jù)算力部署情況進行推廣。
來源:澎湃新聞


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉載。