智能體已經能像人一樣刷視頻了?國內知名大模型獨角獸級別公司,資深AI玩家聯匯科技退出了OmAgent智能體,已經開啟試用。
當你正在觀看一部緊張刺激的動作電影,忽然好奇: “那個角色到底是在哪一集說的那句話?” “這里的背景音樂是什么?” 又或者在一場足球比賽中,你錯過了那個決定性的進球,卻又想再次回放。諸如此類的需求,如果僅憑人力尋找,無疑存在極大的工作量。 但是 AI 能夠為機器配置雙眼與大腦,讓它們能夠看懂視頻、理解劇情,對于普通人來說,這不僅是提高了搜索效率,更是擴展我們與數字世界的互動方式。 英偉達最新發布的 NVIDIA AI Blueprint 希望幫助人們解決這一問題。這是一種預訓練的、可自定義 AI 工作流,他為開發者構建和部署用于典型用例的生成式 AI 應用程序提供了一套完整的解決方案。 比如在英偉達提供的試用界面中,你可以選擇三個視頻片段中的一個進行內容問答。 在幾輪測試過后,我們發現 Blueprint 對視頻問答還是有不錯的效果的。你可以提問某個事件發生的時間,也可以提問某個對象的狀態。 尤其令人遺憾的是,在試用過程中我們不斷遇到流量限制,無限驗證等問題,試用體驗可以說一言難盡。并且目前 Blueprint 仍然處于早期申請使用制階段,沒有辦法快速進行使用。 Blueprint 之外,我們還有什么選擇? 經過一番搜索和調研,我們在 Github 上發現了 OmAgent 這個項目,這是一個多模態智能體框架,提供了同樣強大的視頻問答功能。 項目地址:https://github.com/om-ai-lab/OmAgent OmAgent 是什么 OmAgent 是一個開源的智能體框架,支持簡單快速地面向設備進行智能體系統的開發,為智能手機、智能可穿戴設備、智能攝像頭乃至機器人等各類硬件設備賦能。OmAgent 為各種類型的設備創建了一個抽象概念,并大大簡化了將這些設備與最先進的多模態基礎模型和智能體算法相結合的過程,使每個人都能基于設備建立最有趣的 AI 應用。 OmAgent 的設計架構遵循三個基本原則:
A: Q: Which direction did the forklift go? A:
A: 接下來我們進行更復雜的測試,OmAgent 可以支持音頻信息以及超長視頻索引。我們選取了最近大火的劇集《雙城之戰》第二季第一集作為素材,基于其中的畫面和劇情進行提問。 A:
A: Q: 視頻最后幾個議員在討論什么? A:
A: 可以看到,即使面對如此復雜的視頻素材,OmAgent 依然可以游刃有余。 如果想了解更多OmAgent智能體技術信息,可以通過聯匯科技官網聯系! |