2024 年度 AI 重點回顧及 2025 展望

最後更新於 2025 年 1 月 5 日 - 作者: Lazy Kar


自從 2022 年 11 月 OpenAI 推出 ChatGPT - GPT 3.5 以來,人工智能(AI)領域在短短兩年間取得了驚人的進展。不少企業投入了數千億美元的資本支出,推動 AI 技術的迅速發展。本文將回顧 2024 年度 AI 的主要發展重點,並展望 2025 年的未來趨勢。


✨ 2024 年度 AI 重點回顧


1. 大型語言模型(LLMs)


Gemini 2.0

Gemini 2.0 相較前代在速度和效率上有了顯著提升。特別是 Gemini 2.0 Flash 模型,其處理速度是 Gemini 1.5 Pro 的兩倍,在各種基準測試中表現也有所改善,為用戶帶來更流暢的體驗。


OpenAI o3 模型

OpenAI 新推出 o3 推理模型,旨在提升複雜任務的推理能力,專注於解決編碼、數學和通用智能方面的挑戰。該模型的發布使實現通用人工智能(AGI)又進一步。


Claude Sonnet 3.5

Anthropic 推出新一代 AI 模型 Claude Sonnet 3.5。這款模型在自然語言處理和計算能力方面都有顯著提升,為各行各業提供了更強大的語言理解和生成能力。另外,Anthropic 亦發布 Computer Use,允許 Claude 3.5 Sonnet 像人類一樣與電腦互動,查看螢幕、移動鼠標、點擊按鈕和輸入文字等任務。


Llama-3

Llama-3 是由 Meta AI 推出的開源大型語言模型。Llama-3 系列包括不同參數的模型,推動開源社群在自然語言處理領域的創新與發展。


DeepSeek-V3

DeepSeek-V3 為 Mixture of Experts (MoE) 模型,擁有 671B 參數,是目前市場上最龐大的開源模型之一。在標準基準測試中,DeepSeek-V3 超越了許多封閉模型。


2. 多模態能力


多模態代理結合視覺、語音和文字,能夠更自然地執行各種命令。


OpenAI ChatGPT

ChatGPT 新一代模型,具備同時處理文字、圖像和語音輸入的能力,可以直接與 ChatGPT 視訊、分享螢幕、即時討論。而 ChatGPT 高級語音模式(AVM)進一步提升多模態對話的自然流暢度。


Gemini 2.0

Gemini 2.0 基於相機的流暢互動和即時視覺推理,Project Astra 具備「視覺、聽覺、語言」多模態能力,可以幫助完成更多任務,例如教你如何使用洗衣機、記住門密碼或識別植物。


3. 影片生成


OpenAI Sora

OpenAI 正式推出影片生成模型 Sora,支持文字描述、圖片或視頻輸入生成高品質的視頻。Sora 不僅可以快速創建符合需求的視頻,還能夠精確呈現複雜的場景、多個角色、複雜的攝影運鏡,以及真實的情感表現。


Google Veo 2

Google 推出的 Veo 2 模型,具有高物理精度,能夠精準模擬真實物理世界,提供高達 4K 分辨率的畫面,真實的物理交互。


其他 AI 生成影片工具

2024 年,除了 Sora 和 Veo 2,其他 AI 生成影片工具生成的影片質素亦大幅提高,包括 Kling AIHailuo AIPixVerse AIRunwayPikaHaiper AILuma AIVidu AI 等。這些工具不僅提升影片的質量,還大幅縮短影片製作時間。


4. 編碼助理


Cursor

Cursor 是一款 AI 程式碼編輯輔助工具,能夠自動補全和提供代碼建議。開發者可以在 Cursor 中與 AI 進行對話,詢問與程式碼相關的問題、尋求代碼解釋,或要求 AI 生成特定的程式碼。


Replit

Replit 是一款專為程式設計者打造的雲端程式碼編輯平台,無需在電腦上安裝任何軟體,用戶即可直接在瀏覽器中編寫、執行和分享程式碼。Replit 結合程式碼編輯與部署等功能,使開發過程更加高效。


V0

V0 是由 Vercel 推出的一個 AI 開發平台,用戶只需描述想要的應用功能,V0 就會自動生成相應的代碼,並提供立即部署的選項,令開發者以及非技術人員都能夠輕鬆創建應用程式。


Bolt.new

Bolt.new 是一款 AI 網頁開發平台,利用 StackBlitz 的 WebContainer 技術,用戶只需撰寫簡單的提示詞,Bolt.new 即可自動運行、編輯和部署複雜的全端應用程序。一鍵部署,可直接部署到 Netlify 和 Cloudflare。


Codeium Windsurfer

Windsurfer 是由 Codeium 推出的 AI 程式碼自動完成和輔助工具,旨在幫助開發者更快速、更有效地編寫程式碼。它支援多種程式語言,包括 VS Code、Google Colab、Visual Studio、Sublime Text、Xcodec等,通過 Codeium 擴充功能即可安裝。


Devin

Devin 是一個完全自動化的軟體工程師,能夠處理錯誤修復、重構以及小型功能需求等任務,大幅提升開發團隊的效率。


5. 人形機械人


Tesla Optimus

特斯拉 (Tesla) 推出的新一代 Optimus 人形機械人,具備 22 個自由度,手腕和前臂擁有 3 個自由度,能夠自主處理複雜任務,展示了機械人在實際應用中的巨大潛力。


宇樹科技 Unitree Robotics

宇樹科技 (Unitree Robotics) 以四足機械狗起家,近兩年亦推出人形機械人 G1、H1/H1-2 系列。另外,Unitree 亦開源了其機械人訓練的所有原始程式碼,包括強化學習 (RL) 訓練程式碼、從模擬到模擬 (SimtoSim) 和從模擬到現實 (SimtoReal) 原始碼。


Boston Dynamics Atlas

Boston Dynamics 與豐田研究院聯手推出的 Atlas 人形機械人,擁有 360 度關節旋轉能力,能夠執行家務如翻轉煎餅,準確率達到 90%,展現出高水平的靈活性和實用性。


Figure 02

Figure 02 的人形機械人速度提高了 400%,結合人類的靈巧性與 AI,為製造業、物流、倉儲和零售業提供了強有力的支援。


Clone Torso

Clone Torso 是一款由人造肌肉驅動的人形機械人,採用仿生肌肉和肌腱設計,擁有 24 個自由度和 37 塊 McKibben 肌肉,能夠實現多種手部動作及執行多種操作任務,展示了先進的機械人技術。


6. AI 生成遊戲


World Labs

由李飛飛教授領導的 World Labs 正式推出,能夠將單一圖片轉換為可互動的 3D 世界。生成的 3D 場景可在瀏覽器中即時渲染,並具備完全的相機控制,甚至能模擬淺景深或移動變焦等 3D 相機效果。


GameNGen、Oasis、Diamond、Unbound、GenEX

這些 AI 生成式 3D 世界模型能夠即時生成交互式的 3D 遊戲世界,包括遊戲環境、人物動作和裝備,不依賴預置的 3D 模型。例如,GameNGen 能夠在單一 TPU 上以每秒超過 20 幀的速度互動模擬經典遊戲《DOOM》。


7. 科技突破


AlphaFold

Google DeepMind 開發的 AlphaFold 模型,用於藥物研發,能夠預測蛋白質結構,因其在蛋白質折疊領域的變革性成果而獲得諾貝爾獎,推動生物醫學研究進展。


Neuralink

馬斯克 (Elon Musk) 的神經科技和腦機接口公司 Neuralink 成功實現首位人類晶片植入,讓癱瘓患者能透過腦控操作數位設備,包括打遊戲和瀏覽網頁。


SpaceX 星艦 (Starship)

SpaceX 的星艦 (Starship) 進行多次試飛,在 2024 年 10 月第五次試飛實現「筷子夾火箭」,成功返回發射台,標誌著火箭可重複使用技術取得了重大突破,對於人類太空探索具有革命性意義。


8. 運算能力


NVIDIA 的 H100 / H200 GPU

NVIDIA 推出的 H100 和 H200 GPU,使用最新 Hopper 架構下開發,這個架構專為應對 AI 運算的需求而設計。相較於上一代 NVIDIA Megatron 530B 聊天機械人 (全球最大的生成語言模型),AI 推論的速度提升 30 倍。


Google 的 Willow 超級電腦

Google 推出量子晶片 Willow ,可以在五分鐘內完成傳統超級電腦需要10 兆年才能完成的計算難題,為大型 AI 模型的訓練提供強有力的支持。


9. 自動駕駛


馬斯克 (Elon Musk) 在 We, Robot 活動推出 Cyber​​cab 機械人計程車及推出更大的 Robovan。雖然 Robotaxi 和 Robovan 全面推出後可能會徹底改變交通運輸,但 Cyber​​cab 仍面臨一些監管障礙,因為它不符合現行的聯邦車輛安全法,該法需要方向盤和踏板等傳統控制裝置。


Cyber​​cab

沒有方向盤或踏板的 ,使用無線技術自行充電,這意味著不需要插頭。Cybercab 計劃於 2026 年至 2027 年開始生產,價格低於 30,000 美元,每英里的成本可能低至 0.20 美元,比公車或共乘服務便宜。


Robovan

該自動駕駛車輛最多可搭載 20 人。


✨ 2025 AI 展望


展望 2025 年,AI 技術將繼續快速發展,以下是幾個主要趨勢:


1. 人形機械人愈來愈智能

隨著機械人技術的不斷進步,人形機械人的智能化程度將大幅提升,應用範圍將擴展至更多行業,如醫療、服務和家庭等。


2. 通用人工智能(AGI)

AGI 的發展將朝著更高效的時間推理計算方向前進,未來的模型在推理過程中將能「思考更久」,具備更強的理解和決策能力。


3. 增強現實(AR)眼鏡 / 穿戴式眼鏡

AR / 穿戴式眼鏡將成為日常生活中的重要工具,結合 AI 技術,提供更豐富的互動體驗和實時信息,改變人們的工作和娛樂方式。


4. 大語言模型及影片生成技術

在 2024 年大語言模型和影片生成技術取得迅速發展後,2025 年這些技術將進一步成熟,應用場景將更加廣泛,涵蓋教育、娛樂、商業等多個領域。


💕💕 如果您喜歡以上內容,請分享給朋友,以及訂閱 Lazy Kar YouTube 頻道以維持網站及 YouTube 頻道的永續性,超級感謝 💕💕


==========================

免費訂閱 Pulse AI 電子報,每週為您精選必備資訊,助您快速進入 AI 時代!


✅ 快速掌握最新 AI 工具、科技趨勢與品牌應用!

✅ 高效配搭 AI 工具與提示詞,工作與學習更輕鬆!

✅ 每周只需幾分鐘,省下繁瑣資料搜集時間!

✅ 加快學習 AI 技能,時刻保持競爭力!


👉 先閱讀往期 Pulse AI 電子報,再決定!

==========================


Lazy Kar 精選  AI 工具系列:  


👉 學生必備實用 AI 工具


👉 創業必備實用 AI 工具

────⋆⋅☆⋅⋆──────⋆⋅☆⋅⋆─────


熱門文章:  


👉 如何高效運用 ChatGPT 規劃旅遊


👉 推薦 6 款免費好用 AI 聊天機械人


👉 如何利用 ChatGPT 在 Suno AI 更快創作歌詞


👉 推薦 5 個好用的文字轉語音 (TTS)  AI 工具


👉 【AI 入門】推薦 13 個適合初學者的免費 AI 課程