AI時代

Anthropic Claude 3.5 Sonnet 推出,GPT-4o 最強對手?

Anthropic 宣布推出 Claude 3.5 Sonnet,是即將發布的 Claude 3.5 模型系列中的首款產品。Claude 3.5 Sonnet 提升行業標準,超越了 Claude 3 Opus,在多項評估中表現出色,同時保持中階模型 Claude 3 Sonnet 的速度和相對低成本。

Anthropic Claude 3.5 Sonnet 核心技術特點

高效智慧

Claude 3.5 Sonnet 在研究生級別的推理(GPQA)、本科級別知識(MMLU)和編碼能力(HumanEval)方面設立了新行業基準。它在理解細微差別、幽默和複雜指令方面顯著提高,並且能夠以自然、親和的語調創作高質量內容。其運行速度是 Claude 3 Opus 的兩倍,這種性能提升結合具成本效益的定價,使其成為處理複雜任務(如上下文敏感的客戶支持和多步驟工作流程協調)的理想選擇。

程式編寫能力

在內部代理編碼評估中,Claude 3.5 Sonnet 解決了 64% 的問題,遠超 Claude 3 Opus 的 38%。該評估測試模型在給定自然語言描述的情況下,修復開源代碼庫中的錯誤或增加功能的能力。當指導並提供相關工具時,Claude 3.5 Sonnet 能夠獨立編寫、編輯和執行代碼,具備高級推理和故障排除能力。它輕鬆處理代碼轉換,特別適合更新遺留應用和遷移代碼庫。

視覺處理

Claude 3.5 Sonnet 是目前最強大的視覺模型,超越了 Claude 3 Opus 的標準視覺基準。在需要視覺推理的任務中,這些改進尤為顯著,如解讀圖表和圖形。Claude 3.5 Sonnet 還能準確轉錄不完美圖像中的文本,這對於零售、物流和金融服務等行業尤為重要,因為 AI 從圖像、圖形或插圖中獲取的見解往往比僅從文本中更多。

Artifacts 功能

今天,我們還在 Claude.ai 上推出了 Artifacts 這一新功能,擴展了用戶與 Claude 互動的方式。當用戶要求 Claude 生成代碼片段、文本文件或網站設計時,這些 Artifacts 會出現在對話窗口旁邊,創建了一個動態工作空間,用戶可以即時查看、編輯和構建 Claude 的創作,無縫整合 AI 生成的內容到他們的項目和工作流程中。

安全與隱私

我們的模型經過嚴格測試,旨在減少誤用。儘管 Claude 3.5 Sonnet 在智慧上取得了飛躍,我們的紅隊評估結果表明,Claude 3.5 Sonnet 仍維持在 ASL-2 級別。我們與外部專家合作,測試和改進這一最新模型的安全機制。最近,我們將 Claude 3.5 Sonnet 提供給英國人工智慧安全研究所(UK AISI)進行預部署安全評估。UK AISI 完成了對 3.5 Sonnet 的測試,並將結果分享給美國人工智慧安全研究所(US AISI),這是今年早些時候宣布的美英 AISI 合作備忘錄的一部分。

我們根據外部主題專家的政策反饋,確保評估的穩健性並考慮到濫用的新趨勢。例如,我們根據 Thorn 的兒童安全專家反饋,更新了分類器並微調了模型。

即將推出的功能

我們的目標是每隔幾個月大幅改善智慧、速度和成本之間的平衡。為了完成 Claude 3.5 模型系列,我們將在今年晚些時候發布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了開發下一代模型系列外,我們還在開發新模態和功能,以支持更多的業務用例,包括與企業應用的集成。我們的團隊也在探索記憶(Memory)功能,這將使 Claude 能夠記住用戶的偏好和互動歷史,使其體驗更加個性化和高效。

我們不斷改進 Claude,並樂於聽取用戶的反饋。您可以在產品中直接提交對 Claude 3.5 Sonnet 的反饋,幫助我們改進開發路線圖並提升您的使用體驗。我們期待看到您使用 Claude 所創建、發現和實現的一切。

參考來源:https://www.anthropic.com/news/claude-3-5-sonnet?utm_source=www.therundown.ai&utm_medium=newsletter&utm_campaign=anthropic-s-new-llm-takes-on-gpt-4o

TechApple.com 編輯部

堅持製作專業科技內容,全員擁有多種不同技術知識的特異科技媒體團隊。 電郵:editor@techapple.com