OpenAI 推出ChatGPT多模態功能，引領智慧交互新時代

OpenAI帶來了令人激動的消息，即將在ChatGPT中引入全新的語音和圖像功能，讓使用者與ChatGPT的互動更加直觀和多樣化。這一重大升級允許使用者與ChatGPT進行語音對話，同時能夠與它分享圖像內容，為互動帶來更多可能性。

這一新功能的應用領域多種多樣。例如，您可以記錄旅行中的歷史遺跡，並讓ChatGPT為您講述其背後的故事。或者，當您面臨晚餐選擇難題時，只需拍下街邊小吃店的照片，ChatGPT將幫助您決定今晚吃什麼。此外，您還可以在學習和應對各種瑣事時，拍照並使用繪圖工具指導ChatGPT，讓它為您提供解決方案。

OpenAI計畫在接下來的兩周內向Plus和Enterprise使用者推出ChatGPT的語音和圖像功能。語音功能將在iOS和Android平臺上提供，用戶只需在設置中選擇加入即可。而圖像功能將適用於所有平臺。

這一重大升級讓與ChatGPT的互動變得更加輕鬆和自然。您現在可以隨時隨地與ChatGPT進行語音對話，無論是尋找聊天夥伴，還是解決家庭內的糾紛，都可以輕鬆實現。啟用語音功能的步驟簡單明瞭，只需前往移動應用程式的“設置”→“新功能”，然後選擇加入語音對話。接下來，點擊主螢幕右上角的耳機按鈕，您可以選擇您喜歡的聲音，個性化您的交互體驗。

這一新的語音功能依賴于先進的文本轉語音模型，能夠從文本和幾秒鐘的語音樣本中生成與人類相媲美的音訊。OpenAI還與專業配音演員合作，為每個聲音創作獨特的音訊。同時，OpenAI還利用開源語音辨識系統Whisper將您的口語轉錄為文本。

對於圖像功能，您只需點擊照片按鈕來拍攝或選擇圖像，iOS和Android使用者需要點擊加號按鈕以便添加圖像。您還可以討論多個圖像，或者使用繪圖工具來引導ChatGPT完成各種任務。這一功能由多模態GPT-3.5和GPT-4提供支援，這些模型將其語言推理技能應用於各種圖像，包括照片、螢幕截圖以及包含文本和圖像的文檔。

OpenAI一直致力於構建安全和有益的AGI（人工通用智慧）。通過逐步提供這些圖像和語音功能，OpenAI有機會不斷改進和完善風險緩解措施，為未來更強大的系統做好準備。新的語音技術不僅為創意性和可訪問性應用程式帶來新的可能性，同時也強調了OpenAI對內容可信性的重視。

使用者已經開始發現ChatGPT在處理圖像內容時的有用性，這對於理解圖像內涵和解決日常問題非常有價值。

在未來的兩周內，Plus和Enterprise用戶將率先體驗這些令人興奮的語音和圖像功能。OpenAI計畫隨後將這些功能擴展到更多的用戶，包括開發者。ChatGPT的多模態功能已經為我們的生活帶來了更多便捷和樂趣，而這只是未來可能性的一個開端。