OpenAI vừa công bố ba tính năng giọng nói mới trong bộ API của mình, hướng tới lập trình viên muốn xây dựng ứng dụng có khả năng trò chuyện, dịch thuật và phiên âm theo thời gian thực.
Model mới nhất mang tên GPT-Realtime-2 được thiết kế để tạo ra giọng nói tự nhiên có thể trò chuyện trực tiếp với người dùng. Điểm khác biệt so với phiên bản trước là GPT-Realtime-1.5, model này được tích hợp khả năng suy luận tương đương GPT-5, tức là xử lý được những yêu cầu phức tạp hơn, không chỉ trả lời đơn giản theo kịch bản có sẵn.
GPT-Realtime-Translate là tính năng dịch thuật theo thời gian thực, được thiết kế để bắt kịp tốc độ hội thoại tự nhiên của người dùng. Tính năng này hỗ trợ hơn 70 ngôn ngữ đầu vào, tức là các ngôn ngữ mà hệ thống có thể nghe và hiểu, và 13 ngôn ngữ đầu ra, tức là các ngôn ngữ được dịch lại cho người nghe.
GPT-Realtime-Whisper mang đến khả năng chuyển giọng nói thành văn bản ngay trong lúc cuộc trò chuyện diễn ra, không cần chờ đến khi kết thúc. Tính năng này phù hợp cho các trường hợp cần ghi lại nội dung hội thoại theo thời gian thực.
"Những model chúng tôi ra mắt lần này đưa âm thanh thời gian thực vượt qua mô hình hỏi-đáp đơn thuần, hướng tới giao diện giọng nói thực sự có thể làm việc: lắng nghe, suy luận, dịch thuật, phiên âm và thực hiện hành động trong suốt cuộc trò chuyện", OpenAI cho biết.
Doanh nghiệp muốn mở rộng khả năng hỗ trợ dịch vụ khách hàng là nhóm đối tượng rõ ràng nhất. OpenAI cũng chỉ ra rằng các tính năng mới còn phù hợp với nhiều lĩnh vực khác như giáo dục, truyền thông, sự kiện trực tiếp và các nền tảng sáng tạo nội dung.
Về nguy cơ lạm dụng, OpenAI cho biết đã tích hợp các cơ chế bảo vệ để ngăn tính năng bị sử dụng vào mục đích gửi tin rác, lừa đảo hay các hình thức lạm dụng trực tuyến khác. Hệ thống có thể tự động ngắt cuộc trò chuyện khi phát hiện nội dung vi phạm chính sách.
Cả ba model đều nằm trong bộ Realtime API của OpenAI. GPT-Realtime-Translate và GPT-Realtime-Whisper tính phí theo số phút sử dụng, trong khi GPT-Realtime-2 tính phí theo lượng token tiêu thụ.
Nguồn tin: genk.vn
Những tin mới hơn
Những tin cũ hơn
Hàn Quốc định đánh bại OpenAI, Google bằng trí tuệ nhân tạo nội địa như thế nào?
4 câu lệnh tạo ảnh profile “tuyệt đối điện ảnh” bằng Gemini AI
OpenAI vừa vá gấp lỗ hổng bảo mật nghiêm trọng trong ChatGPT
Google ra mắt mô hình AI Gemini 2.5 dùng trình duyệt như người thật
Công nghệ 5/10: Mỹ mua Grok AI của Elon Musk với giá siêu rẻ
FPT bắt tay hai công ty Mỹ đưa AI “vào guồng” trong lĩnh vực bảo hiểm và đầu tư tư nhân
FPT mở chương trình đào tạo thạc sĩ ứng dụng AI vào phân tích dữ liệu kinh doanh
AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"
Startup AI choáng váng trước bộ công cụ nhà phát triển mới của OpenAI: "Một nửa giới startup AI hiện tại sẽ bị hủy diệt"
Để mặc AI bịa đặt thông tin trong báo cáo, một hãng kiểm toán danh tiếng phải cay đắng hoàn tiền cho khách hàng