ตอบแบบกำปั้นทุบดิน ได้ว่า "ขึ้นอยู่กับความสามารถของผู้พัฒนา" ในทางปฏิบัติ ต้องศึกษาเรื่อง Thai speech to text , แล้วก็แล้ว text ไป match กับภาพเคลื่อนไหว(ซึ่งต้องเก็บเป็นฐานข้อมูลของคำ) ทางทีดีคือศึกษาความเป็นไปได้ และประเมิณความสามารถของตนเอง พร้อมทั้งค้นคว้าหาข้อมูลเพิ่มเติม