Speech Recognition, Now You’re Not Forever Alone Anymore!

Jansen Giovanni

Harits Muhammad

Tujuan

Tujuan diciptakan Speech Recognition adalah untuk mempermudah user dalam melakukan berbagai proses tanpa harus mengetikkan keyboard dan menggunakan mouse, hanya dengan menggunakan suara. Speech Recognition dapat berguna juga bagi orang yang berkekurangan misalkan tanpa tangan. Speech Recognition juga banyak digunakan sebagai asisten karena kita seperti berbicara kepada seseorang yang dapat membantu kita.

Tahun 1950-an dan 1960-an : Baby Talk

Sistem pengenal suara pertama yang dapat mengerti hanya digit saja. Bell laboratorium mendesain sistem “Audrey” (Automatic Digit Recognizer) yang dapat mengenali pembicaraan digit oleh suara tunggal. 10 tahun kemudian, perusahaan IBM (The International Business Machines) mendemonstrasikan mesin “ShoeBox” di pameran dunia pada tahun 1962, dimana mesin ini dapat mengerti hingga 16 kata yang diucapkan dalam bahasa Inggris.

ShoeBox Machine

Tahun 1970-an: Speech Recognition mulai lepas landas

Pada tahun inilah speech recognition mulai mengalami kemajuan besar berkat ketertarikan dan dana dari departemen pertahanan U.S (DoD). Program Speech understanding research dari departemen pertahanan DARPA, pada tahun 1971 – 1976, merupakan hal yang besar dalam sejarah penemuan pengenal suara dan sekaligus bertanggung jawab dalam sistem Carnegie Mellon “Harpy”. Harpy dapat mengerti 1011 kata, setara dengan kosakata anak usia 3 tahun.

Pada tahun 70-an juga menandai beberapa tonggak penting dalam teknologi pengenalan suara, termasuk pendirian pertama perusahaan pengenal suara komersial, Threshold Technology, seperti yang diperkenalkan oleh Bell laboratories sistem yang dapat menafsirkan suara beberapa orang.

Departemen Pertahanan DARPA

Tahun 1980-an

Selama beberapa decade kedepan, berkat pendekatan baru untuk memahami apa yang orang lain katakan, kosakata dari speech recognition bertambah dari ratusan kata menjadi ribuan kata, dan kemungkinan dapat mengenali kata-kata dalam jumlah yang tidak terbatas, hal ini juga dikarenakan metode statistik baru yang disebut sebagai metode hidden Markov.

Dengan banyaknya kata yang dikenal, speech recognition mulai dipakai untuk perusahaan industry bisnis dan industri special seperti medis. Bahkan sampai memasuki perumahan, dalam bentuk Worlds of Wonder’s Julie Doll (1987), dimana anak-anak dapat berlatih untuk menanggapi suara mereka sendiri.

Meskipun dapat mengetahui 1000 kata, seperti yang dilakukan program Kurzweil text-to-speech (1985) atau dapat mengetahui 5000 kata seperti yang dilakukan oleh sistem IBM, rintangan yang signifikan tetap ada: Program-program ini mengambil dikte diskrit, jadi anda harus … untuk … jeda … setelah … beberapa … dan … setiap … kata.

Worlds of Wonder’s Julie

Tahun 1990-an: Automatic Speech Recognition mulai menyebar

Di tahun 90-an akhirnya komputer dengan prosesor yang lebih cepat telah tiba, sehingga software speech recognition dapat lebih mudah menyebar ke masyarakat luas. Pada tahun 1990, Dragon mengeluarkan pengenal suara untuk konsumen pertama, Dragon Dictate, dengan harga yang luar biasa yaitu $9000. 7 tahun kemudian, setelah mengalami beberapa improvisasi, Dragon NaturallySpeaking akhirnya tiba. Aplikasi ini dapat mengenali suara secara terus menerus, sehingga anda dapat berbicara secara natural, sekitar 100 kata per menit. Namun, anda harus melatih program tersebut selama 45 menit, dan harganya masih tergolong mahal yaitu $695.

Portal suara pertama adalah VAL dari BellSouth pada tahun 1996. VAL merupakan sistem pengenal suara interaktif dial-in yang seharusnya memberikan informasi berdasarkan apa yang anda katakana di telepon.

Dragon NaturallySpeaking

Tahun 2000-an: Masa stabil Speech Recognition – sampai Google datang

Pada tahun 2001, komputer speech recognition dapat mencapai 80 persen tingkat keakuratannya, tetapi diakhir decade, kemajuan teknologi ini tampaknya terhenti. Sistem pengenal suara berjalan baik ketika bahasa universal terbatas, tetapi mereka masih terus “Menebak”, dengan bantuan model statistic, kata-kata yang terdengar sama dan bahasa universal yang terus berkembang sejalan dengan perkembangan internet.

Apakah kalian tahu kalau speech recognition dan voice commands telah dibuat untuk Windows Vista dan Mac OS X? kebanyakan para pengguna tidak pernah tahu kalau fitur tersebut ada.

Pada tahun 2010, Google menambahkan “Personalized Recognition” untuk pencarian suara pada telpon android, jadi software tersebut dapat mencatat pencarian dan produksi suara pengguna menjadi model suara yang lebih akurat. Google juga menambahkan Voice Search pada browser Chrome pada pertengahan 2011. Ingat bagaimana kita mulai dengan 10 sampai 100 kata, dan pada akhirnya meningkat pesat menjadi ribuan? Google English Voice Search sistem sekarang menggabungkan 230 miliar kata dari permintaan pengguna.

Dan sekarang datanglah Siri. Seperti Google Voice Search, Siri bergantung pada pengolahan berbasis cloud. Ia menggambarkan apa yang dia ketahui tentang Anda untuk menghasilkan jawaban kontekstual, dan menanggapi masukan suara Anda dengan pribadi.