
Prof Ambuj Tewari dari University of Michigan menjelaskan asal -usul pembelajaran penguatan dan mengapa itu sangat berharga dalam penelitian dan pengembangan AI.
Memahami kecerdasan dan menciptakan mesin cerdas adalah tantangan ilmiah besar di zaman kita. Kemampuan untuk belajar dari pengalaman adalah landasan kecerdasan bagi mesin dan makhluk hidup.
Dalam laporan tahun 1948 yang sangat prescient, Alan Turing – bapak ilmu komputer modern – mengusulkan pembangunan mesin yang menampilkan perilaku cerdas. Dia juga membahas “pendidikan” dari mesin -mesin semacam itu “dengan cara penghargaan dan hukuman”.
Gagasan Turing pada akhirnya mengarah pada pengembangan pembelajaran penguatan, cabang kecerdasan buatan (AI). Pembelajaran Penguatan Desain Agen Cerdas dengan melatih mereka untuk memaksimalkan imbalan saat mereka berinteraksi dengan lingkungan mereka.
Sebagai peneliti pembelajaran mesin, saya merasa pantas bahwa pelopor pembelajaran penguatan Andrew Barto dan Richard Sutton dianugerahi penghargaan ACM Turing 2024.
Apa itu Pembelajaran Penguatan?
Pelatih hewan tahu bahwa perilaku hewan dapat dipengaruhi oleh perilaku yang diinginkan. Seorang pelatih anjing memberi anjing hadiah saat melakukan trik dengan benar. Ini memperkuat perilaku, dan anjing lebih cenderung melakukan trik dengan benar di waktu berikutnya. Pembelajaran penguatan meminjam wawasan ini dari psikologi hewan.
Tetapi pembelajaran penguatan adalah tentang melatih agen komputasi, bukan hewan. Agen dapat menjadi agen perangkat lunak seperti program bermain catur. Tetapi agen juga bisa menjadi entitas yang diwujudkan seperti robot yang belajar melakukan pekerjaan rumah tangga. Demikian pula, lingkungan agen bisa menjadi virtual, seperti papan catur atau dunia yang dirancang dalam video game. Tapi itu juga bisa menjadi rumah tempat robot bekerja.
Sama seperti hewan, agen dapat memahami aspek lingkungannya dan mengambil tindakan. Agen bermain catur dapat mengakses konfigurasi papan catur dan bergerak. Sebuah robot dapat merasakan lingkungannya dengan kamera dan mikrofon. Ini dapat menggunakan motornya untuk bergerak di dunia fisik.
Agen juga memiliki tujuan yang menjadi program perancang manusia mereka. Tujuan agen bermain catur adalah memenangkan pertandingan. Tujuan robot mungkin untuk membantu pemilik manusianya dengan pekerjaan rumah tangga.
Masalah pembelajaran penguatan di AI adalah bagaimana merancang agen yang mencapai tujuan mereka dengan memahami dan bertindak di lingkungan mereka. Pembelajaran penguatan membuat klaim berani: Semua tujuan dapat dicapai dengan merancang sinyal numerik, yang disebut hadiah, dan meminta agen memaksimalkan jumlah total hadiah yang diterimanya.
Para peneliti tidak tahu apakah klaim ini sebenarnya benar, karena berbagai tujuan yang mungkin. Oleh karena itu, ini sering disebut sebagai hipotesis hadiah.
Terkadang mudah untuk memilih sinyal hadiah yang sesuai dengan tujuan. Untuk agen bermain catur, hadiahnya bisa +1 untuk menang, 0 untuk undian, dan -1 untuk kekalahan. Kurang jelas bagaimana merancang sinyal hadiah untuk asisten robot rumah tangga yang membantu. Namun demikian, daftar aplikasi di mana peneliti pembelajaran penguatan telah mampu merancang sinyal hadiah yang baik sedang tumbuh.
Keberhasilan besar pembelajaran penguatan adalah dalam permainan papan pergi. Para peneliti berpikir bahwa Go jauh lebih sulit daripada catur untuk dikuasai mesin. Perusahaan DeepMind, sekarang Google DeepMind, menggunakan penguatan penguatan untuk membuat Alphago. Alphago mengalahkan pemain Top Go Lee Sedol dalam pertandingan lima pertandingan di tahun 2016.
Contoh yang lebih baru adalah penggunaan penguatan penguatan untuk membuat chatbots seperti chatgpt lebih bermanfaat. Pembelajaran penguatan juga digunakan untuk meningkatkan kemampuan penalaran chatbots.
Asal -usul Pembelajaran Penguatan
Namun, tidak satu pun dari keberhasilan ini yang dapat diramalkan pada 1980 -an. Saat itulah Barto dan mahasiswa-PHD-nya Sutton kemudian mengusulkan pembelajaran penguatan sebagai kerangka pemecahan masalah umum.
Mereka mendapat inspirasi tidak hanya dari psikologi hewan tetapi juga dari bidang teori kontrol, penggunaan umpan balik untuk mempengaruhi perilaku sistem, dan optimasi, cabang matematika yang mempelajari cara memilih pilihan terbaik di antara berbagai opsi yang tersedia.
Mereka memberi komunitas riset dengan dasar matematika yang telah teruji oleh waktu. Mereka juga menciptakan algoritma yang kini telah menjadi alat standar di lapangan.
Ini adalah keuntungan yang jarang bagi bidang ketika para perintis meluangkan waktu untuk menulis buku teks. Contoh -contoh yang bersinar seperti sifat ikatan kimia oleh Linus Pauling dan seni pemrograman komputer oleh Donald E Knuth berkesan karena sedikit dan jarang. Pembelajaran Penguatan Sutton dan Barto: Pengantar pertama kali diterbitkan pada tahun 1998. Edisi kedua keluar pada tahun 2018. Buku mereka telah memengaruhi generasi peneliti dan telah dikutip lebih dari 75.000 kali.
Pembelajaran penguatan juga memiliki dampak yang tidak terduga pada ilmu saraf. Dopamin neurotransmitter memainkan peran kunci dalam perilaku yang digerakkan oleh hadiah pada manusia dan hewan. Para peneliti telah menggunakan algoritma spesifik yang dikembangkan dalam pembelajaran penguatan untuk menjelaskan temuan eksperimental pada sistem dopamin manusia dan hewan.
Pekerjaan dasar, visi, dan advokasi Barto dan Sutton telah membantu pembelajaran penguatan tumbuh. Pekerjaan mereka telah menginspirasi sejumlah besar penelitian, berdampak pada aplikasi dunia nyata dan menarik investasi besar oleh perusahaan teknologi.
Peneliti pembelajaran penguatan, saya yakin, akan terus melihat lebih jauh ke depan dengan berdiri di pundak mereka.
Oleh Prof Ambuj Tewari
Ambuj Tewari adalah profesor statistik di University of Michigan. Bidang penelitian utamanya dalam pembelajaran mesin. Kelompok penelitiannya berfokus pada analisis teoritis yang ketat dari model dan algoritma pembelajaran mesin. Ini juga bekerja pada aplikasi dunia nyata yang menantang dari pembelajaran mesin, terutama dalam kimia dan psikiatri.
Jangan lewatkan pengetahuan yang Anda butuhkan untuk berhasil. Daftar untuk Singkat HarianPencernaan Silicon Republic tentang Need-to-Know Sci-Tech News.