Bot yang menonton Minecraft selama 70.000 jam mungkin akan merilis bahan penting berikutnya dari AI

Bot yang menonton Minecraft selama 70.000 jam mungkin akan merilis bahan penting berikutnya dari AI

Video online adalah sumber pengetahuan pelatihan yang sangat besar dan belum dimanfaatkan — dan OpenAI mengatakan ia memiliki cara unik untuk menggunakannya.

Minedojo

OpenAI telah membuat bot yang cocok untuk bermain Minecraft dengan menampilkan 70.000 jam video anggota yang memainkan game komputer populer. Ini menampilkan teknik unik yang kuat yang mungkin bertujuan untuk mempersiapkan mesin untuk melakukan berbagai tanggung jawab penting dengan mengunjungi situs-situs seperti YouTube, sumber pengetahuan pelatihan yang sangat besar dan belum dimanfaatkan.

Minecraft AI menyadari untuk melakukan urutan rumit dari klik keyboard dan mouse untuk menyelesaikan tanggung jawab dalam game, seperti menebang pohon dan membuat alat. Ini adalah bot pertama yang dapat membuat apa yang disebut instrumen berlian, sebuah tugas yang biasanya membutuhkan waktu 20 menit untuk mengklik dengan tempo tinggi dari gamer manusia yang jujur—atau sekitar 24.000 tindakan.

Hasilnya adalah sebuah terobosan untuk sebuah metodologi bernama pembelajaran imitasi, di mana jaringan saraf dididik untuk menjalankan tanggung jawab dengan melihat anggota membangunnya. Pembelajaran imitasi juga cenderung mempersiapkan AI untuk mengatur tangan robot, mengendarai kendaraan, atau menavigasi situs web.

Mungkin ada banyak sekali video online yang menunjukkan anggota melakukan berbagai tanggung jawab. Dengan memanfaatkan sumber daya ini, para peneliti berharap untuk membangun pembelajaran imitasi seperti yang dilakukan GPT-3 untuk model bahasa kolosal. “Dalam beberapa tahun terakhir kami telah melihat dorongan ke atas dari paradigma GPT-3 ini di mana kami melihat jangkauan kemampuan luar biasa dari model-model terkemuka yang dididik pada petak-petak besar,” kata Bowen Baker di OpenAI, salah satu tenaga kerja dalam bantuan bot Minecraft asli. “Sebagian besar dari itu karena kami mencontohkan apa yang dibuat anggota setelah mereka mengejar penjelajahan.”

Kerumitan dengan pendekatan pembelajaran imitasi yang ada adalah bahwa demonstrasi video akan diberi label pada setiap langkah: melakukan tindakan ini membuat ini terjadi, melakukan tindakan itu membuat itu terjadi, dan memuat lainnya. Membuat anotasi dengan tangan dalam jenis ini adalah pekerjaan yang bagus, dan kumpulan pengetahuan seperti itu tampaknya sedikit. Baker dan rekan-rekannya ingin menemukan kemampuan untuk mengubah jutaan video yang dapat ditemukan secara online menjadi kumpulan pengetahuan unik.

Kemampuan tenaga kerja, yang disebut Video Pre-Training (VPT), ​​mengatasi kemacetan dalam pembelajaran imitasi dengan melatih satu lagi komunitas saraf untuk membuat model video secara otomatis. Para peneliti pertama-tama mempekerjakan crowdworker untuk memainkan Minecraft, dan merekam klik keyboard dan mouse mereka di samping video dari layar mereka. Ini memberi mereka 2.000 jam permainan Minecraft beranotasi, yang mereka cenderung untuk menyiapkan model untuk mencocokkan tindakan dengan hasil di layar. Mengklik tombol mouse dengan upaya tertentu membuat karakter mengayunkan kapaknya, misalnya.

HOT 🔥  Peringatan Starlink bahkan akan direkayasa ulang untuk bekerja seperti GPS — apakah SpaceX suka atau tidak lagi

Langkah selanjutnya adalah menggunakan model ini untuk membuat label tindakan untuk 70.000 jam video tanpa label yang diambil dari tangkapan dan kemudian menyiapkan bot Minecraft pada kumpulan data yang lebih baik ini.

“Video adalah sumber pelatihan dengan banyak kemungkinan,” kata Peter Stone, direktur eksekutif Sony AI Amerika Serikat, yang sebelumnya bekerja pada pembelajaran imitasi.

Pembelajaran imitasi adalah pilihan alternatif untuk pembelajaran penguatan, di mana komunitas saraf belajar untuk melaksanakan tugas dari awal melalui trial and error. Inilah strategi yang didukung oleh banyak terobosan AI tertinggi dalam beberapa tahun terakhir. Itu telah cenderung untuk mempersiapkan model yang dapat mengalahkan anggota dalam permainan, menyesuaikan reaktor fusi, dan melihat cara yang lebih cepat untuk membangun matematika utama.

Kesulitannya adalah bahwa pembelajaran penguatan bekerja paling baik untuk tanggung jawab yang mendapatkan tujuan yang jelas, tindakan acak yang dilakukan dapat menghasilkan kesuksesan yang tidak disengaja. Algoritme pembelajaran penguatan menghargai keberhasilan yang tidak disengaja itu untuk membuatnya lebih mungkin terjadi lagi.

Tapi Minecraft adalah game tanpa tujuan tertentu. Pemain bebas membangun apa yang mereka sukai: mengembara di dunia yang dihasilkan komputer, menambang berbagai hadiah, dan menggabungkannya untuk membuat berbagai objek.

Akhir kelahiran Minecraft menjadikannya suasana yang baik untuk melatih AI. Baker berubah menjadi salah satu peneliti dengan bantuan Screen & Seek, sebuah proyek di mana bot dilepaskan di taman bermain virtual yang mendorong pembelajaran penguatan untuk menentukan bagaimana kemungkinan Anda dapat bekerja sama dan menggunakan alat. untuk mengambil game sederhana. Namun bot dengan cepat tumbuh lebih besar dari lingkungannya. Bentuk broker mengambil alih alam semesta; tidak ada lagi yang bisa mereka bangun, ”kata Baker. “Kami ingin memperbesarnya, dan kami yakin Minecraft berubah menjadi domain besar untuk digunakan.”

Mereka tidak lagi sendiri. Minecraft menjadi testbed yang diperlukan untuk cara AI yang unik. MineDojo, suasana Minecraft dengan lusinan tantangan yang dirancang sebelumnya, memenangkan penghargaan di NeurIPS 365 hari ini, salah satu konferensi AI tertinggi.

Penggunaan VPT, bot OpenAI diubah menjadi bidang untuk melakukan tugas yang paling tidak akan menggunakan pembelajaran penguatan sendiri, seperti membuat papan dan mengubahnya langsung menjadi meja, yang memerlukan sekitar 970 tindakan berturut-turut . Meski begitu, tenaga kerja menemukan bahwa hasil yang tepat berasal dari penggunaan pembelajaran imitasi dan pembelajaran penguatan secara kolektif. Mengambil bot yang dilatih dengan VPT dan menyempurnakannya dengan pembelajaran penguatan memungkinkannya melakukan tugas yang menarik lebih dari 20.000 tindakan berturut-turut.

HOT 🔥  Dapatkan: pembayaran telapak tangan Tencent, dan jejak karbon AI

Para peneliti mengklaim bahwa kemampuan mereka mungkin secara objektif cenderung mempersiapkan AI untuk melaksanakan tanggung jawab lain. Sebagai permulaan, mungkin akan cenderung untuk bot yang menggunakan keyboard dan mouse untuk menavigasi situs web, memesan penerbangan, atau membeli bahan makanan secara online. Tetapi dalam pemahaman itu mungkin tujuan cenderung untuk melatih robot untuk melakukan tanggung jawab fisik, dunia nyata dengan menyalin video orang pertama dari anggota yang melakukan hal-hal itu. “Itu masuk akal,” kata Stone.

Matthew Guzdial dari University of Alberta di Kanada, yang telah mencondongkan video untuk melatih AI sesuai aturan permainan seperti Spacious Mario Bros., tidak menilai hal itu mungkin terjadi kapan saja dengan cepat, sebagai gantinya. Aksi dalam game seperti Minecraft dan Spacious Mario Bros. dilakukan dengan tombol tekan. Tindakan di dunia fisik jauh lebih rumit dan lebih sulit untuk dipelajari oleh mesin. “Ini membuka seluruh kekacauan dari sebagian besar masalah pembelajaran kontemporer,” kata Guzdial.

“Pekerjaan ini adalah bukti lain dari vitalitas peningkatan model dan pembinaan pada kumpulan pengetahuan besar untuk mendapatkan efisiensi yang jujur,” kata Natasha Jaques, yang bekerja pada pembelajaran penguatan multi-agen di Google dan College of California, Berkeley.

Kumpulan pengetahuan berukuran web yang rapi tidak diragukan lagi akan merilis kemampuan unik untuk AI, kata Jaques: “Kami telah melihatnya berulang kali, dan ini adalah kemampuan yang sangat besar.” Tapi OpenAI menempatkan banyak kepercayaan pada vitalitas data kolosal yang saya buat sendiri, dia berkata: “Secara pribadi, saya sedikit lebih skeptis bahwa pengetahuan dapat menyelesaikan upaya apa pun.”

Damai, Baker dan rekan-rekannya menilai bahwa mengumpulkan lebih dari 1.000.000 jam video Minecraft akan membuat AI mereka lebih baik. Ini mungkin bot yang cocok untuk bermain Minecraft, kata Baker: “Tetapi dengan lebih banyak pengetahuan dan model yang lebih baik, saya akan mengajukan pertanyaan untuk merasa menghargai Anda menonton manusia bermain game, daripada bayi AI yang ingin meniru manusia.”

Cakupan Asli

Baca juga

Abaikan bayi desainer.  Inilah cara CRISPR mengubah sebagian besar kehidupan

Abaikan bayi desainer. Inilah cara CRISPR mengubah sebagian besar kehidupan

Abaikan He Jiankui, ilmuwan bahasa China yang menciptakan bayi yang diedit gennya. Sebagai tambahan, meskipun …

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *