Dongeng internal tentang bagaimana ChatGPT dibangun dari kami yang membuatnya

Dongeng internal tentang bagaimana ChatGPT dibangun dari kami yang membuatnya

Saat OpenAI meluncurkan ChatGPT, tanpa gembar-gembor, pada akhir November 2022, perusahaan kecerdasan buatan yang berbasis di San Francisco hanya memiliki sedikit harapan. Sama sekali, tidak ada OpenAI internal yang siap untuk mega-hit viral. Agensi telah berusaha keras untuk bangkit — dan memanfaatkan kesuksesannya — sejak saat itu.

Itu dulu dilihat di rumah sebagai “pratinjau studi,” kata Sandhini Agarwal, yang bekerja pada perlindungan di OpenAI: menggoda versi yang lebih halus dari teknologi yang dipakai dua tahun dan, yang lebih penting, upaya untuk menyetrika beberapa kekurangannya dengan mengumpulkan saran dari masyarakat umum. “Kami tidak ingin menjualnya secara berlebihan sebagai penemuan klasik yang menggunung,” kata Liam Fedus, seorang ilmuwan di OpenAI yang bekerja di ChatGPT.

Untuk mengamankan dongeng dalam kelegaan chatbot — bagaimana itu dibuat, bagaimana OpenAI telah memperbaruinya sejak diluncurkan, dan bagaimana pendapat pembuatnya tentang keberhasilannya — saya berbicara dengan empat dari kami yang membantu menciptakan apa tidak diragukan lagi telah menjadi salah satu aplikasi web paling trendi yang pernah ada. Selain kepada Agarwal dan Fedus, saya berbicara dengan John Schulman, salah satu pendiri OpenAI, dan Jan Leike, kepala kru penyelarasan OpenAI, yang bekerja untuk mengembangkan AI mencapai apa yang diinginkan pelanggannya (dan tidak lebih) .

Apa yang saya dapatkan adalah perasaan bahwa OpenAI bingung dengan keberhasilan pratinjau studinya, tetapi telah mengambil kesempatan untuk mendorong teknologi ini ke depan, melihat bagaimana ribuan dan ribuan dari kita menggunakannya dan mencoba untuk memperbaiki komplikasi terburuk saat mereka mencapainya.

Sejak November, OpenAI telah memperbarui beberapa kasus ChatGPT. Para peneliti menggunakan alat yang dikenal sebagai adversarial coaching untuk mengakhiri ChatGPT agar tidak membiarkan pelanggan menipunya agar berperilaku buruk (disebut jailbreaking). Pekerjaan ini mengadu lebih dari satu chatbot dengan setiap jenis: satu chatbot menjalankan musuh dan menyerang chatbot lain dengan membuat materi gumaman tekstual untuk memaksanya melawan batasan anehnya dan mencapai respons yang tidak diinginkan. Serangan sukses ditambahkan ke catatan pelatihan ChatGPT dengan harapan dapat belajar untuk memisahkannya.

OpenAI juga telah menandatangani alamat bernilai miliaran dolar Microsoft dan mengumumkan aliansi dengan Bain, sebuah agen konsultasi manajemen global, yang berencana untuk menggunakan model AI generatif OpenAI dalam kampanye pemasaran untuk kliennya, bersama dengan Coca-Cola. Berasal dari OpenAI, desas-desus tentang ChatGPT telah memicu hiruk-pikuk emas lain di sekitar mode bahasa yang teratur, dengan perusahaan dan pelanggan di seluruh dunia ikut serta.

Itu banyak hype dalam tiga bulan puasa. Dari mana asal ChatGPT? Langkah-langkah apa yang dirampok OpenAI untuk memastikannya dapat diluncurkan? Dan kemana mereka akan pergi selanjutnya?

Berikut ini telah diedit untuk ukuran dan keterbacaan.

Jan Leike: Sungguh luar biasa, sebenarnya. Kami telah terpesona, dan kami telah mencoba untuk bangkit.

John Schulman: Saya cukup sering memeriksa Twitter pada hari-hari setelah peluncuran, dan dulu ada interval gila di mana umpan biasanya diisi dengan tangkapan layar ChatGPT. Saya mengharapkannya intuitif bagi kita, dan saya mengharapkannya untuk menghadirkan pengikut, tetapi saya tidak mengujinya untuk mencapai tingkat pengakuan arus utama ini.

Sandhini Agarwal: Saya pikir itu benar-benar kejutan bagi kita semua betapa banyak dari kita mulai menggunakannya. Kami sering mengerjakan model ini, kami lupa betapa mengejutkannya model tersebut untuk dunia peluncuran udara hampir setiap saat.

Iman Liam: Kami benar-benar terpesona dengan seberapa efektif hal itu diperoleh. Ada begitu banyak percobaan sebelumnya di chatbot yang jujur ​​​​sepenuhnya sehingga saya tahu peluangnya ditumpuk melawan kami. Meskipun demikian, versi beta kami yang terdalam telah memberi kami jaminan bahwa kami memiliki sesuatu yang orang-orang pasti dapat menikmatinya dengan aman.

Jan Leike: Saya akan senang untuk lebih memahami apa yang mendorong semua ini—apa yang mendorong viralitas. Nikmati, sebenarnya, kami tidak mengerti. Kami tidak tahu.

Fase kebingungan kru berasal dari fakta bahwa hampir semua teknologi internal ChatGPT tidak segar. ChatGPT adalah versi GPT-3.5 yang disetel sedang, keluarga model bahasa teratur yang diluncurkan OpenAI beberapa bulan sebelum chatbot. GPT-3.5 sendiri merupakan versi terbaru dari GPT-3, yang muncul pada tahun 2020. Perusahaan membuat model ini dapat diakses di tempat tinggal webnya sebagai antarmuka pemrograman aplikasi, atau API, yang memudahkan pembuat alat yang berbeda untuk bergegas model ke kode pegangan mereka. OpenAI juga meluncurkan versi lama GPT-3.5 yang disetel dengan indah, yang dikenal sebagai InstructGPT, pada Januari 2022. Tetapi tidak satu pun dari variasi teknologi lama ini yang diluncurkan ke masyarakat umum.

Iman Liam: Model ChatGPT disesuaikan dengan indah dari model bahasa yang sama dengan InstructGPT, dan kami mengungguli metodologi yang sama untuk menyempurnakannya. Kami telah menambahkan beberapa catatan percakapan dan sedikit menyetel kursus pelatihan. Jadi kami tidak ingin menjualnya secara berlebihan sebagai penemuan tradisional yang menggunung. Seiring perkembangannya, data rekaman percakapan memiliki pengaruh yang sangat besar pada ChatGPT.

John Schulman: Kemampuan teknis mentah, seperti yang dinilai oleh tolok ukur aneh, tidak diragukan lagi sangat bervariasi di antara model, tetapi ChatGPT lebih mudah diakses dan bermanfaat.

Jan Leike: Di satu sisi, kemungkinan besar Anda akan berada dalam situasi untuk memahami ChatGPT sebagai versi mesin AI yang kami miliki untuk sementara waktu. Ini bukan lagi model yang secara fundamental lebih sukses daripada yang kami miliki sebelumnya. Model standar yang sama telah tersedia di API selama hampir setahun sebelum ChatGPT keluar. Dalam arti lain, kami membuatnya lebih selaras dengan apa yang ingin dicapai manusia dengannya. Itu berbicara kepada Anda dalam dialog, itu tanpa mengungkapkan dapat diakses di antarmuka obrolan, itu mencoba menjadi sangat berharga. Itu di luar pertumbuhan biasa, dan saya menengahi itulah yang kita sadari.

HOT 🔥  Mahkamah Agung dapat meninjau secara tidak berprasangka bagaimana Anda tetap online

John Schulman: Itu lebih mudah menyimpulkan niat. Dan pelanggan dapat aman untuk apa yang mereka butuhkan dengan pergi.

ChatGPT dulu ahli dalam jangkauan yang pasti identik dengan InstructGPT, penggunaan alat yang dikenal sebagai pembelajaran penguatan dari saran manusia (RLHF). Itulah saus rahasia ChatGPT. Ide umumnya adalah merampok model bahasa yang teratur dengan kecenderungan untuk mengeluarkan relaksasi yang diinginkannya—dalam hal ini, GPT-3.5—dan menyetelnya dengan menginstruksikan respons seperti apa yang pasti diputuskan oleh pengguna manusia.

Jan Leike: Kami memiliki lingkungan yang teratur dari kami yang diajari prompt dan tanggapan ChatGPT, dan kemudian menjelaskan jika satu tanggapan lebih disukai daripada satu tanggapan lagi. Semua data catatan ini kemudian digabungkan menjadi satu dorongan pembinaan. Yang perlu diperhatikan adalah hal yang kurang lebih sama seperti yang kami lakukan dengan InstructGPT. Anda ingin menganggapnya tak ternilai, Anda ingin itu jujur, Anda ingin itu—Anda tahu—tidak beracun. Dan kemudian ada hal-hal yang eksplisit untuk membuat dialog dan menjadi asisten: hal-hal yang menyenangkan, jika permintaan pengguna tidak ditentukan, itu mungkin akan mengajukan pertanyaan aplikasi. Itu juga akan memberikan penjelasan bahwa itu adalah mesin AI. Itu tidak akan lagi menjelaskan identitas yang tidak ditemukannya, seharusnya tidak bergumam untuk menemukan keterampilan yang bukan miliknya, dan ketika pengguna memintanya untuk mencapai inisiatif yang seharusnya tidak lagi dicapai, itu harus mencatat menurunkan pesan penolakan. Salah satu baris yang muncul dalam pelatihan ini adalah “Sebagai pakar model bahasa oleh OpenAI …” Itu tidak secara eksplisit ditempatkan di sana, tetapi tidak diragukan lagi itu adalah salah satu hal yang paling banyak diberi peringkat oleh penilai manusia.

Sandhini Agarwal: Ya, saya menengahi itulah yang terjadi. Dulu ada daftar banyak kriteria yang dibutuhkan penilai manusia untuk membuat model di bawah standar, senanglah dengan kejujuran. Tetapi selain itu mereka mulai menyukai hal-hal yang mereka anggap sebagai perselisihan yang benar, senang tidak lagi berpura-pura menjadi sesuatu yang bukan Anda lagi.

Karena ChatGPT telah dibangun menggunakan ide-ide yang sama yang telah ketinggalan zaman OpenAI sebelumnya, tim tidak lagi mencapai berbagai macam istirahat ketika bersiap untuk meluncurkan versi ini ke publik. Mereka merasa bar yang mereka teriakkan untuk mode lama dulunya cukup.

Sandhini Agarwal: Setelah kami mempersiapkan peluncuran, kami tidak menjadikan model ini sebagai ancaman yang benar-benar baru. GPT-3.5 telah tersedia di pasaran di planet ini, dan kita semua tahu bahwa itu sudah cukup aman. Dan melalui pelatihan ChatGPT tentang preferensi manusia, model tersebut secara otomatis mempelajari perilaku penolakan, di mana ia menolak banyak permintaan.

Jan Leike: Kami mendapatkan beberapa “tim merah” tambahan untuk ChatGPT, di mana semua orang di OpenAI duduk dan mencoba merusak modelnya. Dan kami memiliki kelompok eksternal yang melakukan hal yang kurang lebih sama. Kami juga memiliki akses awal yang aman ke program dengan pelanggan tepercaya, yang memberikan saran.

Sandhini Agarwal: Kami memastikan bahwa itu menghasilkan keluaran yang tidak diinginkan, tetapi itu semua adalah hal-hal yang juga dihasilkan oleh GPT-3.5. Jadi ketika datang ke ancaman, sebagai pratinjau studi — karena itulah yang dimaksudkan pada awalnya — rasanya luar biasa.

John Schulman: Bahwa kemungkinan besar Anda tidak akan menunggu kecuali mesin Anda cocok untuk meluncurkannya. Kami telah menguji beta variasi sebelumnya selama beberapa bulan, dan penguji beta memiliki kesan tertentu terhadap produk tersebut. Penderitaan kami yang paling menarik perhatian adalah seputar faktualitas, karena model suka membuat sesuatu. Tetapi InstructGPT dan berbagai model bahasa yang teratur sudah tersedia di pasaran, jadi kami berpikir bahwa selama ChatGPT lebih baik daripada yang terkait dengan fakta dan berbagai komplikasi dengan keamanan, itu akan tepat untuk dijalankan. Lama untuk dirilis, kami mengonfirmasi bahwa model tersebut tampaknya sedikit lebih cocok dan aman daripada model lainnya, menurut ulasan terbatas kami, jadi kami memutuskan untuk segera meluncurkannya.

OpenAI telah mencari tahu bagaimana kita menggunakan ChatGPT sejak diluncurkan, melihat untuk pertama kalinya bagaimana model bahasa yang teratur bekerja ketika ditempatkan di telapak tangan puluhan ribu dan ribuan pelanggan yang akan melakukan pencarian untuk menguji batas dan keamanannya. kekurangannya. Para kru telah mencoba melompat ke kemungkinan contoh paling bermasalah dari apa yang dapat dicapai oleh ChatGPT—dari lagu-lagu tentang keridhoan Tuhan bagi para pendeta pemerkosa ke kode malware yang mencuri nomor kartu bank—dan menerapkannya untuk mengendalikan variasi model di masa mendatang.

Sandhini Agarwal: Sekarang kami menemukan banyak langkah selanjutnya. Saya secara positif menengahi bagaimana viralnya ChatGPT telah membuat banyak gangguan yang kami tahu pasti ada meluap dan berubah menjadi parah — hal-hal yang ingin kami selesaikan segera setelah Anda berada dalam situasi untuk menengahi. Mewah, kita semua tahu modelnya tenang sangat bias. Dan ya, ChatGPT sangat tepat dalam menolak permintaan busuk, tetapi juga cukup mudah untuk mencatat petunjuk yang membuatnya tidak lagi menolak apa yang ingin kami tolak.

HOT 🔥  Penyakit aneh yang ditularkan melalui kutu sedang membunuh ternak di AS

Iman Liam: Sangat menyenangkan untuk memverifikasi fitur yang banyak dan cerdik dari pelanggan, tetapi kami terus-menerus fokus pada area untuk diperkuat. Kami menengahi hal itu melalui proses berulang di mana kami menerapkan, mengamankan saran, dan menyempurnakan, kami dapat mencapai teknologi yang paling selaras dan berhasil. Seiring perkembangan teknologi kita, gangguan baru pasti muncul.

Sandhini Agarwal: Dalam minggu-minggu setelah peluncuran, kami muncul di beberapa contoh paling menakutkan yang kebetulan dialami orang-orang, hal terburuk yang kami lihat di alam liar. Kami kurang lebih menilai masing-masing dari mereka dan berbicara tentang bagaimana kami dapat belajar untuk memperbaikinya.

Jan Leike: Dalam banyak kasus, itu adalah sesuatu yang sudah lama menjadi viral di Twitter, tetapi sekarang kami menemukan beberapa dari kita yang pada dasarnya diam saja. ly.

Sandhini Agarwal: Banyak hal yang kami alami adalah jailbreak, yang tidak diragukan lagi merupakan penderitaan yang sekarang kami temukan harus diperbaiki. Tetapi karena pelanggan menemukan untuk merampok pencarian pada formula akurat yang berbelit-belit ini untuk mengamankan model untuk membocorkan sesuatu yang busuk, tidak senang ini dulunya adalah sesuatu yang benar-benar kami lewatkan, atau sesuatu yang dulunya menjadi sangat mengejutkan bagi kami. Damai, itu sesuatu yang sedang kami kerjakan secara aktif saat ini. Setelah kami mengamankan jailbreak, kami menambahkannya ke pelatihan dan memeriksa data catatan kami. Data total catatan yang kami lihat menjadi umpan ke model mendatang.

Jan Leike:Saat kami menemukan model yang lebih besar, kami ingin mengeluarkannya dan mengujinya. Kami sangat optimis bahwa beberapa pelatihan permusuhan terpusat dapat memperkuat pengungkapan dengan melakukan jailbreak cukup banyak. Tidak ditentukan apakah komplikasi ini akan hilang dengan sendirinya, tetapi kami pikir kami dapat membuat sebagian besar dari jailbreaking menjadi lebih sulit. Sekali lagi, tidak menyenangkan kami tidak tahu bahwa jailbreaking adalah bahwa Anda akan berada dalam posisi untuk mediasi sebelum peluncuran. Saya rasa sangat sulit untuk tanpa ragu mengandalkan apa komplikasi keamanan kategoris yang akan terjadi dengan metode ini jika Anda telah menerapkannya. Jadi kami menempatkan banyak penekanan pada pemantauan untuk apa kami menggunakan mesin, melihat apa yang terjadi, dan kemudian bereaksi terhadapnya. Itu tidak lagi untuk membocorkan bahwa kita tidak boleh secara proaktif mengurangi masalah keamanan ketika kita dapat mempercayainya. Tapi ya, sangat sulit untuk meramalkan banyak hal yang mungkin benar-benar terjadi ketika sebuah mesin memasuki dunia nyata.

Pada bulan Januari, Microsoft mencetak Bing Chat, sebuah chatbot pencarian yang banyak dijelaskan sebagai versi GPT-4 OpenAI yang secara resmi tidak diumumkan. (OpenAI mengatakan: “Bing tidak diragukan lagi didukung oleh salah satu model teknologi kami berikutnya yang disesuaikan Microsoft terutama untuk pencarian. Bing berisi tren dari ChatGPT dan GPT-3.5.”) Penggunaan chatbots oleh raksasa teknologi dengan reputasi miliaran dolar untuk memberikan perlindungan untuk menciptakan tantangan baru bagi mereka yang bertugas membangun model yang mendasarinya.

Sandhini Agarwal: Taruhannya saat ini secara positif jauh lebih tinggi daripada sebelumnya, jelas, enam bulan yang lalu, tetapi mereka tenang menurun daripada di mana mereka tampaknya menjadi satu tahun dari sekarang. Satu hal yang pasti penting dengan model-model ini adalah konteks mereka ketinggalan zaman. Nikmati dengan Google dan Microsoft, bahkan satu hal yang tidak cocok menjadi penderitaan pegunungan karena mereka dimaksudkan untuk menjadi mesin pencari seperti google. Perilaku yang diperlukan dari model bahasa yang teratur untuk sesuatu yang menyenangkan pencarian sangat beragam daripada sesuatu yang benar-benar dimaksudkan untuk menjadi chatbot nakal. Kami ingin mencari tahu bagaimana kami menjebol batas antara semua aktivitas yang berbeda ini, membangun sesuatu yang berharga bagi kami di berbagai konteks, di mana perilaku tertentu mungkin benar-benar berbeda. Itu memberikan lebih banyak tekanan. Karena kita sekarang tahu bahwa kita sedang membangun model-model ini dalam gumaman bahwa mereka akan tumbuh menjadi produk. ChatGPT adalah produk sekarang yang kami temukan memiliki API. Kami sedang membangun teknologi yang benar-benar jujur ​​ini dan sekarang kami harus memastikan bahwa itu bekerja secara efektif di seluruh lot. Itu tidak diragukan lagi salah satu tantangan paling berharga yang kita hadapi saat ini.

John Schulman: Saya meremehkan sejauh mana dari kita akan menyelidiki dan peduli tentang politik ChatGPT. Kami mungkin menemukan beberapa pilihan yang lebih baik ketika mengumpulkan data pelatihan, yang akan mengurangi penderitaan ini. Kami sedang mengerjakannya sekarang.

Jan Leike: Dari sudut pandang saya, ChatGPT banyak gagal—ada banyak hal yang harus dicapai. Tidak diragukan lagi kami merasa senang telah memecahkan masalah ini. Kita semua dapat menemukan bahwa kita sangat bertekad pada diri kita sendiri — dan orang lain — sehubungan dengan batas-batas teknologi. Maksud saya, mode bahasa telah ada untuk sementara waktu sekarang, tetapi ini masih awal yang tenang. Kami tahu tentang semua komplikasi yang mereka temukan. Saya pikir kita benar-benar dapat belajar menjadi sangat up-entrance, dan meneriakkan harapan, dan memastikan bahwa ini bukan lagi produk jadi.

Cakupan Asli

Baca juga

Abaikan bayi desainer.  Inilah cara CRISPR mengubah sebagian besar kehidupan

Abaikan bayi desainer. Inilah cara CRISPR mengubah sebagian besar kehidupan

Abaikan He Jiankui, ilmuwan bahasa China yang menciptakan bayi yang diedit gennya. Sebagai tambahan, meskipun …

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *