Watson wannabes: 4 projek sumber terbuka untuk kecerdasan mesin

Sepanjang tahun lalu, sebagai sebahagian daripada perkhidmatan perusahaan baru yang IBM telah mendorong penemuan semula, Watson telah menjadi tipu daya kemenangan "Jeopardy" dan lebih banyak alat. Ia juga kekal sebagai penciptaan milik IBM.

Lalu, apakah kemungkinan menciptakan sistem pembelajaran mesin bahasa semula jadi berdasarkan Watson, walaupun dengan komponen sumber terbuka? Pada tahap tertentu, ini sudah berlaku - sebahagiannya kerana Watson sendiri dibangun di atas karya sumber terbuka yang ada, dan yang lain telah mengembangkan sistem serupa selari dengan Watson. Berikut adalah empat projek seperti ini.

DARPA DeepDive

Jenama nama terbesar kumpulan itu, projek DeepDive DARPA tidak bertujuan meniru sistem pertanyaan bahasa Watson, tetapi kemampuan Watson untuk meningkatkan pembuatan keputusan dari masa ke masa dengan bimbingan manusia.

Dibangunkan terutamanya oleh Christopher Re, seorang profesor di University of Wisconsin, projek ini adalah sumber terbuka (Apache 2.0). Menurut EE Times, tujuan utama DeepDive adalah untuk membuat sistem automatik untuk mengklasifikasikan data tidak berstruktur - dalam satu contoh contoh, mengkategorikan artikel dalam jurnal teknikal. Mereka yang merancang untuk menggunakan DeepDive semestinya sudah biasa dengan SQL dan Python, tetapi sistem ini sudah mampu mengekstrak data dari pelbagai sumber konvensional, seperti halaman Web atau dokumen PDF.

Apache UIMA

Pengurusan Maklumat Tidak Berstruktur (UIMA) adalah standard untuk melakukan analisis terhadap kandungan teks. Watson menggunakan implementasi UIMA, tetapi anda tidak perlu melalui Watson untuk menggunakan UIMA. Sebenarnya, seni bina UIMA IBM bersumber terbuka dan dikendalikan oleh Apache Foundation. Ia mempunyai sokongan untuk pelbagai bahasa pengaturcaraan, dengan kemas kini ditambahkan secara berkala (paling baru pada bulan Oktober 2014).

Apache UIMA seperti ini masih jauh dari penyelesaian pembelajaran mesin sepenuhnya; itu hanya satu - walaupun penting - sebahagian daripada keseluruhan yang dibuat oleh IBM. Sekiranya anda tidak mahu menggunakan tulang kosong, anda boleh memilih salah satu projek terbitannya, seperti YodaQA, yang memanfaatkan UIMA untuk pemprosesannya dan menggunakan Wikipedia sebagai sumber data utama.

OpenCog

OpenCog "bertujuan untuk menyediakan saintis penyelidikan dan pembangun perisian dengan platform bersama untuk membina dan berkongsi program kecerdasan buatan." Bersumber terbuka di bawah lesen GNU Affero, cita-cita projek ini adalah untuk memacu tidak kurang dari apa yang disebut oleh penciptanya sebagai sistem "umumnya cerdas", kecerdasan buatan yang mempunyai pemahaman dunia yang luas dan tidak manusiawi dan bukannya kepakaran berpusatkan domain (seperti sangat pandai catur tetapi tidak ada yang lain).

Pencipta OpenCog mendakwa kerangka kerja mereka sudah digunakan dalam "aplikasi bahasa semula jadi, baik untuk penyelidikan dan oleh perusahaan komersial." Itu meletakkannya lebih jauh dari konsep AI pie-in-the-sky dan lebih dekat dengan domain Soal Jawab praktikal yang dihuni oleh Watson.

OAQA (Kemajuan Terbuka Sistem Menjawab Soalan)

Seperti namanya, misi OAQA adalah "kemajuan terbuka dalam rekayasa sistem menjawab soalan - sistem perisian bahasa yang memberikan jawaban langsung untuk pertanyaan yang diajukan dalam bahasa semula jadi." Bunyi seperti salah satu tujuan Watson? Yup, terutamanya kerana OAQA dimulakan bersama oleh IBM dan Carnegie Mellon University. Seperti Apache UIMA, OAQA menerapkan kerangka UIMA, tetapi jangan menganggapnya sebagai penyelesaian siap pakai; ia adalah alatan alat.

Satu kelemahan utama bagi setiap projek, seperti yang anda duga, adalah bahawa ia tidak ditawarkan dalam pakej yang hampir halus atau digilap seperti Watson. Walaupun Watson dirancang untuk digunakan dengan segera dalam konteks perniagaan, ini adalah alat alat mentah yang memerlukan pengangkatan berat.

Selain itu, perkhidmatan Watson telah dilatih dengan data dunia nyata yang dikurasi. Dengan sistem ini, anda harus menyediakan sumber data, yang mungkin terbukti merupakan projek yang jauh lebih besar daripada pengaturcaraan itu sendiri.