Project Oxford: Microsoft menyediakan API untuk aplikasi pintar

Microsoft pada musim bunga lalu mengumumkan Project Oxford, satu set SDK dan API yang membolehkan pembangun membina aplikasi "pintar" tanpa perlu belajar pembelajaran mesin. Dengan menggunakan API wajah, ucapan, dan penglihatan Oxford, pengembang dapat membuat aplikasi yang mengenali ciri wajah, menganalisis gambar, atau melakukan terjemahan ucapan-ke-teks atau teks-ke-ucapan.

Dalam temu ramah dengan Editor di Large Paul Krill, Ryan Galgon dari Microsoft, pengurus program kanan yang bertanggungjawab untuk platform dan teknologi Project Oxford, membincangkan tujuan di belakang Oxford, menekankan potensinya dalam Internet.

: Siapa yang membina aplikasi Oxford? Untuk siapa Oxford?

Galgon: Kami mempunyai banyak orang masuk dan mendaftar untuk perkhidmatan API. Nombor yang tepat [bukan] sesuatu yang dapat saya masuki, tetapi kami telah membuat banyak akaun Azure yang dibuat, banyak pendaftaran melalui Microsoft Azure Marketplace kami. Orang-orang menendang ban untuk mendapatkan perkhidmatan, dan juga berusaha untuk menggunakan perkhidmatan yang lebih tinggi. Sekarang, mereka semua ditawarkan sebagai tahap percuma terhad setiap bulan, dan kami berusaha untuk membukanya kerana kami mendapat maklum balas mengenai perubahan yang ingin dilihat oleh pembangun terhadap API dan model.

Ini semua platform silang, dalam arti bahawa ia adalah sekumpulan perkhidmatan Web yang diakses terutamanya melalui antara muka REST API. Apa sahaja yang boleh menghubungi laman web boleh memanggil perkhidmatan back-end ini. Kami menyediakan satu set SDK, yang membungkus panggilan REST tersebut dan menjadikannya lebih mudah digunakan pada klien seperti Android dan Windows dan iOS. Apa sahaja yang boleh membuat panggilan Web HTTP boleh memanggil perkhidmatan.

: Adakah anda menjangka Oxford digunakan terutamanya pada peranti mudah alih atau di desktop Windows?

Galgon:  Ini terutamanya gabungan peranti mudah alih dan IoT. Dalam arti bahawa ketika orang menggunakan desktop, kebanyakan penggunaan yang saya lihat, anda duduk di sana, anda mempunyai papan kekunci dan tetikus dan jenis input tersebut. Tetapi apabila anda mempunyai telefon bimbit, anda mengambil gambar dan video serta audio. Jauh lebih mudah dan semula jadi untuk menangkapnya dengan peranti kecil. [Teknologi Project Oxford akan digunakan] di mana sarana input yang dominan akan menjadi data semula jadi, bukan hanya angka tetapi semacam jenis data visual atau audio.

: Beritahu kami lebih lanjut mengenai API ini. Apakah beberapa perkara yang boleh dilakukan oleh pemaju?

Galgon: Oleh kerana kami ingin menjangkau seberapa banyak pembangun, kami benar-benar berusaha untuk menjadikannya sangat mudah digunakan, [untuk] perkara seperti pengesanan wajah atau penglihatan komputer, pengkategorian gambar. Perkara-perkara tersebut dilatih dan dimodelkan, dibangun oleh orang-orang yang berpengalaman selama bertahun-tahun di tempat-tempat tersebut dan kami tidak mahu pemaju harus menjadi pakar dalam penglihatan komputer. Kami benar-benar cuba mengatakan, "Lihat, kami akan membina model terbaik yang dapat kami bina dan membuatnya tersedia untuk anda dan menjadikannya dapat diakses dalam tiga baris kod untuk anda."

Saya tidak dapat membincangkan bagaimana rakan luaran melihat penggunaan API Oxford, tetapi yang utama yang telah diusahakan oleh Microsoft, yang mungkin pernah anda lihat, yang pertama adalah laman How-old.net untuk meramalkan usia dan jantina. Kemudian kami mempunyai TwinsorNot.net, dan itu diberi dua foto, seberapa serupa orang-orang ini? Itulah kedua-dua contoh API Wajah yang baik. Yang terakhir, yang menggunakan API Wajah dan beberapa API Ucapan, adalah projek Windows 10 IoT yang ditulis beberapa catatan blog di mana anda dapat membuka pintu dengan wajah anda dan bercakap dengan pintu - atau kunci, kalau macam itu. Saya rasa itu adalah tiga contoh yang telah diusahakan oleh Microsoft untuk menunjukkan kepada anda inilah jenis aplikasi yang boleh dibina dan dikongsi dengan orang lain.

: Di bawah API REST ini, apa yang membuat Oxford dicentang?

Galgon: Inti adalah model pembelajaran mesin yang kami bina untuk perkara seperti ucapan-ke-teks. Sama ada anda mengaksesnya melalui REST API - atau dengan ucapan-ke-teks, anda juga dapat mengaksesnya melalui sambungan soket Web - keajaiban atau yang hebatnya ada model ini yang dapat mengambil audio seseorang yang bercakap dan bahasa ia ada dan terjemahkan ke dalam format teks. Itulah perkara utama yang menjadikan Oxford secara keseluruhan.

: Mengapa Project Oxford terpisah dari projek Pembelajaran Mesin Azure?

Galgon:  Dalam Pembelajaran Mesin Azure, salah satu komponen utama adalah Studio Pembelajaran Mesin Azure, di mana orang boleh masuk dengan data mereka, membuat eksperimen, melatih model mereka sendiri, kemudian menjadi tuan rumah kepada model tersebut. Dengan Oxford, ini adalah model prebuilt yang dimiliki oleh Microsoft, model yang akan terus kita perbaiki di masa depan dan kita membiarkan orang memanfaatkan model tersebut melalui antara muka REST ini.

: Apa jenis penggunaan perniagaan perusahaan yang anda lihat untuk Project Oxford? Apakah kes perniagaan untuk aplikasi Oxford?

Galgon:Tidak ada rakan kongsi khusus yang boleh saya bicarakan pada masa ini, tetapi saya rasa salah satu kes yang telah banyak kita minati, di mana saya secara peribadi melihat banyak kes penggunaan, adalah ketika datang ke Internet mengenai perkara- peranti bersambung. Apabila saya melihat cara orang melihat pembuatan peranti IoT, anda tidak mempunyai papan kekunci dan tetikus dan bahkan monitor sebenar yang berkaitan dengan semua peranti ini, tetapi mudah melekatkan mikrofon di sana dan cukup mudah untuk melekat kamera di sana juga. Sekiranya anda menggabungkan sesuatu seperti API pertuturan dan LUIS (Bahasa Memahami Perkhidmatan Pintar), maka peranti yang hanya mempunyai mikrofon dan tidak ada kaedah input lain, kini anda boleh bercakap dengannya, beritahu apa yang anda mahu lakukan, terjemahkan ke dalam satu set tindakan berstruktur, dan memanfaatkannya di bahagian belakang.Di situlah saya rasa kita akan melihat banyak kes penggunaan untuk Oxford API.

: Anda menyebut iOS dan Android. Apakah penyerapan pada platform tersebut?

Galgon: Dengan menjadikan API RESTful dan menyediakan pembungkus ini untuk mereka, kita pasti melihat orang memuat turun pembungkus tersebut, menggunakannya. Tetapi pada akhir hari, kebetulan, "Inilah pembungkus bahasa Java di sekitar pemanggil Web," "Inilah pembungkus Objektif-C di sekitar panggilan Web." Kami tidak mempunyai banyak pengetahuan tentang apa sebenarnya peranti yang membuat panggilan.

: Adakah Oxford akan menjadi sumber terbuka?

Galgon: Kami tidak merancang untuk menggunakan model teras sumber terbuka, dan saya tidak mempunyai apa-apa untuk dikongsikan kerana kami terus mengemas kini model dari masa ke masa. SDK yang kami sediakan, kerana mereka merangkumi panggilan REST tersebut, kod sumber itu ada dan boleh dimuat turun untuk sesiapa sahaja hari ini dari laman web. Tetapi sekali lagi, itu adalah pembungkus tersembunyi mengenai perkara-perkara dan kita sebenarnya telah melihat orang-orang di forum MSDN yang telah memberikan potongan kod dalam pelbagai bahasa di sekitarnya.

: Bagaimana Microsoft merancang untuk menjana wang dari Oxford?

Galgon: API di Marketplace hari ini percuma untuk penggunaan terhad, jadi anda mendapat 5,000 transaksi API sebulan. Itulah satu-satunya rancangan yang kami ada sekarang. Di masa depan, kami akan melancarkan rancangan berbayar berdasarkan penggunaan API.

: Apa yang seterusnya untuk Oxford?

Galgon: Ke mana kita pergi dari sini sebenarnya ada tiga bidang. Bahagian pertama adalah mengenai mengemas kini dan memperbaiki model yang ada. Kami mendapat maklum balas daripada pembangun [mengenai bagaimana] salah satu API mungkin tidak berfungsi dengan baik dengan jenis gambar tertentu. Kami akan meningkatkan model teras di sana.

Salah satu perkara lain yang akan kami lakukan adalah kami terus memperluas jumlah ciri yang dikembalikan dari model. Hari ini, Face API memberi anda ramalan usia dan ramalan jantina. Kami telah melihat banyak permintaan untuk dapat mengenali kandungan lain dalam gambar.

Bahagian ketiga adalah kita akan memperluas portfolio API yang kita ada. Kami mempunyai empat hari ini, tetapi kami pasti tidak selesai. Kami tidak fikir keseluruhan ruang yang ingin kami sediakan atau alat yang ingin kami sediakan belum lengkap. Kami akan terus menambahkan API baru yang dapat menangani pelbagai jenis data atau dapat memberikan jenis pemahaman data semula jadi yang sangat berbeza daripada yang kami berikan hari ini.