Microsoft secara resmi meluncurkan model AI terbaru Fara-7B pada 24 November, model dengan 7 miliar parameter ini diposisikan sebagai "Computer Use Agent (CUA)", dengan keunggulan utama dapat dijalankan langsung di perangkat lokal tanpa bergantung pada komputasi cloud, sekaligus menjaga performa tinggi dan privasi data.
Mengutamakan keamanan data perusahaan, mendukung operasi "persepsi visual"
Inti desain Fara-7B adalah memenuhi kebutuhan klien perusahaan untuk privasi dan kepatuhan dalam penanganan informasi sensitif. Karena modelnya cukup ringkas, dapat dijalankan di komputer pribadi, tidak hanya mengurangi latensi, tetapi juga menghindari pengunggahan data ke cloud, membantu implementasi otomatisasi lokal, misalnya untuk manajemen akun internal, penanganan dokumen rahasia, dan skenario lainnya.
Fitur utama model ini adalah menggunakan metode "melihat operasi layar" untuk berinteraksi dengan situs web—membaca tata letak layar melalui tangkapan layar, kemudian memprediksi tindakan seperti klik mouse, input, atau scrolling. Berbeda dengan metode tradisional yang bergantung pada struktur browser, Fara-7B sepenuhnya melakukan inferensi berdasarkan data tingkat piksel, sehingga dapat berfungsi normal bahkan pada situs web dengan struktur kode yang berantakan.
Yash Lara, manajer produk Microsoft Research, menyatakan bahwa Fara-7B mewujudkan apa yang disebut "kedaulatan piksel" melalui pemrosesan input visual di perangkat lokal, memungkinkan industri yang sangat diregulasi seperti kesehatan dan keuangan menggunakannya dengan aman.
Pengujian kinerja melampaui GPT-4o, model kecil lebih efisien
Dalam benchmark pengujian WebVoyager, tingkat penyelesaian tugas Fara-7B mencapai 73,5%, lebih tinggi dari GPT-4o dengan 65,1% dan UI-TARS-1.5-7B dengan 66,4%. Selain itu, Fara-7B rata-rata hanya membutuhkan 16 langkah operasi untuk menyelesaikan tugas, jauh lebih baik dari UI-TARS-1.5-7B yang membutuhkan 41 langkah, mencapai keseimbangan optimal antara akurasi dan efisiensi.
Fara-7B juga memperkenalkan mekanisme "critical checkpoints", yang secara otomatis berhenti dan meminta konfirmasi saat menghadapi operasi yang melibatkan data pribadi pengguna atau tindakan yang tidak dapat dibalik (seperti mengirim email, transfer uang), dikombinasikan dengan antarmuka interaktif "Magentic-UI", menyediakan garis pertahanan keamanan untuk kolaborasi manusia-mesin.
Pelatihan distilasi pengetahuan dan demonstrasi ahli, memperkuat potensi pembelajaran mandiri
Fara-7B menggunakan metode pelatihan "distilasi pengetahuan", mengintegrasikan 145.000 contoh navigasi sukses yang dihasilkan oleh sistem multi-agen Magentic-One, dan memadatkannya ke dalam satu model pembelajaran. Selain itu, model dasarnya berbasis Qwen2.5-VL-7B, dengan jendela konteks hingga 128.000 token, memiliki kemampuan penyelarasan gambar-teks yang sangat baik, dengan proses pelatihan yang berfokus pada peniruan operasi ahli manusia.
Microsoft menyatakan bahwa di masa depan mereka tidak akan membabi buta mengejar model yang lebih besar, tetapi berkomitmen untuk menciptakan model yang "lebih kecil, lebih cerdas, dan lebih aman", serta berencana untuk menerapkan pembelajaran penguatan (RL) dalam lingkungan sandbox sintetis untuk pelatihan mandiri.
Sudah open source dan tersedia, dapat diuji dan digunakan secara komersial tetapi belum menjadi produk resmi
Saat ini Fara-7B telah dirilis sebagai open source dengan lisensi MIT, dapat diunduh dan digunakan di platform Hugging Face dan Microsoft Foundry, diizinkan untuk aplikasi komersial. Namun, Microsoft juga mengingatkan bahwa model tersebut belum memenuhi standar deployment lingkungan produksi, dan saat ini terutama cocok untuk pengembang untuk pengujian prototipe dan verifikasi fungsi.
- Bacaan lanjutan: Google meluncurkan WeatherNext 2, model AI prakiraan cuaca generasi baru, Pixel, Pencarian, dan Gemini menggunakannya terlebih dahulu
- Bacaan lanjutan: Peneliti menemukan metode pertanyaan sederhana untuk membuat AI lebih kreatif, berlaku untuk semua model AI termasuk ChatGPT, Gemini, dll
- Bacaan lanjutan: Anthropic meluncurkan model AI kecil Claude Haiku 4.5: hanya 1/3 biaya, kinerja setara dengan Sonnet 4, bahkan sedikit unggul dalam performa pemrograman


