Generatif AI adalah tindakan utama di banyak industri, tetapi data yang memberi daya pada alat AI ini memainkan peran utama di belakang panggung. Tanpa data yang bersih, dikuratori, dan sesuai, bahkan inisiatif AI dan Machine Learning (ML) yang paling ambisius akan goyah.
Saat ini, perusahaan bergerak cepat untuk mengintegrasikan AI ke dalam operasi mereka. Menurut McKinsey, pada tahun 2024, 65% organisasi dilaporkan secara teratur menggunakan AI generatif, menandai peningkatan dua kali lipat dari tahun 2023.
Namun, potensi sebenarnya dari AI dan ML di perusahaan tidak akan berasal dari generasi konten tingkat permukaan. Ini akan datang dari model yang sangat menanamkan ke dalam sistem pengambilan keputusan, alur kerja, dan proses yang menghadap pelanggan di mana kualitas data, tata kelola, dan kepercayaan menjadi pusat.
Selain itu, hanya memasukkan fitur AI dan ML dan fungsionalitas ke dalam aplikasi dasar tidak akan membuat perusahaan baik. Organisasi harus memanfaatkan semua aspek data mereka untuk menciptakan keunggulan strategis yang membantu mereka menonjol dari kompetisi.
Untuk melakukan ini, data yang memberi daya pada aplikasi mereka harus bersih dan akurat untuk mengurangi bias, halusinasi, dan/atau pelanggaran peraturan. Kalau tidak, mereka mengambil risiko masalah dalam pelatihan dan output, pada akhirnya meniadakan manfaat yang dimaksudkan oleh proyek AI dan ML.
Pentingnya data yang baik dan bersih
Data adalah dasar dari setiap inisiatif AI yang berhasil, dan perusahaan perlu meningkatkan standar untuk kualitas data, kelengkapan, dan tata kelola etis. Namun, ini tidak selalu semudah kedengarannya. Menurut Qlik, 81% perusahaan masih berjuang dengan kualitas data AI, dan 77% perusahaan dengan pendapatan lebih dari $ 5 miliar mengharapkan kualitas data AI yang buruk menyebabkan krisis besar.
Pada tahun 2021, misalnya, Zillow menutup penawaran Zillow karena gagal menilai rumah secara akurat karena algoritma yang salah, yang menyebabkan kerugian besar -besaran. Kasus ini menyoroti kepentingan penting – proyek AI dan ML harus beroperasi dengan data yang baik dan bersih untuk menghasilkan hasil terbaik yang paling akurat.
Saat ini, teknologi AI dan ML mengandalkan data untuk mempelajari pola, membuat prediksi dan rekomendasi, dan membantu perusahaan mendorong pengambilan keputusan yang lebih baik. Teknik-teknik seperti Generasi Pengambilan-Agung (RAG) menarik dari basis pengetahuan perusahaan secara real-time, tetapi jika sumber-sumber tersebut tidak lengkap atau ketinggalan zaman, model ini akan menghasilkan jawaban yang tidak akurat atau tidak relevan.
Kemampuan Agentik AI untuk bertindak dengan andal mengandalkan data yang akurat dan tepat waktu secara real time. Misalnya, algoritma perdagangan otonom yang bereaksi terhadap data pasar yang salah dapat memicu jutaan kerugian dalam hitungan detik.
Membangun dan memelihara lingkungan data yang baik
Agar perusahaan dapat membangun dan memelihara lingkungan data yang baik yang dapat dimanfaatkan untuk penggunaan AI dan ML, ada tiga elemen kunci yang perlu dipertimbangkan:
1. Bangun mesin pengumpulan data yang komprehensif
Pengumpulan data yang efektif sangat penting untuk proyek AI dan ML yang sukses, dan platform dan alat data modern, seperti yang untuk integrasi, transformasi, pemantauan kualitas, katalog, dan observabilitas, untuk mendukung tuntutan pengembangan dan output AI mereka. Mereka memastikan organisasi mendapatkan data yang tepat.
Apakah data disusun, semi-terstruktur, atau tidak terstruktur, data apa pun yang dikumpulkan harus berasal dari berbagai sumber dan metode untuk mendukung pelatihan model yang kuat dan pengujian untuk merangkum berbagai skenario pengguna yang mungkin mereka temui pada saat penyebaran. Selain itu, perusahaan harus memastikan mereka mengikuti standar pengumpulan data etis. Apakah data adalah pihak pertama, kedua, atau ketiga, itu harus bersumber dengan benar dan dengan persetujuan yang diberikan untuk pengumpulan dan penggunaannya.
2. Pastikan kualitas data yang tinggi
Data berkualitas tinggi, fit-for-tujuan sangat penting untuk kinerja, akurasi, dan keandalan model AI dan ML. Mengingat bahwa teknologi ini memperkenalkan dimensi baru, data yang digunakan harus secara khusus selaras dengan persyaratan kasus penggunaan yang dimaksud. Namun, 67% dari data dan profesional analitik mengatakan mereka tidak memiliki kepercayaan penuh pada data organisasi mereka untuk pengambilan keputusan.
Untuk mengatasi hal ini, penting bahwa perusahaan memiliki data yang mewakili skenario dunia nyata, memantau data yang hilang, menghilangkan data duplikat, dan mempertahankan konsistensi di seluruh sumber data. Selain itu, mengenali dan mengatasi bias dalam data pelatihan sangat penting, karena data yang bias dapat membahayakan hasil dan keadilan dan berdampak negatif terhadap pengalaman dan kredibilitas pelanggan.
3. Menerapkan kerangka kerja tata kelola kepercayaan dan data
Dorongan untuk AI yang bertanggung jawab telah memberikan sorotan pada tata kelola data. Dengan 42% profesional dan profesional analitik yang mengatakan organisasi mereka tidak siap untuk menangani tata kelola kebijakan hukum, privasi, dan keamanan untuk inisiatif AI, sangat penting bahwa ada pergeseran dari kerangka kerja tata kelola data tradisional ke kerangka kerja yang lebih dinamis.
Secara khusus, dengan AI agen menjadi menonjol secara signifikan, penting untuk membahas mengapa agen membuat keputusan spesifik atau mengambil tindakan spesifik. Perusahaan harus memiliki fokus yang tajam pada teknik AI yang dapat dijelaskan untuk membangun kepercayaan, menetapkan akuntabilitas dan memastikan kepatuhan. Kepercayaan pada output AI dimulai dengan kepercayaan pada data di belakangnya.
Dalam ringkasan
Proyek AI dan ML akan gagal tanpa data yang baik karena data adalah fondasi yang memungkinkan teknologi ini belajar. Strategi data dan strategi AI dan ML terjalin. Perusahaan harus membuat perubahan operasional yang menempatkan data pada inti dari semua yang mereka lakukan – dari investasi infrastruktur teknologi hingga tata kelola.
Mereka yang meluangkan waktu untuk mengutamakan data akan melihat proyek berkembang. Mereka yang tidak akan dihadapkan dengan perjuangan berkelanjutan dan kompetisi menggigit tumit mereka.
Kami mencantumkan alat visualisasi data terbaik.
Artikel ini diproduksi sebagai bagian dari saluran Wawasan Ahli TechRadarPro di mana kami menampilkan pikiran terbaik dan paling cerdas dalam industri teknologi saat ini. Pandangan yang diungkapkan di sini adalah pandangan penulis dan tidak harus dari TechRadarPro atau Future Plc. Jika Anda tertarik untuk berkontribusi, cari tahu lebih lanjut di sini: https://www.techradar.com/news/submit-your-story-to-techradar-pro