Halaman ini diterjemahkan oleh Cloud Translation API.

Glosarium Machine Learning

Glosarium ini mendefinisikan istilah machine learning umum, serta istilah khusus untuk TensorFlow.

A

ablasi

Teknik untuk mengevaluasi pentingnya fitur atau komponen dengan menghapus untuk sementara waktu dari model. Anda kemudian melatih ulang model tanpa fitur atau komponen tersebut, dan jika model yang dilatih ulang memiliki performa yang jauh lebih buruk, fitur atau komponen yang dihapus mungkin berperan penting.

Misalnya, Anda melatih model klasifikasi pada 10 fitur dan mencapai presisi sebesar 88% pada set pengujian. Untuk memeriksa pentingnya fitur pertama, Anda dapat melatih ulang model hanya dengan menggunakan sembilan fitur lainnya. Jika model yang dilatih ulang memiliki performa yang jauh lebih buruk (misalnya, presisi 55%), fitur yang dihapus mungkin penting. Sebaliknya, jika model yang dilatih ulang berperforma sama baiknya, fitur tersebut mungkin tidak terlalu penting.

Ablasi juga dapat membantu menentukan pentingnya:

Komponen yang lebih besar, seperti seluruh subsistem dari sistem ML yang lebih besar
Proses atau teknik, seperti langkah pra-pemrosesan data

Dalam kedua kasus tersebut, Anda akan mengamati bagaimana performa sistem berubah (atau tidak berubah) setelah menghapus komponen.

Pengujian A/B

Cara statistik untuk membandingkan dua (atau beberapa) teknik—A dan B. Biasanya, A adalah teknik yang sudah ada, dan B adalah teknik baru. Pengujian A/B tidak hanya menentukan teknik mana yang berperforma lebih baik, tetapi juga apakah perbedaannya signifikan secara statistik.

Pengujian A/B biasanya membandingkan satu metrik pada dua teknik. Misalnya, bagaimana perbandingan akurasi model dengan dua teknik? Namun, pengujian A/B juga dapat membandingkan jumlah metrik yang terbatas.

chip akselerator

#GoogleCloud

Kategori komponen hardware khusus yang dirancang untuk melakukan komputasi kunci yang diperlukan untuk algoritma deep learning.

Chip akselerator (atau singkatnya akselerator) dapat meningkatkan kecepatan dan efisiensi tugas pelatihan dan inferensi secara signifikan dibandingkan dengan CPU serbaguna. VM ini ideal untuk melatih jaringan neural dan tugas serupa yang intensif secara komputasi.

Contoh chip akselerator meliputi:

Tensor Processing Unit (TPU) Google dengan hardware khusus untuk deep learning.
GPU NVIDIA, yang meskipun awalnya dirancang untuk pemrosesan grafis, didesain untuk mengaktifkan pemrosesan paralel, yang dapat meningkatkan kecepatan pemrosesan secara signifikan.

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, rumus akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

TP adalah jumlah positif benar (prediksi benar).
NB adalah jumlah negatif benar (prediksi benar).
FP adalah jumlah positif palsu (prediksi salah).
FN adalah jumlah negatif palsu (prediksi salah).

Membandingkan dan membedakan akurasi dengan presisi dan recall.

Klik ikon untuk catatan tambahan.

Meskipun metrik berharga untuk beberapa situasi, akurasi sangat menyesatkan bagi situasi lainnya. Secara khusus, akurasi biasanya merupakan metrik yang buruk untuk mengevaluasi model klasifikasi yang memproses set data kelas tidak seimbang.

Misalnya, anggaplah salju hanya turun 25 hari per abad di kota subtropis tertentu. Karena hari tanpa salju (kelas negatif) jauh melebihi jumlah hari dengan salju (kelas positif), set data salju untuk kota ini tidak seimbang. Bayangkan model klasifikasi biner yang seharusnya memprediksi salju atau tidak salju setiap hari, tetapi hanya memprediksi "tidak ada salju" setiap hari. Model ini sangat akurat tetapi tidak memiliki kemampuan prediktif. Tabel berikut merangkum hasil prediksi selama satu abad:

Kategori	Angka
TP	0
TN	36500
FP	25
FN	0

Oleh karena itu, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Meskipun akurasi 99,93% tampaknya merupakan persentase yang sangat mengesankan, model ini sebenarnya tidak memiliki kemampuan prediktif.

Presisi dan perolehan biasanya merupakan metrik yang lebih berguna daripada akurasi untuk mengevaluasi model yang dilatih pada set data kelas tidak seimbang.

action

#rl

Dalam reinforcement learning, mekanisme yang digunakan agen untuk melakukan transisi antar-status lingkungan. Agen memilih tindakan dengan menggunakan kebijakan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

ReLU
Sigmoid

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesian dari dua baris. Baris pertama memiliki nilai y konstan 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, jadi
garis ini membentang dari 0,0 hingga + tak terhingga,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi 0,0,5 dan secara bertahap menurunkan kemiringan saat nilai absolut x meningkat.

Klik ikon untuk melihat contoh.

Dalam jaringan neural, fungsi aktivasi memanipulasi jumlah berbobot semua input ke neuron. Untuk menghitung jumlah tertimbang, neuron menjumlahkan produk dari nilai dan bobot yang relevan. Misalnya, anggap input yang relevan ke neuron terdiri dari hal berikut:

nilai input	bobot input
2	-1,3
-1	0,6
3	0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Misalkan desainer jaringan neural ini memilih fungsi sigmoid sebagai fungsi aktivasi. Dalam hal itu, neuron menghitung sigmoid -2,0, yaitu sekitar 0,12. Oleh karena itu, neuron meneruskan 0,12 (bukan -2,0) ke lapisan berikutnya di jaringan neural. Gambar berikut mengilustrasikan bagian proses yang relevan:

pembelajaran aktif

Pendekatan pelatihan yang mana algoritma memilih beberapa data yang dipelajarinya. Pembelajaran aktif sangat bermanfaat jika contoh berlabel jarang atau mahal untuk diperoleh. Alih-alih secara membabi buta mencari beragam rentang contoh berlabel, algoritma pembelajaran aktif secara selektif mencari rentang contoh tertentu yang diperlukan untuk pembelajaran.

AdaGrad

Algoritma penurunan gradien canggih yang menskalakan ulang gradien dari setiap parameter, sehingga secara efektif memberikan kecepatan pembelajaran independen pada setiap parameter. Untuk mengetahui penjelasan selengkapnya, lihat makalah AdaGrad ini.

agen

#rl

Dalam reinforcement learning, entity yang menggunakan kebijakan untuk memaksimalkan laba yang diharapkan yang diperoleh dari transisi antar-status lingkungan.

Secara lebih umum, agen adalah software yang secara mandiri merencanakan dan menjalankan serangkaian tindakan untuk mencapai tujuan, dengan kemampuan untuk beradaptasi dengan perubahan dalam lingkungannya. Misalnya, agen berbasis LLM mungkin menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

deteksi anomali

Proses mengidentifikasi outlier. Misalnya, jika rata-rata untuk fitur tertentu adalah 100 dengan standar deviasi 10, deteksi anomali akan menandai nilai 200 sebagai mencurigakan.

AR

Singkatan dari augmented reality.

area di bawah kurva PR

Lihat PR AUC (Area di bawah Kurva PR).

area di bawah kurva ROC

Lihat AUC (Area di bawah kurva ROC).

kecerdasan umum buatan

Mekanisme nonmanusia yang menunjukkan berbagai pemecahan masalah, kreativitas, dan kemampuan beradaptasi. Misalnya, program yang menunjukkan kecerdasan umum buatan dapat menerjemahkan teks, menulis simfoni, dan unggul dalam game yang belum ditemukan.

kecerdasan buatan

#fundamentals

Program atau model nonmanusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah subbidang dari kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya kata atau bagian tertentu dari sebuah kata. Attention ini mengompresi jumlah informasi yang diperlukan model untuk memprediksi token/kata berikutnya. Mekanisme atensi standar dapat terdiri dari jumlah berbobot terhadap satu set input, dengan bobot untuk setiap input dihitung oleh bagian lain jaringan neural.

Lihat juga self-attention dan multi-head self-attention, yang merupakan elemen penyusun Transformers.

atribut

#fairness

Sinonim dari feature.

Dalam keadilan machine learning, atribut sering kali mengacu pada karakteristik yang berkaitan dengan individu.

sampling atribut

#df

Taktik untuk melatih hutan keputusan yang mana setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur yang mungkin saat mempelajari kondisi. Umumnya, sebagian fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang mungkin akan dipertimbangkan untuk setiap node.

ABK (Area di bawah kurva ROC)

#fundamentals

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Semakin dekat ABK ke 1,0, semakin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan kelas positif (oval hijau) dari kelas negatif (persegi panjang ungu) dengan sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan 9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang menghasilkan hasil acak. Model ini memiliki ABK 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contoh adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua hal ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki ABK antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contoh adalah negatif, negatif, negatif, negatif,
positif, negatif, positif, positif, negatif, positif, positif,
positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, ABK mempertimbangkan semua batas klasifikasi yang mungkin.

Klik ikon untuk mempelajari hubungan antara kurva AUC dan ROC.

ABK merepresentasikan area di bawah kurva KOP. Misalnya, kurva ROC untuk model yang memisahkan positif dari negatif secara sempurna akan terlihat seperti berikut:

ABK adalah area wilayah abu-abu dalam ilustrasi sebelumnya. Dalam kasus yang tidak biasa ini, area hanyalah panjang area abu-abu (1,0) dikalikan dengan lebar area abu-abu (1,0). Jadi, hasil dari 1,0 dan 1,0 menghasilkan AUC persis 1,0, yang merupakan skor AUC tertinggi yang mungkin.

Sebaliknya, kurva ROC untuk pengklasifikasi yang tidak dapat memisahkan class sama sekali adalah sebagai berikut. Luas wilayah abu-abu ini adalah 0,5.

Kurva ROC yang lebih umum kira-kira terlihat seperti berikut:

Akan sulit untuk menghitung area di bawah kurva ini secara manual. Itulah sebabnya program biasanya menghitung sebagian besar nilai AUC.

Klik ikon untuk definisi ABK yang lebih formal.

ABK adalah probabilitas bahwa pengklasifikasi akan lebih yakin bahwa contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak bernilai positif.

augmented reality

#image

Teknologi yang menempatkan gambar yang dihasilkan komputer pada pandangan pengguna dunia nyata, sehingga memberikan tampilan gabungan.

autoencoder

#language

#image

Sistem yang belajar mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

Encoder memetakan input ke format (biasanya) lossy dimensi rendah (menengah).
Decoder membuat versi lossy dari input asli dengan memetakan format dimensi lebih rendah ke format input asli yang berdimensi lebih tinggi.

Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder sedekat mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder dipaksa untuk mempelajari informasi apa yang penting dalam input, dan output tidak akan benar-benar identik dengan input.

Contoh:

Jika data input berupa grafis, salinan yang tidak persis akan mirip dengan grafik asli, tetapi agak dimodifikasi. Mungkin salinan yang tidak tepat akan menghapus noise dari grafis asli atau mengisi beberapa piksel yang hilang.
Jika data input berupa teks, autoencoder akan menghasilkan teks baru yang meniru (tetapi tidak sama dengan) teks aslinya.

Lihat juga autoencoder variasi.

bias otomatisasi

#fairness

Saat manusia lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, bahkan ketika sistem pengambilan keputusan otomatis membuat kesalahan.

AutoML

Semua proses otomatis untuk membangun model machine learning. AutoML dapat otomatis melakukan tugas-tugas seperti berikut:

Telusuri model yang paling sesuai.
Menyesuaikan hyperparameter.
Menyiapkan data (termasuk melakukan rekayasa fitur).
Deploy model yang dihasilkan.

AutoML berguna bagi data scientist karena dapat menghemat waktu dan upaya mereka dalam mengembangkan pipeline machine learning serta meningkatkan akurasi prediksi. Hal ini juga berguna bagi non-pakar, dengan membuat tugas machine learning yang rumit agar lebih mudah diakses oleh mereka.

model autoregresif

#language

#image

#AIgeneratif

model yang menyimpulkan prediksi berdasarkan prediksinya sebelumnya. Misalnya, model bahasa autoregresif akan memprediksi token berikutnya berdasarkan token yang telah diprediksi sebelumnya. Semua model bahasa besar berbasis Transformer bersifat autoregresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak auto-regresif karena menghasilkan gambar dalam satu penerusan maju dan bukan secara berulang secara iteratif. Namun, model pembuatan gambar tertentu bersifat autoregresif karena menghasilkan gambar dalam langkah-langkah.

kerugian tambahan

Fungsi kerugian—digunakan bersama dengan fungsi kerugian utama jaringan neural model—yang membantu mempercepat pelatihan selama iterasi awal ketika bobot diinisialisasi secara acak.

Fungsi kerugian tambahan mendorong gradien efektif ke lapisan sebelumnya. Hal ini memfasilitasi konvergensi selama pelatihan dengan mengatasi masalah gradien hilang.

presisi rata-rata

Metrik untuk meringkas performa urutan hasil yang diberi peringkat. Presisi rata-rata dihitung dengan mengambil rata-rata nilai presisi untuk setiap hasil yang relevan (setiap hasil dalam daftar peringkat dengan perolehan yang meningkat relatif terhadap hasil sebelumnya).

Lihat juga Area di Bawah Kurva PR.

kondisi sejajar sumbu

#df

Dalam hierarki keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, berikut ini adalah kondisi yang sejajar sumbu:

area > 200

Berbeda dengan kondisi miring.

B

propagasi mundur

#fundamentals

Algoritma yang menerapkan penurunan gradien di jaringan neural.

Pelatihan jaringan neural melibatkan banyak iterasi dari siklus dua tahap berikut:

Selama forward pass, sistem akan memproses kumpulan contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
Selama lintas mundur (propagasi mundur), sistem akan mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering berisi banyak neuron di banyak lapisan tersembunyi. Masing-masing neuron tersebut berkontribusi pada hilangnya keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol tingkat peningkatan atau penurunan setiap bobot setiap penerusan mundur. Kecepatan pembelajaran yang besar akan menambah atau mengurangi setiap bobot lebih dari kecepatan pembelajaran yang kecil.

Dalam istilah kalkulus, propagasi mundur mengimplementasikan aturan rantai. dari kalkulus. Artinya, propagasi mundur menghitung turunan parsial error dalam kaitannya dengan setiap parameter.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk mengimplementasikan propagasi mundur. API ML modern seperti TensorFlow kini mengimplementasikan propagasi mundur untuk Anda. Fiuh!

mengantongi

#df

Metode untuk melatih ensemble tempat setiap model konstituen dilatih pada subset acak dari contoh pelatihan yang diambil sampelnya dengan penggantian. Misalnya, forest acak adalah kumpulan pohon keputusan yang dilatih dengan pengangkutan.

Istilah bagging adalah singkatan dari bootstrap aggregating.

kantong data

#language

Representasi kata-kata dalam frasa atau bagian, apa pun urutannya. Misalnya, kumpulan kata-kata mewakili tiga frasa berikut secara identik:

anjingnya melompat
melompat pada anjingnya
{i>dog walker<i}

Setiap kata dipetakan ke indeks dalam vektor renggang, yang mana vektor memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan menjadi vektor fitur dengan nilai bukan nol pada tiga indeks yang sesuai dengan kata the, dog, dan jumps. Nilai bukan nol dapat berupa salah satu dari hal berikut:

A 1 untuk menunjukkan kehadiran sebuah kata.
Hitungan berapa kali sebuah kata muncul dalam tas. Misalnya, jika frasanya adalah the maroon dog is a dog with maroon fur, maroon dan dog akan direpresentasikan sebagai 2, sedangkan kata lainnya akan direpresentasikan sebagai 1.
Beberapa nilai lainnya, seperti logaritma jumlah berapa kali sebuah kata muncul di dalam tas.

dasar

model yang digunakan sebagai titik referensi untuk membandingkan seberapa baik performa model lain (biasanya yang lebih kompleks). Misalnya, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model dalam.

Untuk masalah tertentu, dasar pengukuran ini membantu developer model mengukur performa minimal yang diharapkan yang harus dicapai model baru agar model baru dapat berguna.

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam satu batch.

Lihat epoch untuk mengetahui penjelasan tentang keterkaitan suatu batch dengan epoch.

inferensi batch

#TensorFlow

#GoogleCloud

Proses menyimpulkan prediksi pada beberapa contoh tak berlabel yang dibagi menjadi subset yang lebih kecil ("batch").

Inferensi batch dapat memanfaatkan fitur paralelisasi chip akselerator. Artinya, beberapa akselerator secara bersamaan dapat menyimpulkan prediksi pada berbagai batch contoh tak berlabel, sehingga meningkatkan jumlah inferensi per detik secara drastis.

normalisasi batch

Normalisasi input atau output fungsi aktivasi dalam lapisan tersembunyi. Normalisasi batch dapat memberikan manfaat berikut:

Membuat jaringan neural lebih stabil dengan melindungi dari bobot outlier.
Memungkinkan kecepatan pembelajaran lebih tinggi, yang dapat mempercepat pelatihan.
Mengurangi overfitting.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam tumpukan. Misalnya, jika ukuran tumpukan adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
Batch penuh, yang ukuran tumpukannya adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran tumpukannya akan menjadi satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
tumpukan mini yang ukuran tumpukannya biasanya antara 10 hingga 1.000. Tumpukan mini biasanya merupakan strategi yang paling efisien.

Jaringan neural Bayesian

Jaringan neural probabilistik yang memperhitungkan ketidakpastian dalam bobot dan output. Model regresi jaringan neural standar biasanya memprediksi nilai skalar; misalnya, model standar memprediksi harga rumah senilai 853.000. Sebaliknya, jaringan neural Bayesian memprediksi distribusi nilai; misalnya, model Bayesian memprediksi harga rumah senilai 853.000 dengan simpangan baku 67.200.

Jaringan neural Bayesian mengandalkan Teorema Bayes untuk menghitung ketidakpastian dalam bobot dan prediksi. Jaringan neural Bayesian dapat berguna jika pengukuran ketidakpastian bersifat penting, seperti dalam model yang terkait dengan obat-obatan. Jaringan neural Bayesian juga dapat membantu mencegah overfitting.

Pengoptimalan Bayesian

Teknik model regresi probabilistik untuk mengoptimalkan fungsi objektif yang mahal secara komputasi dengan mengoptimalkan surrogate yang mengukur ketidakpastian menggunakan teknik pembelajaran Bayesian. Karena pengoptimalan Bayesian itu sendiri sangat mahal, pengoptimalan ini biasanya digunakan untuk mengoptimalkan tugas yang mahal untuk dievaluasi dan memiliki sejumlah kecil parameter, seperti memilih hyperparameter.

Persamaan Bellman

#rl

Dalam reinforcement learning, identitas berikut terpenuhi oleh fungsi Q yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritma Reinforcement learning menerapkan identitas ini untuk membuat Q-learning melalui aturan update berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Selain pembelajaran penguatan, persamaan Bellman memiliki aplikasi untuk pemrograman dinamis. Lihat entri Wikipedia untuk persamaan Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Arsitektur model untuk representasi teks. Model BERT terlatih dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Menggunakan arsitektur Transformer, sehingga mengandalkan perhatian mandiri.
Menggunakan bagian encoder dari Transformer. Tugas encoder adalah menghasilkan representasi teks yang baik, bukan melakukan tugas tertentu seperti klasifikasi.
Bersifat dua arah.
Menggunakan masking untuk pelatihan tanpa pengawasan.

Varian BERT meliputi:

ALBERT, yang merupakan singkatan dari A Light BERT.
LaBSE.

Lihat Open Sourcing BERT: Pra-pelatihan State-of-the-Art untuk Natural Language Processing untuk ringkasan BERT.

bias (etika/keadilan)

#fairness

#fundamentals

1. Stereotip, prasangka, atau favoritisme terhadap beberapa hal, orang, atau kelompok daripada yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk dari jenis bias ini meliputi:

bias otomatisasi
bias konfirmasi
bias pelaku eksperimen
bias atribusi golongan
bias implisit
bias dalam golongan
bias kehomogenan luar golongan

2. Kesalahan sistematis yang diperkenalkan oleh prosedur pengambilan sampel atau pelaporan. Bentuk dari jenis bias ini meliputi:

bias cakupan
bias non-respons
bias partisipasi
bias pelaporan
bias pengambilan sampel
bias seleksi

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematika) atau istilah bias

#fundamentals

Intersepsi atau offset dari origin. Bias adalah parameter dalam model machine learning, yang disimbolkan oleh salah satu dari hal berikut:

b
m₀

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Pada garis sederhana dua dimensi, bias berarti "perpotongan y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (perpotongan y) 2.

Bias ada karena tidak semua model dimulai dari titik asal (0,0). Misalnya, anggaplah sebuah taman hiburan dikenai biaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam kunjungan pelanggan. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak sama dengan bias dalam etika dan keadilan atau bias prediksi.

dua arah

#language

Istilah yang digunakan untuk menggambarkan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Sebaliknya, sistem searah hanya mengevaluasi teks yang mendahului bagian target teks.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:

Ada apa _____ dengan Anda?

Model bahasa searah harus mendasarkan probabilitasnya hanya pada konteks yang disediakan oleh kata "Apa", "adalah", dan "yang". Sebaliknya, model bahasa dua arah juga dapat memperoleh konteks dari "dengan" dan "Anda", yang dapat membantu model menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam kutipan teks berdasarkan teks sebelumnya dan berikut.

Bigram

#seq

#language

N-gram yang mana N=2.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang sama-sama bersifat eksklusif:

kelas positif
kelas negatif

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

Model yang menentukan apakah pesan email merupakan spam (class positif) atau bukan spam (class negatif).
Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi kelas jamak.

Lihat juga regresi logistik dan batas klasifikasi.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

pengelompokan

Sinonim dari pengelompokan.

BLEU (Pembelajaran Evaluasi Bilingual)

#language

Skor antara 0.0 dan 1.0, inklusif, yang menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara bahasa Inggris dan Rusia). Skor BLEU bernilai 1,0 menunjukkan terjemahan yang sempurna; skor BLEU sebesar 0,0 menunjukkan terjemahan yang buruk.

penguatan

Teknik machine learning yang secara berulang menggabungkan sekumpulan pengklasifikasi yang sederhana dan tidak terlalu akurat (disebut sebagai pengklasifikasi "lemah") ke dalam pengklasifikasi dengan akurasi tinggi (pengklasifikasi "kuat") dengan meningkatkan bobot contoh-contoh yang saat ini salah diklasifikasikan oleh model.

kotak pembatas

#image

Pada gambar, koordinat (x, y) dari persegi panjang di sekitar area yang diminati, seperti pada gambar di bawah.

Foto duduk di sofa. Kotak pembatas hijau
dengan koordinat kiri atas (275, 1271) dan koordinat
kanan bawah (2954, 2761) mengelilingi tubuh

penyiaran

Memperluas bentuk operand dalam operasi matematika matriks ke dimensi yang kompatibel untuk operasi tersebut. Misalnya, aljabar linear mengharuskan kedua operand dalam operasi penambahan matriks harus memiliki dimensi yang sama. Akibatnya, Anda tidak dapat menambahkan matriks berbentuk (m, n) ke vektor dengan panjang n. Penyiaran memungkinkan operasi ini dengan memperluas vektor sepanjang n ke matriks berbentuk (m, n) secara virtual dengan mereplikasi nilai yang sama ke setiap kolom.

Misalnya, dengan definisi berikut, aljabar linear melarang A+B karena A dan B memiliki dimensi yang berbeda:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Namun, penyiaran memungkinkan operasi A+B dengan memperluas B secara virtual ke:

 [[2, 2, 2],
  [2, 2, 2]]

Dengan demikian, A+B sekarang menjadi operasi yang valid:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Lihat deskripsi penyiaran di NumPy berikut untuk detail selengkapnya.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bins, biasanya berdasarkan rentang nilai. Fitur yang terpotong biasanya merupakan fitur berkelanjutan.

Misalnya, daripada merepresentasikan suhu sebagai satu fitur floating point yang berkelanjutan, Anda dapat membagi rentang suhu menjadi bucket terpisah, seperti:

<= 10 derajat Celsius akan menjadi bucket "dingin".
11 - 24 derajat Celsius akan menjadi ember "sedang".
>= 25 derajat Celsius akan menjadi ember "hangat".

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada dalam bucket temperate, sehingga model memperlakukan kedua nilai tersebut secara identik.

Klik ikon untuk catatan tambahan.

Jika Anda merepresentasikan suhu sebagai fitur berkelanjutan, model akan memperlakukan suhu sebagai fitur tunggal. Jika Anda merepresentasikan suhu sebagai tiga bucket, model akan memperlakukan setiap bucket sebagai fitur terpisah. Artinya, model dapat mempelajari hubungan terpisah dari setiap bucket ke label. Misalnya, model regresi linear dapat mempelajari bobot terpisah untuk setiap bucket.

Peningkatan jumlah bucket akan membuat model Anda menjadi lebih rumit dengan meningkatkan jumlah hubungan yang harus dipelajari model Anda. Misalnya, bucket dingin, sedang, dan hangat pada dasarnya adalah tiga fitur terpisah untuk dilatih oleh model Anda. Jika Anda memutuskan untuk menambahkan dua bucket lagi--misalnya, pembekuan dan hot--model Anda sekarang harus dilatih pada lima fitur terpisah.

Bagaimana cara Anda mengetahui jumlah bucket yang akan dibuat, atau berapa rentang untuk setiap bucket? Jawabannya biasanya memerlukan cukup banyak eksperimen.

C

lapisan kalibrasi

Penyesuaian pascaprediksi, biasanya untuk memperhitungkan bias prediksi. Prediksi dan probabilitas yang disesuaikan harus cocok dengan distribusi dari kumpulan label yang diamati.

pembuatan kandidat

#recsystems

Kumpulan rekomendasi awal yang dipilih oleh sistem rekomendasi. Misalnya, pikirkan sebuah toko buku yang menawarkan 100.000 judul. Fase pembuatan kandidat membuat daftar buku yang cocok dengan lebih sedikit untuk pengguna tertentu, misalnya 500. Namun, bahkan 500 buku terlalu banyak untuk direkomendasikan kepada pengguna. Fase sistem rekomendasi berikutnya yang lebih mahal (seperti skoran dan pemeringkatan ulang) mengurangi 500 rekomendasi tersebut menjadi kumpulan rekomendasi yang jauh lebih kecil dan lebih berguna.

sampling kandidat

Pengoptimalan waktu pelatihan yang menghitung probabilitas untuk semua label positif, menggunakan, misalnya, softmax, tetapi hanya untuk sampel label negatif acak. Misalnya, dengan contoh berlabel beagle dan dog, pengambilan sampel kandidat menghitung probabilitas yang diprediksi dan istilah kerugian yang sesuai untuk:

beagle
subset acak dari class negatif yang tersisa (misalnya cat, lollipop, fence).

Idenya adalah bahwa kelas negatif dapat belajar dari penguatan negatif yang lebih jarang selama kelas positif selalu mendapatkan penguatan positif yang tepat, dan ini memang diamati secara empiris.

Sampling kandidat lebih efisien secara komputasi daripada algoritma pelatihan yang menghitung prediksi untuk semua class negatif, terutama jika jumlah class negatif sangat besar.

data kategorik

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang mungkin. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

red
yellow
green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategorik terkadang disebut fitur diskrit.

Berbeda dengan data numerik.

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk mengontraskan berbagai pendekatan dalam pemodelan bahasa.

sentroid

#clustering

Pusat cluster seperti yang ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k adalah 3, maka algoritma k-means atau k-median akan menemukan 3 sentroid.

pengelompokan berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data ke dalam cluster non-hierarki. k-means adalah algoritme pengelompokan berbasis sentroid yang paling banyak digunakan.

Berbeda dengan algoritma pengelompokan hierarkis.

prompting chain-of-thinkt

#language

#AIgeneratif

Teknik rekayasa perintah yang mendorong model bahasa besar (LLM) untuk menjelaskan alasannya, langkah demi langkah. Misalnya, perhatikan petunjuk berikut, beri perhatian khusus pada kalimat kedua:

Berapa gaya g yang akan dialami pengemudi dalam sebuah mobil yang melaju dari 0 hingga 60 mil per jam dalam 7 detik? Pada jawaban, tampilkan semua penghitungan yang relevan.

Respons LLM kemungkinan akan:

Menampilkan urutan rumus fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang sesuai.
Menjelaskan mengapa ia memilih formula tersebut dan apa arti berbagai variabelnya.

Perintah rangkaian pemikiran memaksa LLM untuk melakukan semua penghitungan, sehingga dapat memberikan jawaban yang lebih tepat. Selain itu, permintaan berantai memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah jawaban tersebut masuk akal atau tidak.

chat

#language

#AIgeneratif

Konten dialog dua arah dengan sistem ML, biasanya model bahasa besar. Interaksi sebelumnya dalam chat (apa yang Anda ketik dan bagaimana model bahasa besar merespons) menjadi konteks untuk bagian chat berikutnya.

Chatbot adalah penerapan model bahasa besar.

pos pemeriksaan

Data yang menangkap status parameter model pada iterasi pelatihan tertentu. Checkpoint memungkinkan pengeksporan bobot model, atau melakukan pelatihan di beberapa sesi. Checkpoint juga memungkinkan pelatihan melanjutkan error yang lalu (misalnya, preemption tugas).

Saat melakukan penyesuaian, titik awal untuk pelatihan, model baru akan menjadi titik pemeriksaan spesifik dari model terlatih.

class

#fundamentals

Kategori yang dapat mencakup label. Contoh:

Dalam model klasifikasi biner yang mendeteksi spam, dua kelas tersebut mungkin adalah spam dan bukan spam.
Dalam model klasifikasi kelas multi-kelas yang mengidentifikasi jenis, kelasnya mungkin berupa pudel, beagle, pesa, dan seterusnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

model yang prediksinya adalah model. Misalnya, berikut ini adalah semua model klasifikasi:

Model yang memprediksi bahasa kalimat input (bahasa Prancis? Spanyol? Italia?).
Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi lebih memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

klasifikasi biner
klasifikasi kelas jamak

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengubah output mentah dari model regresi logistik menjadi prediksi dari kelas positif atau kelas negatif. Perhatikan bahwa batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

Jika nilai mentah ini lebih dari batas klasifikasi, class positif akan diprediksi.
Jika nilai mentah ini kurang dari batas klasifikasi, class negatif akan diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentahnya adalah 0,9, maka model akan memprediksi kelas positif. Jika nilai mentahnya adalah 0,7, maka model akan memprediksi kelas negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

Klik ikon untuk catatan tambahan.

Seiring berkembangnya model atau set data, engineer terkadang juga mengubah batas klasifikasi. Ketika batas klasifikasi berubah, prediksi kelas positif tiba-tiba dapat menjadi kelas negatif dan sebaliknya.

Misalnya, pertimbangkan model prediksi penyakit klasifikasi biner. Misalkan saat sistem berjalan pada tahun pertama:

Nilai mentah untuk pasien tertentu adalah 0,95.
Batas klasifikasi adalah 0,94.

Oleh karena itu, sistem mendiagnosis class positif. (Pasien terengah-engah, "Oh tidak! Aku sakit!”)

Setahun kemudian, mungkin nilainya sekarang terlihat seperti berikut:

Nilai mentah untuk pasien yang sama tetap 0,95.
Batas klasifikasi berubah menjadi 0,97.

Oleh karena itu, sistem kini mengklasifikasikan ulang pasien tersebut sebagai kelas negatif. ("Selamat hari! Saya tidak sakit.") Pasien yang sama. Diagnosis berbeda.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi dengan jumlah total label untuk setiap class berbeda secara signifikan. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

1.000.000 label negatif
10 label positif

Rasio label negatif terhadap label positif adalah 100.000: 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak kelas tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

517 label negatif
483 label positif

Set data multi-class juga dapat bersifat tidak seimbang. Misalnya, set data klasifikasi kelas jamak berikut juga tidak seimbang kelasnya karena satu label memiliki lebih banyak contoh daripada dua label lainnya:

1.000.000 label dengan kelas "hijau"
200 label dengan class "ungu"
350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

penyesuaian nilai

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

Mengurangi nilai fitur yang lebih besar dari batas maksimum hingga ke nilai minimum maksimum tersebut.
Meningkatkan nilai fitur yang kurang dari nilai minimum hingga ke nilai minimum tersebut.

Misalnya, <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam kasus ini, Anda dapat melakukan tindakan berikut:

Potong semua nilai di atas 60 (batas maksimum) menjadi tepat 60.
Potong semua nilai di bawah 40 (batas minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot berlebihan selama pelatihan. Beberapa pencilan juga dapat merusak metrik seperti akurasi secara signifikan. Kliping adalah teknik umum untuk membatasi kerusakan.

Pemangkasan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

Cloud TPU

#TensorFlow

#GoogleCloud

Akselerator hardware khusus yang dirancang untuk mempercepat workload machine learning di Google Cloud.

{i>clustering<i} (pengelompokan)

#clustering

Mengelompokkan contoh terkait, terutama selama unsupervised learning. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritma pengklasteran. Misalnya, contoh cluster algoritma k-means berdasarkan kedekatannya dengan senroid, seperti dalam diagram berikut:

Grafik dua dimensi yang memberi label sumbu x lebar pohon, dan sumbu y diberi label tinggi pohon. Grafik ini berisi dua
sentroid dan beberapa lusin titik data. Titik data dikategorikan berdasarkan kedekatannya. Artinya, titik data yang terdekat dengan satu sentroid dikategorikan sebagai cluster 1, sedangkan titik data yang terdekat dengan sentroid lainnya dikategorikan sebagai cluster 2.

Peneliti manusia kemudian dapat meninjau klaster tersebut dan, misalnya, memberi label pada klaster 1 sebagai "pohon kerdil" dan klaster 2 sebagai "pohon berukuran penuh".

Sebagai contoh lain, pertimbangkan algoritme pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir
seperti lubang di sekitar bagian tengah papan dart. Cincin terdalam
titik data dikategorikan sebagai cluster 1, cincin tengah
dikategorikan sebagai cluster 2, dan cincin terluar sebagai
cluster 3.

adaptasi bersama

Saat neuron memprediksi pola dalam data pelatihan dengan mengandalkan hampir hanya pada output neuron lain tertentu, bukan mengandalkan perilaku jaringan secara keseluruhan. Jika pola yang menyebabkan adaptasi bersama tidak ada dalam data validasi, adaptasi bersama akan menyebabkan overfitting. Regularisasi dengan pelolosan mengurangi adaptasi bersama karena pelolosan memastikan neuron tidak dapat hanya mengandalkan neuron spesifik lain.

penyaringan kolaboratif

#recsystems

Membuat prediksi tentang minat satu pengguna berdasarkan minat banyak pengguna lainnya. Pemfilteran kolaboratif sering digunakan dalam sistem rekomendasi.

penyimpangan konsep

Pergeseran hubungan antara fitur dan label. Seiring waktu, penyimpangan konsep akan mengurangi kualitas model.

Selama pelatihan, model mempelajari hubungan antara fitur dan labelnya dalam set pelatihan. Jika label dalam set pelatihan merupakan proxy yang baik untuk dunia nyata, model harus dapat membuat prediksi yang baik di dunia nyata. Namun, karena penyimpangan konsep, prediksi model cenderung menurun seiring waktu.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah model mobil tertentu "hemat bahan bakar" atau tidak. Artinya, fitur tersebut dapat berupa:

berat mobil
kompresi mesin
jenis transmisi

sedangkan labelnya adalah:

hemat bahan bakar
tidak hemat bahan bakar

Namun, konsep "mobil hemat bahan bakar" terus berubah. Model mobil berlabel hemat bahan bakar pada tahun 1994 hampir dapat dipastikan akan diberi label tidak hemat bahan bakar pada tahun 2024. Model yang mengalami penyimpangan konsep cenderung membuat prediksi yang kurang berguna dari waktu ke waktu.

Membandingkan dan membedakan dengan nonstasioneritas.

Klik ikon untuk catatan tambahan.

Untuk mengompensasi penyimpangan konsep, latih ulang model lebih cepat daripada frekuensi penyimpangan konsep. Misalnya, jika penyimpangan konsep mengurangi presisi model dengan margin yang berarti setiap dua bulan, latih ulang model Anda lebih sering daripada setiap dua bulan.

kondisi

#df

Pada hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikut dari pohon keputusan berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Membandingkan kondisi dengan leaf.

Lihat juga:

kondisi biner
kondisi non-biner.
kondisi rata sumbu
kondisi miring

konfabulasi

#language

Sinonim dari halusinasi.

Konfabulasi mungkin merupakan istilah yang lebih akurat secara teknis daripada halusinasi. Namun, halusinasi menjadi populer terlebih dahulu.

konfigurasi

Proses penetapan nilai properti awal yang digunakan untuk melatih model, termasuk:

lapisan penyusunan model
lokasi data
hyperparameter seperti:

Dalam project machine learning, konfigurasi dapat dilakukan melalui file konfigurasi khusus atau menggunakan library konfigurasi seperti berikut:

bias konfirmasi

#fairness

Kecenderungan untuk mencari, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin secara tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung keyakinan yang sudah mereka miliki. Bias konfirmasi adalah bentuk bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi yang mana pelaku eksperimen terus melatih model sampai hipotesis yang sudah ada sebelumnya dikonfirmasi.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi yang benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi biner:

	Tumor (diprediksi)	Bukan Tumor (diprediksi)
Tumor (kebenaran dasar)	18 (PB)	1 (NP)
Non-Tumor (kebenaran dasar)	6 (PP)	452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

Dari 19 prediksi yang kebenaran dasar-nya adalah Tumor, model ini secara benar mengklasifikasikan 18 tahun dan salah diklasifikasikan dengan 1.
Dari 458 prediksi yang kebenaran dasarnya adalah Non-Tumor, model ini mengklasifikasikan dengan benar 452 dan salah diklasifikasikan dengan 6.

Matriks konfusi untuk masalah klasifikasi kelas multi-class dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi kelas multi-kelas 3 yang mengategorikan tiga jenis iris berbeda (Virginica, Versicolor, dan Setosa). Jika kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model tersebut jauh lebih mungkin salah memprediksi Versicolor dibandingkan Setosa:

	Setosa (diprediksi)	Versicolor (diprediksi)	Virginica (diprediksi)
Setosa (kebenaran dasar)	88	12	0
Versicolor (kebenaran dasar)	6	141	7
Virginica (kebenaran dasar)	2	27	109

Sebagai contoh lainnya, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit tulisan tangan cenderung salah memprediksi 9, bukan 4, atau keliru memprediksi 1, bukan 7.

Matriks konfusi berisi informasi yang cukup untuk menghitung berbagai metrik performa, termasuk presisi dan perolehan.

penguraian konstituensi

#language

Membagi kalimat menjadi struktur tata bahasa yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti model natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat aslinya. Misalnya, pertimbangkan kalimat berikut:

Teman saya mengadopsi dua ekor kucing.

Parser konstituensi dapat membagi kalimat ini menjadi dua konstituen berikut:

Teman saya adalah frasa nomina.
adopted two cats adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi beberapa konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lebih lanjut menjadi:

adopted adalah kata kerja.
two cats adalah frasa nomina lainnya.

embedding bahasa kontekstual

#language

#AIgeneratif

Embedding yang hampir "memahami" kata dan frasa dengan cara yang dapat dilakukan oleh penutur asli manusia. Embedding bahasa kontekstual dapat memahami sintaksis, semantik, dan konteks yang kompleks.

Misalnya, pertimbangkan embedding kata bahasa Inggris cow. Embedding lama, seperti word2vec dapat merepresentasikan kata-kata bahasa Inggris, sehingga jarak di ruang penyematan dari cow ke bull akan serupa dengan jarak dari betina (domba betina) ke domba jantan (domba jantan) atau dari betina ke jantan. Embedding bahasa kontekstual dapat selangkah lebih maju dengan memahami bahwa pengguna bahasa Inggris terkadang menggunakan kata cow untuk berarti sapi atau banteng.

jendela konteks

#language

#AIgeneratif

Jumlah token yang dapat diproses model dalam perintah tertentu. Makin besar jendela konteks, makin banyak informasi yang dapat digunakan model untuk memberikan respons yang koheren dan konsisten terhadap perintah.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang nilai yang memungkinkan yang tidak terbatas, seperti suhu atau bobot.

Berbeda dengan fitur diskret.

pengambilan sampel praktis

Menggunakan set data yang tidak dikumpulkan secara ilmiah untuk menjalankan eksperimen dengan cepat. Nantinya, Anda perlu beralih ke set data yang dikumpulkan secara ilmiah.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menyarankan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi
pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun tajam. Setelah sekitar 100 iterasi, kerugian masih menurun, tetapi secara bertahap. Setelah sekitar 700 iterasi, kerugian akan tetap sama.

Model akan konvergensi jika pelatihan tambahan tidak akan meningkatkan kualitas model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya menurun. Selama jangka waktu nilai kerugian yang konstan, Anda mungkin mendapatkan kesan konvergensi yang salah untuk sementara waktu.

Lihat juga penghentian awal.

fungsi cembung

Fungsi dengan wilayah di atas grafik dari fungsi yang merupakan himpunan konveks. Fungsi cembung prototipe berbentuk seperti huruf U. Misalnya, berikut ini adalah fungsi konveks:

Kurva berbentuk U, masing-masing dengan satu titik minimum.

Sebaliknya, fungsi berikut tidak konveks. Perhatikan bagaimana wilayah di atas grafik bukan himpunan konveks:

Kurva berbentuk W dengan dua titik minimum lokal yang berbeda.

Fungsi konveks tegas memiliki tepat satu titik minimum lokal, yang juga merupakan titik minimum global. Fungsi berbentuk U klasik adalah fungsi konveks tegas. Namun, beberapa fungsi konveks (misalnya, garis lurus) tidak berbentuk U.

Klik ikon ini untuk mempelajari matematika lebih dalam.

Banyak fungsi kerugian yang umum, termasuk yang berikut ini, adalah fungsi konveks:

K₂ kalah
Kehilangan Log
regularisasi L₁
Regularisasi L₂

Banyak variasi penurunan gradien dijamin akan menemukan titik yang mendekati minimum dari fungsi konveks tegas. Demikian pula, banyak variasi penurunan gradien stokastik memiliki probabilitas tinggi (meskipun bukan jaminan) untuk menemukan titik yang mendekati minimum dari fungsi konveks tegas.

Jumlah dua fungsi konveks (misalnya, kerugian L₂ + regularisasi L₁) adalah fungsi konveks.

Model dalam bukanlah fungsi konveks. Hebatnya, algoritma yang dirancang untuk pengoptimalan konveks cenderung menemukan solusi yang cukup bagus pada jaringan dalam, meskipun solusi tersebut tidak dijamin akan menjadi solusi minimum global.

pengoptimalan cembung

Proses penggunaan teknik matematika seperti penurunan gradien untuk menemukan nilai minimum fungsi konveks. Banyak penelitian dalam machine learning telah berfokus pada perumusan berbagai masalah sebagai masalah pengoptimalan konveks dan dalam menyelesaikan masalah tersebut secara lebih efisien.

Untuk mengetahui detail selengkapnya, lihat Boyd dan Vandenberghe, Pengoptimalan Konveks.

himpunan konveks

Subset dari ruang Euclidean sehingga garis yang digambar di antara dua titik dalam subset tetap sepenuhnya berada dalam subset. Misalnya, dua bentuk berikut adalah himpunan konveks:

Salah satu ilustrasi persegi panjang. Ilustrasi oval lainnya.

Sebaliknya, dua bentuk berikut bukan himpunan konveks:

Salah satu ilustrasi diagram lingkaran dengan irisan yang hilang.
Ilustrasi lain dari poligon tidak beraturan.

konvolusi

#image

Dalam matematika, berbicara santai, campuran dari dua fungsi. Dalam machine learning, konvolusi mencampur filter konvolusi dan matriks input untuk melatih bobot.

Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk merujuk pada operasi konvolusional atau lapisan konvolusional.

Tanpa konvolusi, algoritma machine learning harus mempelajari bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritma machine learning pada gambar 2 ribu x 2 ribu akan dipaksa menemukan bobot terpisah sebesar 4 juta. Berkat konvolusi, algoritma machine learning hanya perlu menemukan bobot untuk setiap sel dalam filter konvolusional, yang secara drastis mengurangi memori yang diperlukan untuk melatih model. Saat diterapkan, saringan konvolusional hanya direplikasi di sel-sel sehingga masing-masing sel tersebut dikalikan dengan filter tersebut.

saringan konvolusional

#image

Salah satu dari dua aktor dalam operasi konvolusional. (Pelaku lainnya adalah potongan dari matriks input.) Saringan konvolusional adalah matriks yang memiliki peringkat yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28x28, filter dapat berupa matriks 2D yang lebih kecil dari 28x28.

Dalam manipulasi fotografi, semua sel dalam saringan konvolusional biasanya diatur ke pola konstan satu dan nol. Dalam machine learning, filter konvolusional biasanya diawali dengan angka acak, lalu jaringan melatih nilai yang ideal.

lapisan konvolusional

#image

Lapisan jaringan neural dalam tempat filter konvolusional diteruskan di sepanjang matriks input. Misalnya, pertimbangkan filter konvolusional 3x3 berikut:

Matriks 3x3 dengan nilai berikut: [[0,1,0], [1,0,1], [0,1,0]]

Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan matriks input 3x3 yang berbeda. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil 9 operasi konvolusional:

jaringan neural konvolusional

#image

Jaringan neural yang memiliki setidaknya satu lapisan sebagai lapisan konvolusional. Jaringan neural konvolusional umum terdiri dari beberapa kombinasi lapisan berikut:

lapisan konvolusional
lapisan penggabungan
lapisan padat

Jaringan neural konvolusional telah sukses besar dalam jenis masalah tertentu, seperti pengenalan citra.

operasi konvolusional

#image

Operasi matematika dua langkah berikut:

Perkalian berbasis elemen dari filter konvolusional dan potongan dari matriks input. (Potongan matriks input memiliki peringkat dan ukuran yang sama dengan saringan konvolusional.)
Penjumlahan semua nilai dalam matriks produk yang dihasilkan.

Misalnya, pertimbangkan matriks input 5x5 berikut:

Matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,2100,195]

Sekarang bayangkan saringan konvolusional 2x2 berikut:

Matriks 2x2: [[1, 0], [0, 1]]

Setiap operasi konvolusional melibatkan potongan tunggal 2x2 dari matriks input. Misalnya, kita menggunakan potongan 2x2 di kiri atas matriks input. Jadi, operasi konvolusi pada slice ini akan terlihat sebagai berikut:

Menerapkan filter konvolusional [[1, 0], [0, 1]] ke bagian 2x2 kiri atas dari matriks input, yaitu [[128,97], [35,22]].
Filter konvolusional membiarkan angka 128 dan 22 tetap utuh, tetapi angka 97 dan 35 menjadi nol. Akibatnya, operasi konvolusi menghasilkan nilai 150 (128+22).

Lapisan konvolusional terdiri dari serangkaian operasi konvolusional, yang masing-masing bekerja pada bagian matriks input yang berbeda.

cost

Sinonim dari kerugian.

pelatihan bersama

Pendekatan semi-supervised learning sangat berguna saat semua kondisi berikut terpenuhi:

Rasio contoh tak berlabel terhadap contoh berlabel dalam set data tinggi.
Ini adalah masalah klasifikasi (biner atau multi-class).
Set data berisi dua kumpulan fitur prediktif berbeda yang tidak saling bergantung dan saling melengkapi.

Pelatihan bersama pada dasarnya memperkuat sinyal independen menjadi sinyal yang lebih kuat. Misalnya, pertimbangkan model klasifikasi yang mengategorikan setiap mobil bekas sebagai Baik atau Buruk. Satu set fitur prediktif mungkin berfokus pada karakteristik agregat seperti tahun, merek, dan model mobil; serangkaian fitur prediktif lainnya mungkin berfokus pada catatan mengemudi dari pemilik sebelumnya dan histori pemeliharaan mobilnya.

Makalah penting tentang pelatihan bersama adalah Menggabungkan Data Berlabel dan Tidak Berlabel dengan Pelatihan Bersama oleh Blum dan Mitchell.

keadilan kontrafaktual

#fairness

Metrik keadilan yang memeriksa apakah pengklasifikasi memberikan hasil yang sama untuk satu individu seperti yang dilakukannya untuk individu lain yang identik dengan individu pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk memunculkan sumber potensi bias dalam suatu model.

Lihat "When Worlds Collide: Mengintegrasikan Asumsi Kontrafaktual yang Berbeda dalam Keadilan" untuk diskusi yang lebih mendetail tentang keadilan kontrafaktual.

bias cakupan

#fairness

Lihat bias seleksi.

bunga tabrakan

#language

Kalimat atau frasa dengan makna yang ambigu. Bunga kecil menghadirkan masalah yang signifikan dalam natural language understanding. Misalnya, judul Red Tape Holds Up Skyscraper adalah frasa ambigu karena model NLU dapat menafsirkan judul secara harfiah atau kiasan.

Klik ikon untuk catatan tambahan.

Sekadar memperjelas:

Red Tape dapat merujuk pada salah satu hal berikut:
- Perekat
- Birokrasi yang berlebihan
Tahan dapat merujuk pada salah satu hal berikut:
- Dukungan struktural
- Keterlambatan

kritikus

#rl

Sinonim dari Deep Q-Network.

entropi silang

Generalisasi Kerugian Log terhadap masalah klasifikasi kelas multi-class. Entropi silang mengukur perbedaan antara dua distribusi probabilitas. Lihat juga perpleksitas.

validasi silang

Mekanisme untuk memperkirakan seberapa baik model akan digeneralisasi ke data baru dengan menguji model tersebut terhadap satu atau beberapa subset data yang tidak tumpang-tindih yang ditahan dari set pelatihan.

fungsi distribusi kumulatif (CDF)

Fungsi yang menentukan frekuensi sampel yang kurang dari atau sama dengan nilai target. Misalnya, pertimbangkan distribusi normal dari nilai kontinu. CDF memberi tahu Anda bahwa sekitar 50% sampel harus kurang dari atau sama dengan rata-rata, dan sekitar 84% sampel harus kurang dari atau sama dengan satu deviasi standar di atas rata-rata.

D

analisis data

Memperoleh pemahaman tentang data dengan mempertimbangkan sampel, pengukuran, dan visualisasi. Analisis data dapat sangat berguna saat pertama kali set data diterima, sebelum membuat model pertama. Hal ini juga penting dalam memahami masalah eksperimen dan proses debug dengan sistem.

augmentasi data

#image

Secara artifisial meningkatkan rentang dan jumlah contoh pelatihan dengan mengubah contoh yang ada untuk membuat contoh tambahan. Misalnya, gambar adalah salah satu fitur Anda, tetapi set data Anda tidak berisi cukup contoh gambar bagi model untuk mempelajari asosiasi yang berguna. Idealnya, tambahkan cukup berlabel gambar ke set data Anda agar model dapat dilatih dengan benar. Jika tidak memungkinkan, augmentasi data dapat memutar, melebarkan, dan mencerminkan setiap gambar untuk menghasilkan banyak varian dari gambar asli, yang mungkin menghasilkan data berlabel yang memadai untuk memungkinkan pelatihan yang sangat baik.

DataFrame

#fundamentals

Jenis data pandas populer untuk merepresentasikan set data di memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi oleh nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti array 2D, kecuali bahwa setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

paralelisme data

Cara penskalaan pelatihan atau inferensi yang mereplikasi seluruh model ke beberapa perangkat, lalu meneruskan subset data input ke setiap perangkat. Paralelisme data dapat memungkinkan pelatihan dan inferensi pada ukuran tumpukan yang sangat besar; namun, paralelisme data mengharuskan model tersebut cukup kecil agar muat di semua perangkat.

Paralelisme data biasanya mempercepat pelatihan dan inferensi.

Lihat juga paralelisme model.

{i>dataset<i} atau {i>dataset<i}

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

spreadsheet
file dalam format CSV ({i>comma-separated values<i})

Dataset API (tf.data)

#TensorFlow

TensorFlow API tingkat tinggi untuk membaca data dan mengubahnya menjadi bentuk yang diperlukan oleh algoritma machine learning. Objek tf.data.Dataset mewakili urutan elemen, yang mana setiap elemen berisi satu atau beberapa Tensor. Objek tf.data.Iterator memberikan akses ke elemen Dataset.

Untuk mengetahui detail tentang Dataset API, lihat tf.data: Membangun pipeline input TensorFlow di Panduan Programmer TensorFlow.

batas keputusan

Pemisah antara class yang dipelajari oleh model dalam class biner atau masalah klasifikasi multi-class. Misalnya, pada gambar berikut yang merepresentasikan masalah klasifikasi biner, batas keputusannya adalah batas antara kelas oranye dan kelas biru:

Batas yang jelas antara satu class dan class lainnya.

hutan keputusan

#df

Model yang dibuat dari beberapa hierarki keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis forest keputusan yang populer mencakup forest acak dan pohon yang ditingkatkan gradien.

batas keputusan

Sinonim dari nilai minimum klasifikasi.

pohon keputusan (decision tree)

#df

Model supervised learning yang terdiri dari kumpulan conditions dan conditions yang diatur secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi yang disusun secara hierarkis, yang mengarah ke lima daun.

decoder

#language

Secara umum, semua sistem ML yang melakukan konversi dari representasi yang diproses, padat, atau internal menjadi representasi yang lebih mentah, jarang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar dan sering dipasangkan dengan encoder.

Dalam tugas urutan ke urutan, decoder dimulai dengan status internal yang dihasilkan oleh encoder untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi decoder dalam arsitektur Transformer.

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

yang sangat populer

Sinonim dari model dalam.

Deep Q-Network (DQN)

#rl

Dalam Q-learning, jaringan neural mendalam yang memprediksi fungsi Q.

Critic adalah sinonim untuk Deep Q-Network.

paritas demografi

#fairness

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika warga Liliput dan Brobdingnagian mendaftar ke Universitas Glubbdubdrib, paritas demografis akan tercapai jika persentase warga Liliput yang diterima sama dengan persentase penduduk Brobdingnagian yang diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat daripada yang lain.

Berbeda dengan peluang yang disamakan dan kesetaraan peluang, yang memungkinkan hasil klasifikasi secara gabungan untuk bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran dasar tertentu yang ditentukan untuk bergantung pada atribut sensitif. Lihat "diskriminasi yang menyerang dengan machine learning yang lebih cerdas" untuk visualisasi yang mengeksplorasi konsekuensi saat mengoptimalkan paritas demografis.

penghilang kebisingan

#language

Pendekatan umum untuk self-supervised learning yang mencakup:

Derau ditambahkan secara artifisial ke set data.
model mencoba menghapus derau.

Dengan penghilangan noise, Anda dapat mempelajari contoh tak berlabel. Set data asli berfungsi sebagai target atau label dan data berisik sebagai input.

Beberapa model bahasa yang disamarkan menggunakan penghilangan noise sebagai berikut:

Derau ditambahkan secara artifisial ke kalimat tidak berlabel dengan menyamarkan beberapa token.
Model mencoba memprediksi token asli.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor nilai floating point. Misalnya, Tensor 10 elemen berikut memiliki kepadatan karena 9 dari nilainya bukan nol:

Berbeda dengan fitur renggang.

lapisan padat

Sinonim dari lapisan terhubung sepenuhnya.

kedalaman

#fundamentals

Jumlah nilai berikut dalam jaringan neural:

jumlah lapisan tersembunyi
jumlah lapisan output, yang biasanya 1
jumlah lapisan embedding

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

jaringan neural konvolusional yang dapat dipisahkan depthwise (sepCNN)

#image

Arsitektur jaringan neural konvolusional berdasarkan Inception, tetapi dengan modul Inception diganti dengan konvolusi yang dapat dipisahkan secara mendalam. Juga dikenal sebagai Xception.

Convolution yang dapat dipisahkan secara depthwise (juga disingkat sebagai konvolusi yang dapat dipisahkan) memfaktorkan konvolusi 3D standar ke dalam dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi depthwise, dengan kedalaman 1 (n ✕ n ✕ 1), lalu kedua, konvolusi dengan panjang 1 ✕ 1 Minta

Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Depthwise Separable Convolutions.

label turunan

Sinonim dari label proxy.

perangkat

#TensorFlow

#GoogleCloud

Istilah yang kelebihan beban dengan dua kemungkinan definisi berikut:

Kategori hardware yang dapat menjalankan sesi TensorFlow, termasuk CPU, GPU, dan TPU.
Saat melatih model ML pada chip akselerator (GPU atau TPU), bagian dari sistem yang benar-benar memanipulasi tensor dan embeddings. Perangkat berjalan pada chip akselerator. Sebaliknya, host biasanya berjalan pada CPU.

privasi diferensial

Dalam machine learning, pendekatan anonimisasi untuk melindungi data sensitif apa pun (misalnya, informasi pribadi individu) yang disertakan dalam set pelatihan model agar tidak diekspos. Pendekatan ini memastikan bahwa model tidak mempelajari atau mengingat banyak hal tentang individu tertentu. Hal ini dilakukan dengan mengambil sampel dan menambahkan derau selama pelatihan model untuk mengaburkan titik data individual, sehingga mengurangi risiko mengekspos data pelatihan yang sensitif.

Privasi diferensial juga digunakan di luar machine learning. Misalnya, data scientist terkadang menggunakan privasi diferensial untuk melindungi privasi individu saat menghitung statistik penggunaan produk untuk berbagai demografi.

pengurangan dimensi

Menurunkan jumlah dimensi yang digunakan untuk merepresentasikan fitur tertentu dalam vektor fitur, biasanya dengan mengonversi menjadi vektor penyematan.

dimensi

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

Jumlah tingkat koordinat dalam Tensor. Contoh:
- Skalar memiliki dimensi nol; misalnya, ["Hello"].
- Vektor memiliki satu dimensi; misalnya, [3, 5, 7, 11].
- Matriks memiliki dua dimensi; misalnya, [[2, 4, 18], [5, 7, 14]].
Anda dapat secara unik menetapkan sel tertentu dalam vektor satu dimensi dengan satu koordinat; Anda memerlukan dua koordinat untuk menetapkan sel tertentu secara unik dalam matriks dua dimensi.
Jumlah entri dalam vektor fitur.
Jumlah elemen dalam lapisan embedding.

perintah langsung

#language

#AIgeneratif

Sinonim dari zero-shot prompting.

fitur diskrit (discrete fitur)

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya dapat berupa hewan, sayuran, atau mineral adalah fitur diskrit (atau kategorikal).

Berbeda dengan fitur berkelanjutan.

model diskriminatif

model yang memprediksi model dari kumpulan satu atau beberapa model. Secara lebih formal, model diskriminatif menentukan probabilitas bersyarat dari output dengan mempertimbangkan fitur dan bobot; yaitu:

p(output | features, weights)

Misalnya, model yang memprediksi apakah email merupakan spam dari fitur dan bobot adalah model diskriminatif.

Sebagian besar model supervised learning, termasuk model klasifikasi dan regresi, merupakan model diskriminatif.

Berbeda dengan model generatif.

diskriminator

Sistem yang menentukan apakah contoh asli atau palsu.

Atau, subsistem dalam jaringan saraf generatif berlawanan yang menentukan apakah contoh yang dibuat oleh generator itu asli atau palsu.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang-orang yang berdampak pada subgrup populasi yang berbeda secara tidak proporsional. Hal ini biasanya mengacu pada situasi ketika proses pengambilan keputusan berbasis algoritma lebih merugikan atau menguntungkan beberapa subkelompok daripada yang lain.

Misalnya, algoritma yang menentukan kelayakan seorang Lilliputian untuk pinjaman rumah miniatur lebih cenderung mengklasifikasikannya sebagai "tidak memenuhi syarat" jika alamat suratnya berisi kode pos tertentu. Jika Lilliputian Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini daripada Little-Endian Lilliputians, algoritma ini dapat mengakibatkan dampak yang berbeda.

Berbeda dengan perlakuan berbeda, yang berfokus pada perbedaan yang terjadi saat karakteristik subgrup merupakan input eksplisit untuk proses pengambilan keputusan algoritmik.

perlakuan berbeda

#fairness

Memfaktorkan atribut sensitif subjek ke dalam proses pengambilan keputusan berbasis algoritma sehingga subkelompok orang yang berbeda diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritma yang menentukan kelayakan warga Liliput untuk pinjaman rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman. Jika algoritma menggunakan afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, algoritma akan menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang berbeda, yang berfokus pada perbedaan dalam dampak sosial dari keputusan algoritma pada subkelompok, terlepas dari apakah subgrup tersebut merupakan input bagi model atau tidak.

distilasi

#AIgeneratif

Proses pengurangan ukuran satu model (dikenal sebagai pengajar) menjadi model yang lebih kecil (dikenal sebagai siswa) yang mengemulasi prediksi model asli sesetia mungkin. Distilasi berguna karena model yang lebih kecil memiliki dua manfaat utama dibandingkan model yang lebih besar (pengajar):

Waktu inferensi yang lebih cepat
Pengurangan penggunaan memori dan energi

Namun, prediksi siswa biasanya tidak sebaik prediksi pengajar.

Distilasi melatih model siswa untuk meminimalkan fungsi kerugian berdasarkan perbedaan antara output prediksi model siswa dan pengajar.

Bandingkan dan buat perbedaan nyata distilasi dengan istilah berikut:

fine-tuning
pembelajaran berbasis perintah

distribusi

Frekuensi dan rentang nilai yang berbeda untuk fitur atau label tertentu. Distribusi merekam seberapa besar kemungkinan nilai tertentu.

Gambar berikut menunjukkan histogram dari dua distribusi yang berbeda:

Di sebelah kiri, distribusi hukum kekuasaan kekayaan versus jumlah orang yang memiliki kekayaan tersebut.
Di sebelah kanan, distribusi normal tinggi versus jumlah orang yang memiliki tinggi tersebut.

Memahami setiap distribusi fitur dan label dapat membantu Anda menentukan cara menormalisasi nilai dan mendeteksi outlier.

Frasa out of distribution mengacu pada nilai yang tidak muncul dalam set data atau sangat langka. Misalnya, gambar planet Saturnus akan dianggap tidak terdistribusi untuk set data yang berisi gambar kucing.

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

pengurangan sampel

#image

Istilah yang berlebihan yang dapat berarti salah satu dari hal berikut:

Mengurangi jumlah informasi dalam fitur untuk melatih model dengan lebih efisien. Misalnya, sebelum melatih model pengenalan gambar, lakukan downsampling pada gambar beresolusi tinggi ke format dengan resolusi lebih rendah.
Melatih contoh class yang sangat terwakili secara tidak proporsional untuk meningkatkan pelatihan model pada class yang kurang terwakili. Misalnya, dalam set data kelas tidak seimbang, model cenderung banyak mempelajari kelas mayoritas, tetapi tidak cukup memahami kelas minoritas. Downsampling membantu menyeimbangkan jumlah pelatihan pada kelas mayoritas dan minoritas.

DQN

#rl

Singkatan dari Deep Q-Network.

regularisasi dengan pelolosan

Bentuk regularisasi yang berguna dalam melatih jaringan neural. Regularisasi dengan pelarian menghapus pilihan acak unit dalam jumlah tetap dalam lapisan jaringan untuk satu langkah gradien. Semakin banyak unit yang lolos, semakin kuat regularisasinya. Hal ini setara dengan melatih jaringan untuk mengemulasi ensemble jaringan yang lebih kecil secara eksponensial. Untuk mengetahui detail selengkapnya, lihat Dropout: Cara Sederhana untuk Mencegah Overfitting Jaringan Neural.

dinamis

#fundamentals

Sesuatu dilakukan secara sering atau terus-menerus. Istilah dinamis dan online adalah sinonim dari machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

Model dinamis (atau model online) adalah model yang dilatih ulang atau terus-menerus.
Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan sering atau berkelanjutan.
Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

model yang sering (bahkan mungkin terus-menerus) dilatih ulang. Model dinamis adalah "pembelajar sepanjang hayat" yang terus beradaptasi dengan data yang terus berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

eksekusi segera

#TensorFlow

Lingkungan pemrograman TensorFlow tempat operations dijalankan secara langsung. Sebaliknya, operasi yang disebut eksekusi grafik tidak akan berjalan sampai dievaluasi secara eksplisit. Eksekusi segera adalah antarmuka imperatif, seperti kode dalam sebagian besar bahasa pemrograman. Program eksekusi yang bersemangat umumnya jauh lebih mudah di-debug daripada program eksekusi grafik.

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai menurun. Di penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu, saat performa generalisasi memburuk.

Klik ikon untuk catatan tambahan.

Penghentian awal mungkin tampak kontra-intuitif. Lagi pula, memberi tahu model untuk menghentikan pelatihan saat kerugian masih menurun mungkin terlihat seperti memberi tahu koki untuk berhenti memasak sebelum makanan penutup matang sepenuhnya. Namun, melatih model terlalu lama dapat menyebabkan overfitting. Artinya, jika Anda melatih model terlalu lama, model mungkin terlalu dekat dengan data pelatihan sehingga model tidak bisa membuat prediksi yang baik pada contoh baru.

jarak penggerak bumi (EMD)

Ukuran kesamaan relatif dari dua distribusi. Semakin rendah jarak penggerak bumi, semakin mirip distribusinya.

edit jarak

#language

Pengukuran seberapa mirip dua {i>string<i} teks satu sama lain. Dalam machine learning, jarak edit berguna karena mudah untuk melakukan komputasi, dan merupakan cara yang efektif untuk membandingkan dua string yang diketahui mirip atau untuk menemukan string yang mirip dengan string tertentu.

Ada beberapa definisi jarak edit, masing-masing menggunakan operasi string yang berbeda. Misalnya, jarak Levenshtein mempertimbangkan operasi hapus, penyisipan, dan penggantian yang paling sedikit.

Misalnya, jarak Levenshtein antara kata "hati" dan "anak panah" adalah 3 karena 3 hasil edit berikut adalah perubahan paling sedikit untuk mengubah satu kata menjadi kata lainnya:

hati → deart (ganti "h" dengan "d")
deart → dart (hapus "e")
dart → dart (masukkan "s")

Notasi Einsum

Notasi efisien untuk menjelaskan cara menggabungkan dua tensor. Tensor dikombinasikan dengan mengalikan elemen satu tensor dengan elemen tensor lain, lalu menjumlahkan hasilnya. Notasi Einsum menggunakan simbol untuk mengidentifikasi sumbu setiap tensor, dan simbol yang sama tersebut diatur ulang untuk menentukan bentuk tensor baru yang dihasilkan.

NumPy menyediakan implementasi Einsum umum.

lapisan embedding

#language

#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor embedding dimensi yang lebih rendah. Dengan lapisan embedding, jaringan neural dapat dilatih dengan lebih efisien daripada hanya melatih fitur kategoris berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor one-hot dengan 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama menyimpan nilai
0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir menyimpan
nilai nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan embedding ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding yang terdiri dari 12 dimensi. Akibatnya, lapisan embedding akan secara bertahap mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

ruang embedding

#language

Ruang vektor d dimensi yang ditampilkan dari ruang vektor berdimensi lebih tinggi akan dipetakan. Idealnya, ruang penyematan berisi struktur yang menghasilkan hasil matematika yang bermakna; misalnya, dalam ruang penyematan yang ideal, penambahan dan pengurangan embeddings dapat menyelesaikan tugas analogi kata.

Produk dot dari dua embedding adalah ukuran kesamaannya.

vektor embedding

#language

Umumnya, array bilangan floating point yang diambil dari setiap lapisan tersembunyi yang menjelaskan input ke lapisan tersembunyi tersebut. Sering kali, vektor embedding adalah array angka floating point yang dilatih dalam lapisan embedding. Misalnya, anggaplah lapisan embedding harus mempelajari vektor embeddings untuk setiap 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor embedding untuk pohon baobab:

Array dari 12 elemen, masing-masing menyimpan bilangan floating point antara 0,0 dan 1,0.

Vektor embedding bukanlah sekumpulan angka acak. Lapisan embedding menentukan nilai ini melalui pelatihan, mirip dengan cara jaringan neural mempelajari bobot lain selama pelatihan. Setiap elemen array merupakan rating terhadap beberapa karakteristik spesies pohon. Elemen mana yang mewakili karakteristik spesies pohon? Itu sangat sulit bagi manusia untuk menentukannya.

Bagian luar biasa dari vektor embedding secara matematis adalah bahwa item serupa memiliki set bilangan floating point yang serupa. Misalnya, spesies pohon yang serupa memiliki kumpulan angka floating point yang lebih mirip daripada spesies pohon yang berbeda. Redwood dan sequoia adalah spesies pohon yang terkait, sehingga mereka akan memiliki kumpulan angka floating point yang lebih mirip daripada kayu redwood dan pohon kelapa. Angka dalam vektor embedding akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.

fungsi distribusi kumulatif empiris (eCDF atau EDF)

Fungsi distribusi kumulatif berdasarkan pengukuran empiris dari set data nyata. Nilai fungsi di titik mana pun di sepanjang sumbu x adalah fraksi pengamatan dalam set data yang kurang dari atau sama dengan nilai yang ditentukan.

minimalisasi risiko empiris (ERM)

Memilih fungsi yang meminimalkan kerugian pada set pelatihan. Berbeda dengan minimalisasi risiko struktural.

pembuat enkode

#language

Secara umum, semua sistem ML yang melakukan konversi dari representasi mentah, jarang, atau eksternal menjadi representasi yang lebih diproses, lebih padat, atau lebih internal.

Encoder sering kali merupakan komponen dari model yang lebih besar, yang sering disambungkan dengan decoder. Beberapa Transformer menghubungkan encoder dengan decoder, meskipun Transformer lain hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input untuk jaringan klasifikasi atau regresi.

Dalam tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi encoder dalam arsitektur Transformer.

ansambel

Kumpulan model yang dilatih secara independen dan prediksinya dirata-ratakan atau diagregasikan. Dalam banyak kasus, suatu ensembel menghasilkan prediksi yang lebih baik daripada model tunggal. Misalnya, random forest adalah ensembel yang dibangun dari beberapa pohon keputusan. Perhatikan bahwa tidak semua hutan keputusan merupakan ansambel.

entropi

#df

Dalam teori informasi, deskripsi tentang seberapa tidak dapat diprediksi distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang ada dalam setiap contoh. Suatu distribusi memiliki entropi tertinggi jika semua nilai variabel acak bernilai sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki formula berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

H adalah entropi.
p adalah pecahan dari contoh "1".
q adalah pecahan dari contoh "0". Perhatikan bahwa q = (1 - p)
log umumnya adalah log₂. Dalam hal ini, unit entropinya sedikit.

Misalnya, anggap saja hal berikut:

100 contoh berisi nilai "1"
300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per contoh

Set yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Dalam hierarki keputusan, entropi membantu merumuskan perolehan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

kotoran gini
Fungsi kerugian lintas entropi

Entropi sering disebut entropi Shannon.

environment

#rl

Dalam reinforcement learning, dunia yang berisi agent dan memungkinkan agen untuk mengamati negara bagian dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.

episode

#rl

Dalam reinforcement learning, setiap upaya berulang oleh agen untuk mempelajari lingkungan.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Satu epoch mewakili N/ukuran tumpukan yang melatih iterasi, dengan N adalah jumlah total contoh.

Misalnya, anggaplah berikut ini:

Set data terdiri dari 1.000 contoh.
Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

kebijakan epsilon greedy

#rl

Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah sebaliknya. Misalnya, jika epsilon bernilai 0,9, berarti kebijakan tersebut mengikuti kebijakan acak selama 90% dan kebijakan serakah selama 10% waktu.

Selama episode berturut-turut, algoritma ini mengurangi nilai epsilon untuk berubah dari mengikuti kebijakan acak menjadi mengikuti kebijakan yang serakah. Dengan mengalihkan kebijakan, agen mula-mula akan mengeksplorasi lingkungan secara acak, lalu mengeksploitasi hasil eksplorasi acak dengan serakah.

kesetaraan peluang

#fairness

Metrik keadilan untuk menilai apakah suatu model memprediksi hasil yang diinginkan dengan sama baiknya untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk sebuah model adalah kelas positif, sasarannya adalah rasio positif benar akan sama untuk semua kelompok.

Kesetaraan peluang terkait dengan peluang yang disamakan, yang mengharuskan rasio positif benar dan rasio positif palsu adalah sama untuk semua grup.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagians ke program matematika yang ketat. Sekolah menengah Liliput menawarkan kurikulum kelas matematika yang andal, dan sebagian besar siswa memenuhi syarat untuk mengikuti program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, sehingga jumlah siswa yang memenuhi kualifikasi jauh lebih sedikit. Kesetaraan peluang terpenuhi untuk label pilihan "berterima" sehubungan dengan kebangsaan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat sama-sama cenderung diterima, terlepas dari apakah mereka seorang Lilliputian atau Brobdingnagian.

Misalnya, 100 Lilliput dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pendaftar (90% memenuhi syarat)

	Berkualitas	Tidak memenuhi syarat
Diizinkan	45	3
Ditolak	45	7
Total	90	10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70% Persentase total siswa Liliput yang diterima: (45+3)/100 = 48%

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

	Berkualitas	Tidak memenuhi syarat
Diizinkan	5	9
Ditolak	5	81
Total	10	90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90% Persentase total siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk menerima siswa yang memenuhi syarat, karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak terpenuhi:

paritas demografis: Liliput dan Brobdingnagian dapat diterima di universitas ini dengan tarif yang berbeda; 48% siswa Lilliput diterima, tetapi hanya 14% siswa Brobdingnagian yang diterima.
peluang yang disamakan: Meskipun siswa Lilliput dan Brobdingnagian yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan yang sama-sama dimiliki oleh Lilliput dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang yang sama untuk ditolak tidak akan terpenuhi. Lilliput yang tidak memenuhi syarat memiliki rasio penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki tingkat penolakan 90%.

Lihat "Kesetaraan Peluang dalam Pembelajaran yang Diawasi" untuk diskusi yang lebih mendetail mengenai kesetaraan peluang. Lihat juga "Menyebabkan diskriminasi dengan machine learning yang cerdas" untuk visualisasi yang mengeksplorasi konsekuensi saat mengoptimalkan kesetaraan peluang.

peluang yang disamakan

#fairness

Metrik keadilan untuk menilai apakah suatu model memprediksi hasil secara sama dengan baik untuk semua nilai atribut sensitif terkait kelas positif dan kelas negatif—bukan hanya satu kelas atau kelas lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang sama terkait dengan kesetaraan peluang, yang hanya berfokus pada tingkat error untuk satu class (positif atau negatif).

Misalnya, Universitas Glubbdubdrib mengizinkan Lilliputian dan Brobdingnagians ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang andal, dan sebagian besar siswa memenuhi syarat untuk mengikuti program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, sehingga jumlah siswa yang memenuhi syarat menjadi jauh lebih sedikit. Peluang yang setara puas asalkan tidak peduli apakah pemohon merupakan Lilliput atau Brobdingnagian, jika memenuhi syarat, mereka memiliki kemungkinan yang sama untuk diterima dalam program, dan jika tidak memenuhi syarat, kemungkinan mereka sama-sama akan ditolak.

Misalkan 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan diambil sebagai berikut:

Tabel 3. Pendaftar (90% memenuhi syarat)

	Berkualitas	Tidak memenuhi syarat
Diizinkan	45	2
Ditolak	45	8
Total	90	10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80% Persentase total siswa Liliput yang diterima: (45+2)/100 = 47%

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

	Berkualitas	Tidak memenuhi syarat
Diizinkan	5	18
Ditolak	5	72
Total	10	90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80% Persentase total siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang setara puas karena siswa Lilliput dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, sedangkan siswa Lilliput dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang disetarakan secara formal ditentukan dalam "Kesetaraan Peluang dalam supervised Learning" sebagai berikut: "prediktif ° memenuhi peluang yang disamakan sehubungan dengan atribut A yang dilindungi dan hasil Y jika dan A independen, bersyarat pada Y".

Pengestimasi

#TensorFlow

TensorFlow API yang tidak digunakan lagi. Gunakan tf.keras, bukan evaluator.

evaluasi

Proses mengukur kualitas prediksi model machine learning. Saat mengembangkan model, Anda biasanya menerapkan metrik evaluasi tidak hanya pada set pelatihan, tetapi juga pada set validasi dan set pengujian. Anda juga dapat menggunakan metrik evaluasi untuk membandingkan model yang berbeda satu sama lain.

contoh

#fundamentals

Nilai dari satu baris fitur dan mungkin label. Contoh dalam supervised learning termasuk dalam dua kategori umum:

Contoh berlabel terdiri dari satu atau beberapa fitur dan satu label. Contoh berlabel digunakan selama pelatihan.
Contoh tak berlabel terdiri dari satu atau beberapa fitur tetapi tidak memiliki label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda sedang melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur			Label
Temperature (suhu)	Kelembapan	Tekanan	Skor tes
15	47	998	Baik
19	34	1020	Sangat baik
18	92	1012	Buruk

Berikut adalah tiga contoh tak berlabel:

Temperature (suhu)	Kelembapan	Tekanan
12	62	1014
21	47	1017
19	41	1021

Baris set data biasanya merupakan sumber mentah untuk contoh tersebut. Artinya, sebuah contoh biasanya terdiri dari subkumpulan kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetik, seperti persilangan fitur.

nikmati pemutaran ulang

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu contoh transisi dari buffer replay untuk membuat data pelatihan.

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

masalah gradien meledak

#seq

Kecenderungan gradien dalam jaringan neural dalam (terutama jaringan saraf berulang) menjadi sangat curam (tinggi). Gradien curam sering kali menyebabkan update yang sangat besar pada bobot setiap node dalam jaringan neural dalam.

Model yang mengalami masalah gradien yang meledak akan menjadi sulit atau tidak mungkin untuk dilatih. Pemangkasan gradien dapat mengurangi masalah ini.

Bandingkan dengan masalah gradien hilang.

F

P₁

Metrik klasifikasi biner "roll-up" yang bergantung pada presisi dan perolehan. Berikut ini formulanya:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Misalnya, dengan hal berikut:

presisi = 0,6
perolehan = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Jika presisi dan perolehannya agak mirip (seperti dalam contoh sebelumnya), F₁ mendekati rata-ratanya. Jika presisi dan perolehan berbeda secara signifikan, F₁ akan lebih dekat dengan nilai yang lebih rendah. Contoh:

presisi = 0,9
perolehan = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

batasan keadilan

#fairness

Menerapkan batasan ke algoritma untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

Pasca-pemrosesan untuk output model Anda.
Mengubah fungsi kerugian untuk menyertakan penalti karena melanggar metrik keadilan.
Menambahkan batasan matematika ke soal pengoptimalan secara langsung.

metrik keadilan

#fairness

Definisi matematis dari "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

peluang yang disamakan
paritas prediktif
keadilan kontrafaktual
paritas demografis

Banyak metrik keadilan yang saling eksklusif; lihat inkompatibilitas metrik keadilan.

negatif palsu (FN)

#fundamentals

Contoh saat model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

rasio negatif palsu

Proporsi contoh positif aktual yang modelnya salah memprediksi class negatif. Formula berikut menghitung rasio negatif palsu:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

positif palsu (PP)

#fundamentals

Contoh saat model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (class positif), tetapi pesan email tersebut sebenarnya bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang modelnya salah memprediksi class positif. Formula berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda sedang melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur			Label
Temperature (suhu)	Kelembapan	Tekanan	Skor tes
15	47	998	92
19	34	1020	84
18	92	1012	87

Berbeda dengan label.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan cara "menyeberangi" fitur kategoris atau bucket.

Misalnya, pertimbangkan model "perkiraan suasana hati" yang mewakili suhu dalam salah satu dari empat bucket berikut:

freezing
chilly
temperate
warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

still
light
windy

Tanpa persilangan fitur, model linear akan berlatih secara independen pada masing-masing dari tujuh bucket yang berbeda sebelumnya. Jadi, model dilatih pada, misalnya, freezing secara terpisah dari pelatihan, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan hari freezing-still.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket berbeda, persilangan fitur yang dihasilkan akan memiliki sejumlah besar kemungkinan kombinasi. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, silang adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals

#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

Menentukan fitur yang mungkin berguna dalam melatih model.
Mengonversi data mentah dari set data ke versi fitur tersebut yang efisien.

Misalnya, Anda dapat menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan pengelompokan untuk mengoptimalkan apa yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau fiturisasi.

Klik ikon untuk melihat catatan tambahan tentang TensorFlow.

Di TensorFlow, rekayasa fitur sering kali berarti mengonversi entri file log mentah ke buffering protokol tf.Example. Lihat juga tf.Transform.

ekstraksi fitur

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

Mengambil representasi fitur perantara yang dihitung oleh unsupervised atau model terlatih (misalnya, nilai lapisan tersembunyi dalam jaringan neural) untuk digunakan dalam model lain sebagai input.
Sinonim dari rekayasa fitur.

tingkat kepentingan fitur

#df

Sinonim dari variabel penting.

set fitur

#fundamentals

Grup fitur yang dilatih oleh model machine learning Anda. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari set fitur sederhana untuk model yang memprediksi harga perumahan.

spesifikasi fitur

#TensorFlow

Menjelaskan informasi yang diperlukan untuk mengekstrak data features dari buffering protokol tf.Example. Karena buffering protokol tf.Example hanyalah sebuah container untuk data, Anda harus menentukan hal berikut:

Data yang akan diekstrak (yaitu, kunci untuk fitur)
Tipe data (misalnya, float atau int)
Panjang (tetap atau variabel)

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur diskret mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
Lapisan input berisi dua node, satu berisi nilai 0,92 dan yang lain berisi nilai 0,56.

Setiap contoh memberikan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya bisa seperti:

[0.73, 0.49]

Rekayasa fitur menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategori biner dengan lima kemungkinan nilai dapat direpresentasikan dengan one-hot encoding. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan satu angka 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lain, misalkan model Anda terdiri dari tiga fitur:

fitur kategori biner dengan lima kemungkinan nilai yang diwakili dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
fitur kategori biner lainnya dengan tiga kemungkinan nilai yang diwakili dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan diwakili oleh sembilan nilai. Dengan mempertimbangkan contoh nilai dalam daftar sebelumnya, vektor fiturnya adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

fitur

Proses ekstraksi fitur dari sumber input, seperti dokumen atau video, dan memetakan fitur tersebut ke dalam vektor fitur.

Beberapa pakar ML menggunakan fitur sebagai sinonim untuk rekayasa fitur atau ekstraksi fitur.

federated learning

Pendekatan machine learning terdistribusi yang melatih model machine learning menggunakan contoh terdesentralisasi yang ada di perangkat seperti smartphone. Dalam federated learning, sebagian perangkat akan mendownload model saat ini dari server koordinasi pusat. Perangkat menggunakan contoh yang disimpan di perangkat untuk meningkatkan kualitas model. Perangkat kemudian mengupload peningkatan kualitas model (tetapi bukan contoh pelatihan) ke server koordinasi, tempat perangkat tersebut digabungkan dengan update lain untuk menghasilkan model global yang lebih baik. Setelah agregasi, update model yang dihitung oleh perangkat tidak lagi diperlukan, dan dapat dihapus.

Karena contoh pelatihan tidak pernah diupload, federated learning mengikuti prinsip privasi berupa pengumpulan data yang terfokus dan minimalisasi data.

Untuk mengetahui informasi selengkapnya tentang federated learning, lihat tutorial ini.

feedback loop

#fundamentals

Dalam machine learning, situasi saat prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

jaringan saraf alur maju (feedforward neural network) (FFN)

Jaringan neural tanpa koneksi siklis atau rekursif. Misalnya, jaringan neural dalam tradisional merupakan jaringan saraf alur maju. Berbeda dengan jaringan saraf berulang, yang bersifat siklik.

pemelajaran beberapa tahap ( few-shot learning)

Pendekatan machine learning, yang sering digunakan untuk klasifikasi objek, dirancang untuk melatih pengklasifikasi yang efektif hanya dari sejumlah kecil contoh pelatihan.

Lihat juga one-shot learning dan zero-shot learning.

few-shot prompting

#language

#AIgeneratif

Perintah yang berisi lebih dari satu contoh ("beberapa") yang menunjukkan bagaimana model bahasa besar harus merespons. Misalnya, perintah panjang berikut berisi dua contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah	Catatan
`Apa mata uang resmi negara yang ditentukan?`	Pertanyaan yang perlu dijawab oleh LLM.
`Prancis: EUR`	Satu contoh.
`Inggris Raya: GBP`	Contoh lain.
`India:`	Kueri sebenarnya.

Fitur few-shot prompting umumnya memberikan hasil yang lebih diinginkan daripada zero-shot prompting dan one-shot prompting. Namun, few-shot prompting memerlukan prompt yang lebih panjang.

Few-shot prompting adalah bentuk pembelajaran beberapa tahap yang diterapkan ke pembelajaran berbasis prompt.

Biola

#language

Library konfigurasi yang mengutamakan Python yang menetapkan nilai fungsi dan class tanpa kode atau infrastruktur yang mengganggu. Untuk Pax—dan codebase ML lainnya—fungsi dan class ini mewakili model dan pelatihan hyperparameter.

Fiddle mengasumsikan bahwa codebase machine learning biasanya dibagi menjadi:

Kode pustaka, yang menetapkan layer dan pengoptimal.
Set data kode "glue", yang memanggil library dan menghubungkan semuanya.

Fiddle merekam struktur panggilan kode glue dalam bentuk yang tidak dievaluasi dan dapat diubah.

penyempurnaan

#language

#image

#AIgeneratif

Pass pelatihan kedua dengan tugas khusus yang dilakukan pada model terlatih guna meningkatkan parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar adalah sebagai berikut:

Pra-pelatihan: Latih model bahasa besar di set data umum yang luas, seperti semua halaman Wikipedia bahasa Inggris.
Fine-tuning: Latih model terlatih untuk melakukan tugas tertentu, seperti merespons kueri medis. Fine-tuning biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.

Contoh lainnya, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:

Pra-pelatihan: Latih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di commons Wikimedia.
Fine-tuning: Latih model terlatih untuk melakukan tugas tertentu, seperti menghasilkan gambar orca.

Fine-tuning dapat memerlukan kombinasi dari strategi berikut:

Mengubah semua parameter model terlatih yang ada. Hal ini terkadang disebut perbaikan penuh.
Hanya mengubah beberapa parameter model terlatih yang ada (biasanya, lapisan yang paling dekat dengan lapisan output), sambil mempertahankan parameter lain yang sudah ada (biasanya, lapisan yang paling dekat dengan lapisan input). Lihat tuning efisiensi parameter.
Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang terdekat dengan lapisan output.

Fine-tuning adalah bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian yang berbeda atau jenis model yang berbeda dengan yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang telah dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung dalam gambar input.

Bandingkan dan buat perbedaan nyata penyempurnaan dengan istilah berikut:

distilasi
pembelajaran berbasis perintah

Flax

#language

Library open source berperforma tinggi untuk pembelajaran mendalam yang dibangun di atas JAX. Flax menyediakan fungsi untuk pelatihan jaringan neural, serta metode untuk mengevaluasi performanya.

Flaxformer

#language

Library Transformer open source, yang dibangun di Flax, yang dirancang terutama untuk natural language processing dan riset multimodal.

lupakan gerbang

#seq

Bagian dari sel Memori Jangka Pendek yang mengatur aliran informasi melalui sel. Lupakan gate untuk mempertahankan konteks dengan menentukan informasi yang akan dihapus dari status sel.

softmax penuh

Sinonim dari softmax.

Berbeda dengan sampling kandidat.

lapisan terhubung seluruhnya

Lapisan tersembunyi tempat setiap node terhubung ke setiap node di lapisan tersembunyi berikutnya.

Lapisan yang terhubung sepenuhnya juga dikenal sebagai lapisan padat.

transformasi fungsi

Fungsi yang menggunakan fungsi sebagai input dan menampilkan fungsi yang diubah sebagai output. JAX menggunakan transformasi fungsi.

G

GAN

Singkatan dari generative adversarial network.

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat menggeneralisasi adalah kebalikan dari model yang overfitting.

Klik ikon untuk catatan tambahan.

Anda melatih model berdasarkan contoh di set pelatihan. Akibatnya, model tersebut mempelajari keunikan data dalam set pelatihan. Generalisasi pada dasarnya menanyakan apakah model Anda dapat membuat prediksi yang baik pada contoh yang tidak ada dalam set pelatihan.

Untuk mendorong generalisasi, regularisasi membantu model dilatih secara kurang tepat sesuai keunikan data dalam set pelatihan.

kurva generalisasi

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi berikut menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius yang mana sumbu y diberi label kerugian dan sumbu x diberi label iterasi. Dua plot muncul. Satu plot menunjukkan kerugian pelatihan, dan plot lainnya menunjukkan kerugian validasi.
Kedua plot dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya turun jauh lebih rendah daripada kerugian validasi.

model linear tergeneralisasi

Generalisasi model regresi kuadrat terkecil, yang didasarkan pada derau Gaussia, terhadap jenis model lain berdasarkan jenis derau lainnya, seperti derau Poisson atau derau kategorik. Contoh model linear tergeneralisasi meliputi:

regresi logistik
regresi multi-class
regresi kuadrat terkecil

Parameter model linear tergeneralisasi dapat ditemukan melalui pengoptimalan konveks.

Model linear tergeneralisasi menunjukkan properti berikut:

Prediksi rata-rata model regresi kuadrat terkecil yang optimal sama dengan label rata-rata pada data pelatihan.
Probabilitas rata-rata yang diprediksi oleh model regresi logistik yang optimal sama dengan label rata-rata pada data pelatihan.

Kemampuan model linear tergeneralisasi dibatasi oleh fiturnya. Tidak seperti model dalam, model linear tergeneralisasi tidak dapat "mempelajari fitur baru".

jaringan saraf generatif berlawanan (Gan)

Sistem untuk membuat data baru tempat generator membuat data dan diskriminator menentukan apakah data yang dibuat valid atau tidak valid.

AI generatif

#language

#image

#AIgeneratif

Bidang transformatif yang terus berkembang tanpa definisi formal. Meskipun demikian, sebagian besar pakar setuju bahwa model AI generatif dapat membuat ("membuat") konten yang mencakup semua hal berikut:

kompleks
koheren
asli

Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.

Beberapa teknologi lama, termasuk LSTM dan RNN, juga dapat menghasilkan konten asli dan koheren. Beberapa pakar menganggap teknologi awal ini sebagai AI generatif, sementara yang lain merasa bahwa AI generatif sebenarnya memerlukan output yang lebih kompleks daripada yang dapat dihasilkan oleh teknologi sebelumnya.

Berbeda dengan ML prediktif.

model generatif

Secara praktis, model yang melakukan salah satu hal berikut:

Membuat (menghasilkan) contoh baru dari set data pelatihan. Misalnya, model generatif dapat membuat puisi setelah dilatih dengan set data puisi. Bagian generator dari jaringan saraf generatif berlawanan termasuk dalam kategori ini.
Menentukan probabilitas bahwa contoh baru berasal dari set pelatihan, atau dibuat dari mekanisme yang sama yang membuat set pelatihan. Misalnya, setelah pelatihan set data yang terdiri dari kalimat bahasa Inggris, model generatif dapat menentukan probabilitas bahwa input baru adalah kalimat bahasa Inggris yang valid.

Model generatif secara teoretis dapat membedakan distribusi contoh atau fitur tertentu dalam set data. Definisinya yaitu:

p(examples)

Model unsupervised learning adalah model generatif.

Berbeda dengan model diskriminatif.

generator

Subsistem dalam jaringan saraf generatif berlawanan yang membuat contoh baru.

Berbeda dengan model diskriminatif.

ketidakmurnian gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari ketidakmurnian gini atau entropi guna membuat kondisi untuk hierarki keputusan klasifikasi. Pengumpulan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari ketidakmurnian gini; namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran gini juga disebut indeks gini, atau gini saja.

Klik ikon untuk detail matematika tentang ketidakmurnian gini.

Kotoran gini adalah kemungkinan kesalahan klasifikasi data baru yang diambil dari distribusi yang sama. Kotoran gini dari kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) dihitung dari formula berikut:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dalam hal ini:

I adalah ketidakmurnian gini.
p adalah pecahan dari contoh "1".
q adalah pecahan dari contoh "0". Perhatikan bahwa q = 1-p

Misalnya, perhatikan {i>dataset<i} berikut ini:

100 label (0,25 {i>dataset<i}) berisi nilai "1"
300 label (0,75 {i>dataset<i}) berisi nilai "0"

Oleh karena itu, ketidakmurnian gini adalah:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Akibatnya, label acak dari set data yang sama akan memiliki peluang 37,5% untuk salah diklasifikasikan, dan 62,5% kemungkinan untuk diklasifikasikan dengan benar.

Label yang seimbang sempurna (misalnya, 200 “0” dan 200 “1”) akan memiliki ketidakmurnian gini 0,5. Label yang sangat tidak seimbang akan memiliki ketidakmurnian gini yang mendekati 0,0.

set data emas

Kumpulan data yang diseleksi secara manual yang mencatat kebenaran dasar. Tim dapat menggunakan satu atau beberapa set data emas untuk mengevaluasi kualitas model.

Beberapa {i>dataset<i} emas menangkap subdomain yang berbeda dari kebenaran nyata. Misalnya, set data emas untuk klasifikasi gambar dapat menangkap kondisi pencahayaan dan resolusi gambar.

GPT (Transformer Terlatih Generatif)

#language

Rangkaian model bahasa besar berbasis Transformer yang dikembangkan oleh OpenAI.

Varian GPT dapat berlaku untuk beberapa modalitas, termasuk:

pembuatan gambar (misalnya, ImageGPT)
pembuatan teks ke gambar (misalnya, DALL-E).

gradien

Vektor turunan parsial yang terkait dengan semua variabel independen. Dalam machine learning, gradien adalah vektor turunan parsial dari fungsi model. Gradien menunjukkan ke arah pendakian paling curam.

akumulasi gradien

Teknik propagasi mundur yang memperbarui parameter hanya sekali per epoch, bukan sekali per iterasi. Setelah memproses setiap tumpukan mini, akumulasi gradien hanya memperbarui total gradien yang berjalan. Kemudian, setelah memproses batch mini terakhir dalam epoch, sistem akhirnya akan memperbarui parameter berdasarkan total semua perubahan gradien.

Akumulasi gradien berguna jika ukuran tumpukan sangat besar dibandingkan dengan jumlah memori yang tersedia untuk pelatihan. Ketika memori menjadi masalah, kecenderungan alaminya adalah mengurangi ukuran tumpukan. Namun, mengurangi ukuran tumpukan dalam propagasi mundur normal akan meningkatkan jumlah pembaruan parameter. Akumulasi gradien memungkinkan model menghindari masalah memori, tetapi tetap dilatih secara efisien.

gradient boosted (decision) tree (GBT)

#df

Jenis hutan keputusan yang:

Pelatihan bergantung pada peningkatan gradien.
Model yang lemah adalah hierarki keputusan.

peningkatan gradien

#df

Algoritma pelatihan yang melatih model yang lemah untuk meningkatkan kualitas secara iteratif (mengurangi kerugian) model yang kuat. Misalnya, model yang lemah dapat berupa model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Kemudian, output model yang kuat diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

$F_{0}$ adalah model kuat awal.
$F_{i+1}$ adalah model kuat berikutnya.
$F_{i}$ adalah model kuat saat ini.
$\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
$f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern peningkatan gradien juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model yang lemah dalam peningkatan gradien. Lihat hierarki yang dikuasai oleh gradien (keputusan).

pemotongan gradien

#seq

Mekanisme yang umum digunakan untuk mengurangi masalah gradien yang meledak dengan membatasi (memotong) nilai maksimum gradien secara artifisial saat menggunakan penurunan gradien untuk melatih model.

penurunan gradien

#fundamentals

Teknik matematis untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien bersifat lebih tua—jauh lebih tua—dibandingkan machine learning.

grafik

#TensorFlow

Di TensorFlow, spesifikasi komputasi. Simpul dalam grafik merepresentasikan operasi. Edge diarahkan dan merepresentasikan penerusan hasil operasi (Tensor) sebagai operand ke operasi lain. Gunakan TensorBoard untuk memvisualisasikan grafik.

eksekusi grafik

#TensorFlow

Lingkungan pemrograman TensorFlow tempat program membuat grafik terlebih dahulu, lalu mengeksekusi semua atau sebagian grafik tersebut. Eksekusi grafik adalah mode eksekusi default di TensorFlow 1.x.

Berbeda dengan eager execution.

kebijakan serakah

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan laba yang diperkirakan tertinggi.

kebenaran nyata

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah seorang mahasiswa di tahun pertama kuliah akan lulus dalam waktu enam tahun. Kebenaran dasar model ini adalah apakah siswa itu benar-benar lulus dalam waktu enam tahun atau tidak.

Klik ikon untuk catatan tambahan.

Kami menilai kualitas model berdasarkan kebenaran dasar. Akan tetapi, kebenaran dasar tidak selalu sepenuhnya benar. Misalnya, pertimbangkan contoh berikut tentang potensi ketidaksempurnaan dalam kebenaran dasar:

Dalam contoh kelulusan, apakah kita yakin bahwa catatan kelulusan untuk setiap siswa selalu benar? Apakah pencatatan universitas ini sempurna?
Misalkan label adalah nilai floating point yang diukur oleh instrumen (misalnya, barometer). Bagaimana kita bisa yakin bahwa setiap instrumen dikalibrasi secara identik atau bahwa setiap pembacaan diambil dalam keadaan yang sama?
Jika label adalah masalah opini manusia, bagaimana kita bisa yakin bahwa setiap pelabel manusia mengevaluasi peristiwa dengan cara yang sama? Untuk meningkatkan konsistensi, penilai manusia ahli terkadang melakukan intervensi.

bias atribusi golongan

#fairness

Dengan asumsi bahwa hal yang benar bagi seseorang juga benar bagi semua orang dalam kelompok itu. Efek dari bias atribusi golongan dapat diperburuk jika sampling praktis digunakan untuk pengumpulan data. Dalam sampel yang tidak representatif, atribusi dapat dibuat yang tidak mencerminkan kenyataan.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan.

H

halusinasi

#language

Produksi output yang tampak masuk akal tetapi salah secara faktual oleh model AI generatif yang dimaksudkan untuk membuat pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 adalah berhalusinasi.

hashing

Dalam machine learning, mekanisme untuk pengelompokan data kategoris, terutama jika jumlah kategorinya besar, tetapi jumlah kategori yang benar-benar muncul dalam set data relatif kecil.

Misalnya, Bumi adalah rumah bagi sekitar 73.000 spesies pohon. Anda dapat merepresentasikan masing-masing dari 73.000 spesies pohon dalam 73.000 bucket kategoris terpisah. Atau, jika hanya 200 dari spesies pohon tersebut yang benar-benar muncul dalam set data, Anda dapat menggunakan hashing untuk membagi spesies pohon menjadi sekitar 500 bucket.

Satu bucket dapat berisi beberapa spesies pohon. Misalnya, metode hashing dapat menempatkan baobab dan maple merah—dua spesies yang berbeda secara genetik—ke dalam bucket yang sama. Meskipun demikian, hashing masih merupakan cara yang baik untuk memetakan kumpulan kategori dalam jumlah besar ke dalam jumlah bucket yang dipilih. Hashing mengubah fitur kategorikal yang memiliki kemungkinan nilai dalam jumlah besar menjadi jumlah nilai yang jauh lebih kecil dengan mengelompokkan nilai secara determenistik.

heuristik

Solusi sederhana dan cepat diterapkan untuk suatu masalah. Misalnya, "Dengan heuristik, kami mencapai akurasi 86%. Saat kami beralih ke jaringan neural dalam, akurasinya naik hingga 98%."

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, lapisan pertama dengan tiga neuron, dan yang kedua dengan dua neuron:

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah deep neural network karena modelnya berisi dua lapisan tersembunyi.

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat hierarki cluster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:

Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat pohon hierarkis.
Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, kemudian secara berulang membagi cluster tersebut ke dalam pohon hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

kerugian engsel

Kelompok fungsi kerugian untuk klasifikasi yang dirancang untuk menemukan batas keputusan sejauh mungkin dari setiap contoh pelatihan, sehingga memaksimalkan margin antara contoh dan batas. KSVMs menggunakan kerugian engsel (atau fungsi terkait, seperti kerugian engsel kuadrat). Untuk klasifikasi biner, fungsi kerugian engsel didefinisikan sebagai berikut:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dengan y adalah label yang sebenarnya, -1 atau +1, dan y' adalah output mentah dari model pengklasifikasi:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Akibatnya, plot kerugian engsel versus (y * y') akan terlihat sebagai berikut:

Suatu plot Kartesius yang terdiri dari dua ruas garis bergabung. Segmen baris pertama dimulai di (-3, 4) dan berakhir di (1, 0). Segmen baris kedua dimulai di (1, 0) dan berlanjut tanpa batas dengan kemiringan 0.

bias historis

#fairness

Jenis bias yang sudah ada di dunia dan telah masuk ke dalam set data. Bias ini cenderung mencerminkan stereotip budaya, ketidaksetaraan demografis, dan prasangka yang ada terhadap kelompok sosial tertentu.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan default atas pinjaman mereka atau tidak, yang dilatih berdasarkan data historis default pinjaman dari tahun 1980-an dari bank lokal di dua komunitas yang berbeda. Jika pemohon sebelumnya dari Komunitas A memiliki kemungkinan enam kali lebih besar untuk menerima pinjaman mereka secara default daripada pemohon dari Komunitas B, model ini mungkin mempelajari bias historis yang menyebabkan model cenderung tidak menyetujui pinjaman di Komunitas A, meskipun kondisi historis yang menyebabkan tarif default yang lebih tinggi dari komunitas tersebut tidak lagi relevan.

data pisahan

Contoh sengaja tidak digunakan ("dipisah") selama pelatihan. Set data validasi dan set data pengujian adalah contoh data pisahan. Data pisahan membantu mengevaluasi kemampuan model Anda dalam menggeneralisasi ke data selain data yang dilatihnya. Kerugian pada set pisahan memberikan perkiraan kerugian yang lebih baik pada set data yang tidak terlihat daripada kerugian pada set pelatihan.

host

#TensorFlow

#GoogleCloud

Saat melatih model ML pada chip akselerator (GPU atau TPU), adalah bagian dari sistem yang mengontrol kedua hal berikut:

Aliran kode keseluruhan.
Ekstraksi dan transformasi pipeline input.

Host biasanya berjalan pada CPU, bukan pada chip akselerator. perangkat memanipulasi tensor pada chip akselerator.

hyperparameter (hyperparameter)

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter sesuaikan selama pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menetapkan bahwa 0,01 terlalu tinggi, mungkin Anda bisa menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari oleh model selama pelatihan.

bidang-hiper

Batas yang memisahkan ruang menjadi dua subruang. Misalnya, garis adalah bidang hyperplane dalam dua dimensi, sedangkan bidang adalah bidang-hiper dalam tiga dimensi. Biasanya dalam machine learning, bidang-hiper adalah batas yang memisahkan ruang berdimensi tinggi. Kernel Support Vector Machines menggunakan bidang-hiper untuk memisahkan class positif dari class negatif, sering kali dalam ruang berdimensi sangat tinggi.

I

terdistribusi secara independen dan identik

Singkatan dari didistribusikan secara independen dan identik.

pengenalan gambar

#image

Proses yang mengklasifikasikan objek, pola, atau konsep dalam sebuah gambar. Pengenalan citra juga dikenal sebagai klasifikasi gambar.

Untuk informasi selengkapnya, lihat Praktik ML: Klasifikasi Gambar.

set data tidak seimbang

Sinonim dari set data kelas tidak seimbang.

bias implisit

#fairness

Secara otomatis membuat asosiasi atau asumsi berdasarkan model pikiran dan memori seseorang. Bias implisit dapat memengaruhi hal berikut:

Cara data dikumpulkan dan diklasifikasikan.
Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat pengklasifikasi untuk mengidentifikasi foto pernikahan, engineer dapat menggunakan keberadaan gaun putih di foto sebagai fitur. Namun, gaun putih telah menjadi kebiasaan hanya selama era tertentu dan dalam budaya tertentu.

Lihat juga bias konfirmasi.

imputasi

Bentuk singkat komputasi nilai.

inkompatibilitas metrik keadilan

#fairness

Gagasan bahwa beberapa gagasan tentang keadilan tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada metrik universal untuk mengukur keadilan yang dapat diterapkan ke semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, inkompatibilitas metrik keadilan tidak berarti bahwa upaya keadilan tidak membuahkan hasil. Sebaliknya, perintah ini menyarankan bahwa keadilan harus ditentukan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya yang spesifik pada kasus penggunaannya.

Lihat "Tentang kemungkinan keadilan" untuk diskusi yang lebih mendetail tentang topik ini.

pembelajaran dalam konteks

#language

#AIgeneratif

Sinonim dari few-shot prompting.

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah digambar sebelumnya. AI adalah gas ideal machine learning—konstruk matematis yang berguna tetapi hampir tidak pernah benar-benar ditemukan di dunia nyata. Misalnya, distribusi pengunjung ke halaman web mungkin dilakukan secara terdistribusi selama jangka waktu singkat; artinya, distribusi tidak berubah selama periode singkat tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman pada pengunjung halaman mungkin akan muncul.

Lihat juga nonstasioneritas.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu serupa diklasifikasikan yang serupa atau tidak. Misalnya, Brobdingnagian Academy mungkin ingin memuaskan keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang identik dan nilai ujian standar memiliki kemungkinan yang sama untuk mendapatkan tiket masuk.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda mendefinisikan "kemiripan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan baru jika metrik kesamaan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Awareness" untuk pembahasan yang lebih mendetail tentang keadilan individu.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Baca artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

jalur inferensi

#df

Dalam hierarki keputusan, selama inferensi, rute yang diambil oleh contoh tertentu dari root ke kondisi lainnya, yang diakhiri dengan daun. Misalnya, pada pohon keputusan berikut, panah yang lebih tebal menunjukkan jalur inferensi untuk sebuah contoh dengan nilai fitur berikut:

x = 7
y = 12
z = -3

Jalur inferensi dalam ilustrasi berikut melalui tiga kondisi sebelum mencapai daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
Kondisi root adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi berpindah dari root ke kondisi berikutnya (y > 0).
Karena jawabannya adalah Ya, jalur inferensi akan berpindah ke kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi akan sampai ke node terminalnya, yaitu leaf (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan jumlah berbobot (berdasarkan jumlah contoh) dari entropi node turunannya. Entropi node adalah entropi dari contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

entropi node induk = 0,6
entropi satu simpul turunan dengan 16 contoh yang relevan = 0,2
entropi simpul turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh ada di satu node turunan dan 60% ada di node turunan lainnya. Jadi:

jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, informasi yang diperoleh adalah:

perolehan informasi = entropi node induk - jumlah entropi tertimbang dari node turunan
perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

bias dalam golongan (in-group bias)

#fairness

Menunjukkan keberpihakan pada kelompok atau karakteristik milik seseorang. Jika penguji atau pelabel terdiri dari teman, keluarga, atau rekan developer machine learning, bias dalam golongan dapat membatalkan validasi pengujian produk atau set data.

Bias dalam golongan adalah bentuk bias atribusi golongan. Lihat juga bias kehomogenan luar golongan.

generator input

Mekanisme di mana data dimuat ke dalam jaringan neural.

Generator input dapat dianggap sebagai komponen yang bertanggung jawab untuk memproses data mentah menjadi tensor yang diiterasi guna menghasilkan batch untuk pelatihan, evaluasi, dan inferensi.

lapisan input

#fundamentals

Lapisan jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

kondisi dalam ditetapkan

#df

Dalam hierarki keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut ini adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah hal yang lain (misalnya, ranch), kondisi ini akan bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

instance

Sinonim dari contoh.

tuning instruksi

#AIgeneratif

Bentuk penyempurnaan yang meningkatkan kemampuan model AI generatif untuk mengikuti petunjuk. Penyesuaian instruksi melibatkan pelatihan model pada serangkaian perintah petunjuk, yang biasanya mencakup berbagai tugas. Hasil model yang disesuaikan dengan instruksi kemudian cenderung menghasilkan respons yang berguna untuk perintah zero-shot di berbagai tugas.

Bandingkan dan kontraskan dengan:

parameter-efficient tuning
penyesuaian perintah

penafsiran

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan penalaran model ML dalam istilah yang dapat dipahami oleh manusia.

Sebagian besar model regresi linear, misalnya, sangat dapat ditafsirkan. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

perjanjian antar-penilai

Pengukuran seberapa sering pelabel manusia setuju saat melakukan tugas. Jika pelabel tidak setuju, petunjuk tugas mungkin perlu ditingkatkan. Juga terkadang disebut kesepakatan antar-anotator atau reliabilitas antar-pelabel. Lihat juga kappa Cohen, yang merupakan salah satu pengukuran perjanjian antar-pelabel yang paling populer.

irisan atas union (IoU)

#image

Perpotongan dari dua himpunan dibagi dengan gabungannya. Dalam tugas deteksi gambar machine learning, IoU digunakan untuk mengukur akurasi kotak pembatas prediksi model sehubungan dengan kotak pembatas kebenaran dasar. Dalam hal ini, IoU untuk dua kotak adalah rasio antara area yang tumpang-tindih dan area total, dan nilainya berkisar dari 0 (tidak ada tumpang tindih kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar) hingga 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).

Misalnya, pada gambar di bawah ini:

Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi tabel malam dalam lukisan) ditandai dengan warna ungu.
Kotak pembatas kebenaran dasar (koordinat yang membatasi tempat tabel malam dalam lukisan sebenarnya) ditandai dengan warna hijau.

Di sini, perpotongan kotak pembatas untuk prediksi dan kebenaran dasar (kiri bawah) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, sehingga IoU adalah $\frac{1}{7}$.

Gambar sama seperti di atas, tetapi dengan setiap kotak pembatas dibagi menjadi empat kuadran. Ada total tujuh kuadran, karena kuadran kanan bawah kotak pembatas kebenaran dasar dan kuadran kiri atas kotak pembatas yang diprediksi saling tumpang tindih. Bagian
yang tumpang-tindih ini (ditandai dengan warna hijau) merepresentasikan
persimpangan, dan memiliki area 1.

IoU

Singkatan dari intersection over union.

matriks item

#recsystems

Dalam sistem rekomendasi, matriks vektor penyematan yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang setiap item. Setiap baris matriks item memiliki nilai fitur laten tunggal untuk semua item. Misalnya, pertimbangkan sistem rekomendasi film. Setiap kolom dalam matriks item mewakili satu film. Sinyal laten ini dapat merepresentasikan genre, atau mungkin sinyal yang lebih sulit diinterpretasikan yang melibatkan interaksi kompleks antara genre, bintang, usia film, atau faktor lainnya.

Matriks item memiliki jumlah kolom yang sama dengan matriks target yang sedang difaktorkan. Misalnya, dengan sistem rekomendasi film yang mengevaluasi 10.000 judul film, matriks item akan memiliki 10.000 kolom.

items

#recsystems

Dalam sistem rekomendasi, entitas yang direkomendasikan oleh sistem. Misalnya, video adalah item yang direkomendasikan oleh toko video, sedangkan buku adalah item yang direkomendasikan oleh toko buku.

iterasi

#fundamentals

Update tunggal parameter model—bobot dan bias model—selama pelatihan. Ukuran tumpukan menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran tumpukan adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

Penerusan maju untuk mengevaluasi kerugian pada satu batch.
Penerusan mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pembelajaran.

J

JAX

Library komputasi array, menyatukan XLA (Accelerated Linear Algebra) dan diferensiasi otomatis untuk komputasi numerik berperforma tinggi. JAX menyediakan API yang sederhana dan andal untuk menulis kode numerik yang dipercepat dengan transformasi composable. JAX menyediakan fitur seperti:

grad (diferensiasi otomatis)
jit (kompilasi tepat waktu)
vmap (vektorisasi atau pengelompokan otomatis)
pmap (paralelisasi)

JAX adalah bahasa untuk mengekspresikan dan membuat transformasi kode numerik, yang cakupannya jauh lebih besar—ke library NumPy python. (Bahkan, library .numpy di bawah JAX adalah versi library Python NumPy yang setara secara fungsional, tetapi sepenuhnya ditulis ulang.)

JAX sangat cocok untuk mempercepat banyak tugas machine learning dengan mengubah model dan data menjadi bentuk yang cocok untuk paralelisme di seluruh GPU dan chip akselerator TPU.

Flax, Optax, Pax, dan banyak library lainnya dibangun di infrastruktur JAX.

K

Keras

API machine learning Python yang populer. Keras berjalan di beberapa framework deep learning, termasuk TensorFlow, yang tersedia sebagai tf.keras.

Kernel Support Vector Machines (KSVMs)

Algoritma klasifikasi yang berupaya memaksimalkan margin antara kelas positif dan kelas negatif dengan memetakan vektor data input ke ruang dimensi yang lebih tinggi. Misalnya, pertimbangkan masalah klasifikasi yang mana set data input memiliki seratus fitur. Untuk memaksimalkan margin antara kelas positif dan negatif, KSVM dapat secara internal memetakan fitur-fitur tersebut ke dalam ruang satu juta dimensi. KSVMs menggunakan fungsi kerugian yang disebut kerugian engsel.

keypoint

#image

Koordinat fitur tertentu dalam gambar. Misalnya, untuk model pengenalan citra yang membedakan spesies bunga, keypoint dapat berupa pusat setiap kelopak, batang, benang sari, dan sebagainya.

validasi silang k-fold

Algoritma untuk memprediksi kemampuan model dalam menggeneralisasi ke data baru. k dalam k-fold mengacu pada jumlah grup yang sama dengan tempat Anda membagi contoh set data; yaitu, Anda melatih dan menguji model k kali. Untuk setiap putaran pelatihan dan pengujian, grup yang berbeda menjadi set pengujian, dan semua grup yang tersisa menjadi set pelatihan. Setelah k putaran pelatihan dan pengujian, Anda menghitung rata-rata dan simpangan baku dari metrik pengujian yang dipilih.

Misalnya, anggap saja {i>dataset<i} Anda berisi 120 contoh. Selanjutnya misalkan, Anda memutuskan untuk menetapkan k ke 4. Oleh karena itu, setelah mengacak contoh, Anda membagi set data menjadi empat kelompok yang sama yang terdiri dari 30 contoh dan melakukan empat putaran pelatihan/pengujian:

Misalnya, Rataan Kuadrat Error (MSE) mungkin merupakan metrik yang paling bermakna untuk model regresi linear. Oleh karena itu, Anda akan menemukan rata-rata dan standar deviasi MSE di keempat putaran.

k-mean

#clustering

Algoritma pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

Secara iteratif menentukan titik tengah k terbaik (dikenal sebagai sentroid).
Menetapkan setiap contoh ke sentroid terdekat. Contoh-contoh yang terdekat dari sentroid yang sama tersebut milik kelompok yang sama.

Algoritme k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, pertimbangkan plot tinggi {i>dog<i} ke lebar {i>dog<i} berikut ini:

Plot Kartesius dengan beberapa lusin titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, yang menghasilkan tiga kelompok:

Plot Kartesius yang sama seperti dalam ilustrasi sebelumnya, kecuali
dengan tambahan tiga sentroid.
Titik data sebelumnya dikelompokkan menjadi tiga grup berbeda, dengan setiap grup mewakili titik data yang terdekat dengan sentroid tertentu.

Bayangkan produsen ingin menentukan ukuran yang ideal untuk sweter kecil, sedang, dan besar untuk. Tiga sentroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap di kelompok itu. Jadi, produsen mungkin harus mendasarkan ukuran sweater pada tiga sentroid tersebut. Perhatikan bahwa sentroid cluster biasanya bukan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

median k

#clustering

Algoritma pengelompokan yang terkait erat dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:

Dalam k-means, sentroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularisasi L₀

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan lebih banyak diberi sanksi daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L₀ terkadang disebut regularisasi norma L0.

Klik ikon untuk catatan tambahan.

Regularisasi L₀ umumnya tidak praktis dalam model besar karena regularisasi L₀ mengubah pelatihan menjadi masalah pengoptimalan konveks.

Kerugian L₁

#fundamentals

Fungsi kerugian yang menghitung nilai absolut dari perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L₁ untuk kumpulan dari lima contoh:

Nilai sebenarnya dari contoh	Nilai prediksi model	Nilai absolut delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = kerugian L₁

Kerugian L₁ kurang sensitif terhadap outlier daripada kerugian L₂.

Error Rata-rata Absolut adalah kerugian L₁ rata-rata per contoh.

Klik ikon untuk melihat perhitungan formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dalam hal ini:

$n$ adalah jumlah contoh.
$y$ adalah nilai label sebenarnya.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Regularisasi L₁

#fundamentals

Jenis regularisasi yang menghukum bobot yang sebanding dengan jumlah nilai absolut bobot. Regularisasi L₁ membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan menjadi persis 0. Fitur dengan bobot 0 secara efektif dihapus dari model.

Berbeda dengan L₂ regularisasi.

Kerugian L₂

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label aktual dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L₂ untuk kumpulan dari lima contoh:

Nilai sebenarnya dari contoh	Nilai prediksi model	Kuadrat delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = kerugian L₂

Karena kuadrat, kerugian L₂ memperkuat pengaruh outlier. Artinya, kerugian L₂ bereaksi lebih kuat terhadap prediksi buruk daripada kerugian L₁. Misalnya, kerugian L₁ untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu pencilan memperhitungkan 9 dari 16.

Model regresi biasanya menggunakan kerugian L₂ sebagai fungsi kerugian.

Rataan Kuadrat Error adalah rata-rata kerugian L₂ per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L₂.

Klik ikon untuk melihat perhitungan formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dalam hal ini:

$n$ adalah jumlah contoh.
$y$ adalah nilai label sebenarnya.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Regularisasi L₂

#fundamentals

Jenis regularisasi yang menghukum bobot yang sebanding dengan jumlah kuadrat bobot. Regularisasi L₂ membantu mendorong bobot outlier (bobot dengan nilai positif atau negatif tinggi) lebih dekat ke 0, tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 tetap berada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L₂ selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L₁.

label

#fundamentals

Dalam supervised machine learning, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan sebuah label. Misalnya, dalam set data deteksi spam, labelnya mungkin akan berupa "spam" atau "bukan spam". Dalam set data curah hujan, label mungkin berupa jumlah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar	Jumlah kamar mandi	Usia rumah	Harga rumah (label)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Dalam supervised machine learning, model dilatih berdasarkan contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Membandingkan contoh berlabel dengan contoh tidak berlabel

kebocoran label

Cacat desain model ketika fitur merupakan proxy untuk label. Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah calon pelanggan akan membeli produk tertentu atau tidak. Misalkan salah satu fitur untuk model adalah nilai Boolean bernama SpokeToCustomerAgent. Selanjutnya, anggaplah agen pelanggan hanya ditetapkan setelah calon pelanggan benar-benar membeli produk tersebut. Selama pelatihan, model akan dengan cepat mempelajari pengaitan antara SpokeToCustomerAgent dan label.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada definisi istilah dalam regularisasi.

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dan dilatih dengan set data dialog besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: teknologi percakapan terobosan kami memberikan ringkasan.

{i>landmark<i}

#image

Sinonim dari keypoint.

model bahasa

#language

model yang memperkirakan probabilitas model atau urutan token yang terjadi dalam urutan token yang lebih panjang.

Klik ikon untuk catatan tambahan.

Meskipun tidak masuk akal, banyak model yang mengevaluasi teks bukanlah model bahasa. Misalnya, model klasifikasi teks dan model analisis sentimen bukanlah model bahasa.

model bahasa besar

#language

Istilah informal tanpa definisi ketat yang biasanya berarti model bahasa yang memiliki parameter dalam jumlah tinggi. Beberapa model bahasa besar berisi lebih dari 100 miliar parameter.

Klik ikon untuk catatan tambahan.

Anda mungkin ingin tahu kapan model bahasa menjadi cukup besar untuk disebut model bahasa besar. Saat ini, tidak ada baris penentuan yang disepakati untuk jumlah parameter.

Sebagian besar model bahasa besar terbaru (misalnya, GPT) didasarkan pada arsitektur Transformer.

ruang laten

#language

Sinonim dari ruang penyematan.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan yang umum adalah sebagai berikut:

Lapisan input, yang memberikan nilai untuk semua fitur.
Satu atau beberapa lapisan tersembunyi, yang menemukan hubungan nonlinear antara fitur dan label.
Lapisan output, yang menyediakan prediksi.

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

Layers API (tf.layers)

#TensorFlow

TensorFlow API untuk mengonstruksi jaringan neural dalam sebagai komposisi lapisan. Layers API memungkinkan Anda membuat berbagai jenis lapisan, seperti:

tf.layers.Dense untuk lapisan terhubung sepenuhnya.
tf.layers.Conv2D untuk lapisan konvolusional.

Layers API mengikuti konvensi Keras layer API. Artinya, selain awalan yang berbeda, semua fungsi di Layers API memiliki nama dan tanda tangan yang sama dengan pasangannya di Keras layers API.

daun

#df

Endpoint apa pun dalam hierarki keputusan. Tidak seperti kondisi, leaf tidak melakukan pengujian. Sebaliknya, sebuah leaf adalah prediksi yang mungkin. Daun juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut memiliki tiga daun:

Pohon keputusan dengan dua kondisi yang menyebabkan tiga daun.

Learning Interpretability Tool (LIT)

Sebuah alat visualisasi data dan pemahaman model yang interaktif.

Anda dapat menggunakan LIT open source untuk menafsirkan model atau untuk memvisualisasikan teks, gambar, dan data tabel.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat penyesuaian bobot dan bias pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan pembelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan dalam mencapai konvergensi.

Klik ikon untuk penjelasan yang lebih matematis.

Selama setiap iterasi, algoritma penurunan gradien mengalikan kecepatan pembelajaran dengan gradien. Produk yang dihasilkan disebut langkah gradien.

regresi kuadrat terkecil

Model regresi linear dilatih dengan meminimalkan Kerugian L₂.

linier

#fundamentals

Hubungan antara dua variabel atau lebih yang dapat direpresentasikan hanya melalui penjumlahan dan perkalian.

Plot hubungan linier adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

model yang menetapkan satu model per model untuk membuat model. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya bersifat nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model dalam. Namun, model dalam dapat mempelajari hubungan yang kompleks antar fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

Klik ikon untuk melihat perhitungan.

Model linear mengikuti rumus ini:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dalam hal ini:

y' adalah prediksi mentah. (Pada jenis model linear tertentu, prediksi mentah ini akan dimodifikasi lebih lanjut. Misalnya, lihat regresi logistik.)
b adalah bias.
w adalah bobot, jadi w₁ adalah bobot fitur pertama, w₂ adalah bobot fitur kedua, dan seterusnya.
x adalah fitur, jadi x₁ adalah nilai fitur pertama, x₂ adalah nilai fitur kedua, dan seterusnya.

Misalnya, model linear untuk tiga fitur mempelajari bias dan bobot berikut:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Oleh karena itu, dengan tiga fitur (x₁, x₂, dan x₃), model linear menggunakan persamaan berikut untuk menghasilkan setiap prediksi:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Misalkan contoh tertentu berisi nilai berikut:

x₁ = 4
x₂ = -10
x₃ = 5

Memasukkan nilai-nilai tersebut ke dalam formula akan menghasilkan prediksi untuk contoh ini:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Model linear tidak hanya mencakup model yang hanya menggunakan persamaan linear untuk membuat prediksi, tetapi juga kumpulan model lebih luas yang menggunakan persamaan linear hanya sebagai satu komponen formula yang membuat prediksi. Misalnya, regresi logistik setelah pemrosesan prediksi mentah (y') untuk menghasilkan nilai prediksi akhir antara 0 dan 1 secara eksklusif.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi dua kondisi berikut:

Model ini adalah model linear.
Prediksinya adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Menemukan perbedaan regresi linear dengan regresi logistik. Selain itu, membandingkan regresi dengan klasifikasi.

LIT

Singkatan dari Learning Interpretability Tool (LIT), yang sebelumnya dikenal sebagai Language Interpretability Tool.

LLM

#language

Singkatan dari model bahasa besar.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

Labelnya kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu pada model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kehilangan Log dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai.)
Model tersebut memiliki arsitektur linear, bukan deep neural network. Namun, bagian selanjutnya dari definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategorik.

Misalnya, pertimbangkan model regresi logistik yang menghitung kemungkinan email input sebagai spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, model ini memperkirakan:

Kemungkinan email tersebut adalah spam sebesar 72%.
Peluang 28% email tersebut bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengubah prediksi mentah menjadi nilai antara 0 dan 1 secara eksklusif.

Seperti model regresi lainnya, model regresi logistik dapat memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

Jika angka yang diprediksi lebih dari batas klasifikasi, model klasifikasi biner akan memprediksi class positif.
Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner akan memprediksi class negatif.

logits

Vektor prediksi mentah (tidak dinormalisasi) yang dihasilkan oleh model klasifikasi, yang kemudian biasanya diteruskan ke fungsi normalisasi. Jika model memecahkan masalah klasifikasi kelas multi-class, logits biasanya menjadi input untuk fungsi softmax. Fungsi softmax kemudian menghasilkan vektor probabilitas (dinormalisasi) dengan satu nilai untuk setiap kelas yang memungkinkan.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

Klik ikon untuk melihat perhitungan.

Formula berikut menghitung Kehilangan Log:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dalam hal ini:

$(x,y)\in D$ adalah set data yang berisi banyak contoh berlabel, yang merupakan $(x,y)$ pasangan.
$y$ adalah label dalam contoh berlabel. Karena ini adalah regresi logistik, setiap nilai $y$ harus 0 atau 1.
$y'$ adalah nilai yang diprediksi (antara 0 dan 1, eksklusif), mengingat kumpulan fitur di $x$.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

Klik ikon untuk melihat perhitungan.

Jika peristiwa adalah probabilitas biner, peluang akan mengacu pada rasio probabilitas keberhasilan (p) terhadap probabilitas kegagalan (1-p). Misalnya, anggaplah peristiwa tertentu memiliki probabilitas keberhasilan 90% dan probabilitas kegagalan 10%. Dalam hal ini, peluang dihitung sebagai berikut:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-peluang hanyalah logaritma dari peluang. Berdasarkan konvensi, "logaritma" mengacu pada logaritma alami, tetapi logaritma sebenarnya dapat berupa basis apa pun yang lebih besar dari 1. Dengan tetap berpegang pada konvensi, log-peluang dari contoh kita adalah:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Fungsi log-peluang adalah kebalikan dari fungsi sigmoid.

Memori Jangka Pendek (LSTM)

#seq

Jenis sel dalam jaringan neural berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulis tangan, terjemahan mesin, dan teks gambar. LSTM mengatasi masalah gradien hilang yang terjadi saat melatih RNN karena urutan data yang panjang dengan mempertahankan histori dalam status memori internal berdasarkan input dan konteks baru dari sel sebelumnya dalam RNN.

LoRA

#language

#AIgeneratif

Singkatan dari Adaptasi Peringkat Rendah.

kalah

#fundamentals

Selama pelatihan model yang diawasi, ukuran seberapa jauh prediksi model dari labelnya.

Fungsi kerugian menghitung kerugian.

agregator kerugian

Jenis algoritma machine learning yang meningkatkan performa model dengan menggabungkan prediksi dari beberapa model dan menggunakan prediksi tersebut untuk membuat satu prediksi. Akibatnya, agregator kerugian dapat mengurangi varians prediksi dan meningkatkan akurasi prediksi.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang umum:

Grafik Kartesius untuk kerugian versus iterasi pelatihan, yang menunjukkan
penurunan kerugian yang cepat untuk iterasi awal, diikuti oleh penurunan
bertahap, lalu kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu menentukan kapan model Anda konvergen atau overfitting.

Kurva kerugian dapat memplot semua jenis kerugian berikut:

kerugian pelatihan
kehilangan validasi
kerugian pengujian

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada kumpulan contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada untuk model yang membuat prediksi yang buruk.

Tujuan pelatihan ini biasanya untuk meminimalkan kerugian yang ditampilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi kerugian yang sesuai untuk jenis model yang Anda bangun. Contoh:

Kerugian₂ (atau Error Kuadrat Rata-Rata) adalah fungsi kerugian untuk regresi linear.
Kerugian Log adalah fungsi kerugian untuk regresi logistik.

permukaan penyimpangan

Grafik berat versus penurunan. Penurunan gradien bertujuan untuk menemukan bobot saat permukaan penyimpangan berada pada minimum lokal.

Adaptasi Peringkat Rendah (LoRA)

#language

#AIgeneratif

Algoritma untuk melakukan tuning efisien parameter yang menyempurnakan subset dari parameter model bahasa besar. LoRA memberikan manfaat berikut:

Menyesuaikan lebih cepat daripada teknik yang memerlukan penyesuaian semua parameter model.
Mengurangi biaya komputasi inferensi dalam model yang lebih disesuaikan.

Model yang disesuaikan dengan LoRA mempertahankan atau meningkatkan kualitas prediksinya.

LoRA memungkinkan beberapa versi khusus dari suatu model.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

S

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

Proses keputusan Markov (MDP)

#rl

Grafik yang merepresentasikan model pengambilan keputusan saat keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa properti Markov berlaku. Pada reinforcement learning, transisi antarstatus ini akan menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, dengan transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi probabilitas token kandidat untuk mengisi bagian yang kosong dalam suatu urutan. Misalnya, model bahasa yang disamarkan dapat menghitung probabilitas kata kandidat untuk mengganti garis bawah dalam kalimat berikut:

____ di topi itu kembali.

Literatur biasanya menggunakan {i>string<i} "MASK" bukan garis bawah. Contoh:

"MASK" di topi itu kembali.

Sebagian besar model bahasa yang disamarkan dan modern bersifat dua arah.

Matplotlib

Library pemetaan 2D Python open source. matplotlib membantu Anda memvisualisasikan berbagai aspek machine learning.

faktorisasi matriks

#recsystems

Dalam matematika, mekanisme untuk menemukan matriks yang produk titiknya mendekati matriks target.

Dalam sistem rekomendasi, matriks target sering kali menyimpan rating pengguna pada item. Misalnya, matriks target untuk sistem rekomendasi film mungkin terlihat seperti berikut, yang mana bilangan bulat positif adalah rating pengguna dan 0 berarti pengguna tidak memberi rating film:

	Casablanca	Kisah Philadelphia	Black Panther	Perempuan Wonder	Fiksi Pulp
Pengguna.1	5,0	3.0	0,0	2.0	0,0
Pengguna 2	4.0	0,0	0,0	1.0	5,0
Pengguna 3	3.0	1.0	4.0	5,0	0,0

Sistem rekomendasi film bertujuan memprediksi rating pengguna untuk film tanpa rating. Misalnya, apakah Pengguna 1 akan menyukai Black Panther?

Salah satu pendekatan untuk sistem rekomendasi adalah menggunakan faktorisasi matriks untuk menghasilkan dua matriks berikut:

Matriks pengguna, dibentuk dari jumlah pengguna X jumlah dimensi penyematan.
Matriks item, dibentuk dari jumlah dimensi penyematan X jumlah item.

Misalnya, menggunakan faktorisasi matriks pada tiga pengguna dan lima item kita dapat menghasilkan matriks pengguna dan matriks item berikut:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Produk titik dari matriks pengguna dan matriks item menghasilkan matriks rekomendasi yang tidak hanya berisi rating pengguna asli, tetapi juga prediksi film yang belum ditonton oleh setiap pengguna. Misalnya, pertimbangkan rating Pengguna 1 untuk Casablanca, yaitu 5,0. Produk titik yang sesuai dengan sel dalam matriks rekomendasi diharapkan memiliki nilai sekitar 5,0, dan nilainya:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Yang lebih penting, apakah Pengguna 1 akan menyukai Black Panther? Mengambil produk titik yang sesuai dengan baris pertama dan kolom ketiga menghasilkan prediksi rating 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Faktorisasi matriks biasanya menghasilkan matriks pengguna dan matriks item yang, bersama-sama, secara signifikan lebih rapat daripada matriks target.

Rata-rata Error Absolut (MAE)

Rata-rata kerugian per contoh saat kerugian L₁ digunakan. Hitung Error Absolut Rata-rata sebagai berikut:

Hitung kerugian L₁ untuk batch.
Bagi kerugian L₁ dengan jumlah contoh dalam batch.

Klik ikon untuk melihat perhitungan formal.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dalam hal ini:

$n$ adalah jumlah contoh.
$y$ adalah nilai label sebenarnya.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Misalnya, pertimbangkan penghitungan kerugian L₁ pada batch lima contoh berikut:

Nilai sebenarnya dari contoh	Nilai prediksi model	Kerugian (selisih antara aktual dan prediksi)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = kerugian L₁

Jadi, kerugian L₁ adalah 8 dan jumlah contohnya adalah 5. Oleh karena itu, Error Absolut Rata-rata adalah:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Membedakan Error Rata-rata Absolut dengan Error Kuadrat Rata-Rata dan Error Akar Rata-Rata Kuadrat.

Rata-rata Kuadrat Kesalahan (MSE)

Rata-rata kerugian per contoh saat kerugian L₂ digunakan. Hitung Rata-rata Kesalahan Kuadrat sebagai berikut:

Hitung kerugian L₂ untuk batch.
Bagi kerugian L₂ dengan jumlah contoh dalam batch.

Klik ikon untuk melihat perhitungan formal.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ dengan:

$n$ adalah jumlah contoh.
$y$ adalah nilai label sebenarnya.
$\hat{y}$ adalah prediksi model untuk $y$.

Misalnya, pertimbangkan kerugian pada batch lima contoh berikut:

Nilai sebenarnya	Prediksi model	Kerugian	Kerugian kuadrat
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = kerugian L₂

Oleh karena itu, Rata-rata Kuadrat Error adalah:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Error Kuadrat Rata-rata adalah pengoptimal pelatihan yang populer, khususnya untuk regresi linear.

Membandingkan Error Rata-rata Kuadrat dengan Error Rata-rata Absolut dan Error Akar Rata-Rata Kuadrat.

TensorFlow Playground menggunakan Rata-rata Error Kuadrat-untuk menghitung nilai kerugian.

Klik ikon untuk melihat detail selengkapnya tentang pencilan.

Pencilan sangat memengaruhi Rata-rata Error Kuadrat. Misalnya, kerugian 1 adalah kerugian kuadrat 1, tetapi kerugian 3 adalah kerugian kuadrat 9. Dalam tabel sebelumnya, contoh dengan hilangnya 3 hal tersebut menyebabkan ~56% Rata-rata Kesalahan Kuadrat, sementara setiap contoh dengan hilangnya 1 menyumbang hanya 6% dari Rata-rata Kuadrat Error.

Pencilan tidak memengaruhi Rata-rata Error Absolut sekuat Mean Squared Error. Misalnya, kehilangan 3 akun hanya sebesar ~38% dari Rataan Absolut Error.

Pemangkasan adalah salah satu cara untuk mencegah pencilan (outlier) ekstrem merusak kemampuan prediktif model Anda.

mesh

#TensorFlow

#GoogleCloud

Dalam pemrograman paralel ML, istilah yang terkait dengan penetapan data dan model ke chip TPU, serta menentukan cara nilai ini akan di-sharding atau direplikasi.

Mesh adalah istilah yang berlebihan yang dapat berarti salah satu dari hal berikut:

Tata letak fisik chip TPU.
Konstruksi logis abstrak untuk memetakan data dan model ke chip TPU.

Dalam kedua kasus tersebut, mesh ditentukan sebagai bentuk.

pembelajaran meta

#language

Bagian dari machine learning yang menemukan atau meningkatkan kualitas algoritma pembelajaran. Sistem pembelajaran meta juga dapat bertujuan untuk melatih model agar dapat dengan cepat mempelajari tugas baru dari sejumlah kecil data atau dari pengalaman yang diperoleh dalam tugas sebelumnya. Algoritma pembelajaran meta umumnya mencoba untuk mencapai hal-hal berikut:

Meningkatkan atau mempelajari fitur rekayasa manual (seperti penginisialisasi atau pengoptimal).
Meningkatkan efisiensi data dan komputasi.
Meningkatkan generalisasi.

Meta-learning terkait dengan few-shot learning.

metrik

#TensorFlow

Statistik yang penting bagi Anda.

Tujuan adalah metrik yang coba dioptimalkan oleh sistem machine learning.

Metrics API (tf.metrics)

TensorFlow API untuk mengevaluasi model. Misalnya, tf.metrics.accuracy menentukan seberapa sering prediksi model cocok dengan label.

batch mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 hingga 1.000 contoh.

Misalnya, seluruh set pelatihan (kumpulan lengkap) terdiri dari 1.000 contoh. Selanjutnya, anggaplah Anda menetapkan ukuran tumpukan setiap tumpukan mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 secara acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias sesuai kebutuhan.

Jauh lebih efisien untuk menghitung kerugian pada batch mini daripada menghitung kerugian pada semua contoh dalam batch penuh.

penurunan gradien stokastik mini-batch

Algoritma penurunan gradien yang menggunakan mini-batch. Dengan kata lain, penurunan gradien stokastik tumpukan mini memperkirakan gradien berdasarkan subset kecil dari data pelatihan. Penurunan gradien stokastik reguler menggunakan tumpukan mini berukuran 1.

kerugian minimax

Fungsi kerugian untuk jaringan saraf generatif berlawanan, berdasarkan entropi silang antara distribusi data yang dihasilkan dan data nyata.

Kerugian minimax digunakan dalam makalah pertama untuk menjelaskan jaringan saraf generatif berlawanan.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

Klik ikon untuk catatan tambahan.

Set pelatihan dengan jutaan contoh terdengar mengesankan. Namun, jika kelas minoritas tidak terwakili dengan baik, set pelatihan yang sangat besar pun mungkin tidak cukup. Kurangi fokus pada jumlah total contoh dalam set data dan lebih berfokus pada jumlah contoh di class minoritas.

Jika set data Anda tidak berisi contoh class minoritas yang cukup, pertimbangkan untuk menggunakan downsampling (definisi di butir kedua) untuk melengkapi class minoritas.

ML

Singkatan dari machine learning.

MNIST

#image

Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia menulis digit tertentu dari 0–9 secara manual. Setiap gambar disimpan sebagai array bilangan bulat berukuran 28x28, dengan setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.

MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji pendekatan machine learning baru. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

model

#fundamentals

Secara umum, konstruksi matematis apa pun yang memproses data input dan menampilkan output. Diungkapkan secara berbeda, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Dalam supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, model agak berbeda. Contoh:

Model regresi linear terdiri dari kumpulan bobot dan bias.
Model jaringan neural terdiri dari:
- Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau beberapa neuron.
- Bobot dan bias yang terkait dengan setiap neuron.
Model hierarki keputusan terdiri dari:
- Bentuk pohon; yaitu, pola menghubungkan kondisi dan daun.
- Kondisi dan keluarnya.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

Klik ikon untuk membandingkan fungsi aljabar dan pemrograman dengan model ML.

Fungsi aljabar seperti berikut adalah model:

  f(x, y) = 3x -5xy + y² + 17

Fungsi sebelumnya memetakan nilai input (x dan y) ke output.

Demikian pula, fungsi pemrograman seperti berikut juga merupakan model:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Pemanggil meneruskan argumen ke fungsi Python sebelumnya, dan fungsi Python menghasilkan output (melalui pernyataan return).

Meskipun deep neural network memiliki struktur matematika yang sangat berbeda dengan fungsi aljabar atau pemrograman, deep neural network masih mengambil input (sebuah contoh) dan menampilkan output (prediksi).

Pemrogram manusia mengodekan fungsi pemrograman secara manual. Sebaliknya, model machine learning akan mempelajari parameter yang optimal secara bertahap selama pelatihan otomatis.

kapasitas model

Kompleksitas masalah yang dapat dipelajari model. Makin kompleks masalah yang dapat dipelajari model, makin tinggi kapasitas model. Kapasitas model biasanya meningkat seiring dengan bertambahnya jumlah parameter model. Untuk definisi formal dari kapasitas pengklasifikasi, lihat dimensi VC.

model cascading

#AIgeneratif

Sistem yang memilih model ideal untuk kueri inferensi tertentu.

Bayangkan sekelompok model, mulai dari yang sangat besar (banyak parameter) hingga jauh lebih kecil (parameter yang jauh lebih sedikit). Model yang sangat besar mengonsumsi lebih banyak resource komputasi pada waktu inferensi dibandingkan model yang lebih kecil. Namun, model yang sangat besar biasanya dapat menyimpulkan permintaan yang lebih kompleks daripada model yang lebih kecil. Proses jenjang model menentukan kompleksitas kueri inferensi, lalu memilih model yang sesuai untuk melakukan inferensi. Motivasi utama untuk penurunan model adalah untuk mengurangi biaya inferensi dengan memilih model yang lebih kecil secara umum, dan hanya memilih model yang lebih besar untuk kueri yang lebih kompleks.

Bayangkan model kecil berjalan di ponsel dan versi yang lebih besar dari model tersebut berjalan di server jarak jauh. Proses model yang baik akan mengurangi biaya dan latensi dengan memungkinkan model yang lebih kecil menangani permintaan sederhana dan hanya memanggil model jarak jauh untuk menangani permintaan yang kompleks.

Lihat juga router model.

paralelisme model

#language

Cara untuk menskalakan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model pada perangkat yang berbeda. Paralelisme model memungkinkan model yang terlalu besar untuk dimuat di satu perangkat.

Untuk menerapkan paralelisme model, sistem biasanya melakukan hal berikut:

Shard (membagi) model menjadi bagian-bagian yang lebih kecil.
Mendistribusikan pelatihan bagian-bagian yang lebih kecil ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
Menggabungkan hasil untuk membuat model tunggal.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

router model

#AIgeneratif

Algoritma yang menentukan model ideal untuk inferensi dalam model jenjang. Router model biasanya merupakan model machine learning yang secara bertahap mempelajari cara memilih model terbaik untuk input tertentu. Namun, router model terkadang dapat menjadi algoritma non-machine learning yang lebih sederhana.

pelatihan model

Proses menentukan model terbaik.

Momentum

Algoritma penurunan gradien canggih yang membuat langkah pembelajaran tidak hanya bergantung pada turunan dalam langkah saat ini, tetapi juga pada turunan dari langkah yang segera mendahuluinya. Momentum melibatkan komputasi rata-rata pergerakan gradien yang diberi bobot secara eksponensial dari waktu ke waktu, yang dianalogikan dengan momentum dalam fisika. Momentum terkadang mencegah pembelajaran terjebak dalam minimum lokal.

klasifikasi multi-kelas

#fundamentals

Dalam supervised learning, masalah klasifikasi ketika set data berisi lebih dari dua class label. Misalnya, label dalam set data Iris harus berupa salah satu dari tiga kelas berikut:

Setosa bunga iris
Iris Virginica
Pancaran warna iris

Model yang dilatih dengan set data Iris yang memprediksi jenis Iris pada contoh baru melakukan klasifikasi multi-kelas.

Sebaliknya, masalah klasifikasi yang membedakan antara dua class secara tepat adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi kelas multi-class mengacu pada lebih dari dua klaster.

regresi logistik multi-kelas

Menggunakan regresi logistik dalam masalah klasifikasi kelas jamak.

self-attention multi-kepala

#language

Perluasan self-attention yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformers memperkenalkan fitur self-attention multi-head.

model multimodal

#language

Model yang input dan/atau outputnya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang menggunakan gambar dan teks teks (dua modalitas) sebagai fitur, dan menghasilkan skor yang menunjukkan seberapa sesuai teks teks untuk gambar. Jadi, input model ini multimodal dan output-nya unimodal.

klasifikasi multinomial

Sinonim dari klasifikasi kelas jamak.

regresi multinomial

Sinonim dari regresi logistik multi-class.

melakukan banyak tugas

Teknik machine learning yang melatih satu model untuk melakukan beberapa tugas.

Model multitasking dibuat dengan melatih data yang sesuai untuk setiap tugas yang berbeda. Hal ini memungkinkan model belajar berbagi informasi di seluruh tugas, yang membantu model belajar lebih efektif.

Model yang dilatih untuk beberapa tugas sering kali memiliki kemampuan generalisasi yang lebih baik dan dapat lebih tangguh dalam menangani berbagai jenis data.

N

perangkap NaN

Saat satu angka dalam model Anda menjadi NaN selama pelatihan, yang menyebabkan banyak atau semua angka lain dalam model Anda pada akhirnya menjadi NaN.

NaN adalah singkatan dari Not a Number.

natural language understanding

#language

Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan natural language understanding untuk menentukan apa yang ditelusuri pengguna berdasarkan apa yang diketik atau dikatakan pengguna.

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu kelas disebut positif dan kelas lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model dan class negatif adalah kemungkinan lainnya. Contoh:

Kelas negatif dalam tes medis bisa jadi "bukan Tumor".
Kelas negatif dalam pengklasifikasi email mungkin "bukan spam".

Berbeda dengan kelas positif.

sampling negatif

Sinonim dari sampling kandidat.

Neural Architecture Search (NAS)

Teknik untuk otomatis mendesain arsitektur jaringan neural. Algoritma NAS dapat mengurangi jumlah waktu dan sumber daya yang diperlukan untuk melatih jaringan neural.

NAS biasanya menggunakan:

Ruang penelusuran, yang merupakan sekumpulan kemungkinan arsitektur.
Fungsi kebugaran, yang merupakan ukuran seberapa baik performa arsitektur tertentu pada tugas tertentu.

Algoritma NAS sering kali dimulai dengan serangkaian kecil kemungkinan arsitektur dan secara bertahap memperluas ruang penelusuran saat algoritma mempelajari lebih lanjut tentang arsitektur yang efektif. Fungsi kebugaran biasanya didasarkan pada performa arsitektur pada set pelatihan, dan algoritma ini biasanya dilatih menggunakan teknik reinforcement learning.

Algoritma NAS telah terbukti efektif dalam menemukan arsitektur berperforma tinggi untuk berbagai tugas, termasuk klasifikasi gambar, klasifikasi teks, dan terjemahan mesin.

alur maju

#fundamentals

Sebuah model yang berisi setidaknya satu model. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan deep neural network yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan satu lapisan output.

Setiap neuron di jaringan neural terhubung ke semua simpul di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa masing-masing tiga neuron di lapisan tersembunyi pertama terhubung secara terpisah ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan pada komputer terkadang disebut jaringan neural artifisial untuk membedakannya dari jaringan neural yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur yang berbeda dan label.

Lihat juga jaringan neural konvolusional dan jaringan saraf berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

Menghitung jumlah berbobot nilai input dikalikan dengan bobotnya yang sesuai.
Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur di lapisan input. Neuron di setiap lapisan tersembunyi di luar lapisan pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Dua neuron disorot: satu di lapisan tersembunyi pertama dan satu di lapisan tersembunyi kedua. Neuron yang disorot
di lapisan tersembunyi pertama menerima input dari kedua fitur
di lapisan input. Neuron yang disorot di lapisan tersembunyi kedua menerima input dari ketiga neuron di lapisan tersembunyi pertama.

Sebuah neuron di jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

N-gram

#seq

#language

Rangkaian N kata yang diurutkan. Misalnya, truly madly bernilai 2 gram. Karena urutan bersifat relevan, nilai 2 gram pada madlyTotal berbeda dengan truly madly.

N	Nama untuk jenis N-gram ini	Contoh
2	bigram atau 2 gram	untuk pergi, pergi, makan siang, makan malam
3	trigram atau 3 gram	makan terlalu banyak, tiga tikus tunanetra, bel berbunyi
4	4 gram	berjalan di taman, terkena debu, dan anak itu makan miju-miju

Banyak model natural language understanding bergantung pada N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan pengguna. Misalnya, anggaplah pengguna mengetik three blind. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mice.

Bedakan N-gram dengan kantong kata, yang merupakan kumpulan kata yang tidak berurutan.

NLU

#language

Singkatan dari natural language understanding.

node (pohon keputusan)

#df

Dalam pohon keputusan, segala kondisi atau leaf.

Pohon keputusan dengan dua kondisi dan tiga daun.

node (jaringan neural)

#fundamentals

neuron dalam lapisan tersembunyi.

node (grafik TensorFlow)

#TensorFlow

Operasi dalam grafik TensorFlow.

kebisingan

Secara garis besar, segala sesuatu yang mengaburkan sinyal dalam {i>dataset<i}. Derau dapat dimasukkan ke dalam data dengan berbagai cara. Contoh:

Pelabel manual melakukan kesalahan dalam pelabelan.
Manusia dan instrumen salah mencatat atau menghilangkan nilai fitur.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Kondisi (number_of_legs = ?) yang mengarah ke tiga kemungkinan
hasil. Satu hasil (number_of_legs = 8) mengarah ke spider dengan nama daun. Hasil kedua (number_of_legs = 4) mengarah ke
daun yang diberi nama dog. Hasil ketiga (number_of_legs = 2) mengarah ke
daun bernama penguin.

nonlinear

#fundamentals

Hubungan antara dua variabel atau lebih yang tidak dapat direpresentasikan hanya melalui penambahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, ada dua model yang masing-masing menghubungkan satu fitur dengan satu label. Model di sebelah kiri bersifat linear, dan model di sebelah kanan tidak linear:

Dua plot. Satu plot adalah sebuah
garis, jadi ini adalah hubungan linear.
Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinier.

bias abstain

#fairness

Lihat bias seleksi.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

Jumlah pakaian renang yang dijual di toko tertentu bervariasi sesuai musim.
Jumlah buah tertentu yang dipanen di wilayah tertentu adalah nol dalam hampir sepanjang tahun, tetapi besar untuk jangka waktu singkat.
Karena perubahan iklim, suhu rata-rata tahunan mengalami perubahan.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang nilai sebenarnya dari variabel menjadi rentang nilai standar, seperti:

-1 hingga +1
0:1
distribusi normal

Misalnya, rentang nilai sebenarnya dari fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam rekayasa fitur. Model biasanya berlatih lebih cepat (dan menghasilkan prediksi yang lebih baik) jika setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

deteksi hal baru

Proses menentukan apakah contoh baru (baru) berasal dari distribusi yang sama dengan set pelatihan. Dengan kata lain, setelah pelatihan pada set pelatihan, deteksi kebaruan menentukan apakah contoh baru (selama inferensi atau selama pelatihan tambahan) merupakan outlier.

Berbeda dengan deteksi pencilan.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan bernilai nyata. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi dalam sebuah rumah mungkin memiliki beberapa hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa belahan dunia adalah bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal itu karena kode pos 20000 tidak dua kali (atau setengah) sama kuatnya dengan kode pos 10000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai properti yang berbeda, kita tidak dapat berasumsi bahwa nilai properti pada kode pos 20000 dua kali lebih bernilai daripada nilai properti pada kode pos 10000. Kode pos sebaiknya direpresentasikan sebagai data kategorik.

Fitur numerik terkadang disebut fitur berkelanjutan.

NumPy

Library matematika open source yang menyediakan operasi array yang efisien di Python. pandas dibangun di NumPy.

O

tujuan

Metrik yang coba dioptimalkan oleh algoritme Anda.

fungsi objektif

Formula matematika atau metrik yang ingin dioptimalkan oleh model. Misalnya, fungsi objektif untuk regresi linear biasanya Rata-rata Kerugian Kuadrat. Oleh karena itu, ketika melatih model regresi linear, pelatihan bertujuan untuk meminimalkan Rata-rata Kerugian Kuadrat.

Dalam beberapa kasus, tujuannya adalah untuk memaksimalkan fungsi objektif. Misalnya, jika fungsi objektif adalah akurasi, tujuannya adalah untuk memaksimalkan akurasi.

Lihat juga kerugian.

kondisi miring

#df

Dalam hierarki keputusan, sebuah kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar merupakan fitur, maka berikut ini adalah kondisi miring:

  height > width

Berbeda dengan kondisi rata sumbu.

offline

#fundamentals

Sinonim dari statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan sekumpulan prediksi, lalu meng-cache (menyimpan) prediksi tersebut. Kemudian, aplikasi dapat mengakses prediksi yang disimpulkan dari cache, bukan menjalankan kembali model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) setiap empat jam sekali. Setelah setiap model berjalan, sistem menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil perkiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor di mana:

Satu elemen ditetapkan ke 1.
Semua elemen lainnya ditetapkan ke 0.

Encoding one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan set nilai yang terbatas. Sebagai contoh, anggaplah fitur kategori tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

"Denmark"
"Swedia"
"Norwegia"
"Finlandia"
"Islandia"

Enkode one-hot dapat mewakili masing-masing dari lima nilai sebagai berikut:

negara	Vektor
"Denmark"	1	0	0	0	0
"Swedia"	0	1	0	0	0
"Norwegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islandia"	0	0	0	0	1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari kelima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif encoding one-hot. Sayangnya, mewakili negara-negara Skandinavia secara numerik bukan pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

"Denmark" adalah 0
"Swedia" adalah 1
"Norwegia" adalah 2
"Finlandia" adalah 3
"Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematika dan akan mencoba melatih angka-angka tersebut. Namun, Islandia tidak dua kali lipat (atau setengahnya) dari sesuatu seperti Norwegia, sehingga model ini akan menyimpulkan sesuatu yang aneh.

pemelajaran satu kali

Pendekatan machine learning, yang sering digunakan untuk klasifikasi objek, dirancang untuk mempelajari pengklasifikasi yang efektif dari satu contoh pelatihan.

Lihat juga few-shot learning dan zero-shot learning.

metode one-shot prompting

#language

#AIgeneratif

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar harus merespons. Misalnya, perintah berikut berisi satu contoh yang menunjukkan model bahasa besar bagaimana seharusnya menjawab kueri.

Bagian dari satu perintah	Catatan
`Apa mata uang resmi negara yang ditentukan?`	Pertanyaan yang perlu dijawab oleh LLM.
`Prancis: EUR`	Satu contoh.
`India:`	Kueri sebenarnya.

Bandingkan dan bedakan one-shot prompting dengan istilah berikut:

zero-shot prompting
few-shot prompting

satu vs. semua

#fundamentals

Mengingat masalah klasifikasi dengan class N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dengan model yang mengklasifikasikan contoh sebagai hewan, sayur, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

hewan versus bukan hewan
sayuran versus bukan sayur
mineral versus bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

operasi (op)

#TensorFlow

Di TensorFlow, prosedur apa pun yang membuat, memanipulasi, atau menghancurkan Tensor. Misalnya, perkalian matriks adalah operasi yang menggunakan dua Tensor sebagai input dan menghasilkan satu Tensor sebagai output.

Optax

Library pemrosesan dan pengoptimalan gradien untuk JAX. Optax memfasilitasi riset dengan menyediakan elemen penyusun yang dapat digabungkan ulang melalui cara kustom untuk mengoptimalkan model parametrik seperti jaringan neural dalam. Tujuan lainnya termasuk:

Menyediakan implementasi komponen inti yang dapat dibaca, teruji dengan baik, dan efisien.
Meningkatkan produktivitas dengan memungkinkan penggabungan bahan tingkat rendah ke dalam pengoptimal kustom (atau komponen pemrosesan gradien lainnya).
Mempercepat penerapan ide-ide baru dengan memudahkan siapa saja untuk berkontribusi.

pengoptimal

Implementasi spesifik dari algoritma penurunan gradien. Pengoptimal populer mencakup:

AdaGrad, yang merupakan singkatan dari ADAptive GRADient descent.
Adam, yang merupakan singkatan dari ADAptive dengan Momentum.

bias homogenitas di luar golongan

#fairness

Kecenderungan untuk melihat anggota di luar golongan lebih mirip daripada anggota dalam kelompok saat membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. Dalam grup mengacu pada orang yang berinteraksi dengan Anda secara rutin; luar golongan mengacu pada orang yang tidak berinteraksi dengan Anda secara rutin. Jika Anda membuat set data dengan meminta orang memberikan atribut tentang luar kelompok, atribut tersebut mungkin kurang bernuansa dan lebih stereotipe daripada atribut yang dicantumkan peserta untuk orang-orang di dalam golongan mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Liliput yang sama mungkin hanya menyatakan bahwa Brobdingnagians semua tinggal di rumah yang identik.

Bias kehomogenan luar golongan adalah bentuk bias atribusi golongan.

Lihat juga bias dalam golongan.

deteksi pencilan

Proses mengidentifikasi outlier dalam set pelatihan.

Berbeda dengan deteksi baru.

kekecualian

Nilai yang berbeda dari sebagian besar nilai lainnya. Dalam machine learning, salah satu dari hal berikut adalah pencilan:

Data input yang nilainya lebih dari 3 deviasi standar dari rata-rata.
Bobot dengan nilai absolut yang tinggi.
Nilai yang diprediksi relatif jauh dari nilai sebenarnya.

Misalnya, widget-price adalah fitur dari model tertentu. Asumsikan bahwa rata-rata widget-price adalah 7 Euro dengan simpangan baku 1 Euro. Contoh yang berisi widget-price 12 Euro atau 2 Euro akan dianggap sebagai pencilan karena masing-masing harga tersebut memiliki lima deviasi standar dari rata-rata.

Pencilan sering disebabkan oleh kesalahan ketik atau kesalahan {i>input<i} lainnya. Dalam kasus lain, {i>outlier <i}bukanlah kesalahan; Lagi pula, nilai yang berjarak lima deviasi standar dari rerata jarang terjadi, tetapi hampir tidak mungkin.

Pencilan sering menyebabkan masalah dalam pelatihan model. Pembuatan klip adalah salah satu cara untuk mengelola pencilan.

evaluasi luar biasa (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan berdasarkan contoh yang tidak digunakan selama pelatihan pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi berdasarkan sepertiga contoh lainnya.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
Satu pohon keputusan mempelajari dua pertiga contoh,
kemudian menggunakan sepertiga sisanya untuk evaluasi OOB.
Pohon keputusan kedua mempelajari dua pertiga contoh yang berbeda
dari pohon keputusan sebelumnya, lalu
menggunakan sepertiga yang berbeda untuk evaluasi OOB dengan
pohon keputusan sebelumnya.

Evaluasi out-of-bag adalah perkiraan konservatif dan efisien secara komputasi dari mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menahan beberapa data dari setiap hierarki selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

lapisan output

#fundamentals

Lapisan "terakhir" dari jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan deep neural network kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

overfitting

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

Klik ikon untuk catatan tambahan.

Overfitting seperti mengikuti saran hanya dari pengajar favorit Anda. Anda mungkin akan berhasil di kelas pengajar tersebut, tetapi Anda mungkin "terlalu menyesuaikan" ide pengajar tersebut dan gagal di kelas lain. Mengikuti saran dari campuran pengajar akan memungkinkan Anda beradaptasi lebih baik dengan situasi baru.

pengambilan sampel berlebih

Menggunakan kembali contoh class minoritas dalam set data class tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan masalah klasifikasi biner yang memiliki rasio kelas mayoritas terhadap kelas minoritas adalah 5.000:1. Jika set data berisi satu juta contoh, set data hanya berisi sekitar 200 contoh kelas minoritas, yang mungkin merupakan contoh yang terlalu sedikit untuk pelatihan yang efektif. Untuk mengatasi kekurangan ini, Anda dapat mengambil sampel secara berlebih (menggunakan kembali) 200 contoh tersebut beberapa kali, yang mungkin menghasilkan contoh yang memadai untuk pelatihan yang berguna.

Anda harus berhati-hati terkait over overfitting saat oversampling.

Berbeda dengan undersampling.

P

data terpaket

Sebuah pendekatan untuk menyimpan data dengan lebih efisien.

Data yang dipaketkan menyimpan data menggunakan format terkompresi atau dengan cara lain yang memungkinkannya diakses secara lebih efisien. Data terpaket meminimalkan jumlah memori dan komputasi yang diperlukan untuk mengaksesnya, sehingga menghasilkan pelatihan yang lebih cepat dan inferensi model yang lebih efisien.

Data yang dipaketkan sering digunakan dengan teknik lain, seperti pengayaan data dan regularisasi, yang akan semakin meningkatkan performa model.

pandas

#fundamentals

API analisis data berorientasi kolom yang dibuat di atas numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Lihat dokumentasi pandas untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameternya terdiri dari bias (b) dan semua bobot (w₁, w₂, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan penyesuaian hyperparameter) yang disediakan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

parameter-efficient tuning

#language

#AIgeneratif

Serangkaian teknik untuk menyempurnakan model bahasa terlatih (PLM) besar dengan lebih efisien daripada fine-tuning penuh. Penyesuaian parameter yang efisien biasanya meningkatkan parameter yang jauh lebih sedikit daripada penyempurnaan penuh, tetapi umumnya menghasilkan model bahasa besar yang berperforma sebaik (atau hampir sama) dengan model bahasa besar yang dibangun dari penyempurnaan menyeluruh.

Bandingkan dan buat perbedaan nyata penyesuaian parameter yang efisien dengan:

penyesuaian petunjuk
penyesuaian perintah

Parameter-efficient tuning juga dikenal sebagai parameter-efficient tuning.

Server Parameter (PS)

#TensorFlow

Tugas yang melacak parameter model dalam setelan terdistribusi.

pembaruan parameter

Operasi penyesuaian parameter model selama pelatihan, biasanya dalam satu iterasi penurunan gradien.

turunan parsial

Turunan yang mana semua kecuali satu variabel dianggap sebagai konstanta. Misalnya, turunan parsial f(x, y) yang terkait dengan x adalah turunan dari f yang dianggap sebagai fungsi x saja (yaitu, menjaga konstanta y). Turunan parsial f yang terkait dengan x hanya berfokus pada bagaimana x mengubah dan mengabaikan semua variabel lain dalam persamaan.

bias partisipasi

#fairness

Sinonim dari bias non-respons. Lihat bias seleksi.

strategi partisi

Algoritma yang digunakan untuk membagi variabel di seluruh server parameter.

Orang

Framework pemrograman yang dirancang untuk melatih jaringan model berskala besar sedemikian besar sehingga mencakup beberapa TPU chip akselerator slice atau pod.

Pax di-build di Flax, yang di-build di JAX.

Diagram yang menunjukkan posisi Pax dalam stack software.
Pax dibangun di atas JAX. Pax sendiri terdiri dari tiga lapisan. Lapisan bawah berisi TensorStore dan Flax.
Lapisan tengah berisi Optax dan Flaxformer. Lapisan atas berisi Praxis Modeling Library. Fiddle dibuat
di atas Pax.

perseptron

Sistem (hardware atau software) yang menggunakan satu atau beberapa nilai input, menjalankan fungsi pada jumlah input berbobot, dan menghitung satu nilai output. Dalam machine learning, fungsinya biasanya nonlinear, seperti ReLU, ReLU, atau tanh. Misalnya, perseptron berikut bergantung pada fungsi sigmoid untuk memproses tiga nilai input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dalam ilustrasi berikut, perseptron mengambil tiga input, yang masing-masing dimodifikasi oleh bobot sebelum memasuki perseptron:

Perceptron yang menggunakan 3 input, masing-masing dikalikan dengan bobot terpisah. Perceptron menghasilkan satu nilai.

Persepsi adalah neuron dalam jaringan neural.

performa

Istilah yang memiliki banyak arti sebagai berikut:

Makna standar dalam rekayasa perangkat lunak. Yaitu: Seberapa cepat (atau efisien) software ini berjalan?
Makna dalam machine learning. Di sini, performa menjawab pertanyaan berikut: Seberapa benar model ini? Artinya, seberapa bagus prediksi model?

tingkat kepentingan variabel permutation

#df

Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah metrik yang tidak bergantung pada model.

perpleksitas

Salah satu ukuran terkait seberapa baik model menyelesaikan tugasnya. Sebagai contoh, tugas Anda adalah membaca beberapa huruf pertama dari kata yang diketik pengguna pada keyboard ponsel, dan menawarkan daftar kemungkinan kata penyelesaian. Perpleksitas, P, untuk tugas ini adalah perkiraan jumlah tebakan yang perlu Anda tawarkan agar daftar Anda berisi kata sebenarnya yang akan diketik pengguna.

Perpleksitas terkait dengan entropi silang sebagai berikut:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastruktur yang berkaitan dengan algoritma machine learning. Pipeline meliputi mengumpulkan data, memasukkan data ke dalam file data pelatihan, melatih satu atau beberapa model, dan mengekspor model ke produksi.

pipeline

#language

Bentuk paralelisme model yang mana pemrosesan model dibagi menjadi beberapa tahap yang berurutan dan setiap tahap dijalankan di perangkat yang berbeda. Ketika suatu tahap memproses satu batch, tahap sebelumnya dapat berfungsi pada batch berikutnya.

Lihat juga pelatihan bertahap.

{i>Pjit<i}

Fungsi JAX yang membagi kode untuk dijalankan di beberapa chip akselerator. Pengguna meneruskan fungsi ke pjit, yang menampilkan fungsi yang memiliki semantik setara, tetapi dikompilasi ke dalam komputasi XLA yang berjalan di beberapa perangkat (seperti GPU atau inti TPU).

pjit memungkinkan pengguna melakukan sharding komputasi tanpa menulisnya ulang dengan menggunakan partisier SPMD.

Mulai Maret 2023, pjit telah digabungkan dengan jit. Lihat Array terdistribusi dan paralelisasi otomatis untuk detail selengkapnya.

BUMN

#language

#AIgeneratif

Singkatan dari model bahasa terlatih.

pmap

Fungsi JAX yang menjalankan salinan fungsi input di beberapa perangkat hardware pokok (CPU, GPU, atau TPU), dengan nilai input yang berbeda. pmap bergantung pada SPMD.

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

penggabungan

#image

Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusional sebelumnya ke matriks yang lebih kecil. Penggabungan biasanya melibatkan pengambilan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:

Matriks 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Operasi penggabungan, seperti operasi konvolusional, membagi matriks tersebut menjadi beberapa potongan, lalu menggeser operasi konvolusional tersebut dengan langkah. Misalnya, operasi penggabungan membagi matriks konvolusional menjadi 2x2 potongan dengan jangka 1x1. Seperti yang digambarkan oleh diagram berikut, empat operasi penggabungan terjadi. Bayangkan setiap operasi penggabungan mengambil nilai maksimum dari empat operasi tersebut dalam slice tersebut:

Penggabungan membantu menerapkan invariansi translasi dalam matriks input.

Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Penerapan deret waktu biasanya mengacu pada penggabungan sebagai penggabungan sementara. Secara kurang formal, penggabungan sering kali disebut subsampling atau downsampling.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token dalam urutan ke penyematan token. Model transformer menggunakan encoding posisi untuk lebih memahami hubungan antara berbagai bagian urutan.

Implementasi umum dari pengkodean posisi{i> <i}menggunakan fungsi sinusoidal. (Secara khusus, frekuensi dan amplitudo fungsi sinusoidal ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer mempelajari cara memperhatikan berbagai bagian urutan berdasarkan posisinya.

kelas positif

#fundamentals

Class yang akan diuji.

Misalnya, kelas positif dalam model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

Klik ikon untuk catatan tambahan.

Istilah kelas positif bisa membingungkan karena hasil "positif" dari banyak pengujian sering kali merupakan hasil yang tidak diinginkan. Misalnya, kelas positif pada banyak tes medis berkaitan dengan Tumor atau penyakit. Secara umum, Anda ingin seorang dokter memberi tahu Anda, "Selamat! Hasil tes Anda negatif." Terlepas dari itu, kelas positif adalah peristiwa yang ingin ditemukan oleh pengujian.

Anda harus melakukan pengujian untuk class positif dan negatif secara bersamaan.

pascapemrosesan

#fairness

#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif benar sama untuk semua nilai atribut tersebut.

PR AUC (area di bawah kurva PR)

Area di bawah kurva presisi-recall terinterpolasi, yang diperoleh dengan memplot titik (recall, presisi) untuk berbagai nilai nilai minimum klasifikasi. Bergantung pada cara penghitungannya, PR AUC mungkin setara dengan presisi rata-rata model.

Praksis

Library ML inti berperforma tinggi dari Pax. Praxis sering disebut "Library lapis".

Praxis tidak hanya berisi definisi untuk class Lapisan, tetapi juga sebagian besar komponen pendukungnya, termasuk:

input data
library konfigurasi (HParam dan Fiddle)
pengoptimal

Praxis memberikan definisi untuk class Model.

presisi

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Ketika model memprediksi kelas positif, berapa persentase prediksi yang benar?

Berikut ini formulanya:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dalam hal ini:

positif benar berarti model dengan benar memprediksi class positif.
positif palsu berarti model tersebut salah memprediksi class positif.

Misalnya, sebuah model membuat 200 prediksi positif. Dari 200 prediksi positif ini:

150 adalah positif benar.
50 adalah positif palsu.

Dalam kasus ini:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Berbeda dengan akurasi dan perolehan.

kurva presisi-recall

Kurva presisi versus recall pada batas klasifikasi yang berbeda.

prediksi

#fundamentals

Output model. Contoh:

Prediksi model klasifikasi biner adalah class positif atau class negatif.
Prediksi model klasifikasi multi-class adalah satu class.
Prediksi model regresi linear adalah angka.

#AIgeneratif

Pelatihan awal model pada set data besar. Beberapa model terlatih adalah raksasa yang ceroboh dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML mungkin melatih model bahasa besar pada set data teks yang luas, seperti semua halaman berbahasa Inggris di Wikipedia. Setelah pelatihan dilakukan sebelumnya, model yang dihasilkan dapat ditingkatkan kualitasnya melalui salah satu teknik berikut:

distilasi
fine-tuning
penyesuaian petunjuk
parameter-efficient tuning
prompt-tuning

keyakinan sebelumnya

Apa yang Anda yakini tentang data sebelum Anda mulai melatihnya. Misalnya, regularisasi L₂ bergantung pada keyakinan sebelumnya bahwa bobot harus kecil dan biasanya terdistribusi sekitar nol.

model regresi probabilistik

Model regresi yang tidak hanya menggunakan bobot untuk setiap fitur, tetapi juga ketidakpastian bobot tersebut. Model regresi probabilistik menghasilkan prediksi dan ketidakpastian prediksi tersebut. Misalnya, model regresi probabilistik mungkin menghasilkan prediksi 325 dengan simpangan baku 12. Untuk mengetahui informasi selengkapnya tentang model regresi probabilistik, lihat Colab di tensorflow.org.

fungsi kepadatan probabilitas

Fungsi yang mengidentifikasi frekuensi sampel data yang benar-benar memiliki nilai tertentu. Jika nilai set data adalah bilangan floating point berkelanjutan, pencocokan persis jarang terjadi. Namun, integrating fungsi kepadatan probabilitas dari nilai x ke nilai y akan menghasilkan frekuensi sampel data yang diharapkan antara x dan y.

Misalnya, pertimbangkan distribusi normal yang memiliki rata-rata 200 dan simpangan baku 30. Untuk menentukan frekuensi sampel data yang diharapkan yang berada dalam rentang 211,4 hingga 218,7, Anda dapat mengintegrasikan fungsi kepadatan probabilitas untuk distribusi normal dari 211,4 hingga 218,7.

perintah

#language

#AIgeneratif

Semua teks yang dimasukkan sebagai input ke model bahasa besar untuk mengondisikan model agar berperilaku dengan cara tertentu. Perintah dapat sesingkat frasa atau panjangnya bebas (misalnya, seluruh teks novel). Perintah dibagi dalam beberapa kategori, termasuk yang ditampilkan dalam tabel berikut:

Kategori perintah	Contoh	Catatan
Pertanyaan	`Seberapa cepat merpati bisa terbang?`
Petunjuk	`Tulis puisi lucu tentang arbitrase.`	Prompt yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh	`Terjemahkan kode Markdown ke HTML. Misalnya: Markdown: * item daftar HTML: <ul> <li>list item</li> </ul>`	Kalimat pertama dalam contoh perintah ini adalah instruksi. sisa perintah adalah contohnya.
Peran	`Jelaskan alasan penurunan gradien digunakan dalam pelatihan machine learning untuk mendapatkan gelar PhD dalam bidang Fisika.`	Bagian pertama kalimat tersebut adalah petunjuk; frasa "untuk mendapatkan gelar PhD dalam bidang Fisika" adalah bagian peran.
Input sebagian untuk diselesaikan model	`Perdana Menteri Inggris Raya tinggal di`	Perintah input parsial dapat berakhir secara tiba-tiba (seperti yang dilakukan dalam contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons perintah dengan teks, kode, gambar, embeddings, video... hampir apa saja.

pembelajaran berbasis perintah

#language

#AIgeneratif

Kemampuan model tertentu yang memungkinkan mereka menyesuaikan perilakunya sebagai respons terhadap input teks arbitrer (perintah). Pada paradigma pembelajaran berbasis perintah pada umumnya, model bahasa besar merespons perintah dengan membuat teks. Misalnya, anggaplah pengguna memasukkan perintah berikut:

Ringkaslah Hukum Ketiga Gerak Newton.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab perintah sebelumnya. Sebaliknya, model "mengetahui" banyak fakta tentang fisika, banyak hal tentang aturan bahasa umum, dan banyak hal tentang apa saja yang membentuk jawaban yang umumnya berguna. Pengetahuan itu cukup untuk memberikan (semoga) jawaban yang bermanfaat. Masukan tambahan dari manusia ("Jawaban itu terlalu rumit". atau "Apa itu reaksi?") memungkinkan beberapa sistem pembelajaran berbasis perintah untuk secara bertahap meningkatkan kegunaan jawaban mereka.

desain prompt

#language

#AIgeneratif

Sinonim dari rekayasa perintah.

rekayasa perintah

#language

#AIgeneratif

Seni membuat perintah yang menghasilkan respons yang diinginkan dari model bahasa besar. Manusia melakukan Prompt Engineering. Menulis perintah yang terstruktur dengan baik adalah bagian penting untuk memastikan respons yang berguna dari model bahasa besar. Prompt Engineering bergantung pada banyak faktor, termasuk:

Set data yang digunakan untuk melatih sebelumnya dan mungkin menyesuaikan model bahasa besar.
temperature dan parameter decoding lain yang digunakan model untuk menghasilkan respons.

Lihat Pengantar desain prompt untuk mengetahui detail selengkapnya tentang cara menulis perintah yang bermanfaat.

Prompt Design adalah sinonim untuk Prompt Engineering.

prompt tuning

#language

#AIgeneratif

Mekanisme parameter-efficient tuning yang mempelajari "awalan" yang ditambahkan sistem ke perintah sebenarnya.

Salah satu variasi prompt tuning—terkadang disebut tuning awalan—adalah menambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar prompt tuning hanya menambahkan awalan ke lapisan input.

Klik ikon untuk mempelajari awalan lebih lanjut.

Untuk prompt tuning, "awalan" (juga dikenal sebagai "perintah ringan") adalah sekumpulan vektor khusus tugas yang telah dipelajari yang ditambahkan ke embedding token teks dari prompt sebenarnya. Sistem mempelajari perintah virtual dengan membekukan semua parameter model lainnya dan melakukan penyesuaian pada tugas tertentu.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Tidak berkecil hati, Anda memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang mengalami stres tinggi lebih kecelakaan daripada karyawan yang tenang. Atau iya kan? Mungkin saja kecelakaan di tempat kerja benar-benar naik turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin nilai apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i>proxy<i} yang bagus? Mungkin, tetapi orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label yang sesungguhnya daripada label proxy. Meskipun demikian, jika label yang sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, lalu pilih kandidat label proxy yang paling tidak mengerikan.

proxy (atribut sensitif)

#fairness

Atribut yang digunakan sebagai pengganti untuk atribut sensitif. Misalnya, kode pos seseorang dapat digunakan sebagai proxy untuk pendapatan, ras, atau etnisnya.

fungsi murni

Fungsi yang outputnya hanya didasarkan pada inputnya, dan yang tidak memiliki efek samping. Secara khusus, fungsi murni tidak menggunakan atau mengubah status global apa pun, seperti isi file atau nilai variabel di luar fungsi.

Fungsi murni dapat digunakan untuk membuat kode yang aman untuk thread, yang berguna saat melakukan sharding kode model di beberapa chip akselerator.

Metode transformasi fungsi JAX mengharuskan fungsi input dari fungsi murni.

T

Fungsi Q

#rl

Dalam pemelajaran penguatan, fungsi yang memprediksi hasil yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status-tindakan.

Q-learning

#rl

Dalam reinforcement learning, algoritma yang memungkinkan agen mempelajari fungsi Q yang optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov memodelkan lingkungan.

kuantil

Setiap bucket dalam bucketing kuantil.

pengelompokan kuantil

Mendistribusikan nilai fitur ke dalam bucket sehingga setiap bucket berisi jumlah contoh yang sama (atau hampir sama). Misalnya, gambar berikut membagi 44 poin menjadi 4 bucket, yang masing-masing berisi 11 poin. Agar setiap bucket dalam gambar berisi jumlah titik yang sama, beberapa bucket memiliki lebar nilai x yang berbeda.

44 titik data dibagi menjadi 4 bucket yang masing-masing berisi 11 poin.
Meskipun setiap bucket berisi jumlah titik data yang sama, beberapa bucket berisi rentang nilai fitur yang lebih luas daripada bucket lainnya.

kuantisasi

Istilah yang berlebihan yang dapat digunakan dengan salah satu cara berikut:

Mengimplementasikan bucket kuantil pada fitur tertentu.
Mengubah data menjadi angka nol dan satu untuk penyimpanan, pelatihan, dan inferensi dengan lebih cepat. Karena data Boolean lebih andal terhadap derau dan error daripada format lain, kuantisasi dapat meningkatkan ketepatan model. Teknik kuantisasi mencakup pembulatan, pemotongan, dan binning.
Mengurangi jumlah bit yang digunakan untuk menyimpan parameter model. Sebagai contoh, parameter model disimpan sebagai bilangan floating point 32-bit. Kuantisasi mengonversi parameter tersebut dari 32 bit menjadi 4, 8, atau 16 bit. Kuantisasi mengurangi hal berikut:
- Penggunaan komputasi, memori, disk, dan jaringan
- Waktu untuk menyimpulkan predikasi
- Konsumsi daya
Namun, kuantisasi terkadang menurunkan ketepatan prediksi model.

antrean

#TensorFlow

Operation TensorFlow yang menerapkan struktur data antrean. Biasanya digunakan dalam I/O.

R

RAG

#fundamentals

Singkatan untuk retrieval-augmented generation.

hutan acak

#df

Ansambel hierarki keputusan tempat setiap pohon keputusan dilatih dengan derau acak tertentu, seperti bagging.

Forest acak adalah jenis hutan keputusan.

kebijakan acak

#rl

Dalam reinforcement learning, kebijakan yang memilih tindakan secara acak.

peringkat

Jenis supervised learning yang tujuannya adalah mengurutkan daftar item.

peringkat (ordinalitas)

Posisi ordinal suatu class dalam masalah machine learning yang mengategorikan class dari tertinggi ke terendah. Misalnya, sistem peringkat perilaku dapat mengurutkan reward dari yang tertinggi (steak) hingga yang terendah (kale layu).

peringkat (Tensor)

#TensorFlow

Jumlah dimensi dalam Tensor. Misalnya, skalar memiliki peringkat 0, vektor memiliki peringkat 1, dan matriks memiliki peringkat 2.

Harap bedakan dengan peringkat (ordinalitas).

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk penilai.

ingatan

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Jika kebenaran dasar adalah kelas positif, berapa persentase prediksi yang diidentifikasi dengan benar oleh model sebagai kelas positif?

Berikut ini formulanya:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dalam hal ini:

positif benar berarti model dengan benar memprediksi class positif.
negatif palsu berarti bahwa model keliru memprediksi kelas negatif.

Misalnya, model Anda membuat 200 prediksi dengan contoh yang kebenaran dasar adalah kelas positifnya. Dari 200 prediksi ini:

180 adalah positif benar.
20 adalah negatif palsu.

Dalam kasus ini:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Klik ikon untuk catatan tentang {i>dataset<i} kelas tidak seimbang.

Recall sangat berguna untuk menentukan kekuatan prediktif model klasifikasi yang jarang class positifnya. Misalnya, pertimbangkan set data kelas tidak seimbang yang berisi kelas positif untuk penyakit tertentu hanya pada 10 pasien dari satu juta. Misalkan model Anda membuat lima juta prediksi yang menghasilkan hasil berikut:

30 Positif Benar
20 Negatif Palsu
4.999.000 Negatif Benar
950 Positif Palsu

Oleh karena itu, penarikan model ini adalah:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Sebaliknya, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Nilai akurasi yang tinggi itu terlihat mengesankan, tetapi pada dasarnya tidak ada artinya. Recall adalah metrik yang jauh lebih berguna untuk set data kelas tidak seimbang daripada akurasi.

sistem rekomendasi

#recsystems

Sistem yang memilih set yang relatif kecil untuk item yang diinginkan dari korpus besar untuk setiap pengguna. Misalnya, sistem rekomendasi video mungkin merekomendasikan dua video dari korpus yang berisi 100.000 video, yang memilih Casablanca dan The Philadelphia Story untuk satu pengguna, serta Wonder Woman dan Black Panther untuk pengguna lainnya. Sistem rekomendasi video mungkin mendasarkan rekomendasinya pada beberapa faktor seperti:

Film yang telah dinilai atau ditonton oleh pengguna yang serupa.
Genre, sutradara, aktor, demografi target...

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

Jika inputnya negatif atau nol, maka output-nya adalah 0.
Jika input bernilai positif, maka output-nya sama dengan input.

Contoh:

Jika inputnya adalah -3, maka output-nya adalah 0.
Jika inputnya adalah +3, maka output-nya adalah 3.0.

Berikut adalah plot ULT:

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

jaringan saraf berulang

#seq

Jaringan neural yang sengaja dijalankan beberapa kali, yang mana bagian dari setiap run dimasukkan ke proses berikutnya. Secara khusus, lapisan tersembunyi dari proses sebelumnya memberikan bagian dari input ke lapisan tersembunyi yang sama pada proses berikutnya. Jaringan neural berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari jaringan neural sebelumnya yang berjalan di bagian awal urutan.

Misalnya, gambar berikut menunjukkan jaringan saraf berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari proses pertama menjadi bagian dari input untuk lapisan tersembunyi yang sama di proses kedua. Demikian pula, nilai yang dipelajari di lapisan tersembunyi pada proses kedua menjadi bagian dari input untuk lapisan tersembunyi yang sama dalam proses ketiga. Dengan cara ini, jaringan neural berulang secara bertahap melatih dan memprediksi arti keseluruhan urutan, bukan hanya arti setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut ini adalah semua model regresi:

Model yang memprediksi nilai rumah tertentu, misalnya 423.000 Euro.
Model yang memprediksi harapan hidup pohon tertentu, misalnya 23,2 tahun.
Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18 inci.

Dua jenis model regresi yang umum adalah:

Regresi linear, yang menemukan garis yang paling sesuai dengan nilai label ke fitur.
Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya kemudian dipetakan oleh sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya merupakan model klasifikasi yang kebetulan memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

regularisasi L₁
Regularisasi L₂
regularisasi dropout
penghentian awal (ini bukan metode regularisasi formal, tetapi dapat membatasi overfitting secara efektif)

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

Klik ikon untuk catatan tambahan.

Regularisasi tidak masuk akal. Meningkatkan regularisasi biasanya meningkatkan kerugian pelatihan, yang membingungkan karena bukankah tujuan untuk meminimalkan kerugian pelatihan?

Sebenarnya, tidak. Tujuannya bukan untuk meminimalkan kerugian pelatihan. Tujuannya adalah untuk membuat prediksi yang sangat baik berdasarkan contoh di dunia nyata. Hebatnya, meskipun meningkatkan regularisasi meningkatkan kerugian pelatihan, biasanya membantu model membuat prediksi yang lebih baik pada contoh di dunia nyata.

derajat regularisasi

#fundamentals

Angka yang menentukan kepentingan relatif regularisasi selama pelatihan. Meningkatkan rasio regularisasi akan mengurangi overfitting, tetapi dapat mengurangi kemampuan prediktif model. Sebaliknya, mengurangi atau menghilangkan derajat regularisasi akan meningkatkan overfitting.

Klik ikon untuk melihat perhitungan.

Tingkat regularisasi biasanya direpresentasikan sebagai lambda huruf Yunani. Persamaan kerugian yang disederhanakan berikut menunjukkan pengaruh lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

di mana regularisasi adalah mekanisme regularisasi apa pun, termasuk;

regularisasi L₁
Regularisasi L₂

Reinforcement Learning (RL)

#rl

Kelompok algoritma yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan laba saat berinteraksi dengan lingkungan. Misalnya, hadiah utama dari sebagian besar game adalah kemenangan. Sistem pembelajaran Reinforcement Learning dapat menjadi ahli dalam memainkan game kompleks dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya menghasilkan kemenangan dan urutan yang pada akhirnya menyebabkan kekalahan.

Reinforcement Learning dari Respons Manusia (RLHF)

#AIgeneratif

#rl

Menggunakan masukan dari penilai manusia untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau ⏾. Selanjutnya, sistem dapat menyesuaikan respons selanjutnya berdasarkan masukan tersebut.

ReLU

#fundamentals

Singkatan dari Unit Linear Terarah.

buffer pemutaran ulang

#rl

Dalam algoritma seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam replay pengalaman.

replika

Salinan set pelatihan atau model, biasanya di komputer lain. Misalnya, sistem dapat menggunakan strategi berikut untuk menerapkan paralelisme data:

Menempatkan replika model yang ada di beberapa mesin.
Kirim subset yang berbeda dari set pelatihan ke setiap replika.
Gabungkan pembaruan parameter.

bias pelaporan

#fairness

Faktanya, frekuensi orang menulis tentang tindakan, hasil, atau properti bukanlah cerminan dari frekuensi mereka di dunia nyata atau sejauh mana properti merupakan karakteristik dari kelas individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada bernapas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

vektor yang sama

Proses pemetaan data ke fitur yang berguna.

pemeringkatan ulang

#recsystems

Tahap akhir dari sistem rekomendasi, yang mana item yang diberi skor dapat dinilai ulang menurut beberapa algoritma lainnya (biasanya, non-ML). Pemeringkatan ulang mengevaluasi daftar item yang dihasilkan oleh fase penskoran, dengan mengambil tindakan seperti:

Menghilangkan item yang telah dibeli pengguna.
Meningkatkan skor item yang lebih baru.

Retrieval-augmented Generation (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas output model bahasa besar (LLM) dengan memberinya landasan dengan sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan memberi LLM terlatih akses ke informasi yang diambil dari pusat informasi atau dokumen tepercaya.

Motivasi umum untuk menggunakan pembuatan yang didukung pengambilan meliputi:

Meningkatkan akurasi faktual respons yang dihasilkan model.
Memberi model akses ke pengetahuan yang tidak dilatihnya.
Mengubah pengetahuan yang digunakan model.
Memungkinkan model mengutip sumber.

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
Menambahkan ("tambahan") data kimia yang relevan ke kueri pengguna.
Meminta LLM membuat ringkasan berdasarkan data yang ditambahkan.

return

#rl

Dalam reinforcement learning, dengan mempertimbangkan kebijakan tertentu dan status tertentu, hasilnya adalah jumlah dari semua reward yang diharapkan akan diterima oleh agen saat mengikuti kebijakan dari status hingga akhir episode. Agen memperhitungkan sifat tertunda reward yang diharapkan dengan memberikan diskon pada reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskonnya adalah $\gamma$, dan $r_0, \ldots, r_{N}$ menunjukkan reward hingga akhir episode, penghitungan yang ditampilkan adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

bonus

#rl

Dalam reinforcement learning, hasil numerik dari pengambilan tindakan dalam status, seperti yang ditentukan oleh lingkungan.

regulerisasi batas

Sinonim dari regularisasi L₂. Istilah regularisasi batas lebih sering digunakan dalam konteks statistik murni, sedangkan regularisasi L₂ lebih sering digunakan dalam machine learning.

RNN

#seq

Singkatan dari recurrent neural network.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar versus rasio positif palsu untuk nilai minimum klasifikasi yang berbeda dalam klasifikasi biner.

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan model klasifikasi biner memisahkan semua class negatif dari semua class positif dengan sempurna:

Garis bilangan dengan 8 contoh positif di sisi kanan dan 7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva dimulai dari (0.0,0.0) dan lurus ke atas ke (0.0,1.0). Kemudian, kurva berubah dari (0.0,1.0) ke (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan grafik nilai regresi logistik mentah untuk model buruk yang sama sekali tidak dapat memisahkan kelas negatif dari kelas positif:

Garis bilangan dengan contoh positif dan class negatif bercampur sepenuhnya.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya merupakan garis lurus dari (0.0,0.0) ke (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan kelas positif dan negatif sampai batas tertentu, tetapi biasanya tidak secara sempurna. Jadi, kurva ROC umumnya berada di antara dua titik ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva KOP mendekati busur goyah
yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0,0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah di dunia nyata lainnya memengaruhi pemilihan batas klasifikasi ideal. Misalnya, negatif palsu mungkin menyebabkan lebih banyak masalah daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating point.

pemberian perintah peran

#language

#AIgeneratif

Bagian opsional dari perintah yang mengidentifikasi audiens target untuk respons model AI generatif. Tanpa perintah peran, model bahasa besar memberikan jawaban yang mungkin berguna atau tidak berguna bagi orang yang mengajukan pertanyaan. Dengan prompt peran, model bahasa besar (LLM) dapat menjawab dengan cara yang lebih sesuai dan lebih membantu untuk target audiens tertentu. Misalnya, bagian prompt peran pada perintah berikut ditulis tebal:

Rangkum artikel ini untuk mendapatkan gelar PhD dalam bidang ekonomi.
Menjelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
Menjelaskan krisis keuangan 2008. Bicaralah sebagaimana Anda mungkin kepada anak kecil, atau golden retriever.

root

#df

Node awal (kondisi pertama) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan {i>root<i} di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi
awal (x > 2) adalah root.

direktori root

#TensorFlow

Direktori yang Anda tentukan untuk menghosting subdirektori checkpoint TensorFlow dan file peristiwa dari beberapa model.

{i>Root Mean Squared Error<i} (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Error.

invariansi rotasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme masih dapat mengidentifikasi raket tenis apakah mengarah ke atas, ke samping, atau ke bawah. Perhatikan bahwa invariansi rotasi tidak selalu diinginkan; misalnya, angka 9 terbalik seharusnya tidak diklasifikasikan sebagai 9.

Lihat juga invarians translasi dan invariansi ukuran.

R-persegi

Metrik regresi yang menunjukkan berapa banyak variasi dalam label yang disebabkan oleh masing-masing fitur atau set fitur. R-kuadrat adalah nilai antara 0 dan 1, yang dapat Anda interpretasikan sebagai berikut:

R-kuadrat 0 berarti tidak ada variasi label yang disebabkan oleh kumpulan fitur.
R-kuadrat 1 berarti bahwa semua variasi label disebabkan oleh kumpulan fitur.
Nilai R-kuadrat antara 0 dan 1 menunjukkan sejauh mana variasi label dapat diprediksi dari fitur tertentu atau set fitur. Misalnya, R-kuadrat 0,10 berarti 10 persen varians dalam label disebabkan oleh set fitur, R-kuadrat 0,20 berarti 20 persen karena set fitur itu, dan seterusnya.

R-kuadrat adalah kuadrat dari koefisien korelasi Pearson antara nilai yang diprediksi model dan kebenaran dasar.

S

bias sampling

#fairness

Lihat bias seleksi.

pengambilan sampel dengan penggantian

#df

Metode pemilihan item dari kumpulan item kandidat, yang memungkinkan item yang sama dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pemilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti item kandidat hanya dapat dipilih sekali.

Misalnya, pertimbangkan himpunan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan pengambilan sampel dengan penggantian, sistem akan mengambil item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, set tersebut sama seperti sebelumnya, jadi sistem mungkin dapat memilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig sebagai sampel pertama secara acak, fig tidak dapat dipilih lagi. Oleh karena itu, sistem mengambil sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Klik ikon untuk catatan tambahan.

Kata penggantian dalam pengambilan sampel dengan penggantian membingungkan banyak orang. Dalam bahasa Inggris, penggantian berarti "penggantian". Namun, pengambilan sampel dengan penggantian sebenarnya menggunakan definisi bahasa Prancis untuk penggantian, yang berarti "memasukkan sesuatu kembali".

Kata bahasa Inggris remplacement diterjemahkan sebagai kata bahasa Prancis remplacement.

SavedModel

#TensorFlow

Format yang direkomendasikan untuk menyimpan dan memulihkan model TensorFlow. SaveModel adalah format serialisasi yang tidak tergantung bahasa dan dapat dipulihkan, yang memungkinkan sistem dan alat dengan tingkat yang lebih tinggi untuk menghasilkan, menggunakan, dan mentransformasikan model TensorFlow.

Lihat bab Menyimpan dan Memulihkan di Panduan Programmer TensorFlow untuk mengetahui detail selengkapnya.

Hemat

#TensorFlow

Objek TensorFlow yang bertanggung jawab untuk menyimpan checkpoint model.

skalar

Angka tunggal atau string tunggal yang dapat direpresentasikan sebagai tensor dari peringkat 0. Misalnya, setiap baris kode berikut menghasilkan satu skalar di TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

penskalaan

Semua transformasi atau teknik matematika yang menggeser rentang label dan/atau nilai fitur. Beberapa bentuk penskalaan sangat berguna untuk transformasi seperti normalisasi.

Bentuk umum penskalaan yang berguna dalam Machine Learning meliputi:

penskalaan linear, yang biasanya menggunakan kombinasi pengurangan dan pembagian untuk mengganti nilai asli dengan angka antara -1 dan +1 atau antara 0 dan 1.
penskalaan logaritmik, yang menggantikan nilai asli dengan logaritmanya.
Normalisasi skor Z, yang menggantikan nilai asli dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut.

scikit-learn

Platform machine learning open source yang populer. Lihat scikit-learn.org.

penskoran

#recsystems

Bagian dari sistem rekomendasi yang memberikan nilai atau peringkat untuk setiap item yang dihasilkan oleh fase pembuatan kandidat.

bias seleksi

#fairness

Error dalam kesimpulan yang diambil dari sampel data karena proses seleksi yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan sampel yang tidak diamati. Terdapat beberapa bentuk bias seleksi:

bias cakupan: Populasi yang direpresentasikan dalam set data tidak cocok dengan populasi yang diprediksi oleh model machine learning.
bias sampling: Data tidak dikumpulkan secara acak dari kelompok target.
bias non-respons (juga disebut bias partisipasi): Pengguna dari kelompok tertentu memilih tidak ikut survei dengan frekuensi yang berbeda dengan pengguna dari kelompok lain.

Misalkan Anda membuat model machine learning yang memprediksi kenikmatan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di baris depan teater yang menayangkan film. Secara spontan, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; tetapi, bentuk pengumpulan data ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda mungkin tidak akan digeneralisasi kepada orang-orang yang belum menunjukkan tingkat minat tersebut terhadap film.
bias sampling: Daripada mengambil sampel secara acak dari populasi yang diinginkan (semua orang di film), Anda hanya mengambil sampel orang-orang di baris depan. Mungkin saja orang-orang yang duduk di baris depan lebih tertarik dengan film itu daripada mereka yang duduk di baris lain.
bias non-respons: Secara umum, orang dengan pendapat yang kuat cenderung lebih sering merespons survei opsional daripada orang dengan pendapat ringan. Karena survei film bersifat opsional, responsnya lebih cenderung membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

self-attention (lapisan ini juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan embedding (misalnya, embedding token) ke dalam urutan embedding lain. Setiap penyematan dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme perhatian.

Bagian self dari self-attention mengacu pada urutan yang ditampilkan untuk dirinya sendiri, bukan beberapa konteks lain. Perhatian mandiri adalah salah satu elemen penyusun utama Transformers dan menggunakan terminologi pencarian kamus, seperti "query", "key", dan "value".

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk kata dapat berupa embedding sederhana. Untuk setiap kata dalam urutan input, jaringan menilai relevansi kata terhadap setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa banyak representasi akhir kata menggabungkan representasi kata lain.

Misalnya, perhatikan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa) menunjukkan pola perhatian lapisan self-attention untuk sebutan itu, dengan kegelapan setiap baris menunjukkan seberapa besar kontribusi setiap kata terhadap representasi:

Kalimat berikut muncul dua kali: Hewan tersebut tidak menyeberang jalan karena terlalu lelah. Garis menghubungkan sebutan dalam
satu kalimat dengan lima token (The, animal, street, it, dan
titik) di kalimat lainnya. Garis antara sebutan {i>firewall<i} dan kata {i> animal<i} adalah yang paling kuat.

Lapisan self-attention menandai kata-kata yang relevan dengan "it". Dalam hal ini, lapisan atensi telah mempelajari cara menandai kata yang mungkin menjadi rujukan itu, sehingga menetapkan bobot tertinggi ke animal.

Untuk urutan n token, self-attention mengubah urutan penyematan n waktu yang terpisah, sekali di setiap posisi dalam urutan.

Lihat juga attention dan multi-head self-attention.

pembelajaran yang diawasi mandiri

Sekumpulan teknik untuk mengubah masalah unsupervised machine learning menjadi masalah supervised machine learning dengan membuat label surrogate dari contoh tak berlabel.

Beberapa model berbasis Transformer seperti BERT menggunakan pembelajaran yang diawasi mandiri.

Pelatihan yang diawasi mandiri adalah pendekatan semi-supervised learning.

latihan mandiri

Varian self-supervised learning yang sangat berguna saat semua kondisi berikut terpenuhi:

Rasio contoh tak berlabel terhadap contoh berlabel dalam set data tinggi.
Ini adalah masalah klasifikasi.

Pelatihan mandiri berfungsi dengan melakukan iterasi pada dua langkah berikut sampai kualitas model berhenti:

Gunakan supervised machine learning untuk melatih model pada contoh berlabel.
Gunakan model yang dibuat di Langkah 1 untuk menghasilkan prediksi (label) pada contoh tak berlabel, pindahkan prediksi yang memiliki keyakinan tinggi ke contoh berlabel dengan label yang diprediksi.

Perhatikan bahwa setiap iterasi Langkah 2 menambahkan lebih banyak contoh berlabel untuk Langkah 1 untuk dilatih.

semi-supervised learning

Melatih model pada data yang beberapa contoh pelatihannya memiliki label, tetapi yang lainnya tidak. Salah satu teknik untuk semi-supervised learning adalah menyimpulkan label untuk contoh tak berlabel, lalu melatih label yang disimpulkan untuk membuat model baru. Semi-supervised learning dapat berguna jika label mahal untuk diperoleh tetapi contoh tanpa label jumlahnya banyak.

Pelatihan mandiri adalah salah satu teknik untuk semi-supervised learning.

atribut sensitif

#fairness

Atribut manusia yang dapat diberi pertimbangan khusus karena alasan hukum, etika, sosial, atau pribadi.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan sikap keseluruhan kelompok—positif atau negatif—terhadap suatu layanan, produk, organisasi, atau topik. Misalnya, dengan menggunakan natural language understanding, algoritma dapat melakukan analisis sentimen terhadap masukan tekstual dari mata kuliah universitas untuk menentukan sejauh mana mahasiswa umumnya menyukai atau tidak menyukai mata kuliah tersebut.

model urutan

#seq

Model yang inputnya memiliki dependensi berurutan. Misalnya, memprediksi video berikutnya yang akan ditonton dari urutan video yang ditonton sebelumnya.

tugas urutan ke urutan

#language

Tugas yang mengonversi urutan input token menjadi urutan output token. Misalnya, dua jenis tugas urutan-ke-urutan yang populer adalah:

Penerjemah:
- Contoh urutan input: "Saya cinta kamu".
- Contoh urutan output: "Je t'aime".
Menjawab pertanyaan:
- Contoh urutan input: "Apakah saya perlu mobil saya di Jakarta?"
- Contoh urutan output: "Tidak. Simpan mobil Anda di rumah".

porsi

Proses penyediaan model terlatih untuk memberikan prediksi melalui inferensi online atau inferensi offline.

bentuk (Tensor)

Jumlah elemen di setiap dimensi tensor. Bentuk ini direpresentasikan sebagai daftar bilangan bulat. Misalnya, tensor dua dimensi berikut memiliki bentuk [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow menggunakan format baris utama (gaya C) untuk menampilkan urutan dimensi. Itulah sebabnya bentuk di TensorFlow adalah [3,4], bukan [4,3]. Dengan kata lain, dalam TensorFlow Tensor dua dimensi, bentuknya adalah [jumlah baris, jumlah kolom].

shard

#TensorFlow

#GoogleCloud

Pembagian logis dari set pelatihan atau model. Biasanya, beberapa proses membuat shard dengan membagi contoh atau parameter menjadi (biasanya) bagian-bagian yang berukuran sama. Setiap shard kemudian ditetapkan ke mesin yang berbeda.

Sharding model disebut paralelisme model; sharding data disebut paralelisme data.

penyusutan

#df

Hyperparameter dalam peningkatan gradien yang mengontrol overfitting. Penyusutan dalam peningkatan gradien mirip dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting lebih besar daripada nilai penyusutan yang lebih besar.

fungsi sigmoid

#fundamentals

Fungsi matematika yang "melepaskan" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka berapa pun (dua, satu juta, miliaran negatif, apa pun) ke sigmoid dan output-nya akan tetap berada dalam rentang terbatas. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, antara lain:

Mengonversi output mentah dari model regresi logistik atau regresi multinomial menjadi probabilitas.
Bertindak sebagai fungsi aktivasi di beberapa jaringan neural.

Klik ikon untuk melihat perhitungan.

Fungsi sigmoid pada angka input x memiliki formula berikut:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Dalam machine learning, x secara umum merupakan jumlah berbobot.

ukuran kesamaan

#clustering

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.

satu program / beberapa data (SPMD)

Teknik paralelisme saat komputasi yang sama dijalankan pada data input yang berbeda secara paralel di perangkat yang berbeda. Tujuan SPMD adalah memperoleh hasil dengan lebih cepat. Ini adalah gaya pemrograman paralel yang paling umum.

invariansi ukuran

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritma tetap dapat mengidentifikasi kucing apakah menggunakan 2 juta piksel atau 200 ribu piksel. Perhatikan bahwa bahkan algoritma klasifikasi gambar terbaik pun masih memiliki batas praktis terkait invariansi ukuran. Misalnya, algoritma (atau manusia) tidak mungkin mengklasifikasikan gambar kucing yang hanya menggunakan 20 piksel dengan benar.

Lihat juga invarians translasi dan invarians rotasi.

membuat sketsa

#clustering

Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritma pembuatan sketsa menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketsa mengurangi perhitungan yang diperlukan untuk penghitungan kesamaan pada set data besar. Alih-alih menghitung kesamaan untuk setiap pasangan contoh dalam set data, kami hanya menghitung kesamaan untuk setiap pasangan titik dalam setiap bucket.

lewati gram

#language

n-gram yang dapat menghilangkan (atau "melewati") kata dari konteks asli, yang berarti N kata mungkin tidak awalnya berdekatan. Lebih tepatnya, "k-skip-n-gram" adalah n-gram yang mungkin telah dilewati hingga k kata.

Misalnya, "the quick brown fox" memiliki kemungkinan 2 gram berikut:

"cepat"
"cokelat cepat"
"rubah cokelat"

Sebuah “1-skip-2-gram” adalah pasangan kata yang memiliki paling banyak 1 kata di antara mereka. Oleh karena itu, "the quick brown fox" memiliki 1- lewati 2 gram berikut:

"cokelat"
"rubah cepat"

Selain itu, semua 2 gram juga 1-skip-2-gram, karena lebih sedikit dari satu kata dapat dilewati.

Lewati gram berguna untuk memahami lebih lanjut konteks kata di sekitar. Dalam contoh, "fox" secara langsung dikaitkan dengan "cepat" dalam himpunan 1-skip-2-gram, tetapi tidak dalam himpunan 2 gram.

Lewati gram membantu melatih model penyematan kata.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Jumlah probabilitasnya menjadi tepat 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah...	Probability
anjing	0,85
cat	0,13
kuda	,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

Klik ikon untuk melihat perhitungan.

Persamaan softmax-nya adalah sebagai berikut:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dalam hal ini:

$\sigma_i$ adalah vektor {i>output<i}. Setiap elemen vektor output menentukan probabilitas elemen ini. Jumlah semua elemen dalam vektor output adalah 1,0. Vektor output berisi jumlah elemen yang sama dengan vektor input, $z$.
$z$ adalah vektor input. Setiap elemen vektor input berisi nilai floating point.
$K$ adalah jumlah elemen dalam vektor input (dan vektor output).

Misalnya, vektor input adalah:

[1.2, 2.5, 1.8]

Oleh karena itu, softmax menghitung penyebut sebagai berikut:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Oleh karena itu, probabilitas softmax dari setiap elemen adalah:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Jadi, vektor output-nya adalah:

$$\sigma = [0.154, 0.565, 0.281]$$

Jumlah ketiga elemen dalam $\sigma$ adalah 1,0. Fiuh!

prompt tuning lembut

#language

#AIgeneratif

Teknik untuk menyesuaikan model bahasa besar untuk tugas tertentu, tanpa penyesuaian yang intensif resource. Sebagai ganti melatih ulang semua bobot dalam model, penyesuaian soft prompt akan otomatis menyesuaikan prompt untuk mencapai sasaran yang sama.

Dengan adanya perintah tekstual, penyesuaian perintah lembut biasanya menambahkan penyematan token tambahan ke perintah dan menggunakan propagasi mundur untuk mengoptimalkan input.

Prompt "hard" berisi token sebenarnya, bukan embeddings token.

fitur renggang

#language

#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur padat memiliki nilai yang sebagian besar tidak nol atau kosong.

Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang jarang. Fitur kategori biasanya berupa fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur sparse dengan enkode one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan embedding di atas encoding one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language

#fundamentals

Hanya menyimpan posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategori dengan nama species mengidentifikasi 36 spesies pohon di hutan tertentu. Selanjutnya, asumsikan bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk merepresentasikan spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak ada dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 hingga 23 menyimpan nilai 0, posisi
24 menyimpan nilai 1, dan posisi 25 sampai 35 menyimpan nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi renggang maple akan menjadi:

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot.

Klik ikon untuk contoh yang sedikit lebih kompleks.

Misalkan setiap contoh dalam model Anda harus mewakili kata-kata, tetapi bukan urutan kata-kata tersebut, dalam kalimat bahasa Inggris. Bahasa Inggris terdiri dari sekitar 170.000 kata, jadi bahasa Inggris adalah fitur kategoris dengan sekitar 170.000 elemen. Sebagian besar kalimat bahasa Inggris menggunakan sebagian kecil dari 170.000 kata tersebut, sehingga himpunan kata dalam satu contoh hampir pasti akan menjadi data yang jarang.

Pertimbangkan kalimat berikut:

My dog is a great dog

Anda dapat menggunakan varian vektor one-hot untuk mewakili kata-kata dalam kalimat ini. Dalam varian ini, beberapa sel dalam vektor dapat berisi nilai bukan nol. Selain itu, dalam varian ini, sel dapat berisi bilangan bulat selain satu. Meskipun kata "my", "is", "a", dan "great" hanya muncul satu kali dalam kalimat, kata "dog" muncul dua kali. Menggunakan varian vektor one-hot ini untuk mewakili kata-kata dalam kalimat ini akan menghasilkan vektor 170.000 elemen berikut:

Representasi renggang dari kalimat yang sama adalah:

Klik ikon jika Anda bingung.

Istilah "representasi renggang" membingungkan banyak orang karena representasi renggang itu sendiri bukan vektor renggang. Sebaliknya, representasi renggang sebenarnya merupakan representasi padat dari vektor renggang. Sinonim representasi indeks sedikit lebih jelas daripada "representasi renggang".

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan keterbatasan.

ketersebaran

Jumlah elemen yang ditetapkan ke nol (atau null) dalam vektor atau matriks dibagi dengan jumlah total entri dalam vektor atau matriks tersebut. Misalnya, pertimbangkan matriks 100 elemen yang memiliki 98 sel berisi nol. Penghitungan ketersebaran adalah sebagai berikut:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Ketersebaran fitur mengacu pada ketersebaran dari vektor fitur; ketersebaran model mengacu pada ketersebaran dari bobot model.

penggabungan spasial

#image

Lihat penggabungan.

bagian

#df

Pada hierarki keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih hierarki keputusan, rutinitas (dan algoritma) yang bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

SPMD

Singkatan dari single program / multiple data.

kerugian engsel kuadrat

Kuadrat dari kerugian engsel. Kerugian engsel kuadrat menghukum pencilan lebih berat daripada kerugian engsel reguler.

kerugian kuadrat

#fundamentals

Sinonim dari kerugian L₂.

pelatihan bertahap

#language

Taktik melatih model dalam urutan tahapan yang berbeda. Tujuannya dapat berupa mempercepat proses pelatihan, atau untuk mencapai kualitas model yang lebih baik.

Ilustrasi pendekatan {i>progressive stacking<i} ditampilkan di bawah ini:

Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
Tahap 2 memulai pelatihan dengan bobot yang dipelajari di 3 lapisan tersembunyi Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari di 6 lapisan tersembunyi Tahap 2.

Tiga tahap, yang diberi label Tahap 1, Tahap 2, dan Tahap 3.
Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi 3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
3 lapisan dari Tahap 1 menjadi 3 lapisan pertama di Tahap 2.
Demikian pula, 6 lapisan dari Tahap 2 menjadi 6 lapisan pertama Tahap 3.

Lihat juga pipeline.

state

#fundamentals

Algoritma penurunan gradien yang mana ukuran tumpukan adalah satu. Dengan kata lain, PGS melatih satu contoh yang dipilih secara seragam dan secara acak dari set pelatihan.

langkah

#image

Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi dari rangkaian irisan input berikutnya. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusional. Oleh karena itu, slice input berikutnya memulai satu posisi di sebelah kanan slice input sebelumnya. Ketika operasi mencapai tepi kanan, potongan berikutnya berada di sebelah kiri tetapi memiliki satu posisi ke bawah.

Contoh sebelumnya menunjukkan jangka dua dimensi. Jika matriks input memiliki tiga dimensi, langkahnya juga akan memiliki tiga dimensi.

minimalisasi risiko struktural (SRM)

Algoritma yang menyeimbangkan dua sasaran:

Kebutuhan untuk membuat model yang paling prediktif (misalnya, kerugian terendah).
Kebutuhan untuk menjaga model sesederhana mungkin (misalnya, regularisasi yang kuat).

Misalnya, fungsi yang meminimalkan kerugian+regularisasi pada set pelatihan adalah algoritma minimalisasi risiko struktural.

Berbeda dengan minimalisasi risiko empiris.

subsampling

#image

Lihat penggabungan.

token subkata

#language

Dalam model bahasa, token yang merupakan substring kata, yang dapat berupa seluruh kata.

Misalnya, kata seperti "itemize" mungkin dipecah menjadi bagian "item" (kata akar) dan "ize" (akhiran), yang masing-masing diwakili oleh tokennya sendiri. Dengan memisahkan kata-kata yang tidak umum menjadi beberapa bagian, yang disebut subkata, model bahasa dapat beroperasi pada bagian konstituen kata yang lebih umum, seperti awalan dan akhiran.

Sebaliknya, kata umum seperti "pergi" mungkin tidak dipecah dan mungkin diwakili oleh satu token.

ringkasan

#TensorFlow

Di TensorFlow, nilai atau kumpulan nilai yang dihitung pada langkah tertentu, biasanya digunakan untuk melacak metrik model selama pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. supervised machine learning dianalogikan dengan pembelajaran subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban untuk pertanyaan baru (yang belum pernah dilihat sebelumnya) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi disusun dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis meliputi:

Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
Membuat persilangan fitur.
Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan nilai fitur itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
- ab
- a²
Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut ini adalah contoh fitur sintetis:
- sin(c)
- ln(c)

Fitur yang dibuat dengan normalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

T

T5

#language

Model pembelajaran transfer teks-ke-teks yang diperkenalkan oleh AI Google pada tahun 2020. T5 adalah model encoder-decoder, berdasarkan arsitektur Transformer, yang dilatih pada set data yang sangat besar. Alat ini efektif pada berbagai tugas natural language processing, seperti menghasilkan teks, menerjemahkan bahasa, dan menjawab pertanyaan dengan cara yang seperti percakapan.

T5 mendapatkan namanya dari lima huruf T dalam "Text-to-Text Transfer Transformer".

T5X

#language

Framework machine learning open source yang dirancang untuk membangun dan melatih model natural language processing (NLP) berskala besar. T5 diimplementasikan pada codebase T5X (yang di-build di JAX dan Flax).

Q-learning tabulasi

#rl

Dalam reinforcement learning, implementasikan Q-learning dengan menggunakan tabel untuk menyimpan fungsi Q untuk setiap kombinasi status dan tindakan.

target

Sinonim dari label.

jaringan target

#rl

Di Deep Q-learning, jaringan neural yang merupakan perkiraan stabil dari jaringan neural utama, tempat jaringan neural utama mengimplementasikan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah feedback loop yang terjadi saat jaringan utama berlatih menggunakan nilai Q yang diprediksi dengan sendirinya. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

tugas

Masalah yang dapat diselesaikan menggunakan teknik machine learning, seperti:

klasifikasi
regresi
pengelompokan
deteksi anomali

suhu

#language

#image

#AIgeneratif

Hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan lebih banyak output acak, sedangkan suhu yang lebih rendah menghasilkan output acak yang lebih sedikit.

Memilih suhu terbaik bergantung pada aplikasi tertentu dan properti yang disukai dari output model. Misalnya, Anda mungkin akan menaikkan suhu saat membuat aplikasi yang menghasilkan output kreatif. Sebaliknya, Anda mungkin akan menurunkan suhu saat membuat model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

#TensorFlow

Jumlah total skalar yang terdapat dalam Tensor. Misalnya, Tensor [5, 10] memiliki ukuran 50.

TensorStore

Library untuk membaca dan menulis array multi-dimensi besar secara efisien.

ketentuan penghentian

#rl

Dalam reinforcement learning, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melampaui jumlah minimum transisi status. Misalnya, dalam tic-tac-toe (juga disebut dengan nought dan crosses), episode berakhir saat pemain menandai tiga spasi berturut-turut atau saat semua spasi ditandai.

tes

#df

Pada hierarki keputusan, nama lain untuk kondisi.

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat membuat model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan yang besar antara kerugian pengujian dan kerugian pelatihan atau kehilangan validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

set pengujian

Subset dari set data yang dicadangkan untuk menguji model terlatih.

Biasanya, Anda membagi contoh dalam set data ke dalam tiga subset berbeda berikut:

set pelatihan
set validasi
set pengujian

Setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set pengujian.

Set pelatihan dan set validasi keduanya terkait erat dengan pelatihan model. Karena set pengujian hanya terkait secara tidak langsung dengan pelatihan, kerugian pengujian adalah metrik yang tidak terlalu bias dan berkualitas lebih tinggi daripada kerugian pelatihan atau kerugian validasi.

rentang teks

#language

Rentang indeks array yang terkait dengan subbagian tertentu dari string teks. Misalnya, kata good dalam string Python s="Be good now" menempati rentang teks dari 3 hingga 6.

tf.Example

#TensorFlow

Buffer protokol standar yang digunakan untuk mendeskripsikan data input untuk pelatihan atau inferensi model machine learning.

tf.keras

#TensorFlow

Implementasi Keras yang terintegrasi ke dalam TensorFlow.

ambang batas (untuk pohon keputusan)

#df

Dalam kondisi rata sumbu, nilai yang fitur dibandingkan. Misalnya, 75 adalah nilai batas dalam kondisi berikut:

grade >= 75

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data sementara. Banyak jenis masalah machine learning yang memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang berdasarkan bulan berdasarkan data penjualan historis.

waktu

#seq

Satu sel "dibuka" dalam jaringan saraf berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (dilabeli dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan saraf berulang. Output dari interval waktu pertama menjadi input untuk timer kedua. Output dari timestep kedua akan menjadi input untuk timestep ketiga.

token

#language

Dalam model bahasa, satuan atom yang digunakan untuk melatih model dan membuat prediksi. Token biasanya berupa salah satu dari yang berikut ini:

sebuah kata—misalnya, frasa "dogs like cats" terdiri dari tiga token kata: "dogs", "like", dan "cats".
karakter—misalnya, frasa "bike fish" terdiri dari sembilan karakter. (Perhatikan bahwa spasi kosong dihitung sebagai salah satu token.)
subkata—yang satu kata bisa berupa satu token atau beberapa token. Subkata terdiri dari kata akar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token mungkin melihat kata "dogs" sebagai dua token (root kata "dog" dan akhiran jamak "s"). Model bahasa yang sama tersebut mungkin menganggap satu kata "taller" sebagai dua subkata (kata root "tall" dan akhiran "er").

#fundamentals

Proses penentuan parameter (bobot dan bias) ideal yang terdiri dari model. Selama pelatihan, sistem akan membaca contoh dan menyesuaikan parameter secara bertahap. Pelatihan menggunakan setiap contoh mulai dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugian adalah Rataan Kuadrat Error. Mungkin kerugian pelatihan (Error Berkuadrat Rata-rata) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian menandai kerugian pelatihan versus jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

Kemiringan menurun menyiratkan bahwa kualitas model meningkat.
Kemiringan ke atas menyiratkan bahwa model semakin buruk.
Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

Kemiringan ke bawah yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
Kemiringan (tetapi masih menurun) secara bertahap hingga mendekati akhir pelatihan, yang menyiratkan peningkatan kualitas model yang berkelanjutan pada kecepatan yang agak lebih lambat dibandingkan selama iterasi awal.
Kemiringan datar menjelang akhir pelatihan, yang mengindikasikan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai dengan kemiringan ke bawah yang curam. Kemiringan secara bertahap mendatar hingga kemiringan menjadi nol.

Meskipun kerugian pelatihan itu penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset dari set data yang digunakan untuk melatih model.

Biasanya, contoh dalam set data dibagi menjadi tiga subset berbeda berikut:

set pelatihan
set validasi
set pengujian

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

lintasan

#rl

Dalam reinforcement learning, urutan tuple yang mewakili urutan transisi status dari agen, dengan setiap tuple sesuai dengan status, action, reward, dan status berikutnya untuk transisi status tertentu.

pemelajaran transfer (transfer learning)

Mentransfer informasi dari satu tugas machine learning ke tugas lainnya. Misalnya, dalam pemelajaran tugas multi-tugas, satu model menyelesaikan beberapa tugas, seperti model dalam yang memiliki node output yang berbeda untuk tugas yang berbeda. Pemelajaran transfer mungkin melibatkan transfer pengetahuan dari solusi tugas yang lebih sederhana ke tugas yang lebih kompleks, atau melibatkan transfer pengetahuan dari tugas yang memiliki lebih banyak data ke tugas yang lebih sedikit data.

Sebagian besar sistem machine learning menyelesaikan satu tugas. Pemelajaran transfer adalah langkah awal menuju kecerdasan buatan yang memungkinkan satu program menyelesaikan beberapa tugas.

Transformator

#language

Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme perhatian mandiri untuk mengubah urutan embedding input menjadi urutan embedding output tanpa mengandalkan konvolusi atau jaringan saraf berulang. Transformer bisa dilihat sebagai tumpukan lapisan self-attention.

Transformator dapat mencakup salah satu dari berikut ini:

encoder
decoder
encoder dan decoder,

Encoder mengubah urutan penyematan menjadi urutan baru dengan panjang yang sama. Encoder berisi N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sub-lapisan ini diterapkan pada setiap posisi urutan embedding input, yang mengubah setiap elemen urutan tersebut menjadi embedding baru. Sub-lapisan encoder pertama menggabungkan informasi dari seluruh urutan input. Sub-lapisan encoder kedua mengubah informasi gabungan menjadi penyematan output.

decoder mengubah urutan embedding input menjadi urutan embedding output, yang mungkin dengan panjang yang berbeda. Decoder juga menyertakan N lapisan identik dengan tiga sub-lapisan, yang dua di antaranya mirip dengan sub-lapisan encoder. Sub-lapisan decoder ketiga mengambil output encoder dan menerapkan mekanisme self-attention untuk mengumpulkan informasi darinya.

Postingan blog Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa memberikan pengantar yang baik tentang Transformer.

invariansi translasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi dog, baik yang berada di tengah frame atau di ujung kiri frame.

Lihat juga invariansi ukuran dan invarians rotasi.

trigram

#seq

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model tersebut belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah dapat menyebabkan underfitting, termasuk:

Melatih kumpulan fitur yang salah.
Pelatihan untuk epoch yang terlalu sedikit atau kecepatan pembelajaran terlalu rendah.
Pelatihan dengan tingkat regularisasi yang terlalu tinggi.
Menyediakan terlalu sedikit lapisan tersembunyi dalam jaringan neural dalam.

{i>undersampling<i}

Menghapus contoh dari class utama dalam set data kelas tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan set data yang rasio kelas mayoritas terhadap kelas minoritas adalah 20:1. Untuk mengatasi ketidakseimbangan kelas ini, Anda dapat membuat set pelatihan yang terdiri dari semua contoh kelas minoritas, tetapi hanya sepuluh dari contoh kelas mayoritas, yang akan membuat rasio kelas set pelatihan sebesar 2:1. Berkat undersampling, set pelatihan yang lebih seimbang ini dapat menghasilkan model yang lebih baik. Atau, set pelatihan yang lebih seimbang ini mungkin berisi contoh yang tidak cukup untuk melatih model yang efektif.

Berbeda dengan oversampling.

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Lihat dua arah untuk mengetahui detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token yang muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tidak berisi label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur tetapi tidak memiliki nilai rumah:

Jumlah kamar	Jumlah kamar mandi	Usia rumah
3	2	15
2	1	72
4	2	34

Dalam supervised machine learning, model dilatih berdasarkan contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Bedakan contoh tidak berlabel dengan contoh berlabel.

unsupervised machine learning

#clustering

#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh serupa. Misalnya, algoritma unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia lebih memahami data.

Berbeda dengan supervised machine learning.

Klik ikon untuk catatan tambahan.

Contoh lain dari unsupervised machine learning adalah analisis komponen utama (PCA). Misalnya, menerapkan PCA pada set data yang berisi konten jutaan keranjang belanja dapat mengungkapkan bahwa keranjang belanja yang berisi lemon sering kali juga berisi antasida.

pemodelan peningkatan

Teknik pemodelan, yang biasa digunakan dalam pemasaran, yang memodelkan "efek kausal" (juga dikenal sebagai "dampak inkremental") dari "perlakuan" pada "individu". Berikut ini dua contohnya:

Dokter mungkin menggunakan pemodelan peningkatan untuk memprediksi penurunan kematian (efek kausal) dari suatu prosedur medis (perawatan) bergantung pada usia dan riwayat medis pasien (individu).
Pemasar mungkin menggunakan pemodelan peningkatan untuk memprediksi peningkatan probabilitas pembelian (efek kausal) akibat iklan (perlakuan) pada seseorang (individu).

Pemodelan peningkatan berbeda dengan klasifikasi atau regresi karena beberapa label (misalnya, setengah label dalam perlakuan biner) selalu tidak ada dalam pemodelan peningkatan. Misalnya, pasien dapat menerima atau tidak menerima pengobatan. Oleh karena itu, kami hanya dapat mengamati apakah pasien akan sembuh atau tidak hanya pada salah satu dari dua situasi ini (tetapi tidak pernah keduanya). Keuntungan utama dari model peningkatan adalah model ini dapat menghasilkan prediksi untuk situasi yang tidak diamati (kontrafaktual) dan menggunakannya untuk menghitung efek kausal.

menaikkan bobot

Menerapkan bobot ke class dengan pengurangan sampel yang sama dengan faktor yang digunakan untuk melakukan pengurangan sampel.

matriks pengguna

#recsystems

Dalam sistem rekomendasi, vektor penyematan yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang preferensi pengguna. Setiap baris matriks pengguna menyimpan informasi tentang kekuatan relatif dari berbagai sinyal laten untuk satu pengguna. Misalnya, pertimbangkan sistem rekomendasi film. Dalam sistem ini, sinyal laten dalam matriks pengguna dapat mewakili minat setiap pengguna dalam genre tertentu, atau mungkin sinyal yang lebih sulit untuk ditafsirkan yang melibatkan interaksi kompleks di berbagai faktor.

Matriks pengguna memiliki kolom untuk setiap fitur laten dan satu baris untuk setiap pengguna. Artinya, matriks pengguna memiliki jumlah baris yang sama dengan matriks target yang sedang difaktorkan. Misalnya, dalam sistem rekomendasi film untuk 1.000.000 pengguna, matriks pengguna akan memiliki 1.000.000 baris.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfitting.

Anda mungkin berpikir untuk mengevaluasi model berdasarkan set validasi sebagai tahap pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kerugian validasi

#fundamentals

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset dari set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Biasanya, Anda membagi contoh dalam set data ke dalam tiga subset berbeda berikut:

set pelatihan
set validasi
set pengujian

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

komputasi nilai

Proses mengganti nilai yang hilang dengan pengganti yang dapat diterima. Jika nilai tidak ada, Anda dapat menghapus seluruh contoh atau menggunakan komputasi nilai untuk menyimpan contoh.

Misalnya, pertimbangkan set data yang berisi fitur temperature yang seharusnya direkam setiap jam. Namun, pemeriksaan suhu tidak tersedia untuk jam tertentu. Berikut adalah bagian dari {i>dataset<i}:

Stempel waktu	Temperature (suhu)
1680561000	10
1680564600	12
1680568200	tidak ada
1680571800	20
1680575400	21
1680579000	21

Sistem dapat menghapus contoh yang hilang atau menyangkal suhu yang hilang menjadi 12, 16, 18, atau 20, bergantung pada algoritma komputasi.

masalah vanishing gradient

#seq

Kecenderungan gradien lapisan tersembunyi awal beberapa jaringan neural dalam untuk menjadi sangat datar (rendah). Gradien yang semakin rendah akan menghasilkan perubahan yang semakin kecil pada bobot node di jaringan neural dalam, yang menyebabkan sedikit atau tidak ada pembelajaran. Model yang mengalami masalah gradien hilang menjadi sulit atau tidak mungkin untuk dilatih. Sel Memori Jangka Pendek dapat mengatasi masalah ini.

Bandingkan dengan masalah gradien yang meledak.

tingkat kepentingan variabel

#df

Kumpulan skor yang menunjukkan tingkat kepentingan relatif setiap fitur bagi model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika satu set tingkat kepentingan variabel untuk ketiga fitur tersebut dihitung {size=5,8, usia=2,5, gaya=4,7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Terdapat berbagai metrik tingkat kepentingan yang dapat memberikan informasi kepada pakar ML tentang berbagai aspek model.

autoencoder variasional (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasional: teknik untuk memperkirakan parameter model probabilitas.

vektor

Istilah yang sangat berlebihan yang artinya bervariasi di berbagai bidang matematika dan ilmiah. Dalam machine learning, vektor memiliki dua properti:

Jenis data: Vektor dalam machine learning biasanya menyimpan bilangan floating point.
Jumlah elemen: Ini adalah panjang vektor atau dimensinya.

Misalnya, pertimbangkan vektor fitur yang menyimpan delapan bilangan floating point. Vektor fitur ini memiliki panjang atau dimensi delapan. Perhatikan bahwa vektor machine learning sering kali memiliki dimensi dalam jumlah yang sangat besar.

Anda dapat merepresentasikan berbagai jenis informasi sebagai vektor. Contoh:

Setiap posisi di permukaan Bumi dapat direpresentasikan sebagai vektor 2 dimensi, dengan satu dimensi sebagai lintang dan yang lainnya adalah bujur.
Harga saat ini dari masing-masing 500 saham dapat direpresentasikan sebagai vektor 500 dimensi.
Distribusi probabilitas pada sejumlah class terbatas dapat direpresentasikan sebagai vektor. Misalnya, sistem klasifikasi kelas jamak yang memprediksi salah satu dari tiga warna output (merah, hijau, atau kuning) dapat menghasilkan vektor (0.3, 0.2, 0.5) menjadi P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Vektor dapat digabungkan; oleh karena itu, berbagai media dapat direpresentasikan sebagai satu vektor. Beberapa model beroperasi langsung pada penyambungan banyak encoding one-hot.

Prosesor khusus seperti TPU dioptimalkan untuk melakukan operasi matematika pada vektor.

Vektor adalah tensor dari peringkat 1.

W

Kerugian Wasserstein

Salah satu fungsi kerugian yang biasa digunakan dalam jaringan penyerangan generatif, berdasarkan jarak penggerak bumi antara distribusi data yang dihasilkan dan data nyata.

bobot

#fundamentals

Nilai yang dikalikan model dengan nilai lain. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

Klik ikon untuk melihat contoh bobot dalam model linear.

Bayangkan model linear dengan dua fitur. Misalkan pelatihan menentukan bobot (dan bias berikut):

Bias, b, memiliki nilai 2,2
Bobot, w₁ yang terkait dengan satu fitur adalah 1,5.
Bobot, w₂ yang terkait dengan fitur lainnya adalah 0,4.

Sekarang, bayangkan contoh dengan nilai fitur berikut:

Nilai satu fitur, x₁, adalah 6.
Nilai fitur lainnya, x₂, adalah 10.

Model linear ini menggunakan formula berikut untuk menghasilkan prediksi, y':

$$y' = b + w_1x_1 + w_2x_2$$

Oleh karena itu, prediksinya adalah:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jika bobot adalah 0, fitur yang sesuai tidak berkontribusi pada model. Misalnya, jika w₁ adalah 0, maka nilai x₁ tidak relevan.

Kotak Alternatif Berbobot (WALS)

#recsystems

Algoritma untuk meminimalkan fungsi objektif selama faktorisasi matriks dalam sistem rekomendasi, yang memungkinkan penurunan bobot dari contoh yang hilang. WALS meminimalkan error kuadrat berbobot antara matriks asli dan rekonstruksi dengan beralih antara memperbaiki faktorisasi baris dan faktorisasi kolom. Masing-masing pengoptimalan ini dapat diselesaikan dengan pengoptimalan konveks kuadrat terkecil. Untuk mengetahui detailnya, lihat kursus Sistem Rekomendasi.

jumlah tertimbang

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, anggap input yang relevan terdiri dari hal berikut:

nilai input	bobot input
2	-1,3
-1	0,6
3	0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input untuk fungsi aktivasi.

model lebar

Model linear yang biasanya memiliki banyak fitur input renggang. Kita menyebutnya sebagai "lebar" karena model tersebut adalah jenis jaringan neural khusus dengan sejumlah besar input yang terhubung langsung ke node output. Model lebar sering kali lebih mudah di-debug dan diperiksa daripada model dalam. Meskipun model luas tidak dapat mengekspresikan nonlinearitas melalui lapisan tersembunyi, model lebar dapat menggunakan transformasi seperti persilangan fitur dan pengelompokan untuk membuat model nonlinearitas dengan cara yang berbeda.

Berbeda dengan model dalam.

lebar

Jumlah neuron dalam lapisan tertentu dari jaringan neural.

kebijaksanaan orang banyak

#df

Gagasan bahwa rata-rata opini atau perkiraan sekelompok besar orang ("orang-orang") sering kali memberikan hasil yang sangat bagus. Misalnya, bayangkan game yang mengharuskan orang menebak jumlah biji jeli yang dikemas ke dalam stoples besar. Meskipun sebagian besar tebakan individual tidak akurat, rata-rata semua tebakan telah terbukti secara empiris mendekati jumlah sebenarnya dari biji jeli dalam stoples.

Ensembles adalah analog software dari kebijaksanaan banyak orang. Meskipun masing-masing model membuat prediksi yang sangat tidak akurat, menghitung rata-rata prediksi dari banyak model sering kali menghasilkan prediksi yang sangat bagus. Misalnya, meskipun pohon keputusan individu dapat membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.

embedding kata

#language

Merepresentasikan setiap kata dalam kumpulan kata dalam vektor embedding, yaitu merepresentasikan setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata-kata dengan makna serupa memiliki representasi yang lebih mirip daripada kata-kata dengan makna yang berbeda. Misalnya, wortel, seledri, dan mentimun memiliki representasi yang relatif mirip, yang akan sangat berbeda dengan representasi pesawat, kacamata hitam, dan tempel gigi.

X

XLA (Aljabar Linear yang Dipercepat)

Compiler machine learning open source untuk GPU, CPU, dan akselerator ML.

Compiler XLA mengambil model dari framework ML populer seperti PyTorch, TensorFlow, dan JAX, lalu mengoptimalkannya untuk eksekusi berperforma tinggi di berbagai platform hardware termasuk GPU, CPU, dan akselerator ML.

Z

pembelajaran zero-shot

Jenis pelatihan machine learning tempat model menyimpulkan prediksi untuk tugas yang belum dilatih secara khusus. Dengan kata lain, model diberi contoh pelatihan khusus tugas nol, tetapi diminta untuk melakukan inferensi untuk tugas tersebut.

metode zero-shot prompting

#language

#AIgeneratif

Perintah yang tidak memberikan contoh respons yang diinginkan oleh model bahasa besar. Contoh:

Bagian dari satu perintah	Catatan
`Apa mata uang resmi negara yang ditentukan?`	Pertanyaan yang perlu dijawab oleh LLM.
`India:`	Kueri sebenarnya.

Model bahasa besar mungkin merespons dengan salah satu dari hal berikut:

Rupee
INR
₹
Rupee India
Rupee
Rupee India

Semua jawaban benar, meskipun Anda mungkin lebih memilih format tertentu.

Bandingkan dan bandingkan zero-shot prompting dengan istilah berikut:

one-shot prompting
few-shot prompting

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang menggantikan nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang mean-nya 800 dan standar deviasinya 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z:

Nilai mentah	Skor Z
800	0
950	+1,5
575	-2,25

Model machine learning kemudian berlatih pada skor Z untuk fitur tersebut, bukan nilai mentah.