Bu sayfa, Cloud Translation API ile çevrilmiştir.

Makine Öğrenimi Sözlüğü

Bu sözlükte, genel makine öğrenimi terimleri ve TensorFlow'a özel terimler açıklanmaktadır.

CEVAP

ablasyon

Bir özelliği veya bileşeni modelden geçici olarak kaldırarak bu özelliğin önemini değerlendirmek için kullanılan teknik. Daha sonra, modeli bu özellik veya bileşen olmadan yeniden eğitirsiniz ve yeniden eğitilen model önemli ölçüde daha kötü performans gösterirse kaldırılan özellik veya bileşen muhtemelen önem taşır.

Örneğin, 10 özellik üzerinde bir sınıflandırma modeli eğittiğinizi ve test kümesinde% 88 hassasiyet elde ettiğinizi varsayalım. İlk özelliğin önemini kontrol etmek için yalnızca dokuz diğer özelliği kullanarak modeli yeniden eğitebilirsiniz. Yeniden eğitilen modelin performansı önemli ölçüde daha kötüyse (örneğin, %55 hassasiyet) kaldırılan özellik muhtemelen önemlidir. Buna karşılık, yeniden eğitilen model eşit derecede iyi performans gösteriyorsa bu özellik muhtemelen o kadar önemli değildir.

Ameliyat, aşağıdakilerin öneminin belirlenmesinde de yardımcı olabilir:

Daha büyük bir ML sisteminin tüm alt sistemi gibi daha büyük bileşenler
Veri ön işleme adımı gibi süreçler veya teknikler

Her iki durumda da, bileşeni kaldırdıktan sonra sistem performansının nasıl değiştiğini (veya değişmediğini) gözlemlersiniz.

A/B testi

İki (veya daha fazla) tekniğin (A ve B) karşılaştırılmasına yönelik bir istatistiksel yöntem. Genellikle A mevcut bir teknik, B ise yeni bir tekniktir. A/B testi yalnızca hangi tekniğin daha iyi performans gösterdiğini değil, aynı zamanda farkın istatistiksel açıdan anlamlı olup olmadığını da belirler.

A/B testi genellikle tek bir metriği iki teknikte karşılaştırır. Örneğin, iki teknik için model doğruluğu nasıl karşılaştırılır? Ancak A/B testi herhangi bir sınırlı sayıda metriği de karşılaştırabilir.

hızlandırıcı çipi

#GoogleCloud

Derin öğrenme algoritmaları için gereken temel hesaplamaları yapmak üzere tasarlanmış özel donanım bileşenleri kategorisi.

Hızlandırıcı çipleri (veya kısaca hızlandırıcılar), genel amaçlı bir CPU'ya kıyasla eğitim ve çıkarım görevlerinin hızını ve verimliliğini önemli ölçüde artırabilir. Nöral ağları eğitmek ve işlem açısından yoğun benzer görevler için idealdir.

Hızlandırıcı çiplerine örnek olarak aşağıdakiler verilebilir:

Google'ın derin öğrenme için özel donanıma sahip Tensor İşleme Birimleri (TPU'lar).
Başlangıçta grafik işleme için tasarlanmış olsa da NVIDIA GPU'ları, işleme hızını önemli ölçüde artırabilecek paralel işlemeyi etkinleştirmek üzere tasarlanmıştır.

doğruluk

#fundamentals

Doğru sınıflandırma tahminlerinin sayısının toplam tahmin sayısına bölünmesiyle elde edilen değer. Yani:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Örneğin, 40 doğru tahmin ve 10 yanlış tahminde bulunan bir modelin doğruluğu şu olur:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

İkili sınıflandırma, farklı doğru tahmin ve yanlış tahmin kategorileri için belirli adlar sağlar. İkili program sınıflandırmasının doğruluk formülü aşağıdaki gibidir:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Bu örnekte:

TP, doğru pozitif (doğru tahminler) sayısıdır.
TN, doğru negatiflerin (doğru tahminler) sayısıdır.
FP, yanlış pozitif (yanlış tahminler) sayısıdır.
FN, yanlış negatif (yanlış tahminler) sayısıdır.

Hassasiyet ve geri çağırma özellikleriyle doğruluğu karşılaştırıp karşılaştırın.

Ek notlar için simgeyi tıklayın.

Bazı durumlarda değerli bir metrik olsa da doğruluk diğer kişiler için yanıltıcı olabilir. Doğruluk, sınıf açısından dengesiz veri kümelerini işleyen sınıflandırma modellerini değerlendirirken genellikle düşük bir metriktir.

Örneğin, belirli bir subtropikal şehirde karın her yüzyılda yalnızca 25 gün düştüğünü varsayalım. Karsız günler (negatif sınıf) karlı günlerden çok daha fazla olduğundan (pozitif sınıf), bu şehrin kar veri kümesi sınıf dengesizliğidir. Her gün kar durumunu ya da hiç kar yağmadığını tahmin etmesi gereken ancak sadece her gün "kar yok" şeklinde tahminde bulunan bir ikili sınıflandırma modeli düşünün. Bu model son derece doğrudur ancak tahmin gücü yoktur. Aşağıdaki tabloda, asırlık tahminlerin sonuçları özetlenmektedir:

Kategori	Sayı
TP	0
TN	36500
FP	25
FN	0

Dolayısıyla, bu modelin doğruluğu:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

%99, 93 doğruluk oranı çok etkileyici bir yüzde gibi görünse de modelin aslında tahmin gücü yoktur.

Hassasiyet ve geri çağırma, sınıf açısından dengesiz veri kümeleri üzerinde eğitilen modelleri değerlendirmek için genellikle doğruluktan daha yararlı metriklerdir.

işlem

#rl

Pekiştirmeli öğrenme'de, aracının ortamın durumları arasında geçiş yapma mekanizması. Temsilci bir politika kullanarak işlemi seçer.

aktivasyon fonksiyonu

#fundamentals

Nöral ağların özellikler ve etiket arasındaki doğrusal olmayan (karmaşık) ilişkileri öğrenmesini sağlayan bir işlev.

Popüler etkinleştirme işlevleri şunlardır:

ReLU
Sigmoid

Aktivasyon fonksiyonlarının grafikleri hiçbir zaman tek düz çizgi değildir. Örneğin, ReLU aktivasyon işlevinin grafiği iki düz çizgiden oluşur:

İki çizgili kartezyen çizim. İlk satırın y değeri 0'dır ve x ekseninde -sonsuz, 0,-0 aralığında ilerler.
İkinci satır 0,0'dan başlar. Bu çizginin eğimi +1 olduğundan
0,0 ile +sonsuzluk,+sonsuz arasında değişir.

Sigmoid aktivasyon fonksiyonunun grafiği aşağıdaki gibi görünür:

x değerleri sonsuzluktan +pozitife, y değerleri ise neredeyse 0 ile neredeyse 1 aralığını kapsayan iki boyutlu, eğri grafik. x 0 olduğunda y de 0, 5 olur. Eğrinin eğimi her zaman pozitifdir.En yüksek eğim 0, 0,5'te olur ve x'in mutlak değeri arttıkça eğimler de giderek azalır.

Bir örnek görmek için simgeyi tıklayın.

Bir nöral ağda, aktivasyon işlevleri bir nörona gelen tüm girişlerin ağırlıklı toplamını manipüle eder. Nöron, ağırlıklı toplamı hesaplamak için ilgili değer ve ağırlıkların ürünlerini toplar. Örneğin, bir nöronla ilgili girişin aşağıdakilerden oluştuğunu varsayalım:

giriş değeri	giriş ağırlığı
2	-1,3
-1	0,6
3	0,4

Dolayısıyla ağırlıklı toplam şu şekilde olur:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Bu sinir ağının tasarımcısının etkinleştirme işlevi olarak sigmoid işlevini seçtiğini varsayalım. Bu durumda nöron, -2,0'ın sigmoidini hesaplar. Bu da yaklaşık 0,12'dir. Bu nedenle nöron, nöral ağdaki bir sonraki katmana 0,12 (-2,0 yerine) iletir. Aşağıdaki şekilde, sürecin ilgili bölümü gösterilmiştir:

aktif öğrenme

Algoritmanın öğrendiği verilerin bir kısmını seçtiği bir eğitim yaklaşımıdır. Aktif öğrenme, özellikle etiketli örneklerin nadir veya yüksek maliyetli olduğu durumlarda değerlidir. Etkin bir öğrenme algoritması, öğrenme için gereken belirli bir örnek yelpazesini, körü körüne etiketli çok sayıda örnek aramak yerine seçici bir şekilde arar.

AdaGrad

Her bir parametrenin gradyanlarını yeniden ölçeklendirerek her parametreye etkin bir şekilde bağımsız bir öğrenme hızı veren gelişmiş bir gradyan azalma algoritması. Tam açıklama için bu AdaGrad makalesine bakın.

temsilci

#rl

Pekiştirmeli öğrenmede, ortamdaki durumlar arasındaki geçişten elde edilen beklenen getiriyi en üst düzeye çıkarmak için bir politikayı kullanan varlık.

Daha genel anlamda ise aracı, ortamındaki değişikliklere uyum sağlama becerisiyle bir hedef doğrultusunda bir dizi eylemi özerk olarak planlayan ve yürüten bir yazılımdır. Örneğin, LLM tabanlı aracılar pekiştirmeli öğrenme politikası uygulamak yerine bir plan oluşturmak için LLM'yi kullanabilir.

aglomeratif kümeleme

#clustering

Hiyerarşik kümeleme konusuna bakın.

anormallik algılama

Aykırı değerleri belirleme süreci. Örneğin, belirli bir özellik için ortalama değer 100 ise standart sapma 10 ise anormallik algılama, 200 değerini şüpheli olarak işaretlemelidir.

AR

Artırılmış gerçeklik için kullanılan kısaltma.

PR eğrisinin altındaki alan

PR AUC (PR Eğrisi'nin altındaki Alan) başlıklı makaleyi inceleyin.

ROC eğrisinin altındaki alan

AUC (ROC eğrisinin altındaki alan) konusuna bakın.

yapay genel zeka

Geniş bir sorun çözme, yaratıcılık ve uyarlanabilirlik yelpazesi gösteren, insan kaynaklı olmayan bir mekanizma. Örneğin, yapay genel zekayı gösteren bir program, metinleri çevirebilir, senfoniler besteleyebilir ve henüz icat edilmemiş oyunlarda uzmanlaşabilir.

yapay zeka

#fundamentals

Karmaşık görevleri çözebilen insan harici bir program veya model. Örneğin, radyolojik görüntülerden hastalıkları tespit eden metni çeviren bir program veya modelin ya da programın her ikisi de yapay zeka sergiler.

Makine öğrenimi, resmî bir şekilde yapay zekanın bir alt alanıdır. Ancak son yıllarda bazı kuruluşlar yapay zeka ve makine öğrenimi terimlerini birbirinin yerine kullanmaya başladı.

dikkat

#language

Belirli bir kelimenin veya kelime bölümünün önemini gösteren, sinirsel ağda kullanılan bir mekanizma. Dikkat, bir modelin bir sonraki jetonu/kelimeyi tahmin etmek için ihtiyaç duyduğu bilgi miktarını sıkıştırır. Tipik bir dikkat mekanizması, bir dizi girişin ağırlıklı toplamından oluşabilir. Bu yöntemde her girişin ağırlığı nöral ağın başka bir bölümü tarafından hesaplanır.

Transformatörlerin yapı taşları olan kendi kendine dikkat ve çok kafalı kendi kendine dikkat konularına da göz atın.

özellik

#fairness

feature ile eş anlamlıdır.

Makine öğrenimi adaletinde özellikler genellikle bireylere özgü özellikleri ifade eder.

özellik örneklemesi

#df

Koşulu öğrenirken her karar ağacının yalnızca rastgele bir özellik alt kümesini dikkate aldığı bir karar ormanı eğitme taktiği. Genel olarak her düğüm için farklı bir özellik alt kümesi örneklenir. Buna karşılık, özellik örnekleme olmadan bir karar ağacını eğitirken, her bir düğüm için olası tüm özellikler dikkate alınır.

AUC (ROC eğrisinin altındaki alan)

#fundamentals

İkili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini temsil eden 0,0 ile 1,0 arasında bir sayı. AUC değeri 1, 0'a ne kadar yakın olursa modelin sınıfları birbirinden ayırma becerisi de o kadar iyi olur.

Örneğin, aşağıdaki resimde pozitif sınıfları (yeşil ovaller) negatif sınıflardan (mor dikdörtgenler) mükemmel şekilde ayıran bir sınıflandırıcı modeli gösterilmektedir. Gerçekçi olmayan bu mükemmel modelin AUC'si 1,0'dır:

Bir tarafında 8 pozitif örnek ve diğer tarafta 9 negatif örnek içeren bir sayı doğrusu.

Buna karşılık, aşağıdaki resimde rastgele sonuçlar oluşturan bir sınıflandırıcı modelinin sonuçları gösterilmektedir. Bu modelin EUC'si 0,5'tir:

6 pozitif ve 6 negatif örnek içeren bir sayı doğrusu.
Örnek sırası şu şekildedir: pozitif, negatif, pozitif, negatif, pozitif, negatif, pozitif, negatif, pozitif, negatif, pozitif, negatif.

Evet, önceki modelin EUC'si 0,0 değil 0,5'tir.

Çoğu model iki uç noktanın arasında bir yerdedir. Örneğin, aşağıdaki model pozitifleri negatiflerden bir şekilde ayırır ve bu nedenle 0,5 ile 1,0 arasında bir EUC'ye sahiptir:

6 pozitif ve 6 negatif örnek içeren bir sayı doğrusu.
Örnek sırası şu şekildedir: negatif, negatif, negatif, negatif, pozitif, negatif, pozitif, pozitif, negatif, pozitif, pozitif, pozitif.

AUC, sınıflandırma eşiği için ayarladığınız tüm değerleri yoksayar. Bunun yerine AUC, olası tüm sınıflandırma eşiklerini dikkate alır.

AUC ve ROC eğrileri arasındaki ilişkiyi öğrenmek için simgeyi tıklayın.

AUC, bir ROC eğrisinin altındaki alanı temsil eder. Örneğin, pozitifleri negatiflerden mükemmel bir şekilde ayıran bir modelin ROC eğrisi şu şekilde görünür:

AUC, önceki resimde gri bölgenin alanıdır. Bu olağan dışı durumda alan, gri bölgenin uzunluğunun (1.0) gri bölgenin genişliğiyle (1,0) çarpımından elde edilir. Yani 1,0 ve 1,0 değerlerinin çarpımı tam olarak 1,0 değerinde bir EUC verir. Bu da mümkün olan en yüksek AUC puanıdır.

Buna karşılık, sınıfları hiç ayıramayan bir sınıflandırıcının ROC eğrisi aşağıdaki gibidir. Bu gri bölgenin alanı 0,5'tir.

Daha tipik bir ROC eğrisi yaklaşık olarak aşağıdakine benzer:

Bu eğrinin altındaki alanı manuel olarak hesaplamak zor olabilir. Bu nedenle, programlar genellikle çoğu AUC değerini hesaplar.

AUC'nin daha resmi bir tanımı için bu simgeyi tıklayın.

AUC, bir sınıflandırıcının, rastgele seçilen bir pozitif örneğin aslında pozitif olan bir örneğin pozitif olduğundan daha emin olma olasılığıdır.

artırılmış gerçeklik

#image

Bilgisayar tarafından üretilmiş bir görüntüyü, kullanıcının gerçek dünya manzarasının üzerine koyarak bileşik bir görüntü sağlayan teknoloji.

otomatik kodlayıcı

#language

#image

Girişteki en önemli bilgileri ayıklamayı öğrenen bir sistem. Otomatik kodlayıcılar, bir kodlayıcı ve kod çözücüden oluşur. Otomatik kodlayıcılar aşağıdaki iki adımlı süreci temel alır:

Kodlayıcı, girişi (tipik olarak) kayıplı düşük boyutlu (orta) bir biçimle eşler.
Kod çözücü, düşük boyutlu biçimi orijinal daha yüksek boyutlu giriş biçimiyle eşleyerek orijinal girişin kayıplı bir sürümünü oluşturur.

Otomatik kodlayıcılar, kod çözücünün kodlayıcının ara biçiminden orijinal girişi mümkün olduğunca yakın şekilde yeniden oluşturmaya çalışmasıyla uçtan uca eğitilir. Ara biçim orijinal biçimden daha küçük (düşük boyutlu) olduğundan, otomatik kodlayıcı girişteki hangi bilgilerin gerekli olduğunu öğrenmeye zorlanır ve çıktı, girişle tamamen aynı olmaz.

Örneğin:

Girdi verileri bir grafikse, tam olmayan kopya orijinal grafiğe benzer, ancak kısmen değiştirilmiştir. Tam olmayan kopyanın, orijinal grafikteki paraziti ortadan kaldırır veya bazı eksik pikselleri doldurması da mümkündür.
Giriş verileri metinse bir otomatik kodlayıcı, orijinal metni taklit eden (ancak metinle aynı olmayan) yeni metin oluşturur.

Ayrıca değişken otomatik kodlayıcılar konusuna bakın.

otomasyon önyargısı

#fairness

Otomatik karar alma sistemi hata yapsa bile insan karar merciinin otomasyon olmadan alınan bilgiler yerine otomatik bir karar alma sisteminin verdiği önerileri tercih etmesi.

AutoML

Makine öğrenimi modelleri oluşturmak için kullanılan tüm otomatik işlemler. AutoML, aşağıdakiler gibi görevleri otomatik olarak gerçekleştirebilir:

En uygun modeli arayın.
Hiperparameters'i ayarlayın.
Verileri hazırlama (özellik mühendisliği yapma dahil).
Oluşturulan modeli dağıtın.

AutoML, makine öğrenimi ardışık düzenleri geliştirirken zamandan ve enerjiden tasarruf etme imkanı sağlaması ve tahmin doğruluğunu iyileştirmesi nedeniyle veri bilimciler için yararlıdır. Karmaşık makine öğrenimi görevlerini onlar için erişilebilir hale getirerek uzman olmayan kişiler için de yararlıdır.

otomatik regresif model

#language

#image

#üretken yapay zeka

Kendi önceki tahminlerine göre tahminde bulunan model. Örneğin, otomatik regresif dil modelleri, daha önce tahmin edilen jetonlara göre bir sonraki jetonu tahmin eder. Transformer tabanlı tüm büyük dil modelleri otomatik regresyonludur.

Buna karşılık, GAN tabanlı görüntü modelleri, görüntüyü adımlar halinde değil, tek bir ileri geçişte oluşturduğu için genellikle otomatik regresif değildir. Ancak bazı görüntü oluşturma modelleri, adımları adımlar halinde oluşturdukları için otomatik regresyona sahiptir.

yedek kayıp

Nöral ağ modelinin ana kayıp işleviyle birlikte kullanılan ve ağırlıklar rastgele başlatıldığı ilk iterasyonlarda eğitimi hızlandırmaya yardımcı olan bir kayıp işlevi.

Yedek kayıp işlevleri, etkili gradyanları önceki katmanlara aktarır. Bu, kaybolan gradyan sorunu ile mücadele ederek eğitim sırasında tümleşmeyi kolaylaştırır.

ortalama hassasiyet

Sıralı bir sonuç dizisinin performansını özetleyen metrik. Ortalama hassasiyet, her alakalı sonuç için hassas değerlerinin ortalaması alınarak hesaplanır (her sonuç, geri çağırmanın bir önceki sonuca göre arttığı sıralı listede yer alır).

Ayrıca bkz. PR Eğrisi altındaki Alan.

eksene ayarlı koşul

#df

Karar ağacında, yalnızca tek bir özellik içeren koşul. Örneğin, alan bir özellikse aşağıdaki eksene hizalı bir koşuldur:

area > 200

Eğik koşul ile kontrast oluşturun.

B

geri yayılım

#fundamentals

Nöral ağlarda gradyan inişi uygulayan algoritma.

Sinir ağını eğitmek, aşağıdaki iki geçişli döngünün birçok iterasyonunu içerir:

Sistem, ileri geçirme sırasında tahminler sunmak için toplu örnek işler. Sistem, her tahmini her bir label değeriyle karşılaştırır. Tahmin ve etiket değeri arasındaki fark, bu örnek için kayıp değeridir. Sistem, geçerli toplu iş için toplam kaybı hesaplamak amacıyla tüm örneklerde kayıpları toplar.
Geriye doğru hesaplama (geri yayılım) sırasında sistem, tüm gizli katmanlar içindeki tüm nöronların ağırlıklarını ayarlayarak kaybı azaltır.

Nöral ağlar genellikle çok sayıda gizli katmanda çok sayıda nöron içerir. Bu nöronların her biri toplam kayba farklı şekillerde katkıda bulunur. Geri yayılım, belirli nöronlara uygulanan ağırlıkların artırılıp azaltılmayacağını belirler.

Öğrenme hızı, her bir geriye doğru hesaplamanın her ağırlığı ne kadar artırdığını veya azaltacağını kontrol eden bir çarpandır. Yüksek bir öğrenme hızı, her ağırlığı düşük bir öğrenme hızından daha fazla artırır veya azaltır.

Analiz açısından bakıldığında geri yayılım, kalkülüsten alınan zincir kuralını uygular. Yani geri yayılım, her bir parametreye göre hatanın kısmi türevini hesaplar.

Yıllar önce, makine öğrenimi uygulayıcılarının geri yayılımı uygulamak için kod yazmaları gerekiyordu. TensorFlow gibi modern ML API'leri artık sizin için geri yayılımı uyguluyor. Bora

bagaj

#df

Her bileşen modelinin değişimle örneklenen rastgele bir eğitim örnekleri alt kümesi üzerinde eğitildiği bir grubu eğitmek yöntemi. Örneğin, rastgele orman, bagajla eğitilmiş karar ağaçlarından oluşan bir koleksiyondur.

bagging terimi bootstrap aggregating'in kısaltmasıdır.

kelime yığını

#language

Kelimelerin bir kelime öbeği veya pasajdaki sıradan bağımsız olarak temsili. Örneğin, bir torba torbası aşağıdaki üç ifadeyi aynı şekilde temsil eder:

zıplayan köpek

köpeği atlayan

zıplayan köpek

Her kelime, seyrek vektör içindeki bir dizine eşlenir. Burada vektör, sözlükteki her kelime için bir dizine sahiptir. Örneğin köpek atlayış ifadesi; bir, köpek ve atlama kelimelerine karşılık gelen üç dizinde sıfır olmayan değerlere sahip bir özellik vektörüyle eşlenir. Sıfır olmayan değer aşağıdakilerden herhangi biri olabilir:

Bir kelimenin varlığını belirtmek için 1.

Bir kelimenin çantada kaç kez göründüğünün sayısıdır. Örneğin, bordo köpek, bordo kürklü bir köpek kelime öbeğiyse hem bordo hem de köpek 2 olarak temsil edilirken diğer kelimeler 1 olarak temsil edilir.

Bir kelimenin çantada görünme sayısının logaritması gibi başka bir değer.

referans değer

Başka bir modelin (genellikle daha karmaşık olan) performansını karşılaştırmak için referans noktası olarak kullanılan model. Örneğin, mantıksal regresyon modeli derin model için iyi bir temel oluşturabilir.

Belirli bir sorun için referans değer, model geliştiricilerinin yeni modelin faydalı olabilmesi için yeni bir modelin gerçekleştirmesi gereken minimum performansı ölçmesine yardımcı olur.

grup

#fundamentals

Tek bir eğitim yinelemesinde kullanılan örnek grubu. Grup boyutu, bir gruptaki örneklerin sayısını belirler.

Bir grubun bir dönemle nasıl ilişkili olduğuna dair açıklama için dönem bölümüne bakın.

toplu çıkarım

#TensorFlow

#GoogleCloud

Birden fazla etiketsiz örnekte tahmin çıkarma işlemi, daha küçük alt kümelere ("gruplar") bölünmüştür.

Toplu çıkarım, hızlandırıcı çiplerinin paralelleştirme özelliklerinden yararlanabilir. Yani birden fazla hızlandırıcı, aynı anda farklı etiketlenmemiş örnek grupları hakkında tahminlerde bulunabilir. Bu da saniyedeki çıkarım sayısını önemli ölçüde artırır.

toplu normalleştirme

Etkinleştirme işlevlerinin girişini veya çıkışını gizli bir katmanda normalleştirme. Toplu normalleştirme şu avantajları sağlayabilir:

Aykı ağırlıklarına karşı koruma sağlayarak nöral ağları daha kararlı hale getirin.

Eğitimi hızlandırabilecek öğrenme oranlarını artırın.

Fazla uyumu azaltın.

grup boyutu

#fundamentals

Bir gruptaki örnek sayısı. Örneğin, grup boyutu 100 ise model, yineleme başına 100 örneği işler.

Popüler toplu boyut stratejileri şunlardır:

Stokastik Gradyan İniş (SGD): Grup boyutu 1'dir.

Grup boyutunun tüm eğitim grubundaki örnek sayısıdır. Örneğin, eğitim seti bir milyon örnek içeriyorsa grup boyutu bir milyon örnek olur. Tam grup genellikle verimsiz bir stratejidir.

Grup boyutunun genellikle 10 ile 1.000 arasında olduğu mini-toplu grup. Mini toplu işlem genellikle en etkili stratejidir.

Bayes nöral ağı

Ağırlıklar ve çıkışlardaki belirsizliği hesaba katan olası bir sinirsel ağ. Standart bir nöral ağ regresyon modeli genellikle skaler bir değer tahmin eder. Örneğin standart bir model ev fiyatının 853.000 olacağını tahmin eder. Buna karşılık, bir Bayes nöral ağı değerlerin bir dağılımını tahmin eder. Örneğin bir Bayes modeli, 67.200 standart sapmayla ev fiyatını 853.000 olarak tahmin eder.

Bir Bayes nöral ağı, ağırlıklar ve tahminlerdeki belirsizlikleri hesaplamak için Bayes Teoremi'nden yararlanır. İlaçlarla ilgili modellerde olduğu gibi, belirsizliğin ölçülmesi önemli olduğunda Bayes nöral ağı yararlı olabilir. Bayes nöral ağları da aşırı uyumu önlemeye yardımcı olabilir.

Bayes optimizasyonu

Bunun yerine, Bayes öğrenme tekniğini kullanarak belirsizliği ölçen bir taşıyıcı optimize ederek hesaplama açısından pahalı hedef fonksiyonlarını optimize eden olasılık regresyon modeli tekniği. Bayes optimizasyonu çok pahalı olduğundan genellikle hiperparametre seçme gibi az sayıda parametreye sahip, değerlendirilmesi pahalı olan görevleri optimize etmek için kullanılır.

Bellman denklemi

#rl

Pekiştirmeli öğrenmede, optimum Q işleviyle aşağıdaki kimlik sağlanır:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Pekiştirmeli öğrenme algoritmaları, aşağıdaki güncelleme kuralı aracılığıyla Q-learning oluşturmak için bu kimliği uygular:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Bellman denklemi, pekiştirmeli öğrenmenin ötesinde, dinamik programlamaya yönelik uygulamalara da sahiptir. Bellman denklemi için Wikipedia girişine bakın.

BERT (Çift Yönlü Kodlayıcı Temsili (Transformers)

#language

Metin temsili için model mimari. Eğitilmiş bir BERT modeli, metin sınıflandırma veya diğer makine öğrenimi görevleri için daha büyük bir modelin parçası olarak çalışabilir.

BERT aşağıdaki özelliklere sahiptir:

Transformer mimarisini kullanır ve bu nedenle kendi kendine dikkat tekniğini kullanır.

Dönüştürücünün kodlayıcı bölümünü kullanır. Kodlayıcının görevi, sınıflandırma gibi belirli bir görevi yerine getirmekten ziyade iyi metin temsilleri üretmektir.

İki yönlü olmalıdır.

Gözetimsiz eğitim için maskeleme kullanılır.

BERT'in varyantları şunları içerir:

ALBERT, A Light BERT'in kısaltmasıdır.

LaBSE anahtar kelimesi.

BERT'e genel bir bakış için Open Sourcing BERT: Son Teknoloji Ürünü Doğal Dil İşleme Ön Eğitimi sayfasını inceleyin.

önyargı (etik/adillik)

#fairness

#fundamentals

1. Bazı şeylere, kişilere veya gruplara karşı basmakalıp bir düşünce, önyargı ya da ayrımcılık. Bu yanlılıklar verilerin toplanmasını ve yorumlanmasını, bir sistemin tasarımını ve kullanıcıların sistemle nasıl etkileşimde bulunduğunu etkileyebilir. Bu tür önyargıların biçimleri şunlardır:

otomasyon yanlılığı

onay yanlılığı

deneycinin yanlılığı

grup ilişkilendirme yanlılığı

dolaylı önyargı

grup içi önyargı

grup dışı homojenlik yanlılığı

2. Örnekleme veya raporlama prosedürüyle ortaya çıkan sistematik hata. Bu tür önyargıların biçimleri şunlardır:

kapsam yanlılığı

yanıt vermeme yanlılığı

katılım ön yargısı

raporlama yanlılığı

örnekleme yanlılığı

seçim ön yargısı

Makine öğrenimi modellerindeki önyargı terimi veya tahmin yanlılığı ile karıştırılmamalıdır.

önyargı (matematik) veya yanlılık terimi

#fundamentals

Bir kaynağa uzaklık veya kesme noktası. Önyargı, makine öğrenimi modellerinde yer alan bir parametredir ve aşağıdakilerden biri ile simgeleştirilir:

b

h₀

Örneğin, aşağıdaki formülde önyargı b'dir:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Basit bir iki boyutlu çizgide yanlılık "y kesim noktası" anlamına gelir. Örneğin, aşağıdaki çizimde çizginin yanlılığı 2'dir.

Tüm modeller kaynak (0,0) kaynağından başlamadığı için yanlılık vardır. Örneğin, bir lunaparkın giriş ücretinin 2 avro, müşterinin kaldığı her saat için ise 0,5 avro değerinde ek bir maliyet olduğunu varsayalım. En düşük maliyet 2 avro olduğundan, toplam maliyeti eşleyen bir modelin yanlılığı 2'dir.

Ön yargı, etik ve adaletteki ön yargı veya tahmin ön yargısı ile karıştırılmamalıdır.

iki yönlü

#language

Metnin bir hedef bölümüne öncelik veren ve takip eden metni değerlendiren sistemi tanımlamak için kullanılan terim. Buna karşılık tek yönlü bir sistem yalnızca metnin hedef bölümünden önce olan metni değerlendirir.

Örneğin, aşağıdaki soruda alt çizgiyi temsil eden kelime veya kelimelerin olasılıklarını belirlemesi gereken bir maskeli dil modelini düşünün:

Sizde _____ nedir?

Tek yönlü bir dil modelinin, olasılıklarını yalnızca "Ne", "is" ve "the" kelimelerinin sağladığı bağlama dayandırması gerekir. Buna karşılık, iki yönlü dil modeli "birlikte" ve "siz"den bağlam da alabilir. Bu da modelin daha iyi tahminler oluşturmasına yardımcı olabilir.

iki yönlü dil modeli

#language

Önceki ve sonraki metne göre metin alıntısında belirli bir konumda belirli bir jetonun bulunma olasılığını belirleyen dil modeli.

Bigram

#seq

#language

N=2 olan bir N-gram.

ikili program sınıflandırması

#fundamentals

Birbirini dışlayan iki sınıftan birini tahmin eden bir tür sınıflandırma görevi:

olumlu sınıf

negatif sınıfı

Örneğin, aşağıdaki iki makine öğrenimi modelinin her biri ikili sınıflandırma yapar:

E-posta iletilerinin spam (olumlu sınıf) veya spam değil (negatif sınıf) olduğunu belirleyen bir model.

Bir kişinin belirli bir hastalığı (olumlu sınıf) olup olmadığını (olumlu sınıf) veya söz konusu hastalığın (negatif sınıf) olup olmadığını belirlemek için tıbbi belirtileri değerlendiren bir model.

Çok sınıflı sınıflandırma ile kontrast oluşturun.

Ayrıca mantıksal regresyon ve sınıflandırma eşiği bölümlerini de inceleyin.

ikili koşul

#df

Karar ağacında, yalnızca iki olası sonucu olan bir koşul, genellikle evet veya hayır olur. Örneğin, aşağıdaki bir ikili koşuldur:

temperature >= 100

İkili olmayan koşul ile kontrast oluşturun.

binning

gruplama ile eş anlamlıdır.

BLEU (İki Dilli Değerlendirme Alt Çalışması)

#language

İki insan dili (örneğin, İngilizce ve Rusça) arasındaki çevirilerin kalitesini gösteren 0, 0 ve 1, 0 (bu değerler dahil) arasında bir puan. 1,0'lık bir BLEU puanı tam çeviriyi, 0,0 olan BLEU puanı ise çok kötü bir çeviriyi belirtir.

güçlendirme

Basit ve çok doğru olmayan bir grup sınıflandırıcıyı yinelemeli bir şekilde birleştirerek, modelin şu anda yanlış sınıflandırıldığı örnekleri artırarak yüksek doğruluklu bir sınıflandırıcıya ("zayıf" sınıflandırıcılar) dönüştüren bir makine öğrenimi tekniğidir.

sınırlayıcı kutu

#image

Bir resimde, aşağıdaki resimde yer alan köpek gibi önemli bir alanın etrafındaki dikdörtgenin (x, y) koordinatları.

yayınlama

Matris matematik işlemindeki bir işlenenin şeklinin, bu işlemle uyumlu boyutlara genişletmesi. Örneğin, doğrusal cebir, bir matris toplama işlemindeki iki işlenenin aynı boyutlara sahip olmasını gerektirir. Sonuç olarak, n uzunluğundaki bir vektöre (m, n) şekil matrisi ekleyemezsiniz. Yayıncılık, bu işlemi n uzunluk vektörünü bir şekil matrisine (m, n) sanal olarak genişleterek her sütuna aynı değerleri kopyalayarak sağlar.

Örneğin, aşağıdaki tanımlara göre, doğrusal cebir A+B'yi yasaklar çünkü A ve B farklı boyutlara sahiptir:

A = [[7, 10, 4], [13, 5, 9]] B = [2]

Ancak yayınlama, B'yi sanal olarak şu şekilde genişleterek A+B işlemini etkinleştirir:

[[2, 2, 2], [2, 2, 2]]

Dolayısıyla, A+B artık geçerli bir işlemdir:

[[7, 10, 4], + [[2, 2, 2], = [[ 9, 12, 6], [13, 5, 9]] [2, 2, 2]] [15, 7, 11]]

Daha ayrıntılı bilgi için aşağıdaki NumPy'de yayın yapma açıklamasına bakın.

paketleme

#fundamentals

Tek bir özelliği, genellikle bir değer aralığına dayalı olarak paket veya bin adı verilen birden fazla ikili program özelliğine dönüştürme. Doğranmış özellik genellikle sürekli bir özelliktir.

Örneğin, sıcaklığı tek bir sürekli kayan nokta özelliği olarak göstermek yerine, sıcaklık aralıklarını ayrı kovalara bölebilirsiniz. Örneğin:

<= 10 santigrat derece "soğuk" bölümü ifade eder.

11 - 24 santigrat derece, "ılıman" pakettir.

>= 25 santigrat derece "sıcak" veri grubu olacaktır.

Model, aynı paketteki tüm değerleri aynı şekilde işler. Örneğin, 13 ve 22 değerleri ılıman pakette bulunduğundan model, iki değeri aynı şekilde işler.

Ek notlar için simgeyi tıklayın.

Sıcaklığı sürekli bir özellik olarak temsil ediyorsanız model, sıcaklığı tek bir özellik olarak ele alır. Sıcaklığı üç paket olarak temsil ediyorsanız model, her paketi ayrı bir özellik olarak ele alır. Yani bir model, her bir paketin etiket ile ayrı ilişkisini öğrenebilir. Örneğin, doğrusal regresyon modeli her bir paket için ayrı ağırlıkları öğrenebilir.

Paket sayısının artması, modelinizin öğrenmesi gereken ilişki sayısını artırarak modelinizi daha karmaşık hale getirir. Örneğin soğuk, ılıman ve sıcak paketler, modelinizin eğitimi için temel olarak üç ayrı özelliktir. Örneğin, dondurucu ve sıcak gibi iki paket daha eklemeye karar verirseniz modelinizin artık beş ayrı özellikle eğitilmesi gerekir.

Kaç paket oluşturmanız gerektiğini veya her bir paket için aralıkların ne olması gerektiğini nasıl bilebilirsiniz? Cevaplar için genellikle biraz deneme yapmak gerekir.

C

kalibrasyon katmanı

Genellikle tahmin yanlılığını hesaba katmak için tahmin sonrası düzenleme. Düzenlenen tahminler ve olasılıklar, gözlemlenen bir etiket kümesinin dağılımıyla eşleşmelidir.

aday oluşturma

#recsystems

Bir öneri sistemi tarafından seçilen ilk öneri grubu. Örneğin, 100.000 kitap sunan bir kitapçıyı düşünün. Aday oluşturma aşamasında belirli bir kullanıcı için uygun kitapların çok daha küçük bir listesi, örneğin 500 olur. Ancak 500 kitap bile bir kullanıcıya önerilemeyecek kadar fazladır. Öneri sisteminin sonraki, daha pahalı aşamaları (puanlama ve yeniden sıralama gibi) bu 500 öneriyi çok daha küçük ve daha yararlı önerilere dönüştürür.

aday örnekleme

Tüm pozitif etiketler için olasılık hesaplayan eğitim süresi optimizasyonu, örneğin softmax kullanarak ancak yalnızca rastgele bir negatif etiket örneği için yapılır. Örneğin, beagle ve dog etiketli bir örnek düşünüldüğünde aday örnekleme, aşağıdakiler için tahmini olasılıkları ve karşılık gelen kayıp terimlerini hesaplar:

beagle

köpek

kalan negatif sınıfların rastgele bir alt kümesi (örneğin, cat, lollipop, fence).

Ana fikir, pozitif sınıflar her zaman uygun şekilde pozitif pekiştirildiği sürece negatif sınıfların daha seyrek gerçekleşen olumsuz pekiştirmelerden ders çıkarabileceği ve bu durumun deneyimsel olarak gözlemlenmesidir.

Aday örnekleme, özellikle negatif sınıfların sayısı çok büyük olduğunda, tüm negatif sınıflar için tahminleri hesaplayan eğitim algoritmalarından hesaplama açısından daha verimlidir.

kategorik veri

#fundamentals

Belirli olası değerler grubuna sahip özellikler. Örneğin, aşağıdaki üç olası değerden yalnızca birine sahip olabilecek traffic-light-state adlı bir kategorik özelliği düşünün:

red

yellow

green

traffic-light-state öğesini kategorik özellik olarak sunan bir model, red, green ve yellow özelliklerinin sürücü davranışı üzerindeki farklı etkilerini öğrenebilir.

Kategorik özellikler bazen ayrı özellikler olarak adlandırılır.

Sayısal verilerle kontrast oluşturun.

nedensel dil modeli

#language

Tek yönlü dil modeli ile eş anlamlıdır.

Dil modellemedeki farklı yönlü yaklaşımları ayırt etmek için iki yönlü dil modeli bölümüne bakın.

centroid

#clustering

k-ortalama veya k-ortanca algoritmasıyla belirlenen küme merkezi. Örneğin k 3 ise k-ortalama veya k-ortan algoritması 3 sentroid bulur.

merkezi temelli kümeleme

#clustering

Verileri hiyerarşik olmayan kümeler halinde düzenleyen bir kümeleme algoritmaları kategorisi. k-ortalamalar, en çok kullanılan merkezi temelli kümeleme algoritmasıdır.

Hiyerarşik kümeleme algoritmalarıyla kontrast.

düşünce zincirine dayalı istem

#language

#üretken yapay zeka

Büyük dil modelini (LLM) adım adım açıklamaya teşvik eden bir istem mühendisliği tekniği. Örneğin, ikinci cümleye özellikle dikkat ederek şu istemi dikkate alın:

Sürücü, saatte 0'dan 90 mil hızla giden bir arabada 7 saniyede kaç g kuvvet yaşar? Yanıtta tüm alakalı hesaplamaları gösterin.

LLM'nin yanıtı muhtemelen:

0, 60 ve 7 değerlerini uygun yerlere yerleştirerek bir fizik formülleri dizisini gösterin.

Şirketin bu formülleri neden seçtiğini ve çeşitli değişkenlerin ne anlama geldiğini açıklayın.

Düşünce zinciri istenmesi, LLM'yi tüm hesaplamaları yapmaya zorlar ve bu da daha doğru bir yanıt sağlayabilir. Ayrıca, düşünce zinciri istemleri, kullanıcının yanıtın anlamlı olup olmadığını belirlemek için LLM'nin adımlarını incelemesine olanak tanır.

sohbet

#language

#üretken yapay zeka

Genellikle büyük bir dil modeli olan makine öğrenimi sistemiyle karşılıklı yapılan diyaloğun içeriği. Bir sohbetteki önceki etkileşim (yazdığınız ifade ve büyük dil modelinin verdiği yanıt) sohbetin sonraki bölümlerinin bağlamı olur.

Chatbot, büyük dil modelinin bir uygulamasıdır.

kontrol noktası

Belirli bir eğitim yinelemesinde bir modelin parametrelerinin durumunu yakalayan veriler. Kontrol noktaları, model ağırlıklarının dışa aktarılmasına veya birden fazla oturumda eğitim gerçekleştirilmesine olanak tanır. Kontrol noktaları, eğitimin geçmişteki hatalara (örneğin, işin geçici olarak kesilmesi) devam edebilmesini de sağlar.

İnce ayar yaptığınızda, eğitimin yeni modelinin başlangıç noktası, önceden eğitilmiş modelin belirli bir kontrol noktası olacaktır.

sınıf

#fundamentals

Etiketin ait olabileceği bir kategori. Örneğin:

Spam algılayan bir ikili sınıflandırma modelinde, bu iki sınıf spam ve spam değil olabilir.

Köpek ırklarını tanımlayan çok sınıflı sınıflandırma modelinde bu sınıflar kaniş, beagle, pug vb. olabilir.

Sınıflandırma modeli bir sınıfı tahmin eder. Buna karşılık, regresyon modeli bir sınıf yerine bir sayıyı tahmin eder.

sınıflandırma modeli

#fundamentals

Tahmini sınıf olan bir model. Örneğin, aşağıda tüm sınıflandırma modelleri yer almaktadır:

Bir giriş cümlesinin dilini tahmin eden bir model (Fransızca? İspanyolca mı? İtalyanca mı?).

Ağaç türlerini tahmin eden bir model (Maple? Oak? Baobab?).

Belirli bir tıbbi durumla ilgili pozitif veya negatif sınıfı tahmin eden bir model.

Buna karşılık regresyon modelleri, sınıflar yerine sayıları tahmin eder.

Yaygın olarak kullanılan iki sınıflandırma modeli türü şunlardır:

ikili program sınıflandırması

çok sınıflı sınıflandırma

sınıflandırma eşiği

#fundamentals

İkili sınıflandırmada, mantıksal regresyon modelinin ham çıktısını pozitif sınıf veya negatif sınıf tahminine dönüştüren 0 ile 1 arasındaki bir sayıdır. Sınıflandırma eşiğinin, model eğitimi tarafından seçilen bir değer değil, insanın seçtiği bir değer olduğunu unutmayın.

Mantıksal regresyon modeli, 0 ile 1 arasında ham bir değer üretir. Ardından:

Bu ham değer sınıflandırma eşiğinden yüksekse pozitif sınıf tahmin edilir.

Bu ham değer sınıflandırma eşiğinden düşükse negatif sınıf tahmin edilir.

Örneğin, sınıflandırma eşiğinin 0,8 olduğunu varsayalım. Ham değer 0,9 ise model, pozitif sınıfı tahmin eder. Ham değer 0,7 ise model, negatif sınıfı tahmin eder.

Sınıflandırma eşiği seçimi, yanlış pozitif ve yanlış negatif sayısını önemli ölçüde etkiler.

Ek notlar için simgeyi tıklayın.

Modeller veya veri kümeleri geliştikçe mühendisler bazen sınıflandırma eşiğini de değiştirir. Sınıflandırma eşiği değiştiğinde pozitif sınıf tahminleri aniden negatif sınıflara dönüşebilir. Bunun tersi de geçerlidir.

Örneğin, ikili sınıflandırma hastalık tahmin modelini düşünün. Sistem ilk yılda çalıştığında şunun olduğunu varsayalım:

Belirli bir hasta için ham değer 0,95'tir.

Sınıflandırma eşiği 0,94'tür.

Bu nedenle sistem, pozitif sınıfı teşhis eder. (Hasta, şöyle diyor: "Olamaz! Hastayım!")

Bir yıl sonra, değerler artık aşağıdaki gibi görünebilir:

Aynı hastanın ham değeri 0,95 olarak kalır.

Sınıflandırma eşiği 0,97 olarak değişir.

Bu nedenle, sistem artık bu hastayı negatif sınıf olarak yeniden sınıflandırır. ("İyi günler! Hasta değilim.") Aynı hasta. Farklı teşhisler.

sınıf dengesiz veri kümesi

#fundamentals

Her sınıfın toplam etiket sayısının önemli ölçüde farklı olduğu sınıflandırma sorunu için veri kümesi. Örneğin, iki etiketi şu şekilde bölünen bir ikili sınıflandırma veri kümesini ele alalım:

1.000.000 negatif etiket

10 pozitif etiket

Negatif etiketlerin pozitif etiketlere oranı 100.000'e 1'dir. Bu nedenle bu, sınıf dengesiz bir veri kümesidir.

Buna karşılık, aşağıdaki veri kümesinde negatif etiketlerin pozitif etiketlere oranı 1'e göreceli olarak 1'e yakın olduğu için sınıf dengesizliği değildir:

517 negatif etiket

483 pozitif etiket

Çok sınıflı veri kümelerinin sınıf dengesizliği de olabilir. Örneğin, aşağıdaki çok sınıflı sınıflandırma veri kümesinde bir etiketin diğer ikisinden çok daha fazla örneği olduğu için sınıf dengesizliği de uygulanır:

"Yeşil" sınıfını içeren 1.000.000 etiket

"Mor" sınıfını içeren 200 etiket

"turuncu" sınıfını içeren 350 etiket

Ayrıca bkz. entropi, çoğunluk sınıfı ve azınlık sınıfı.

kırpma

#fundamentals

Aşağıdakilerden birini veya her ikisini yaparak aykırı değerleri ele almaya yönelik bir teknik:

Maksimum eşiğin üzerindeki feature değerlerini, söz konusu maksimum eşiğe kadar düşürürseniz.

Minimum eşiğin altındaki özellik değerlerini minimum eşiğe kadar artırabilir.

Örneğin, belirli bir özellik için değerlerin% 0,5'inden azının 40-60 aralığının dışında olduğunu varsayalım. Bu durumda, aşağıdakileri yapabilirsiniz:

60'ın (maksimum eşik) üzerindeki tüm değerleri tam olarak 60 olacak şekilde kırpın.

40'ın (minimum eşik) altındaki tüm değerleri tam olarak 40 olacak şekilde kırpın.

Aykırı değerler modellere zarar vererek bazen eğitim sırasında ağırlıkların taşmasına neden olabilir. Bazı aykırı değerler, doğruluk gibi metrikleri büyük ölçüde bozabilir. Kırpma, hasarı sınırlayan yaygın bir tekniktir.

Gradyan kırpma, eğitim sırasında belirtilen bir aralıktaki gradyan değerlerini zorlar.

Cloud TPU

#TensorFlow

#GoogleCloud

Google Cloud'daki makine öğrenimi iş yüklerini hızlandırmak için tasarlanmış özel bir donanım hızlandırıcı.

kümeleme

#clustering

Özellikle gözetimsiz öğrenme sırasında ilgili örnekleri gruplandırma. Tüm örnekler gruplandırıldıktan sonra bir insan isteğe bağlı olarak her bir kümeye anlam sağlayabilir.

Birçok kümeleme algoritması mevcuttur. Örneğin, k-ortalama algoritma kümesi örnekleri, aşağıdaki şemada gösterildiği gibi bir merkez'e yakınlıklarına göre belirlenir:

Daha sonra insan araştırmacı, kümeleri inceleyebilir ve örneğin, küme 1'i "cüce ağaçlar" ve küme 2'yi "tam boyutlu ağaçlar" olarak etiketleyebilir.

Başka bir örnek olarak, bir örneğin merkez noktasından uzaklığına dayanan bir kümeleme algoritmasını düşünün. Bu algoritma, aşağıdaki şekilde gösterilmiştir:

ortak uyarlama

Nöronlar, ağın genel davranışına güvenmek yerine neredeyse yalnızca belirli diğer nöronların çıkışlarına dayanarak eğitim verilerindeki kalıpları tahmin ettiğinde. Ortak uyarlamaya neden olan kalıplar doğrulama verilerinde mevcut olmadığında, ortak uyarlama fazla uyuma neden olur. Ayrılma normalleştirmesi, nöronların yalnızca belirli diğer nöronlara bel bağlamamasını sağladığı için ortak adaptasyonu azaltır.

ortak çalışmaya dayalı filtreleme

#recsystems

Diğer birçok kullanıcının ilgi alanlarını temel alarak bir kullanıcının ilgi alanları hakkında tahminlerde bulunma. Ortak çalışmaya dayalı filtreleme, genellikle öneri sistemlerinde kullanılır.

kavram kayması

Özellikler ve etiket arasındaki ilişkide bir kayma. Kavram kayması zamanla modelin kalitesini düşürür.

Model, eğitim sırasında özellikler ve bunların eğitim kümesindeki etiketleri arasındaki ilişkiyi öğrenir. Eğitim setindeki etiketler gerçek dünya için iyi proxy'lerse modelin gerçek hayattan iyi tahminler yapması gerekir. Ancak kavram kayması nedeniyle modelin tahminleri zamanla azalma eğilimindedir.

Örneğin, belirli bir otomobil modelinin "yakıt verimliliği" olup olmadığını tahmin eden bir ikili sınıflandırma modelini düşünün. Yani, özellikler şöyle olabilir:

araba ağırlığı

motor sıkıştırması

bulaşma türü

ise etiket şunlardan biridir:

yakıt verimliliği

yakıt verimliliği yüksek değil

Ancak "yakıt tasarruflu araba" kavramı sürekli değişiyor. 1994'te yakıt verimliliği etiketli bir araba modeli, 2024'te neredeyse kesinlikle yakıt verimli değil şeklinde etiketlenecek. Kavram kayması sorunu yaşayan bir model, zaman içinde daha az yararlı tahminlerde bulunma eğilimindedir.

Sürdürülebilirlik ile karşılaştırma yapın.

Ek notlar için simgeyi tıklayın.

Kavram kaymasını dengelemek için modelleri kavram kayması oranından daha hızlı şekilde yeniden eğitin. Örneğin, kavram kayması model hassasiyetini iki ayda bir anlamlı bir marjla azaltırsa modelinizi iki ayda bir olduğundan daha sık yeniden eğitin.

koşul

#df

Karar ağacında, bir ifadeyi değerlendiren tüm düğümler. Örneğin, bir karar ağacının aşağıdaki bölümünde iki koşul bulunur:

Koşul, bölme veya test olarak da adlandırılır.

Yaprak ile kontrast durumu.

Şuna da bakabilirsiniz:

ikili koşul

olan ikili olmayan koşul hakkında daha fazla bilgi edinin.

eksen-hizalı-durum

eğik-koşul

sohbet

#language

halüsinasyon ile eş anlamlıdır.

"Kafa" terimi, teknik olarak halüsinasyondan daha doğru bir terimdir. Ancak önce halüsinasyon popüler oldu.

yapılandırma

Aşağıdakiler dahil olmak üzere bir modeli eğitmek için kullanılan ilk özellik değerlerini atama süreci:

modelin oluşturma katmanları

verilerin konumu

hiperparametreler, örneğin:

öğrenme hızı

iterasyonlar

optimize edici

kayıp işlevi

Makine öğrenimi projelerinde yapılandırma, özel bir yapılandırma dosyası veya aşağıdaki gibi yapılandırma kitaplıkları kullanılarak yapılabilir:

HParam

Cin

Kemal

doğrulama önyargısı

#fairness

Bilgileri kişinin önceden var olan inançlarını veya hipotezlerini doğrulayacak şekilde arama, yorumlama, destekleme ve hatırlama eğilimi. Makine öğrenimi geliştiricileri, farkında olmadan mevcut inançlarını destekleyen sonuçları etkileyecek şekilde verileri toplayabilir ya da etiketleyebilir. Doğrulama yanlılığı bir dolaylı ön yargı biçimidir.

Deneycinin yanlılığı, deneycinin önceden var olan bir hipotez onaylanana kadar modelleri eğitmeye devam ettiği bir onay yanlılığı biçimidir.

karışıklık matrisi

#fundamentals

Sınıflandırma modelinin yaptığı doğru ve yanlış tahminlerin sayısını özetleyen bir NxN tablosu. Örneğin, ikili sınıflandırma modeli için aşağıdaki karışıklık matrisini göz önünde bulundurun:

Tümör (tahmini) Tümör olmayan (tahmin edilen)

Tümör (kesin referans) 18 (TP) 1 (yanlış negatif)

Tümör Olmayan (kesin referans) 6 (FP) 452 (TN)

Önceki karışıklık matrisi aşağıdakileri gösterir:

Kesin doğrunun Tümör olduğu 19 tahminden 18'ini doğru şekilde sınıflandıran model, 1'i yanlış sınıflandırmıştır.

Kesin doğrunun Tümör Olmayan olduğu 458 tahminden model, 452'yi doğru sınıflandırmış ve 6 tanesini yanlış sınıflandırmıştır.

Çok sınıflı bir sınıflandırma sorunu için karışıklık matrisi, hata örüntülerini belirlemenize yardımcı olabilir. Örneğin, üç farklı iris türünü (Virginica, Versicolor ve Setosa) sınıflandıran 3 sınıflı çok sınıflı bir sınıflandırma modeli için aşağıdaki karışıklık matrisini göz önünde bulundurun. Kesin referans Virginica olduğunda, karışıklık matrisi modelin Versicolor'u Setosa'dan yanlışlıkla tahmin etme olasılığının çok daha yüksek olduğunu göstermektedir:

Setosa (tahmini) Versicolor (tahmini) Virginica (tahmini)

Setosa (kesin referans) 88 12 0

Versicolor (kesin referans) 6 141 7

Virginica (kesin referans) 2 27 109

Başka bir örnek olarak, bir karışıklık matrisi, elle yazılmış rakamları tanımak üzere eğitilmiş bir modelin, 4 yerine 9'u yanlış tahmin ettiğini veya yanlışlıkla 7 yerine 1'i tahmin edebileceğini ortaya çıkarabilir.

Karışıklık matrisleri, hassaslık ve geri çağırma dahil çeşitli performans metriklerini hesaplamak için yeterli bilgileri içerir.

seçim bölgesi ayrıştırma

#language

Bir cümleyi daha küçük dil bilgisi yapılarına ("bileşenler") bölme. Makine öğrenimi sisteminin daha sonraki bir bölümü (ör. doğal dil anlama modeli) bileşenleri orijinal cümleden daha kolay ayrıştırabilir. Örneğin, şu cümleyi düşünün:

Arkadaşım iki kedi sahiplendi.

Bir seçim bölgesi ayrıştırıcısı, bu cümleyi aşağıdaki iki bileşene bölebilir:

Arkadaşım bir isim kelime öbeğidir.

iki kedi sahiplenme fiil ifadesidir.

Bu bileşenler, daha küçük alt bölümlere ayrılabilir. Örneğin, fiil ifadesi

iki kedi sahiplendi

şu alt bölümlere ayrılabilir:

kabullenilmiş bir fiildir.

iki kedi başka bir isim kelime öbeğidir.

bağlama dayalı dil yerleştirme

#language

#üretken yapay zeka

Kelimeleri ve kelime öbeklerini ana dili insan olanların anlayabileceği şekilde "anlama"ya yaklaşan yerleştirme. Bağlamsal dil yerleştirmelerle karmaşık söz dizimini, anlamları ve bağlamı anlayabilirsiniz.

Örneğin, İngilizce inek kelimesini yerleştirebilirsiniz. word2vec gibi daha eski yerleştirmeler İngilizce kelimeleri temsil edebilir. Burada, yerleştirme alanında inek ile boğa arasındaki mesafe, ewe (dişi koyun) ile ram (erkek koyun) veya kadın ile erkek arasındaki mesafeye benzer. Bağlama dayalı dil yerleştirmeler, İngilizce konuşanların bazen inek veya boğa anlamına gelen cow kelimesini zaman zaman kullandığını fark ederek bir adım daha ileri gidebilir.

bağlam penceresi

#language

#üretken yapay zeka

Bir modelin belirli bir istemde işleyebileceği jeton sayısı. Bağlam penceresi ne kadar büyükse model, isteme tutarlı ve tutarlı yanıtlar vermek için o kadar fazla bilgi kullanabilir.

kesintisiz özellik

#fundamentals

Sıcaklık veya ağırlık gibi sınırsız sayıda olası değer içeren kayan nokta özelliği.

Ayrı özellik ile kontrast oluşturun.

uygun örnekleme

Hızlı denemeler yapmak için bilimsel olarak toplanmamış bir veri kümesi kullanma. Daha sonra, bilimsel olarak toplanmış bir veri kümesine geçmek önemlidir.

yakınsaklık

#fundamentals

loss değerleri her iterasyonda çok az değiştiğinde veya hiç değişmediğinde ulaşılan durum. Örneğin, aşağıdaki kayıp eğrisi, yaklaşık 700 yinelemede yakınsaklığı gösterir:

Ek eğitim, modeli iyileştirmediğinde model tümleşir.

Derin öğrenme'de, kayıp değerleri bazen birçok iterasyonda sabit, hemen hemen sabit kalır ve son olarak azalana kadar devam eder. Uzun süreli sabit kayıp değerleri sırasında geçici olarak yanlış bir yakınsaklık hissi oluşabilir.

Ayrıca bkz. erken durma.

dışbükey işlevi

Fonksiyon grafiğinin üzerindeki bölgenin bir dışbükey küme olduğu fonksiyon. Prototipik dışbükey işlevi U harfine benzer. Örneğin, aşağıda tümü dışbükey işlevlerdir:

Öte yandan, aşağıdaki işlev dışbükey değildir. Grafiğin üstündeki bölgenin dışbükey kümesi olmadığına dikkat edin:

Tamamen dışbükey işlevlerde tam olarak bir yerel minimum nokta bulunur ve bu nokta aynı zamanda genel minimum noktadır. Klasik U şekilli işlevler kesinlikle dışbükey işlevlerdir. Ancak bazı dışbükey işlevler (örneğin, düz çizgiler) U şekilli değildir.

Matematiği daha ayrıntılı bir şekilde incelemek için simgeyi tıklayın.

Aşağıdakiler de dahil olmak üzere yaygın kayıp işlevlerinin birçoğu, dışbükey işlevlerdir:

L₂ kaybı

Günlük Kaybı

L₁ normalleştirmesi

L₂ normalleştirmesi

gradyan inişin birçok varyasyonunun, tam olarak dışbükey bir işlevin minimum değerine yakın bir nokta bulması garanti edilir. Benzer şekilde, olasılıksal gradyan azalmanın birçok varyasyonunun, tam olarak dışbükey bir işlevin minimum değerine yakın bir nokta bulma olasılığı yüksektir (yine de garanti edilmez).

İki dışbükey fonksiyonun toplamı (ör. L₂ kaybı + L₁ normalleştirmesi), dışbükey bir işlevdir.

Derin modeller hiçbir zaman dışbükey işlevler değildir. Dışbükey optimizasyon için tasarlanan algoritmaların, genel bir minimum değer olacağı garanti edilmese de derin ağlarda makul derecede iyi çözümler bulma eğiliminde olduğu dikkat çekicidir.

dışbükey optimizasyonu

Dışbükey fonksiyonun minimum değerini bulmak için gradyan iniş gibi matematiksel teknikleri kullanma süreci. Makine öğrenimi üzerine yapılan birçok araştırma, çeşitli problemleri dışbükey optimizasyon problemleri olarak formüle etmeye ve bu problemleri daha verimli şekilde çözmeye odaklanmıştır.

Ayrıntılı bilgi için Boyd ve Vandenberghe'nin Dönşex Optimizasyonu'na göz atın.

dışbükey kümesi

Öklid boşluğunun, alt kümedeki herhangi iki nokta arasına çizilen çizginin tamamen alt küme içinde kaldığı bir alt kümedir. Örneğin aşağıdaki iki şekil dışbükey kümelerdir:

Öte yandan, aşağıdaki iki şekil dışbükey kümeler değildir:

konvolüsyon

#image

Matematikte, günlük konuşmada iki işlevin bir karışımıdır. Makine öğreniminde konvolüsyon, ağırlıkları eğitmek için konvolüsyonel filtre ile giriş matrisini karıştırır.

Makine öğreniminde "konvolüsyon" terimi genellikle konvolüsyonel işlem veya evrimsel katman anlamına gelir.

Konvolüsyon olmadan, makine öğrenimi algoritmasının büyük bir tensör'deki her hücre için ayrı bir ağırlık öğrenmesi gerekir. Örneğin, 2.000 x 2.000 görüntüler üzerinde eğitilen bir makine öğrenimi algoritması, 4 milyon ayrı ağırlıkları bulmak için zorlanır. Konvolüsyonlar sayesinde bir makine öğrenimi algoritması yalnızca konvolüsyonel filtrede her hücrenin ağırlıklarını bulmak zorundadır. Bu da modeli eğitmek için gereken belleği önemli ölçüde azaltır. Konvolüsyonel filtre uygulandığında hücreler arasında çoğaltılır ve böylece her biri filtreyle çarpılır.

konvolüsyon filtresi

#image

Evrimsel operasyonu taki iki oyuncudan biri. (Diğer aktör, giriş matrisinin bir dilimidir.) Konvolüsyonlu filtre, giriş matrisiyle aynı sıralama'ya ancak daha küçük şekle sahip bir matristir. Örneğin, 28x28 boyutunda bir giriş matrisi verildiğinde filtre, 28x28'den küçük herhangi bir 2D matrisi olabilir.

Fotoğraf manipülasyonunda, kıvrımlı bir filtredeki tüm hücreler genellikle birler ve sıfırlardan oluşan sabit bir düzene ayarlanır. Makine öğreniminde, konvolüsyonel filtreler genellikle rastgele sayılarla başlar ve daha sonra ağ, ideal değerleri eğitir.

konvolüsyonel katman

#image

Bir konvolüsyonsal filtrenin bir giriş matrisi boyunca geçtiği derin nöral ağ katmanı. Örneğin aşağıdaki 3x3 konvolüsyonlu filtreyi göz önünde bulundurun:

Aşağıdaki animasyonda, 5x5 giriş matrisini içeren 9 evrişimsel işlemden oluşan evrişimsel bir katman gösterilmektedir. Her evrişimsel işlemin, giriş matrisinin farklı bir 3x3 boyutunda bir dilim üzerinde çalıştığına dikkat edin. Elde edilen 3x3 matris (sağda), 9 evrişimsel işlemin sonuçlarından oluşur:

konvolüsyonel nöral ağ

#image

En az bir katmanın konvolüsyonel katman olduğu sinirsel ağ. Tipik bir konvolüsyonel nöral ağ aşağıdaki katmanların bir kombinasyonundan oluşur:

konvolüsyonel katmanlar

havuz katmanları

yoğun katmanlar

Kıvrımlı nöral ağlar, görüntü tanıma gibi belirli türlerde büyük başarılar elde etmiştir.

konvolüsyonel işlem

#image

Aşağıdaki iki adımlı matematik işlemi:

Evrimsel filtrenin ve bir girdi matrisinin öğe bazında çarpımı. (Giriş matrisi dilimi, konvolüsyonlu filtreyle aynı sıralamaya ve boyuta sahiptir.)

Sonuçta elde edilen ürün matrisindeki tüm değerlerin toplamı.

Örneğin, aşağıdaki 5x5 giriş matrisini ele alalım:

Şimdi aşağıdaki 2x2 konvolüsyonlu filtreyi düşünün:

Her konvolüsyonel işlemde giriş matrisinden 2x2'lik tek bir parça bulunur. Örneğin, giriş matrisinin sol üst tarafındaki 2x2 dilimini kullandığımızı varsayalım. Dolayısıyla, bu dilimdeki evrişim işlemi aşağıdaki gibi görünür:

Evrimsel katman, her biri giriş matrisinin farklı bir dilimi üzerinde hareket eden bir dizi kıvrımlı işlemden oluşur.

maliyet

kayıp ile eş anlamlıdır.

ortak eğitim

Yarı gözetimli öğrenme yaklaşımı, özellikle aşağıdaki koşulların tamamı doğru olduğunda kullanışlıdır:

Veri kümesindeki etiketsiz örneklerin etiketli örneklere oranı yüksektir.

Bu, bir sınıflandırma sorunudur (ikili veya çok sınıflı).

Veri kümesi birbirinden bağımsız ve birbirini tamamlayan iki farklı tahmini özellik grubu içerir.

Ortak eğitim, bağımsız sinyalleri daha güçlü bir sinyale dönüştürür. Örneğin, ikinci el araçları tek tek İyi veya Kötü olarak sınıflandıran bir sınıflandırma modelini düşünün. Tahmine dayalı özelliklerden biri arabanın yılı, markası ve modeli gibi toplu özelliklere, başka bir grup da tahmine dayalı özellik grubu önceki araba sahibinin sürüş ve bakım geçmişine odaklanabilir.

Ortak eğitimle ilgili önemli makale, Blum ve Mitchell tarafından hazırlanan Combining Labeled and Unlabeled Data with Co- Training'dir.

karşıt görüşlere dayalı adalet

#fairness

Bir sınıflandırıcının, bir veya daha fazla hassas özellik ile ilgili durumlar dışında ilkiyle aynı olan başka bir kişi için ürettiği sonucun aynısı olup olmadığını kontrol eden bir adillik metriği. Bir sınıflandırıcının karşıtı adalet açısından değerlendirilmesi, bir modelde olası ön yargı kaynaklarını ortaya çıkarmanın bir yöntemidir.

Karşı görüşlü adalet hakkında daha ayrıntılı bir tartışma için "When Worlds Collide: Integrating Using Counter-facts in Fairness" (Farklı Karşıt Gerçek Varsayımları Adalette Entegre Etme) bölümüne bakın.

kapsam önyargısı

#fairness

Seçim yanlılığı bölümünü inceleyin.

kaza çiçek

#language

Belirsiz bir anlamı olan cümle veya ifade. Çarpışma çiçekleri doğal dil anlamada önemli bir sorundur. Örneğin, Red Tape Holds Up Skyscraper başlığı, bir NLU modeli başlığı kelimenin tam anlamıyla veya mecazi olarak yorumlayabildiği için bir çarpışma çiçeğidir.

Ek notlar için simgeyi tıklayın.

Gizemli başlığı netleştirmek için:

Kırmızı Bant, aşağıdakilerden herhangi birine işaret edebilir:

Yapışkan

Aşırı bürokrasi

Bekleyenler aşağıdakilerden herhangi birine işaret edebilir:

Yapısal destek

Gecikmeler

eleştirmen

#rl

Deep Q-Network ile eş anlamlı.

çapraz entropi

Günlük Kaybı ile çok sınıflı sınıflandırma problemlerine genelleştirilmesi. Çapraz entropi, iki olasılık dağılımı arasındaki farkı ölçer. Ayrıca bkz. şaşkınlık.

çapraz doğrulama

Modeli, model çıkarılan bir veya daha fazla örtüşmeyen veri alt kümesiyle test ederek model yeni verilere ne kadar iyi genelleştireceğini tahmin etmeye yönelik mekanizma.

kümülatif dağılım işlevi (CDF)

Hedef değerden küçük veya bu değere eşit örneklerin sıklığını tanımlayan bir işlev. Örneğin, sürekli değerlerin normal bir dağılımını ele alalım. CDF'ye göre, örneklerin yaklaşık% 50'si ortalama değerden küçük veya ortalamaya eşit olmalıdır. Ayrıca örneklerin yaklaşık% 84'ü ortalamanın üzerindeki bir standart sapmadan az ya da bu değere eşit olmalıdır.

D

veri analizi

Örnekler, ölçümler ve görselleştirmeyi değerlendirerek veriler hakkında bilgi edinme. Veri analizi, özellikle bir veri kümesi ilk kez alındığında, ilk model oluşturulmadan önce yararlı olabilir. Ayrıca denemeleri anlamada ve sistemdeki sorunları gidermede de kritik öneme sahiptir.

veri genişletme

#image

Ek örnekler oluşturmak için mevcut örnekleri dönüştürerek eğitim örneklerinin aralığını ve sayısını yapay olarak artırma. Örneğin, resimlerin özelliklerinizden biri olduğunu ancak veri kümenizin modelin faydalı ilişkilendirmeleri öğrenmesi için yeterli sayıda resim örneği içermediğini varsayalım. İdeal olarak, modelinizin doğru şekilde eğitilebilmesi için veri kümenize yeterli sayıda etiketli görüntü eklemeniz gerekir. Bu mümkün değilse veri genişletme, orijinal resmin birçok varyantını üretmek için her bir resmi döndürebilir, uzatabilir ve yansıtabilir. Böylece, mükemmel eğitim sağlamak için yeterli sayıda etiketli veri elde edilebilir.

DataFrame

#fundamentals

Bellekte veri kümelerini temsil eden popüler bir pandas veri türü.

DataFrame, tabloya veya elektronik tabloya benzer. Bir DataFrame'deki her sütunun bir adı (başlık) vardır ve her satır benzersiz bir sayıyla tanımlanır.

DataFrame'deki her sütun, 2D dizi gibi yapılandırılır. Tek fark, her sütuna kendi veri türünün atanabilmesidir.

Ayrıca resmi pandas.DataFrame referans sayfasını da inceleyin.

veri paralelliği

Bir modelin tamamını birden fazla cihaza çoğaltan ve ardından giriş verilerinin bir alt kümesini her cihaza ileten bir eğitim veya çıkarımı ölçeklendirme yöntemi. Veri paralelliği, çok büyük toplu boyutlarda eğitim ve çıkarım yapmanızı sağlayabilir. Ancak veri paralelliği, modelin tüm cihazlara sığacak kadar küçük olmasını gerektirir.

Veri paralelliği genellikle eğitimi ve çıkarımı hızlandırır.

Ayrıca model paralellik konusuna da bakın.

veri kümesi veya veri kümesi

#fundamentals

Genellikle (ancak özel olarak değil) aşağıdaki biçimlerden birinde düzenlenmiş ham veri koleksiyonu:

e-tablo

CSV (virgülle ayrılmış değerler) biçiminde bir dosya

Veri Kümesi API'sı (tf.data)

#TensorFlow

Verileri okumak ve makine öğrenimi algoritmasının gerektirdiği bir forma dönüştürmek için üst düzey bir TensorFlow API. tf.data.Dataset nesnesi, her öğenin bir veya daha fazla Tensor içerdiği bir öğe dizisini temsil eder. tf.data.Iterator nesnesi, Dataset öğelerine erişim sağlar.

Dataset API hakkında ayrıntılar için TensorFlow Programmer's Guide (TensorFlow Programcı Kılavuzu) dokümanındaki tf.data: Build TensorFlow giriş ardışık düzenleri bölümüne bakın.

karar sınırı

İkili sınıf veya çok sınıflı sınıflandırma problemlerinde bir model tarafından öğrenilen sınıflar arasındaki ayırıcı. Örneğin, ikili sınıflandırma sorununu temsil eden aşağıdaki resimde karar sınırı, turuncu sınıf ile mavi sınıf arasındaki sınırdır:

karar ormanı

#df

Birden fazla karar ağacından oluşturulmuş bir model. Bir karar ormanı, karar ağaçlarına ait tahminleri toplayarak bir tahminde bulunur. Popüler karar ormanları arasında rastgele ormanlar ve gradyan destekli ağaçlar bulunur.

karar eşiği

Sınıflandırma eşiği ile eş anlamlıdır.

karar ağacı

#df

Hiyerarşik olarak düzenlenmiş bir dizi conditions ve conditions oluşan gözetimli öğrenme modeli. Örneğin, aşağıda bir karar ağacı gösterilmektedir:

kod çözücü

#language

Genel olarak işlenmiş, yoğun veya dahili bir temsilden daha ham, seyrek veya harici bir temsile dönüştürme yapan herhangi bir ML sistemi.

Kod çözücüler genellikle daha büyük bir modelin bileşenidir. Bu modelde, sıklıkla bir kodlayıcı ile eşlenir.

Diziden sıralı görevlerde kod çözücü, bir sonraki diziyi tahmin etmek için kodlayıcı tarafından oluşturulan dahili durumla başlar.

Transformer mimarisindeki kod çözücü tanımı için Transformer'a bakın.

derin model

#fundamentals

Birden fazla gizli katman içeren nöral ağ.

Derin model, derin sinir ağı olarak da adlandırılır.

Geniş model ile kontrast oluşturun.

derin sinir ağı : derin nöral ağ

Derin model ile eş anlamlıdır.

Derin Q-Ağ (DQN)

#rl

Q-learning'de Q işlevlerini tahmin eden derin bir nöral ağ.

Eleştirmen, Derin Q-Network ile eş anlamlıdır.

demografik benzerlik

#fairness

Bir modelin sınıflandırmasının sonuçları belirli bir hassas özelliğe bağlı değilse sağlanan adillik metriği.

Örneğin, Glubbdubdrib Üniversitesi'ne hem Lilliputanlar hem de Brobdingnag kullanıcıları başvurursa, bir grubun ortalama olarak diğerinden daha nitelikli olup olmadığına bakılmaksızın, kabul edilen Lilliputyalıların yüzdesi, kabul edilen Brobdingnaglilerin yüzdesiyle aynı olduğunda demografik denklik elde edilir.

Sınıflandırma sonuçlarının toplu olarak hassas özelliklere bağlı olmasına izin veren ancak belirtilen belirli kesin referans etiketlerine ait sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin vermeyen olasılıklar ve fırsat eşitliği ile karşıtlık. Demografik denklik açısından optimizasyon yaparken karşılaşabileceğiniz zorlukları keşfeden bir görselleştirme için "Daha akıllı makine öğrenimi ile ayrımcılığa saldırıda bulunma" bölümüne bakın.

parazit giderme

#language

Kendi kendine gözetimli öğrenmeye yönelik yaygın bir yaklaşımdır. Bu yaklaşım:

Gürültü, veri kümesine yapay olarak eklenir.

model gürültüyü kaldırmaya çalışır.

Parazit giderme, etiketsiz örneklerden öğrenmeyi sağlar. Orijinal veri kümesi hedef veya etiket görevi görürken gürültülü veriler giriş olarak kullanılır.

Bazı maskeli dil modelleri, gürültü gidermeyi aşağıdaki şekilde kullanır:

Bazı jetonlar maskelenerek etiketlenmemiş cümlelere yapay olarak gürültü eklenir.

Model, orijinal jetonları tahmin etmeye çalışır.

yoğun özellik

#fundamentals

Değerlerin çoğunun veya tümünün sıfır olmayan bir özellik, genellikle kayan nokta değerlerinden oluşan bir Tensor. Örneğin, aşağıdaki 10 öğeli Tensor yoğundur çünkü değerlerinin 9'u sıfır değildir:

8 3 7 5 2 4 0 4 9 6

Seyrek özellik ile kontrast oluşturun.

yoğun katman

Tamamen bağlı katman ile eş anlamlı.

derinlik

#fundamentals

Bir nöral ağda aşağıdakilerin toplamı:

gizli katmanların sayısı

çıkış katmanlarının sayısı (genellikle 1)

yerleştirilen katmanların sayısı

Örneğin, beş gizli katman ve bir çıkış katmanına sahip bir nöral ağının derinliği 6'dır.

Giriş katmanının derinliği etkilemediğine dikkat edin.

derinlikli ayrılabilir konvolüsyonel nöral ağ (sepCNN)

#image

Inception'a dayalı, ancak Inception modüllerinin yerini derinliklerine ayrılabilen evrişlerle değiştirilmiş bir konvolüsyonel nöral ağ mimarisi. Xception olarak da bilinir.

Derinlemesine ayrılabilir konvolüsyon (ayrıca ayrılabilir konvolüsyon olarak da kısaltılır), işlem açısından daha verimli olan iki ayrı konvolüsyon işlemine ayırır: birincisi, derinliği 1 (n ≠ n ÷ 1) ve ikincisi, ikincisi, noktasal konvolüsyon, 1 (n ◦ n ÷ 1) ve ikinci bir noktasal konvolüsyon (1 ÷ uzunluk ve 1 genişliğinde 1).

Daha fazla bilgi edinmek için Xception: Depthside Separable Convolutions ile Derin Öğrenme sayfasına göz atın.

türetilmiş etiket

proxy etiketi ile eş anlamlı.

cihaz

#TensorFlow

#GoogleCloud

Aşağıdaki iki olası tanımına sahip aşırı yüklenmiş bir terim:

TensorFlow oturumu çalıştırabilen CPU, GPU ve TPU'lar dahil olmak üzere bir donanım kategorisi.

Bir makine öğrenimi modelini hızlandırıcı çiplerde (GPU'lar veya TPU'lar) eğitirken sistemin tensörleri ve yerleştirmeleri fiilen işleyen kısmıdır. Cihaz hızlandırıcı çiplerle çalışır. Buna karşılık ana makine genellikle bir CPU üzerinde çalışır.

diferansiyel gizlilik

Makine öğreniminde, bir modelin eğitim grubunda yer alan tüm hassas verilerin (ör. bir kişinin kişisel bilgileri) açığa çıkmasını önlemek için kullanılan bir anonimleştirme yaklaşımıdır. Bu yaklaşım, model belirli bir kişi hakkında çok fazla bilgi edinmemesini veya hatırlamasını sağlar. Bu işlem, ayrı veri noktalarını gizlemek için model eğitimi sırasında örnekleme ve gürültü ekleyerek gerçekleştirilir. Böylece, hassas eğitim verilerinin açığa çıkma riski azalır.

Diferansiyel gizlilik, makine öğrenimi dışında da kullanılır. Örneğin, veri bilimciler farklı demografik gruplar için ürün kullanım istatistiklerini hesaplarken bazen bireysel gizliliği korumak için diferansiyel gizlilikten yararlanır.

boyut azaltma

Genellikle yerleştirme vektörüne dönüştürülerek bir özellik vektörindeki belirli bir özelliği temsil etmek için kullanılan boyutların sayısını azaltma.

boyutlar

Aşağıdaki tanımlardan herhangi birine sahip aşırı yüklenmiş terim:

Bir Tensor'daki koordinat düzeylerinin sayısı. Örneğin:

Skaler sıfır boyuta sahiptir (örneğin, ["Hello"]).

Bir vektörün bir boyutu vardır (örneğin, [3, 5, 7, 11]).

Bir matrisin iki boyutu vardır; örneğin, [[2, 4, 18], [5, 7, 14]].

Tek boyutlu bir vektördeki belirli bir hücreyi tek koordinatla benzersiz şekilde belirtebilirsiniz. Belirli bir hücreyi iki boyutlu bir matriste benzersiz bir şekilde belirtmek için iki koordinat gereklidir.

Bir özellik vektörindeki girişlerin sayısı.

Yerleştirme katmanındaki öğe sayısı.

doğrudan istem

#language

#üretken yapay zeka

Sıfır çekim istemi ile eş anlamlıdır.

ayrık özellik

#fundamentals

Sınırlı bir olası değer grubuna sahip bir özellik. Örneğin, değerleri yalnızca hayvan, sebze veya mineral olabilen bir özellik, ayrı (veya kategorik) bir özelliktir.

Sürekli özellik ile kontrast.

ayrımcılık modeli

Bir veya daha fazla özellik grubundan etiketleri tahmin eden bir model. Daha resmi bir ifadeyle, ayrımcı modeller, özelliklere ve ağırlıklara göre bir çıktının koşullu olasılığını tanımlar. Yani:

p(output | features, weights)

Örneğin, bir e-postanın özellikler ve ağırlıklar üzerinden spam olup olmadığını tahmin eden bir model, ayrımcı bir modeldir.

Sınıflandırma ve regresyon modelleri dahil olmak üzere gözetimli öğrenme modellerinin büyük çoğunluğu ayrımlı modellerdir.

Üretken model ile kontrast oluşturun.

ayrımcı

Örneklerin gerçek mi yoksa sahte mi olduğunu belirleyen bir sistem.

Alternatif olarak, üretken tarafından oluşturulan örneklerin gerçek mi yoksa sahte mi olduğunu belirleyen, üretken yapay zekadaki alt sistemdir.

farklı etki

#fairness

Farklı popülasyon alt gruplarını orantısız bir şekilde etkileyen kişiler hakkında kararlar almak. Bu genellikle algoritmik bir karar alma sürecinin bazı alt gruplara diğerlerinden daha fazla zarar verdiği veya fayda sağladığı durumları ifade eder.

Örneğin, bir Lilliputian'ın minyatür ev kredisi için uygun olup olmadığını belirleyen bir algoritmanın, posta adresinde belirli bir posta kodu olması durumunda onu "uygun olmayan" olarak sınıflandırma olasılığının daha yüksek olduğunu varsayalım. Büyük Endian Lilliputyenlerinin bu posta koduna sahip posta adreslerine sahip olma olasılığı, Little-Endian Lilliputya ülkelerindekilere göre daha yüksekse bu algoritmanın etkisi farklı olabilir.

Ayrı ayrı değerlendirme, alt grup özellikleri algoritmaya dayalı karar verme sürecine açık girişler olduğunda ortaya çıkan eşitsizliklere odaklanır.

farklı değerlendirme

#fairness

Öznelerin hassas özelliklerinin, farklı insan alt gruplarının farklı şekilde ele alınması için algoritmik bir karar alma sürecine dahil edilmesi.

Örneğin, Lilliputyenlerin kredi başvurusunda sağladıkları verilere dayanarak minyatür ev kredisi almaya uygun olduklarını belirleyen bir algoritmayı düşünün. Algoritma, Lilliputian'ın Big-Endian veya Little-Endian ilişkilendirmesini giriş olarak kullanırsa bu boyut boyunca farklı değerlendirmeler uygular.

Ayrılan etki, algoritmik kararların alt gruplar üzerindeki toplumsal etkisindeki eşitsizliklere odaklanır (alt grupların modele girdi olup olmamasından bağımsız olarak).

Uyarı: Hassas özellikler neredeyse her zaman verilerin sahip olabileceği diğer özelliklerle ilişkili olduğundan, hassas özellik bilgilerinin açıkça kaldırılması alt grupların eşit şekilde ele alınacağını garanti etmez. Örneğin, hâlâ posta kodu içeren bir eğitim veri kümesinden hassas demografik özellikleri kaldırmak, alt grupların farklı şekilde ele alınmasını sağlayabilir. Ancak posta kodu diğer demografik bilgiler için temsilci görevi görebilir.

damıtma

#üretken yapay zeka

Bir model (model olarak bilinir) boyutunu, orijinal modelin tahminlerini mümkün olduğunca güvenilir bir şekilde emüle eden daha küçük bir modele (model olarak bilinir) küçültme süreci. Küçük modelin büyük modele (öğretmen) göre iki temel avantajı olduğundan, ayrıştırma da yararlıdır:

Daha hızlı çıkarım süresi

Azaltılmış bellek ve enerji kullanımı

Ancak, öğrencinin tahminleri genellikle öğretmenin tahminleri kadar iyi olmaz.

Distilasyon, öğrenci ve öğretmen modellerinin tahminlerinin çıktıları arasındaki farka göre kayıp işlevini en aza indirecek şekilde öğrenci modelini eğitir.

Damıtmayı aşağıdaki terimlerle karşılaştırma ve ayırt etme:

ince ayar

isteme dayalı öğrenme

distribution

Belirli bir özellik veya etiket için farklı değerlerin sıklığı ve aralığı. Dağılım, belirli bir değerin ne kadar olası olduğunu yakalar.

Aşağıdaki resimde, iki farklı dağılımın histogramları gösterilmektedir:

Sol tarafta, zenginliğin ve bu zenginliğe sahip kişilerin sayısı arasındaki güç yasasının dağılımı verilmiştir.

Sağda, yüksekliğin normal dağılımı ile bu yüksekliğe sahip insan sayısının karşılaştırması.

Her özelliğin ve etiketin dağılımını anlamak, değerleri nasıl normalleştireceğinizi ve aykırı değerleri nasıl tespit edeceğinizi belirlemenize yardımcı olabilir.

Dağıtım dışı ifadesi, veri kümesinde görünmeyen veya çok nadir görülen bir değeri ifade eder. Örneğin, Satürn gezegenine ait bir görüntü, kedi resimlerinden oluşan bir veri kümesi için dağıtımın dışında kabul edilir.

bölünmüş kümeleme

#clustering

Hiyerarşik kümeleme konusuna bakın.

aşağı örnekleme

#image

Aşağıdakilerden herhangi biri anlamına gelebilecek aşırı yüklenmiş terim:

Bir modeli daha verimli bir şekilde eğitmek için bir özellikteki bilgi miktarını azaltma. Örneğin, bir görüntü tanıma modelini eğitmeden önce, yüksek çözünürlüklü resimlerin daha düşük çözünürlüklü bir biçime düşürülmesi.

Yeterince temsil edilmeyen sınıflarda model eğitimini iyileştirmek amacıyla, aşırı temsil edilen sınıf örneklerinin orantısız derecede düşük bir yüzdesiyle eğitim. Örneğin, sınıf dengesiz bir veri kümesinde modeller, ana sınıf hakkında çok fazla bilgi edinme eğilimindeyken azınlık sınıfı hakkında yeterli bilgi edinmez. Düşük örnekleme, çoğunluk ve azınlık sınıflarına yönelik eğitim miktarının dengelenmesine yardımcı olur.

DQN

#rl

Deep Q-Network'ün kısaltmasıdır.

ayrılma normalleştirmesi

Nöral ağların eğitiminde yararlı olan bir düzenleme biçimi. Ayrılma normalleştirmesi, tek bir renk geçişi adımı için bir ağ katmanındaki sabit sayıdan rastgele seçilen birimi kaldırır. Ne kadar çok birim atlanırsa normalleştirme o kadar güçlü olur. Bu, ağı son derece büyük bir küçük ağ topluluğunu emüle edecek şekilde eğitmeye benzer. Tüm ayrıntılar için Ayrılma: Nöral Ağların Aşırı Uymasını Önlemenin Basit Yolu bölümüne bakın.

dinamik

#fundamentals

Sık yapılan veya sürekli yapılan bir şey. Dinamik ve online terimleri, makine öğreniminin eş anlamlılarıdır. Makine öğreniminde dinamik ve online'ın yaygın kullanımları aşağıda verilmiştir:

Dinamik model (veya online model), sık sık veya sürekli olarak yeniden eğitilen bir modeldir.

Dinamik eğitim (veya online eğitim), sık sık veya sürekli eğitim sürecidir.

Dinamik çıkarım (veya online çıkarım), isteğe bağlı olarak tahmin oluşturma sürecidir.

dinamik model

#fundamentals

Sık sık (hatta sürekli olarak) yeniden eğitilen bir model. Dinamik model, değişen verilere sürekli uyum sağlayan bir "yaşam boyu öğrenen"dir. Dinamik model, online model olarak da bilinir.

Statik model ile kontrast oluşturun.

E

hemen yürütme

#TensorFlow

operations hemen çalıştığı TensorFlow programlama ortamı. Buna karşılık, grafik yürütme'de çağrılan işlemler açık bir şekilde değerlendirilene kadar çalışmaz. Erken yürütme, çoğu programlama dilindeki koda çok benzeyen zorunlu bir arayüzdür. İstekli yürütme programlarında hata ayıklamak, grafik yürütme programlarından genellikle çok daha kolaydır.

erken durdurma

#fundamentals

Eğitim kaybının azalması tamamlanmadan önce eğitimin sonlandırılmasını içeren bir düzenleme yöntemidir. Erken durdurma sırasında, bir doğrulama veri kümesi üzerindeki kayıp artmaya başladığında (yani genelleme performansı kötüleştiğinde) modeli eğitmeyi kasıtlı olarak durdurursunuz.

Ek notlar için simgeyi tıklayın.

Erken durdurma mantıksız gelebilir. Sonuçta bir modele, kayıp azalırken eğitimi durdurmasını söylemek, şefe tatlı tamamen pişmeden önce yemek yapmayı bırakmasını söylemek gibi görünebilir. Bununla birlikte, bir modelin çok uzun süre eğitilmesi fazla uyuma yol açabilir. Yani bir modeli çok uzun süre eğitirseniz model, eğitim verilerine o kadar yakın sığabilir ve yeni örnekler hakkında iyi tahminlerde bulunamayabilir.

toprak taşıyıcının mesafesi (EMD)

İki dağıtımın göreceli benzerliğinin ölçüsü. Dünya hareketinin mesafesi ne kadar düşük olursa, dağılımlar da o kadar benzerdir.

mesafeyi düzenle

#language

İki metin dizesinin birbirine ne kadar benzer olduğunun ölçümü. Makine öğreniminde mesafe düzenleme, hem hesaplamanın kolay hem de benzer olduğu bilinen iki dizeyi karşılaştırmanın veya belirli bir dizeye benzer dizeleri bulmanın etkili bir yoludur. Bu nedenle yararlıdır.

Düzenleme mesafesinin birkaç tanımı vardır. Bunların her biri farklı dize işlemleri kullanır. Örneğin, Levenshtein mesafesi en az silme, ekleme ve değiştirme işlemini dikkate alır.

Örneğin, "kalp" ve "dart" kelimeleri arasındaki Levenshtein mesafesi 3'tür, çünkü aşağıdaki 3 düzenleme, bir kelimeyi diğerine dönüştürmek için yapılacak en az değişikliktir:

kalp → deart ("h" yerine "d")

deart → dart ("e"yi silin)

dart → dart ("s" girin)

Einsum gösterimi

İki tensörün nasıl birleştirileceğini açıklayan etkili bir gösterim. Tensörler, bir tensörün elemanları ile diğer tensörün elemanlarının çarpılması ve ardından çarpımlar toplanarak birleştirilir. Einsum gösterimi, her bir tensörün eksenlerini tanımlamak için semboller kullanır ve bu semboller, yeni elde edilen tensörün şeklini belirtecek şekilde yeniden düzenlenir.

NumPy, yaygın bir Einsum uygulaması sağlar.

yerleştirme katmanı

#language

#fundamentals

Daha düşük bir boyut yerleştirme vektörünü kademeli olarak öğrenmek için yüksek boyutlu bir kategorik özellik üzerinde eğitilen özel bir gizli katman. Yerleştirme katmanı, bir sinir ağının yalnızca yüksek boyutlu kategorik özellikle eğitimden çok daha verimli bir şekilde eğitilmesini sağlar.

Örneğin, Earth şu anda yaklaşık 73.000 ağaç türünü desteklemektedir. Ağaç türlerinin modelinizde bir özellik olduğunu varsayalım. Bu durumda modelinizin giriş katmanında 73.000 öğe uzunluğunda bir sıcak vektör bulunur. Örneğin, baobab şuna benzer bir şekilde temsil edilir:

73.000 öğelik bir dizi çok uzundur. Modele yerleştirme katmanı eklemezseniz eğitim, 72.999 sıfırın çarpılması nedeniyle çok fazla zaman alacaktır. Belki de yerleştirme katmanını 12 boyuttan oluşacak şekilde seçersiniz. Sonuç olarak, yerleştirme katmanı her bir ağaç türü için kademeli olarak yeni bir yerleştirme vektörü öğrenir.

Belirli durumlarda, karma oluşturma, yerleştirme katmanına makul bir alternatiftir.

yerleştirme alanı

#language

Daha yüksek boyutlu bir vektör alanından gelen özellikler d boyutlu vektör uzayıyla eşlenir. İdeal olarak, yerleştirme alanı anlamlı matematik sonuçları veren bir yapı içerir. Örneğin, ideal bir yerleştirme alanında, yerleştirmelerin eklenmesi ve çıkarılması kelime analojisi görevlerini çözebilir.

İki yerleştirmenin nokta çarpımı, benzerliklerinin ölçüsüdür.

yerleştirme vektörü

#language

Genel olarak, söz konusu gizli katmana yapılan girişleri açıklayan herhangi bir gizli katmandan alınan kayan nokta sayıları dizisi. Çoğunlukla yerleştirme vektörü, bir yerleştirme katmanında eğitilen kayan nokta sayıları dizisidir. Örneğin, bir yerleştirme katmanının Earth'teki 73.000 ağaç türünün her biri için bir yerleştirme vektörü öğrenmesi gerektiğini varsayalım. Aşağıdaki dizi, bir baobab ağacının yerleştirme vektörü olabilir:

Yerleştirme vektörü, rastgele sayılardan oluşan bir küme değildir. Yerleştirme katmanı, bir nöral ağının eğitim sırasında diğer ağırlıkları öğrenmesine benzer şekilde, bu değerleri eğitim aracılığıyla belirler. Dizinin her öğesi, bir ağaç türünün bazı özelliklerine göre bir derecelendirmedir. Hangi element hangi ağaç türünün özelliğini temsil eder? Bunu insanların belirlemesi çok zordur.

Yerleştirme vektörünün matematiksel açıdan dikkat çeken tarafı, benzer öğelerin benzer kayan nokta sayıları kümelerine sahip olmasıdır. Örneğin, benzer ağaç türlerinin yüzen nokta sayıları, farklı ağaç türlerine kıyasla daha benzerdir. Kızılağaçlar ve sekoyalar birbiriyle ilişkili ağaç türleridir. Bu nedenle, kızılağaç ve hindistan cevizi palmiyelerine kıyasla daha benzer yüzen işaret sayıları vardır. Modeli aynı girişle yeniden eğitseniz bile yerleştirme vektörindeki sayılar, modeli her yeniden eğittiğinizde değişir.

ampirik kümülatif dağılım işlevi (eCDF veya EDF)

Gerçek bir veri kümesindeki deneysel ölçümleri temel alan kümülatif dağılım işlevi. X ekseni boyunca herhangi bir noktadaki işlevin değeri, veri kümesindeki gözlemlerin belirtilen değerden küçük veya bu değere eşit olan oranıdır.

deneysel risk minimuma alma (ERM)

Eğitim kümesinde kaybı en aza indiren fonksiyonu seçme. Yapısal risk minimumlaştırma ile kontrast.

kodlayıcı

#language

Genel olarak ham, seyrek veya harici temsili daha işlenmiş, yoğun veya daha dahili bir temsile dönüştüren herhangi bir makine öğrenimi sistemi.

Kodlayıcılar genellikle daha büyük bir modelin bileşenidir. Bu modelde, sıklıkla bir kod çözücü ile eşlenir. Bazı Transformatörler, kodlayıcıları kod çözücülerle eşler. Diğerleri ise yalnızca kodlayıcıyı veya yalnızca kod çözücüyü kullanır.

Bazı sistemler, kodlayıcının çıkışını sınıflandırma veya regresyon ağına giriş olarak kullanır.

Diziden sıralı görevlerde, kodlayıcı bir giriş sırası alır ve bir dahili durum (vektör) döndürür. Ardından kod çözücü, bir sonraki diziyi tahmin etmek için bu dahili durumu kullanır.

Transformer mimarisindeki kodlayıcının tanımı için Dönüştürücü bölümüne bakın.

topluluk

Bağımsız olarak eğitilmiş, tahminlerinin ortalaması alınan veya toplanan bir model koleksiyonu. Çoğu durumda, bir koleksiyon tek bir modelden daha iyi tahminler üretir. Örneğin rastgele orman, birden fazla karar ağacından oluşturulmuş bir topluluktur. Tüm karar ormanlarının topluluk olmadığını unutmayın.

entropi

#df

Bilgi teorisinde, bir olasılık dağılımının ne kadar öngörülemez olduğunun açıklamasıdır. Alternatif olarak entropi, her bir örneğin ne kadar bilgi içerdiği olarak da tanımlanır. Rastgele bir değişkenin tüm değerlerinin eşit olma olasılığı eşit olduğunda dağılım, mümkün olan en yüksek entropiye sahiptir.

"0" ve "1" olası iki değerine sahip bir grubun entropisi (örneğin, ikili sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

H entropidir.

p, "1" örneklerinin oranıdır.

q, "0" örneklerinin kesiridir. Unutmayın, q = (1 - p)

log genellikle log₂'dir. Bu örnekte, entropi birimi birazdır.

Örneğin, aşağıdakilerin geçerli olduğunu varsayalım:

"1" değerini içeren 100 örnek

300 örnek "0" değerini içeriyor

Dolayısıyla entropi değeri şu şekildedir:

y = 0,25

q = 0,75

H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = Örnek başına 0,81 bit

Kusursuz dengeli bir grubun (örneğin, 200 "0" ve 200 "1"), örnek başına 1,0 bit'lik entropisi olacaktır. Bir grup daha dengesiz hale geldikçe entropisi 0, 0'a doğru hareket eder.

Karar ağaçlarında entropi, bilgi kazanımının formüle edilmesine yardımcı olarak bölücünün sınıflandırma kararı ağacının büyümesi sırasında koşulları seçmesine yardımcı olur.

Entropiyi şununla karşılaştır:

cin saflığı

çapraz entropi kayıp işlevi

Entropi genellikle Shannon entropisi olarak adlandırılır.

ortam

#rl

Pekiştirmeli öğrenmede, aracıyı içeren ve temsilcinin dünyanın durumunu gözlemlemesini sağlayan dünya. Örneğin, temsil edilen dünya satranç gibi bir oyun veya labirent gibi fiziksel bir dünya olabilir. Aracı ortama bir işlem uyguladığında, ortam durumlar arasında geçiş yapar.

bölüm

#rl

Pekiştirmeli öğrenmede, aracı'nın bir ortam öğrenmek için tekrarlanan girişimlerinin her biri.

sıfır zaman

#fundamentals

Her bir örnek bir kez işlendiğinden, eğitim grubunun tamamı için tam eğitim geçer.

Bir dönem, N/toplu boyutu eğitim iterasyonlarını temsil eder. Burada N, örneklerin toplam sayısıdır.

Örneğin, aşağıdakilerin geçerli olduğunu varsayalım:

Veri kümesi 1.000 örnekten oluşur.

Grup boyutu 50 örnektir.

Bu nedenle, tek bir dönem 20 yineleme gerektirir:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

epsilon greedy politikası

#rl

Pekiştirmeli öğrenmede, epsilon olasılığıyla rastgele politika uygulayan bir politika veya epsilon olasılığıyla açılır politika politikaları uygulanır. Örneğin, epsilon 0,9 ise politika% 90'ında rastgele bir politika, %10'unda ise açgözlü bir politika uygulanır.

Algoritma, art arda gelen bölümlerde epsilon'un değerini azaltarak rastgele bir politika izlemekten açgözlü bir politika izlemeye geçer. Temsilci, politikayı değiştirerek önce ortamı rastgele inceler ve daha sonra rastgele keşif sonuçlarından hevesli bir şekilde yararlanır.

fırsat eşitliği

#fairness

Bir modelin hassas bir özelliğin tüm değerleri için istenen sonucu eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan adillik metriği. Diğer bir deyişle, bir model için istenen sonuç pozitif sınıf ise hedef, gerçek pozitif oranı tüm gruplar için aynı olmasıdır.

Fırsat eşitliği, olasılıkların eşit olmasıyla ilgilidir. Bu da gerçek pozitif oranların ve yanlış pozitif oranlarının tüm gruplar için aynı olmasını gerektirir.

Glubbdubdrib Üniversitesi'nin hem Lilliputyalıları hem de Brobdingnagianları titiz bir matematik programına kabul ettiğini varsayalım. Lilliputians ortaokulları, matematik derslerinden oluşan güçlü bir müfredat sunar. Öğrencilerin büyük çoğunluğu üniversite programı için uygun niteliklere sahiptir. Brobdingnagians'ın ortaokulları hiçbir matematik dersi vermiyor ve sonuç olarak bu eğitime uygun olan öğrencilerin sayısı çok daha az. Uygun nitelikteki öğrencilerin Lilliputyan veya Brobdingnagian'dan bağımsız olarak kabul edilme olasılıkları eşitse "kabullenildi" etiketi uyrukla (Lilliputian veya Brobdingnagian) ilgili olarak belirlenmiş "kabul edildi" etiketi için fırsat eşitliği kabul edilir.

Örneğin, 100 Lilliputyan ve 100 Brobdingnagilinin Glubbdubdrib Üniversitesi'ne başvurduğunu, kabul kararlarının aşağıdaki şekilde alındığını varsayalım:

Tablo 1. Lilliputian başvuruları (%90'ı uygun)

Uygun Uygun Değil

Kabul edildi 45 3

Reddedildi 45 7

Toplam 90 10

Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50
Uygun olmayan öğrencilerin yüzdesi: 7/10 =%70
Kabul edilen Lilliputya öğrencilerinin toplam yüzdesi: (45+3)/100 = %48

Tablo 2. Brobdingnagian'a başvuranlar (%10'u uygun):

Uygun Uygun Değil

Kabul edildi 5 9

Reddedildi 5 81

Toplam 10 90

Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50
Uygun olmayan öğrencilerin yüzdesi: 81/90 =%90
Kabul edilen Brobdingnagian öğrencilerinin toplam yüzdesi: (5+9)/100 = %14

Yukarıdaki örnekler nitelikli öğrencilerin kabul edilme fırsatı eşitliğini karşılamaktadır, çünkü nitelikli Lilliputyalıların ve Brobdingnagi'lerin kabul edilme şansı% 50'dir.

Fırsat eşitliği sağlanıyor olsa da aşağıdaki iki adalet metriği karşılanmaz:

demografik denklik: Lilliputanlar ve Brobdingnagililer üniversiteye farklı oranlarda kabul edilir. Lilliputya öğrencilerinin% 48'ine kabul edilir, ancak Brobdingnag öğrencilerinin yalnızca% 14'ü kabul edilir.

olağanüstü olasılıklar: Uygun Lilliputian ve Brobdingnagian öğrencilerinin kabul edilme şansı aynı olsa da, kalifiye olmayan Lilliputanlar ve Brobdingnagian'ların aynı reddedilme şanslarına sahip olan ek kısıtlamalar karşılanmaz. Uygun olmayan Lilliputanlar% 70 ret oranına sahipken, uygun olmayan Brobdingnagi'lerin reddedilme oranı% 90'dır.

Fırsat eşitliği hakkında daha ayrıntılı bir tartışma için "Gözetimli Öğrenimde Fırsat Eşitliği" bölümüne bakın. Ayrıca, fırsat eşitliği amacıyla optimizasyon yaparken karşılaşabileceğiniz zorlukların açıklandığı bir görselleştirme için "Daha akıllı makine öğrenimi ile ayrımcılığa müdahale" konusuna bakın.

eşit oranlar

#fairness

Bir modelin, hassas bir özelliğin tüm değerleri için hem pozitif sınıf hem de negatif sınıf (yalnızca tek bir sınıf veya özel olarak değil) açısından eşit derecede iyi sonuçlar tahmin edip etmediğini değerlendirmek için kullanılan bir adalet metriği. Diğer bir deyişle, hem gerçek pozitif oranı hem de yanlış negatif oranı tüm gruplar için aynı olmalıdır.

Oranların eşitlenmesi, fırsat eşitliğiyle ilgilidir. Bu, yalnızca tek bir sınıfın (pozitif ya da negatif) hata oranlarına odaklanır.

Örneğin, Glubbdubdrib Üniversitesi'nin hem Lilliputanlar'ı hem de Britanyalıları titiz bir matematik programına kabul ettiğini varsayalım. Lilliputyenlerin ortaokulları, matematik derslerinden oluşan güçlü bir müfredat sunar ve öğrencilerin büyük çoğunluğu üniversite programı için uygundur. Brobdingnagians'ın ortaokullarında hiç matematik dersi vermiyor ve sonuç olarak öğrencilerin çok daha azı uygun niteliklere sahip. Başvuru sahibinin Lilliputyalı veya Brobdingnagian olup olmadığı ve kalifiye olması durumunda programa kabul edilme olasılıklarının eşit olması ve uygun niteliklere sahip olmaması durumunda reddedilme olasılıklarının eşit olması koşuluyla, ihtimaller eşittir.

100 Lilliput ve 100 Brobdingnagilinin Glubbdubdrib Üniversitesi'ne başvurduğunu ve kabul kararlarının aşağıdaki şekilde alındığını varsayalım:

Tablo 3. Lilliputian başvuruları (%90'ı uygun)

Uygun Uygun Değil

Kabul edildi 45 2

Reddedildi 45 8

Toplam 90 10

Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50
Uygun olmayan öğrencilerin yüzdesi: 8/10 =%80
Kabul edilen Lilliputya öğrencilerinin toplam yüzdesi: (45+2)/100 = %47

Tablo 4. Brobdingnagian'a başvuranlar (%10'u uygun):

Uygun Uygun Değil

Kabul edildi 5 18

Reddedildi 5 72

Toplam 10 90

Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50
Uygun olmayan öğrencilerin yüzdesi: 72/90 =%80
Kabul edilen Brobdingnagian öğrencilerinin toplam yüzdesi: (5+18)/100 = %23

Uygun olan Lilliput ve Brobdingnagian öğrencilerinin kabul edilme şansı% 50, kalifiye olmayan Lilliputian ve Brobdingnagian'ın reddedilme olasılıkları ise% 80 olduğundan, oran eşittir.

Not: Bu yaklaşımda eşit şanslar sağlansa da demografik denklik memnun değildir. Lilliput ve Brobdingnagian öğrencileri Glubbdubdrib Üniversitesi'ne farklı oranlarda kabul edilir; Lilliputya öğrencilerinin% 47'si kabul edilir, Brobdingnagian öğrencilerin% 23'ü de kabul edilir.

Eşitleştirilmiş oranlar "Gözetimli Öğrenimde Fırsat Eşitliği" kapsamında resmi olarak şu şekilde tanımlanır: "Tahminci sınır, korunan A özelliğine ve Y ile A'nın bağımsız ve koşula bağlı olması halinde korumalı A özelliğine ve Y sonucuna göre eşitleştirilmiş olasılıkları karşılar."

Not: Oranları, daha esnek fırsat eşitliği metriğiyle karşılaştırın.

Tahmin Aracı

#TensorFlow

Kullanımdan kaldırılan bir TensorFlow API. Predictions yerine tf.keras kullanılmalıdır.

değerlendirme

Bir makine öğrenimi modelinin tahminlerinin kalitesini ölçme süreci. Model geliştirirken değerlendirme metriklerini genellikle yalnızca eğitim grubuna değil, aynı zamanda doğrulama setine ve test kümesine de uygularsınız. Farklı modelleri birbiriyle karşılaştırmak için değerlendirme metrikleri de kullanabilirsiniz.

örnek

#fundamentals

Bir özellik satırının ve muhtemelen bir etiketin değerleri. Gözetimli öğrenme örnekleri iki genel kategoriye ayrılır:

Etiketli örnek, bir veya daha fazla özellik ve bir etiketten oluşur. Etiketli örnekler eğitim sırasında kullanılır.

Etiketsiz örnek, bir veya daha fazla özellikten oluşur ancak etiket içermez. Çıkarım sırasında etiketlenmemiş örnekler kullanılır.

Örneğin, hava koşullarının öğrencilerin test puanları üzerindeki etkisini belirlemek için bir modeli eğittiğinizi varsayalım. Aşağıda üç etiketli örnek verilmiştir:

Özellikler Şirket

Sıcaklık Nem Basınç Test puanı

15 47 998 İyi

19 34 1020 Mükemmel

18 92 1012 Yetersiz

Aşağıda üç etiketsiz örnek verilmiştir:

Sıcaklık Nem Basınç

12 62 1014

21 47 1017

19 41 1021

Bir veri kümesi satırı genellikle örneğin ham kaynağıdır. Yani bir örnek, genellikle veri kümesindeki sütunların bir alt kümesinden oluşur. Ayrıca, örnekteki özellikler özellik çaprazları gibi sentetik özellikleri de içerebilir.

deneyimi tekrar oynatma

#rl

Pekiştirmeli öğrenmede, eğitim verilerindeki zamansal korelasyonları azaltmak için kullanılan bir DQN tekniğidir. Aracı, durum geçişlerini bir tekrar oynatma arabelleğinde depolar, ardından eğitim verileri oluşturmak için tekrar oynatma arabelleğinden geçişleri örnekler.

deneycinin yanlılığı

#fairness

Onay yanlılığı bölümünü inceleyin.

patlayan gradyan problemi

#seq

Derin nöral ağlardaki (özellikle de yinelenen nöral ağlar) gradyanların şaşırtıcı derecede dik (yüksek) olma eğilimi. Dik gradyanlar genellikle derin nöral ağdaki her bir düğümün ağırlıklarında çok büyük güncellemelere neden olur.

Patlayan gradyan sorunuyla karşılaşan modellerin eğitilmesi zor veya imkansız hale gelir. Gradyan kırpma bu sorunu azaltabilir.

Kaybolan gradyan problemi ile karşılaştırın.

F

F₁

Hem hassasiyete hem de geri çağırmaya dayanan bir "toplayıcı" ikili sınıflandırma metriği. Formülü şu şekildedir:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Örneğin, aşağıdaki gibi:

hassasiyet = 0,6

geri çağırma = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Hassasiyet ve geri çağırma birbirine oldukça benzer olduğunda (önceki örnekte olduğu gibi) F₁ ortalamasına yakındır. Hassasiyet ve geri çağırma önemli ölçüde farklılık gösterdiğinde F₁ daha düşük değere daha yakındır. Örneğin:

hassasiyet = 0,9

geri çağırma = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

adalet kısıtlaması

#fairness

Bir veya daha fazla adalet tanımının yerine getirilmesini sağlamak için bir algoritmaya kısıtlama uygulamak. Adalet kısıtlarına örnek olarak aşağıdakiler verilebilir:

Modelinizin çıkışının işleme sonrası.

Adalet metriği ihlali nedeniyle ceza almak için kayıp işlevi değiştiriliyor.

Optimizasyon problemine doğrudan matematiksel bir kısıt ekleme.

adalet metriği

#fairness

"Adaletin" ölçülebilir olan matematiksel tanımı. Yaygın olarak kullanılan adalet metriklerinden bazıları şunlardır:

eşit sıklık

tahmini denklik

karşıt gerçeklere dayalı adalet

demografik denklik

Birçok adalet metriği birbirini hariç tutar. Adalet metriklerinin uyumsuzluğu konulu makaleyi inceleyin.

yanlış negatif (FN)

#fundamentals

Modelin negatif sınıfı yanlışlıkla tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam olmadığını (negatif sınıf) ancak bu e-posta iletisinin aslında spam olduğunu tahmin eder.

yanlış negatif oranı

Modelin yanlışlıkla negatif sınıf tahmininde bulunduğu gerçek pozitif örneklerin oranı. Aşağıdaki formül yanlış negatif oranı hesaplar:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

yanlış pozitif (FP)

#fundamentals

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam (olumlu sınıf) olduğunu ancak bu e-posta iletisinin aslında spam olmadığını tahmin eder.

yanlış pozitif oranı (FPR)

#fundamentals

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği gerçek negatif örneklerin oranı. Aşağıdaki formül yanlış pozitif oranını hesaplar:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Yanlış pozitif oranı, ROC eğrisindeki x eksenidir.

özellik

#fundamentals

Makine öğrenimi modeli için bir giriş değişkeni Örnek, bir veya daha fazla özellikten oluşur. Örneğin, hava koşullarının öğrencilerin test puanları üzerindeki etkisini belirlemek için bir model eğittiğinizi varsayalım. Aşağıdaki tabloda her biri üç özellik ve bir etiket içeren üç örnek gösterilmektedir:

Özellikler Şirket

Sıcaklık Nem Basınç Test puanı

15 47 998 92

19 34 1020 84

18 92 1012 87

label ile kontrast oluşturun.

özellik çapraz

#fundamentals

"Çapraz" kategorik veya gruplandırılmış özelliklerle oluşturulan bir sentetik özellik.

Örneğin, aşağıdaki dört paketten birinde sıcaklığı temsil eden bir "ruh hali tahmini" modelini düşünün:

freezing

chilly

temperate

warm

Ve aşağıdaki üç kovadan birindeki rüzgar hızını gösterir:

still

light

windy

Özellik geçişleri olmadan, doğrusal model önceki yedi farklı paketin her birinde bağımsız olarak eğitilir. Bu durumda model, örneğin windy ile ilgili eğitimden bağımsız olarak freezing üzerinde eğitilir.

Alternatif olarak sıcaklık ve rüzgar hızının çapraz şeklinde bir özellik oluşturabilirsiniz. Bu yapay özellik, aşağıdaki 12 olası değere sahip olabilir:

freezing-still

freezing-light

freezing-windy

chilly-still

chilly-light

chilly-windy

temperate-still

temperate-light

temperate-windy

warm-still

warm-light

warm-windy

Özellik çaprazlamaları sayesinde model, freezing-windy gün ile freezing-still gün arasındaki ruh hali farklılıklarını öğrenebilir.

Her biri çok sayıda farklı gruba sahip iki özellikten sentetik bir özellik oluşturursanız elde edilen özellik çaprazı çok sayıda olası kombinasyona sahip olur. Örneğin, bir özellikte 1.000 paket ve diğer özellikte 2.000 paket varsa ortaya çıkan özellik çaprazı 2.000.000 pakete sahip olur.

Resmî olarak, haç bir Kartezyen üründür.

Özellik çaprazları çoğunlukla doğrusal modellerde ve nöral ağlarda nadiren kullanılır.

özellik mühendisliği

#fundamentals

#TensorFlow

Aşağıdaki adımları içeren bir süreçtir:

Bir modeli eğitmek için hangi özelliklerin yararlı olabileceğini belirlemek.

Veri kümesindeki ham verileri bu özelliklerin verimli sürümlerine dönüştürme.

Örneğin, temperature değerinin faydalı bir özellik olabileceğini belirleyebilirsiniz. Daha sonra, modelin farklı temperature aralıklarından öğrenebileceği bilgileri optimize etmek için paketleme ile denemeler yapabilirsiniz.

Özellik mühendisliği bazen özellik çıkarma veya özellikleştirme olarak da adlandırılır.

TensorFlow hakkında ek notlar için simgeyi tıklayın.

TensorFlow'da özellik mühendisliği, genellikle ham günlük dosyası girişlerini tf.Example protokol arabelleklerine dönüştürmek anlamına gelir. Ayrıca bkz. tf.Transform.

özellik çıkarma

Aşağıdaki tanımlardan birine sahip aşırı yüklenmiş terim:

Başka bir modelde giriş olarak kullanılmak üzere gözetimsiz veya önceden eğitilmiş bir model (örneğin, bir nöral ağdaki gizli katman değerleri) tarafından hesaplanan ara özellik temsillerini alma.

Özellik mühendisliği ile eş anlamlıdır.

özelliklerin önemi

#df

Değişken önem dereceleri ile eş anlamlı.

özellik grubu

#fundamentals

Makine öğrenimi modelinizin eğitildiği özellik grubu. Örneğin, posta kodu, mülk boyutu ve mülkün durumu, konut fiyatlarını tahmin eden bir model için basit bir özellik grubu oluşturabilir.

özellik spesifikasyonu

#TensorFlow

tf.Example protokol arabelleğinden özellik verilerini ayıklamak için gereken bilgileri açıklar. tf.Example protokol arabelleği yalnızca bir veri kapsayıcısı olduğundan aşağıdakileri belirtmeniz gerekir:

Ayıklanacak veriler (yani özelliklerin anahtarları)

Veri türü (örneğin, kayan noktalı veya int)

Uzunluk (sabit veya değişken)

özellik vektörü

#fundamentals

Bir örnek oluşturan feature değerleri dizisi. Özellik vektörü, eğitim ve çıkarım sırasında girilir. Örneğin, iki ayrı özelliğe sahip bir modelin özellik vektörü şöyle olabilir:

[0.92, 0.56]

Her örnek, özellik vektörü için farklı değerler sağlar. Dolayısıyla bir sonraki örnek için özellik vektörü şöyle olabilir:

[0.73, 0.49]

Özellik mühendisliği, özellik vektörindeki özelliklerin nasıl temsil edileceğini belirler. Örneğin, beş olası değere sahip ikili bir kategorik özellik, tek kullanımlık kodlama ile temsil edilebilir. Bu durumda, belirli bir örnek için özellik vektörünün kısmı, aşağıdaki gibi dört sıfır ve üçüncü konumdaki tek bir 1,0'dan oluşur:

[0.0, 0.0, 1.0, 0.0, 0.0]

Başka bir örnek olarak, modelinizin üç özellikten oluştuğunu varsayalım:

tek seferlik kodlamayla temsil edilen beş olası değere sahip ikili kategorik özellik; örneğin: [0.0, 1.0, 0.0, 0.0, 0.0]

tek seferlik kodlamayla temsil edilen üç olası değere sahip başka bir ikili kategorik özellik; örneğin: [0.0, 0.0, 1.0]

bir kayan nokta özelliğidir; örneğin: 8.3.

Bu durumda, her bir örneğin özellik vektörü dokuz değerle temsil edilir. Önceki listede yer alan örnek değerlere göre özellik vektörü şöyle olur:

0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3

özellik kazanma

Doküman veya video gibi bir giriş kaynağından özellikleri çıkarma ve bu özellikleri bir özellik vektörü ile eşleme işlemi.

Bazı makine öğrenimi uzmanları, özellikleri özellik mühendisliği veya özellik çıkarma ile eş anlamlı olarak kullanır.

birleşik öğrenim

Akıllı telefonlar gibi cihazlarda bulunan merkezi olmayan örnekler aracılığıyla makine öğrenimi modellerini eğiten bir dağıtılmış makine öğrenimi yaklaşımı. Birleşik öğrenimde, cihazların bir alt kümesi geçerli modeli merkezi bir koordinasyon sunucusundan indirir. Cihazlar, modelde iyileştirmeler yapmak için cihazlarda depolanan örnekleri kullanır. Daha sonra cihazlar, model iyileştirmelerini (eğitim örneklerini değil) koordinasyon sunucusuna yüklerler. Daha sonra cihazlar, iyileştirilmiş bir global model elde etmek için diğer güncellemelerle toplanır. Toplama işleminden sonra cihazlar tarafından hesaplanan model güncellemeleri artık gerekli değildir ve silinebilir.

Eğitim örnekleri hiçbir zaman yüklenmediğinden birleşik öğrenimde, odaklanmış veri toplama ve minimum veri toplama gizlilik ilkelerine uyar.

Birleşik öğrenim hakkında daha fazla bilgi için bu eğiticiye göz atın.

geri bildirim döngüsü

#fundamentals

Makine öğreniminde, bir modelin tahminlerinin aynı modelin veya başka bir modelin eğitim verilerini etkilediği durum. Örneğin, film öneren bir model, kullanıcıların gördüğü filmleri etkiler, bu da sonraki film öneri modellerini etkiler.

feed-ileri nöral ağ (FFN)

Döngüsel veya yinelemeli bağlantıları olmayan nöral ağ. Örneğin, geleneksel derin nöral ağlar feed-ileri nöral ağlardır. Döngüsel olan yinelenen nöral ağlarla kontrast.

birkaç çekimle öğrenme

Genellikle nesne sınıflandırma için kullanılan ve yalnızca az sayıda eğitim örneğinden etkili sınıflandırıcılar eğitmek üzere tasarlanmış bir makine öğrenimi yaklaşımıdır.

Ayrıca tek seferlik öğrenme ve sıfır çekim konularına da göz atın.

birkaç atışlık istem

#language

#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren birden fazla ("birkaç") örnek içeren istem. Örneğin, aşağıdaki uzun istemde, büyük bir dil modelinin bir sorgunun nasıl yanıtlanacağını gösteren iki örnek yer alır.

Tek bir istemin bölümleri Notlar

Belirtilen ülkenin resmi para birimi nedir? LLM'nin yanıtlamasını istediğiniz soru.

Fransa: EUR Bir örnek.

Birleşik Krallık: GBP Başka bir örnek.

Hindistan: Asıl sorgu.

Az sayıda çekimle istem oluşturmak genellikle sıfır çekim isteme ve tek çekim isteme yerine daha istenen sonuçlar üretir. Bununla birlikte, birkaç çekimlik istemde daha uzun bir istem gerekir.

Az sayıda seçenekli istem, isteme dayalı öğrenmeye uygulanan bir birkaç hızlı öğrenme biçimidir.

Keman

#language

İzinsiz kod veya altyapı olmadan işlevlerin ve sınıfların değerlerini belirleyen, Python öncelikli bir yapılandırma kitaplığı. Pax ve diğer makine öğrenimi kod tabanları söz konusu olduğunda bu işlevler ve sınıflar, modelleri ve eğitim hiperparametrelerini temsil eder.

Fiddle, makine öğrenimi kod tabanlarının genellikle şu şekilde ayrıldığını varsayar:

Katmanları ve optimize edicileri tanımlayan kitaplık kodu.

Kitaplıkları çağıran ve her şeyi birlikte bağlayan veri kümesi "yapışkan" kodu.

Fiddle, birleştirici kodun çağrı yapısını değerlendirilmemiş ve değişken bir biçimde yakalar.

ince ayar

#language

#image

#üretken yapay zeka

Parametreleri belirli bir kullanım alanı için hassaslaştırmak amacıyla önceden eğitilmiş bir model üzerinde ikinci, göreve özgü bir eğitim geçişidir. Örneğin, bazı büyük dil modelleri için tam eğitim dizisi aşağıdaki gibidir:

Ön eğitim: Büyük bir dil modelini, İngilizce dilindeki tüm Wikipedia sayfaları gibi kapsamlı bir genel veri kümesi üzerinde eğitin.

İnce ayar: Önceden eğitilmiş modeli, tıbbi sorgulara yanıt vermek gibi belirli bir görevi yerine getirecek şekilde eğitin. İnce ayar genellikle belirli bir göreve odaklanan yüzlerce, hatta binlerce örnek içerir.

Başka bir örnek olarak, büyük bir görüntü modeli için tam eğitim dizisi aşağıdaki gibidir:

Eğitim öncesi: Büyük bir görüntü modelini, Wikimedia Commons'taki tüm resimler gibi geniş bir genel görüntü veri kümesi üzerinde eğitin.

İnce ayar: Önceden eğitilmiş modeli, orka görüntülerini oluşturma gibi belirli bir görevi yerine getirecek şekilde eğitin.

İnce ayar, aşağıdaki stratejilerin herhangi bir kombinasyonunu gerektirebilir:

Önceden eğitilmiş modelin mevcut parametrelerinin tümünü değiştirme. Bu işlem bazen tam ince ayar olarak da adlandırılır.

Diğer mevcut parametreleri değişmeden tutarken (genellikle giriş katmanına en yakın katmanlar) önceden eğitilmiş modelin mevcut parametrelerinden yalnızca bazılarını (genellikle çıkış katmanına en yakın katmanlar) değiştirme. Parametre açısından verimli ayarlama bölümünü inceleyin.

Genellikle çıkış katmanına en yakın mevcut katmanların üzerine daha fazla katman eklemek.

İnce ayar, bir öğrenmeyi aktarma biçimidir. Bu nedenle ince ayar, önceden eğitilmiş modeli eğitmek için kullanılandan farklı bir kayıp işlevi veya farklı bir model türü kullanabilir. Örneğin, giriş görüntüsündeki kuş sayısını döndüren bir regresyon modeli oluşturmak için önceden eğitilmiş büyük bir görüntü modelinde ince ayar yapabilirsiniz.

İnce ayarları aşağıdaki terimlerle karşılaştırın:

damıtma

isteme dayalı öğrenme

Keten

#language

Derin öğrenme için JAX temel alınarak oluşturulmuş, yüksek performanslı açık kaynak kitaplık. Flax, eğitim nöral ağlarına yönelik işlevlerin yanı sıra bu ağların performansını değerlendirme yöntemleri de sunar.

Keten Şeklinde

#language

Flax'te geliştirilmiş, özellikle doğal dil işleme ve çok modlu araştırmalar için tasarlanmış açık kaynak Transformer kitaplığı.

kapıyı unut

#seq

Uzun Kısa Vadeli Bellek hücresinin, hücre boyunca bilgi akışını düzenleyen kısmı. Hücre durumundan hangi bilgilerin silineceğine karar vererek kapıları unutun.

tam softmax

softmax ile eş anlamlıdır.

Aday örneklemeyle kontrast.

tamamen bağlı katman

Her bir düğümün sonraki gizli katmandaki her düğüme bağlandığı gizli katman.

Tamamen bağlı katman yoğun katman olarak da bilinir.

işlev dönüşümü

Bir işlevi giriş olarak alan ve dönüştürülmüş bir işlevi çıkış olarak döndüren işlev. JAX, işlev dönüşümlerini kullanır.

G

Çekişmeli üretken ağlar (GAN)

Generative adverscial network'ün kısaltmasıdır.

genelleme

#fundamentals

Modelin yeni, önceden görülmemiş veriler üzerinde doğru tahminlerde bulunma becerisi. Genelleştirilebilen bir model, fazla uyum sağlayan bir modelin tersidir.

Ek notlar için simgeyi tıklayın.

Eğitim veri kümesindeki örnekler üzerinde bir model eğitiyorsunuz. Bunun sonucunda model, eğitim veri kümesindeki verilerin özelliklerini öğrenir. Genelleme, modelinizin eğitim kümesinde olmayan örnekler hakkında iyi tahminlerde bulunup bulunamayacağını sorar.

Genelleştirmeyi teşvik etmek için düzenleme, bir modelin eğitim kümesindeki verilerin özellikleriyle tam olarak daha az eğitilmesine yardımcı olur.

genelleme eğrisi

#fundamentals

Yinelemelerin sayısının işlevi olarak hem eğitim kaybını hem de doğrulama kaybını gösteren grafik.

Genelleme eğrisi, olası aşırı uyumu tespit etmenize yardımcı olabilir. Örneğin, aşağıdaki genelleştirme eğrisi, doğrulama kaybı sonuçta eğitim kaybından önemli ölçüde daha yüksek hale geldiği için aşırı uyuma işaret eder.

genelleştirilmiş doğrusal model

Gauss gürültüsüne dayanan en az kareler regresyon modellerinin, Poisson gürültüsü veya kategorik gürültü gibi diğer gürültü türlerine dayalı diğer model türlerine genelleştirilmesi. Genelleştirilmiş doğrusal modellere örnek olarak şunlar verilebilir:

mantıksal regresyon

çok sınıflı regresyon

en küçük kareler regresyonu

Genelleştirilmiş bir doğrusal modelin parametreleri, dışbükey optimizasyon ile bulunabilir.

Genelleştirilmiş doğrusal modeller aşağıdaki özellikleri gösterir:

Optimum en küçük karelerin regresyon modelinin ortalama tahmini, eğitim verilerindeki ortalama etikete eşittir.

Optimum mantıksal regresyon modeli tarafından tahmin edilen ortalama olasılık, eğitim verilerindeki ortalama etikete eşittir.

Genelleştirilmiş bir doğrusal modelin gücü, özellikleriyle sınırlıdır. Derin modellerden farklı olarak genelleştirilmiş bir doğrusal model "yeni özellikleri öğrenemez".

ürkütücü üretken ağ (GAN)

Oluşturucu tarafından veri oluşturduğu ve bir ayırıcı tarafından oluşturulan verinin geçerli olup olmadığını belirlediği yeni veri oluşturma sistemi.

üretken yapay zeka

#language

#image

#üretken yapay zeka

Resmi tanımı olmayan, yeni gelişen ve dönüştürücü bir alan. Bununla birlikte çoğu uzman, üretken yapay zeka modellerinin aşağıdakilerin tümünü kapsayan içerikler oluşturabileceği ("oluşturabileceği") konusunda hemfikir:

karmaşık

tutarlı

orijinal

Örneğin, bir üretken yapay zeka modeli karmaşık makaleler veya görseller oluşturabilir.

LSTM ve RNN'ler gibi bazı eski teknolojiler de orijinal ve tutarlı içerikler oluşturabilir. Bazı uzmanlar bu eski teknolojileri üretken yapay zeka olarak görürken, bazıları gerçek üretken yapay zekanın önceki teknolojilerin üretebileceğinden daha karmaşık çıktılar gerektirdiğini düşünüyor.

Tahmine dayalı makine öğrenimi ile kontrast oluşturun.

üretken model

Pratikte aşağıdakilerden birini yapan bir model:

Eğitim veri kümesinden yeni örnekler oluşturur. Örneğin, bir üretken model şiirlerden oluşan bir veri kümesi üzerine eğitim aldıktan sonra şiir oluşturabilir. Üretken saldırgan ağın üretken kısmı bu kategoriye girer.

Yeni bir örneğin eğitim kümesinden veya eğitim kümesini oluşturan aynı mekanizmadan oluşturulma olasılığını belirler. Örneğin, İngilizce cümlelerden oluşan bir veri kümesi üzerinde eğitim aldıktan sonra üretken bir model, yeni girişin geçerli bir İngilizce cümle olma olasılığını belirleyebiliyor.

Üretken bir model, veri kümesindeki örneklerin veya belirli özelliklerin dağılımını teorik olarak ayırt edebilir. Yani:

p(examples)

Gözetimsiz öğrenme modelleri üretkendir.

Ayrımcı modelleri kullanın.

oluşturma aracı

Yeni örnekler oluşturan, üretken zararlı bir ağdaki alt sistem.

Ayrımcılık modeli ile kontrast oluşturun.

cin saflığı

#df

Entropi'ye benzer bir metrik. Ayırıcılar, sınıflandırma karar ağaçları ile ilgili koşulları oluşturmak için gi saflığı veya entropiden elde edilen değerleri kullanır. Bilgi kazancı entropiden türetilir. Gini saflığından türetilen metrik için evrensel olarak kabul edilen bir eşdeğer terim yoktur. Ancak bu adsız metrik, bilgi kazancı kadar önemlidir.

Gini kirliliği, gini endeksi veya kısaca gini olarak da adlandırılır.

Gini saflığı ile ilgili matematiksel ayrıntılar için simgeyi tıklayın.

Gini saflığı, aynı dağılımdan alınan yeni bir veri parçasını yanlış sınıflandırma olasılığıdır. "0" ve "1" şeklinde iki olası değere sahip bir grubun gini saflığı (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formülle hesaplanır:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

Bu örnekte:

I, gini saflığıdır.

p, "1" örneklerinin oranıdır.

q, "0" örneklerinin kesiridir. q = 1-p

Örneğin, aşağıdaki veri kümesini ele alalım:

100 etiket (veri kümesinin 0,25'i) "1" değerini içeriyor

300 etiket (veri kümesinin 0,75'i) "0" değerini içeriyor

Bu nedenle, cin saflığı şu şekildedir:

y = 0,25

q = 0,75

I = 1 - (0,25² + 0,75²) = 0,375

Sonuç olarak, aynı veri kümesindeki rastgele bir etiketin yanlış sınıflandırılma olasılığı% 37,5, doğru şekilde sınıflandırılma olasılığı ise% 62,5 olur.

Kusursuz dengeli bir etiket (örneğin, 200 "0" ve 200 "1"), 0,5 gini saflığına sahip olur. Yüksek düzeyde dengesiz bir etiketin cini saflığı 0,0'a yakındır.

altın veri kümesi

Kesin referansları yakalayan, manuel olarak seçilmiş bir veri kümesi. Ekipler bir modelin kalitesini değerlendirmek için bir veya daha fazla altın veri kümesi kullanabilir.

Bazı altın veri kümeleri, gerçek doğrunun farklı alt alanlarını yakalar. Örneğin, görüntü sınıflandırma için altın bir veri kümesi, aydınlatma koşullarını ve görüntü çözünürlüğünü yakalayabilir.

GPT (Önceden Eğitilmiş Üretici Dönüştürücü)

#language

OpenAI tarafından geliştirilen, Transformer tabanlı bir büyük dil modelleri ailesi.

GPT varyantları, aşağıdakiler de dahil olmak üzere birden fazla moda uygulanabilir:

resim üretme (örneğin, ImageGPT)

metinden görsele dönüştürme (örneğin, DALL-E).

gradyan

Tüm bağımsız değişkenlere göre kısmi türevlerin vektörü. Makine öğreniminde gradyan, model işlevinin kısmi türevlerinin vektörüdür. Gradyan noktaları en dik çıkış yönünde.

gradyan birikimi

Parametreleri, yineleme başına bir kez değil, yalnızca dönem başına bir kez güncelleyen bir geri yayılım tekniğidir. Her bir mini toplu işlendikten sonra, gradyan toplama işlemi, çalışan toplam renk geçişlerini günceller. Daha sonra, dönemdeki son mini grup işlendikten sonra sistem, son olarak parametreleri tüm renk geçişi değişikliklerinin toplamına dayanarak günceller.

Gradyan birikmesi, grup boyutu eğitim için kullanılabilir bellek miktarına kıyasla çok büyük olduğunda faydalıdır. Bellek sorun teşkil ettiğinde, doğal eğilim grup boyutunu azaltmaktır. Bununla birlikte, normal geri yayılımda grup boyutunun azaltılması parametre güncellemelerinin sayısını artırır. Gradyan birikmesi, modelin bellek sorunlarından kaçınarak verimli bir şekilde eğitilmesini sağlar.

gradyan zenginleştirilmiş (karar) ağaçlar (GBT)

#df

Aşağıdakilerin tamamlandığı bir karar ormanı türü:

Eğitim gradyan güçlendirmeye dayanır.

Zayıf model bir karar ağacıdır.

gradyan artırma

#df

Zayıf modellerin, güçlü bir modelin kalitesini artırmak (kayıplarını azaltmak) için tekrarlı şekilde eğitildiği bir eğitim algoritmasıdır. Örneğin zayıf bir model, doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, önceden eğitilen tüm zayıf modellerin toplamı olur.

En basit gradyan artırma biçiminde, her iterasyonda güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Daha sonra, gradyan azalma'ya benzer şekilde, tahmin edilen gradyan çıkarılarak güçlü modelin çıkışı güncellenir.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Bu örnekte:

$F_{0}$, başlangıçtaki güçlü modeldir.

Bir sonraki güçlü model $F_{i+1}$.

$F_{i}$ şu anki güçlü modeldir.

$\xi$, 0,0 ile 1,0 arasında bir değerdir ve daralma adı verilir. Bu değer, gradyan azalmadaki öğrenme hızına benzer.

$f_{i}$, $F_{i}$ kayıp gradyanını tahmin etmek için eğitilen zayıf modeldir.

Gradyan güçlendirmenin modern varyasyonları, hesaplama işlemindeki kaybın ikinci türevini (Hessian) da içerir.

Karar ağaçları, gradyan artırmada genellikle zayıf model olarak kullanılır. Derecelendirme artırılmış (karar) ağaçları konusuna bakın.

gradyan kırpma

#seq

Bir modeli eğitmek için gradyan inişi kullanırken maksimum renk geçiş değerini yapay olarak sınırlandırarak (kırparak) patlayan gradyan sorununu hafifletmek için yaygın olarak kullanılan bir mekanizma.

gradyan iniş

#fundamentals

Kaybı en aza indirmek için kullanılan matematiksel teknik. Gradyan iniş, ağırlıkları ve önyargıları yinelemeli olarak ayarlar. Böylece, kaybı en aza indirmek için en iyi kombinasyonu kademeli olarak bulur.

Gradyan iniş, makine öğreniminden çok daha eskidir.

grafik

#TensorFlow

TensorFlow'da bir hesaplama spesifikasyonu. Grafikteki düğümler işlemleri temsil eder. Kenarlar yönlendirilir ve bir işlemin (Tensor) sonucunun başka bir işleme işlenen olarak geçirilmesini temsil eder. Bir grafiği görselleştirmek için TensorBoard'u kullanın.

grafik yürütme

#TensorFlow

Programın önce bir grafik oluşturduğu ve ardından bu grafiğin tamamını veya bir kısmını yürüttüğü TensorFlow programlama ortamı. Grafik yürütme, TensorFlow 1.x'teki varsayılan yürütme modudur.

Hızlı yürütme ile karşıtlık.

açgözlü politika

#rl

Pekiştirmeli öğrenmede, her zaman beklenen en yüksek getiri değerine sahip işlemi seçen bir politika kullanılır.

gerçek doğru

#fundamentals

Gerçeklik.

Meydana gelen şey.

Örneğin, üniversitenin ilk yılında okuyan bir öğrencinin altı yıl içinde mezun olup olmayacağını tahmin eden bir ikili sınıflandırma modelini göz önünde bulundurun. Bu modelin kesin referans noktası, bu öğrencinin gerçekten altı yıl içinde mezun olup olmadığıdır.

Ek notlar için simgeyi tıklayın.

Model kalitesini gerçek referanslara göre değerlendiririz. Ancak gerçek doğru, her zaman tamamen gerçeği yansıtmayabilir. Örneğin, kesin referansla ilgili olası kusurlara dair aşağıdaki örnekleri göz önünde bulundurun:

Mezuniyet örneğinde her öğrencinin mezuniyet kayıtlarının her zaman doğru olduğundan emin miyiz? Üniversitenin kayıt tutma sistemi kusursuz mu?

Etiketin, aletlerle (ör. barometreler) ölçülen bir kayan nokta değeri olduğunu varsayalım. Her bir cihazın aynı şekilde kalibre edildiğinden veya her ölçümün aynı koşullar altında alındığından nasıl emin olabiliriz?

Etiket, kişilerin kararlarını yansıtıyorsa her bir değerlendirmecinin olayları aynı şekilde değerlendirdiğinden nasıl emin olabiliriz? Tutarlılığı artırmak için bazen uzman gerçek kişi olan değerlendirmeciler devreye girer.

grup ilişkilendirme önyargısı

#fairness

Bir birey için doğru olanın gruptaki herkes için de geçerli olduğunu varsayarsak. Veri toplama için kullanışlı örnekleme kullanılırsa grup ilişkilendirme yanlılığının etkileri daha da artabilir. Doğru temsil etmeyen bir örnekte, gerçeği yansıtmayan ilişkilendirmeler yapılabilir.

Ayrıca grup dışı homojenlik yanlılığı ve grup içi önyargı konularına da bakın.

VR

halüsinasyon

#language

Gerçek dünya hakkında bir iddiada bulunuyormuş gibi görünen üretken yapay zeka modeli tarafından, inandırıcı görünen ama olgusal açıdan yanlış olan çıktıların üretilmesi. Örneğin, Barack Obama'nın 1865'te öldüğünü iddia eden bir üretken yapay zeka modeli halüsinasyon sorunu yaşıyor.

karma oluşturma

Makine öğreniminde, özellikle kategori sayısı çok fazla olmasına rağmen veri kümesinde görünen kategorilerin sayısı görece azsa kategorik verileri paketlemek için kullanılan bir mekanizmadır.

Örneğin, Dünya yaklaşık 73.000 ağaç türüne ev sahipliği yapar. 73.000 ayrı kategorik kovadaki 73.000 ağaç türünün her birini temsil edebilirsiniz. Alternatif olarak, bir veri kümesinde bu ağaç türlerinden yalnızca 200'ü görünüyorsa ağaç türlerini 500 pakete bölmek için karma oluşturma işlemini kullanabilirsiniz.

Bir kovada birden fazla ağaç türü olabilir. Örneğin, karma oluşturma işlemi, genetik olarak farklı iki tür olan baobab ve kırmızı akçaağaç türlerini aynı pakete yerleştirebilir. Yine de karma oluşturma işlemi, büyük kategorik grupları seçilen sayıda pakete eşlemek için yine de iyi bir yöntemdir. Karma oluşturma, değerleri deterministik bir şekilde gruplandırarak çok sayıda olası değere sahip kategorik bir özelliği çok daha az sayıda değere dönüştürür.

bulgusal

Bir sorun için basit ve hızlı bir şekilde uygulanan çözüm. Örneğin, "Buluşsal bir yöntemle% 86 doğruluk elde ettik. Derin sinir ağına geçtiğimizde doğruluk %98'e yükseldi."

gizli katman

#fundamentals

Giriş katmanı (özellikler) ile çıkış katmanı (tahmin) arasında yer alan, bir sinirsel ağda bulunan bir katman. Her gizli katman bir veya daha fazla nörondan oluşur. Örneğin, aşağıdaki nöral ağ, ilkinde üç nöron, ikincisinde ise iki nöron olmak üzere iki gizli katman içerir:

Derin nöral ağ birden fazla gizli katman içerir. Örneğin, önceki çizimde model iki gizli katman içerdiği için derin bir nöral ağ gösterilmiştir.

hiyerarşik kümeleme

#clustering

Küme ağacı oluşturan bir kümeleme algoritmaları kategorisi. Hiyerarşik kümeleme, botanik sınıflandırmalar gibi hiyerarşik veriler için uygundur. İki tür hiyerarşik kümeleme algoritması vardır:

Toplayıcı kümeleme öncelikle her örneği kendi kümesine atar ve en yakın kümeleri yinelemeli olarak birleştirerek hiyerarşik bir ağaç oluşturur.

Bölünmüş kümeleme önce tüm örnekleri bir küme halinde gruplandırır, ardından kümeyi yinelemeli olarak hiyerarşik bir ağaca böler.

Merkez temelli kümeleme ile kontrast oluşturun.

menteşe kaybı

Her eğitim örneğinden mümkün olduğunca uzak bir karar sınırı bulmak amacıyla tasarlanan sınıflandırma için bir kayıp işlevi, böylece örnekler ile sınır arasındaki fark en üst düzeye çıkarılır. KSVM'ler menteşe kaybı (veya kare menteşe kaybı gibi ilgili bir işlev) kullanır. İkili program sınıflandırması için menteşe kaybı işlevi aşağıdaki gibi tanımlanır:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Burada y doğru etikettir (-1 veya +1), y' ise sınıflandırıcı modelinin ham çıkışıdır:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sonuç olarak, menteşe kaybı ve (y * y') grafiği aşağıdaki gibi görünür:

tarihsel önyargı

#fairness

Dünyada zaten mevcut olan ve veri kümesi haline gelmiş bir önyargı türü. Bu ön yargılar mevcut kültürel klişeleri, demografik eşitsizlikleri ve belirli sosyal gruplara karşı önyargıları yansıtma eğilimindedir.

Örneğin, kredi başvurusu yapan kişinin kredi borcunu tebliğ edip etmeyeceğini tahmin eden bir sınıflandırma modelini düşünün. Bu model, iki farklı topluluktaki yerel bankalardan 1980'lere ait geçmiş kredi borcu verileri temel alınarak eğitilmiştir. A Topluluğu'ndaki geçmiş başvuru sahiplerinin kredilerini borcunu ödeme ihtimali B Topluluğu'ndakilere kıyasla 6 kat daha fazlaysa model, geçmişteki bir önyargıyı öğrenip A Topluluğu'nda kredi onaylama olasılığının daha düşük olmasına neden olabilir. Bu durum, söz konusu topluluğun daha yüksek varsayılan oranlarının artık geçerli olmamasına neden olur.

muhafaza verileri

Eğitim sırasında kasıtlı olarak kullanılmayan ("basılı") örnekler. Doğrulama veri kümesi ve test veri kümesi, muhafaza verisi örnekleridir. Verileri muhafaza etme, modelinizin eğitildiği veriler dışındaki verileri genelleştirme becerisini değerlendirmenize yardımcı olur. Bekleme kümesindeki kayıp, eğitim grubundaki kayıptan ziyade görülmeyen veri kümesindeki kayıp için daha iyi bir tahmin sağlar.

düzenleyen

#TensorFlow

#GoogleCloud

Bir ML modelini hızlandırıcı çiplerinde (GPU'lar veya TPU'lar) eğitirken sistemin aşağıdakilerin her ikisini de kontrol eden bölümü:

Kodun genel akışı.

Giriş ardışık düzenini ayıklama ve dönüştürme.

Ana makine genellikle hızlandırıcı çipinde değil, CPU'da çalışır. Cihaz, hızlandırıcı çiplerindeki tensörleri idare eder.

hiperparametre

#fundamentals

Sizin veya bir hiperparametre ayarı hizmetinin bir model eğitimi sırasında bu değişkenleri ayarlar. Örneğin, öğrenme hızı bir hiperparametredir. Bir eğitim oturumundan önce öğrenme hızını 0,01 olarak ayarlayabilirsiniz. 0,01’in çok yüksek olduğunu belirlerseniz bir sonraki eğitim oturumu için öğrenme oranını 0,003 olarak ayarlayabilirsiniz.

Buna karşılık parametreler, modelin eğitim sırasında öğrendiği çeşitli ağırlıklar ve ön yargılardır.

hiper düzlem

Bir boşluğu iki alt uzaya ayıran sınır. Örneğin, bir çizgi iki boyutlu bir hiper düzlemdir, bir düzlem ise üç boyutlu bir hiper düzlemdir. Genellikle makine öğreniminde hiper düzlem, yüksek boyutlu bir uzayı ayıran sınırdır. Çekirdek Destek Vektör Makineleri, genellikle çok yüksek boyutlu bir alanda pozitif sınıfları negatif sınıflardan ayırmak için hiper düzlemler kullanır.

İ

kimlik

Bağımsız ve aynı olarak dağıtılmış anlamına gelen kısaltma.

resim tanıma

#image

Bir görüntüdeki nesneleri, desenleri veya kavramları sınıflandıran işlem. Görüntü tanıma, görüntü sınıflandırması olarak da bilinir.

Daha fazla bilgi için ML Practicum: Image Classification'a bakın.

dengesiz veri kümesi

Sınıf dengesiz veri kümesi ile eş anlamlıdır.

örtülü önyargı

#fairness

Kişinin zihin modellerine ve anılarına dayalı bir ilişkilendirme veya varsayımda bulunma. Dolaylı önyargı aşağıdakileri etkileyebilir:

Verilerin toplanma ve sınıflandırılması.

Makine öğrenimi sistemlerinin nasıl tasarlanıp geliştirildiği.

Örneğin, düğün fotoğraflarını tanımlamak için bir sınıflandırıcı geliştirirken bir mühendis, fotoğraftaki beyaz bir elbisenin varlığını özellik olarak kullanabilir. Ancak beyaz elbiseler yalnızca belirli dönemlerde ve belirli kültürlerde kullanılıyordu.

Ayrıca onay yanlılığı konusuna bakın.

tahmin

Kısa değer tahmini biçimi.

adalet metriklerinin uyumsuzluğu

#fairness

Bazı adalet kavramlarının karşılıklı olarak uyumsuz olduğu ve aynı anda karşılanamayacağı fikri. Sonuç olarak, adaletin ölçülmesi için tüm makine öğrenimi sorunlarına uygulanabilecek tek bir evrensel metrik yoktur.

Bu caydırıcı bir durum gibi görünse de adalet metriklerinin uyumsuzluğu, adalet çabalarının sonuçsuz olduğu anlamına gelmez. Bunun yerine, kullanım alanlarına özgü zararları önlemek amacıyla belirli bir makine öğrenimi sorunu için adaletin bağlamsal olarak tanımlanmasını önerir.

Bu konuyla ilgili daha ayrıntılı bir tartışma için "Adaletin (im) imkansızlığı" bölümüne bakın.

bağlam içi öğrenme

#language

#üretken yapay zeka

Birkaç çekim istemi ile eş anlamlıdır.

bağımsız ve özdeş şekilde dağıtılmış (i.i.d)

#fundamentals

Değişmeyen ve alınan her değerin daha önce çizilen değerlere bağlı olmadığı bir dağılımdan alınan veriler. Kimlik, makine öğreniminin ideal gazıdır. Bu, yararlı bir matematiksel yapıdır ancak gerçek dünyada neredeyse hiçbir zaman tam olarak bulunamayan bir yapıdır. Örneğin, bir web sayfasına gelen ziyaretçilerin dağılımı kısa bir zaman aralığında i.d. şeklinde olabilir; diğer bir deyişle, bu kısa zaman aralığı içinde dağılım değişmez ve bir kişinin ziyareti genellikle başka bir kişinin ziyaretinden bağımsız olur. Ancak, bu zaman aralığını genişletirseniz, web sayfasının ziyaretçileri arasındaki dönemsel farklılıklar görünebilir.

Ayrıca bkz. durağansızlık.

bireysel adalet

#fairness

Benzer kişilerin benzer şekilde sınıflandırılıp sınıflandırılmadığını kontrol eden bir adalet metriği. Örneğin, Brobdingnagian Academy, aynı derecelere ve standartlaştırılmış test puanlarına sahip iki öğrencinin eşit kabul kazanma olasılığının eşit olmasını sağlayarak bireysel adalet sağlamak isteyebilir.

Bireysel adalet tamamen "benzerliği" (bu durumda notlar ve test puanları) nasıl tanımladığınıza bağlıdır. Benzerlik metriğiniz önemli bilgileri (ör. bir öğrencinin müfredatının katılığı) gözden kaçırırsa yeni adalet problemleri ortaya çıkarma riskini de göz önünde bulundurun.

Bireysel adalet hakkında daha ayrıntılı bir tartışma için "Farkındalık Yoluyla Adalet" konusuna bakın.

çıkarım

#fundamentals

Makine öğreniminde, eğitilmiş bir modeli etiketsiz örneklere uygulayarak tahmin yapma süreci.

Çıkarım, istatistiklerde biraz farklı bir anlama sahiptir. Ayrıntılar için istatistiksel çıkarım hakkındaki Wikipedia makalesine bakın.

çıkarım yolu

#df

Karar ağacında, çıkarım sırasında belirli bir örneğin kök'ten diğer koşullara doğru yaprak olarak sona erer. Örneğin, aşağıdaki karar ağacında, kalın oklar aşağıdaki özellik değerlerine sahip bir örneğin çıkarım yolunu gösterir:

x = 7

y = 12

z = -3

Aşağıdaki çizimde bulunan çıkarım yolu, yaprağa (Zeta) ulaşmadan önce üç koşuldan geçer.

Üç kalın ok, çıkarım yolunu gösterir.

bilgi kazancı

#df

Karar ormanlarında, bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki fark. Bir düğümün entropisi, o düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini dikkate alın:

üst düğümün entropisi = 0,6

16 alakalı örnekle birlikte bir alt düğümün entropisi = 0,2

24 alakalı örnekle başka bir alt düğümün entropisi = 0,1

Dolayısıyla örneklerin% 40'ı bir alt düğümde, %60'ı diğer alt düğümde yer alır. Bu nedenle:

alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Yani bilgi kazancı şu şekildedir:

bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı

bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu ayırıcı, bilgi kazancını en üst düzeye çıkaran koşullar oluşturmayı amaçlar.

grup içi önyargı

#fairness

Kişinin kendi grubuna veya kendi özelliklerine karşı tarafsızlık yapma. Test kullanıcıları veya değerlendiriciler makine öğrenimi geliştiricisinin arkadaşları, ailesi ya da iş arkadaşlarından oluşuyorsa grup içi önyargılar, ürün testini veya veri kümesini geçersiz kılabilir.

Grup içi yanlılık, bir grup ilişkilendirme yanlılığı biçimidir. Ayrıca grup dışı homojenlik ön yargısı konusuna da bakın.

giriş oluşturucu

Verilerin nöral ağa yüklendiği mekanizma.

Giriş oluşturucu; ham verilerin eğitim, değerlendirme ve çıkarım için gruplar oluşturmak üzere tekrarlanan tensörler halinde işlenmesinden sorumlu bir bileşen olarak düşünülebilir.

giriş katmanı

#fundamentals

Özellik vektörünü barındıran bir nöral ağın katmanı. Yani giriş katmanı, eğitim veya çıkarım için örnekler sağlar. Örneğin, aşağıdaki nöral ağda bulunan giriş katmanı iki özellikten oluşur:

setteki koşul

#df

Karar ağacında, bir öğe grubunda bir öğenin varlığını test eden bir koşul. Örneğin, aşağıda ayarlanan bir koşul verilmiştir:

house-style in [tudor, colonial, cape]

Çıkarım sırasında, ev stili özelliğin değeri tudor, colonial veya cape ise bu koşul Evet olarak değerlendirilir. Ev tarzı özelliğin değeri başka bir şeyse (örneğin, ranch) bu koşul Hayır olarak değerlendirilir.

Ayarlanan koşullar genellikle tek sıcak kodlanmış özellikleri test eden koşullara kıyasla daha verimli karar ağaçlarını sağlar.

örnek

example ile eş anlamlıdır.

talimat ayarlama

#üretken yapay zeka

Üretken yapay zeka modelinin talimatları uygulama becerisini geliştiren bir ince ayar biçimidir. Talimat ayarlama, bir modeli genellikle çok çeşitli görevleri kapsayan bir dizi talimat istemi üzerine eğitmeyi içerir. Sonuçta ortaya çıkan, talimat odaklı model, çeşitli görevlerde sıfır çekim istemlerine faydalı yanıtlar verme eğilimindedir.

Karşılaştıracak olanları kıyaslama ve karşılaştırma:

parametre açısından verimli ayarlama

istem ayarı

yorumlanabilirlik

#fundamentals

Bir makine öğrenimi modelinin akıl yürütmesini, anlaşılır terimlerle insanlara açıklama veya sunma becerisi.

Örneğin, çoğu doğrusal regresyon modeli, kolayca yorumlanabilir. (Tek yapmanız gereken her özellik için eğitilen ağırlıklara bakmaktır.) Karar ormanları da çok kolay yorumlanabilir. Ancak bazı modellerin yorumlanabilir olması için karmaşık görselleştirme gerekir.

ML modellerini yorumlamak için Learning Yorumlanabilirlik Aracı'nı (LIT) kullanabilirsiniz.

derecelendirmeler arası sözleşme

Derecelendirme yapan kişilerin bir görevi yerine getirirken ne sıklıkla hemfikir olduğunun ölçümü. Derecelendirme yapan kişiler aynı fikirde değilse görev talimatlarının iyileştirilmesi gerekebilir. Bazen notlayıcılar arası sözleşme veya değerlendiriciler arası güvenilirlik olarak da adlandırılır. Ayrıca bkz. Cohen's kappa. Bu, en popüler değerlendiriciler arası sözleşme ölçümlerinden biridir.

tümleşik kesişim (IoU)

#image

İki kümenin birleşimine bölünen kesişimi. Makine öğrenimi görüntü algılama görevlerinde IoU, modelin doğruluğu sınırlayıcı kutusuna göre tahmin edilen sınırlayıcı kutusunun doğruluğunu ölçmek için kullanılır. Bu durumda, iki kutu için IoU, çakışan alan ile toplam alan arasındaki orandır ve bu değer, 0 (tahmini sınırlayıcı kutu ve kesin sınırlayıcı kutusu çakışmaz) ile 1 (tahmin edilen sınırlayıcı kutu ve gerçek sınır sınırlama kutusu tam olarak aynı koordinatlara sahiptir) arasında değişir.

Örneğin, aşağıdaki resimde:

Tahmin edilen sınırlayıcı kutu (modelin resimdeki gece masasının bulunduğu yeri sınırlayan koordinatlar) mor renkte dış çizgilidir.

Kesin referans sınırlayıcı kutu (resimdeki gece masasının gerçekte bulunduğu yeri sınırlayan koordinatlar) yeşil renkle gösterilmiştir.

Burada, tahmin ve kesin referans için sınırlayıcı kutuların kesişimi 1'dir. Tahmin ile kesin referans için sınırlayıcı kutuların birleşimi (sağ altında) 7 olduğu için IoU $\frac{1}{7}$olur.

IoU

intersection over union (birleşmeye kıyasla) kısaltmasıdır.

öğe matrisi

#recsystems

Öneri sistemlerinde, her öğe hakkında gizli sinyalleri tutan, matris çarpanlarına ayırma ile oluşturulan yerleştirme vektörlerinden oluşan bir matristir. Öğe matrisinin her satırı, tüm öğeler için tek bir gizli özelliğin değerini içerir. Örneğin, bir film öneri sistemi düşünün. Öğe matrisindeki her sütun tek bir filmi temsil eder. Gizli sinyaller türleri temsil edebilir ya da tür, yıldızlar, film yaşı veya diğer faktörler arasındaki karmaşık etkileşimleri içeren, yorumlanması zor sinyaller olabilir.

Öğe matrisinde, çarpanlara ayrılan hedef matrisle aynı sayıda sütun bulunur. Örneğin, 10.000 film başlığını değerlendiren bir film öneri sistemi göz önüne alındığında, öğe matrisinde 10.000 sütun bulunur.

items

#recsystems

Öneri sisteminde, bir sistemin önerdiği varlıklar. Örneğin, videolar bir video mağazasının önerdiği öğelerdir. Kitaplar ise bir kitabevinin önerdiği öğelerdir.

iterasyon

#fundamentals

Eğitim sırasında bir modelin parametreleri (modelin ağırlıkları ve ön yargıları) tek bir güncelleme. Grup boyutu, modelin tek bir iterasyonda kaç örnek işleyeceğini belirler. Örneğin, grup boyutu 20 ise model, parametreleri ayarlamadan önce 20 örneği işler.

Bir nöral ağ eğitilirken aşağıdaki iki geçiş tek bir iterasyonla uygulanır:

Tek bir partideki kaybı değerlendirmek için ileriye dönük geçiş.

Modelin parametrelerini kayba ve öğrenme hızına göre ayarlamak için geriye dönük geçiş (geri yayılım).

J

JAX

XLA (Hızlandırılmış Doğrusal Cebir) ile yüksek performanslı sayısal hesaplama için otomatik farklılaştırmayı bir araya getiren bir dizi bilişim kitaplığı. JAX, composable dönüşümlerle hızlandırılmış sayısal kod yazmak için basit ve güçlü bir API sunar. JAX aşağıdaki gibi özellikler sunar:

grad (otomatik farklılaştırma)

jit (tam zamanında derleme)

vmap (otomatik vektör veya toplu hale getirme)

pmap (paralelleştirme)

JAX, Python'un NumPy kitaplığına benzer ancak kapsamı çok daha büyük olan sayısal kod dönüşümlerini ifade etmek ve oluşturmak için kullanılan bir dildir. (Aslında, JAX altındaki .numpy kitaplığı, işlevsel olarak eşdeğerdir ancak Python NumPy kitaplığının tamamen yeniden yazılmış bir sürümüdür.)

JAX özellikle modelleri ve verileri GPU ve TPU hızlandırıcı çiplerinde paralelliğe uygun bir forma dönüştürerek birçok makine öğrenimi görevini hızlandırmaya uygundur.

Flax, Optax, Pax ve diğer birçok kitaplık JAX altyapısı üzerine kurulmuştur.

K

Keras

Popüler bir Python makine öğrenimi API'si. Keras, tf.keras olarak sunulduğu TensorFlow da dahil olmak üzere çeşitli derin öğrenme çerçevelerinde çalışmaktadır.

Çekirdek Destek Vektör Makineleri (KSVM'ler)

Giriş veri vektörlerini daha yüksek boyutlu bir alanla eşleyerek pozitif ve negatif sınıflar arasındaki marjı en üst düzeye çıkarmayı amaçlayan bir sınıflandırma algoritmasıdır. Örneğin, giriş veri kümesinin yüz özelliğe sahip olduğu bir sınıflandırma sorununu ele alalım. Bir KSVM, pozitif ve negatif sınıflar arasındaki kârı en üst düzeye çıkarmak için bu özellikleri dahili olarak bir milyon boyutlu alanda eşleyebilir. KSVM'ler, menteşe kaybı adlı bir kayıp işlevi kullanır.

önemli noktalar

#image

Bir resimdeki belirli özelliklerin koordinatları. Örneğin, çiçek türlerini ayırt eden bir görüntü tanıma modeli için önemli noktalar, her bir taç yaprağın, gövdenin, göbeğin vb. merkezi olabilir.

k katlar arası doğrulama

Bir modelin yeni verilere genelleme becerisini tahmin eden bir algoritma. K katlamadaki k değeri, bir veri kümesinin örneklerini ayırdığınız eşit grupların sayısını ifade eder. Yani, modelinizi bin kez eğitir ve test edersiniz. Her eğitim ve test turunda test grubu farklı bir gruptur, kalan tüm gruplar ise eğitim seti haline gelir. k eğitim ve test turundan sonra, seçilen test metriklerinin ortalama ve standart sapmalarını hesaplıyorsunuz.

Örneğin, veri kümenizin 120 örnekten oluştuğunu varsayalım. Ayrıca, k'yi 4 olarak ayarladığınızı varsayalım. Bu nedenle, örnekleri karıştırdıktan sonra veri kümesini 30 örnek içeren dört eşit gruba bölüyor ve dört eğitim/test turu gerçekleştiriyorsunuz:

Örneğin, Ortalama Kare Hatası (MSE), doğrusal regresyon modeli için en anlamlı metrik olabilir. Bu nedenle, dört turun tümünde MSE'nin ortalama ve standart sapmasını bulursunuz.

k-ortalama

#clustering

Gözetimsiz öğrenmede örnekleri gruplandıran popüler bir kümeleme algoritmasıdır. K-ortalama algoritması temelde şunları yapar:

İterasyonlu bir şekilde en iyi k merkez noktasını (merkez olarak bilinir) belirler.

Her örneği en yakın merkeze atar. Aynı merkeze en yakın olan bu örnekler aynı gruba aittir.

k-ortalama algoritması, her bir örnekten en yakın merkez noktasına kadar olan mesafenin kümülatif karesini en aza indirmek için merkez konumlarını seçer.

Örneğin, köpek yüksekliğinin köpek genişliğine göre grafiğini inceleyelim:

k=3 ise k-ortalama algoritması üç merkezi belirler. Her örnek en yakın merkeze atanır ve böylece üç grup elde edilir:

Bir üreticinin köpekler için küçük, orta ve büyük Kazaklar için ideal bedenleri belirlemek istediğini hayal edin. Üç merkezin, ilgili kümedeki her bir köpeğin ortalama yüksekliğini ve ortalama genişliğini tanımlar. Bu nedenle üretici, muhtemelen kazak bedenlerini bu üç merkez noktasına dayandırmalıdır. Kümenin merkez bölgesinin genellikle kümeye örnek olmadığını unutmayın.

Yukarıdaki resimlerde, yalnızca iki özelliğe (yükseklik ve genişlik) sahip örnekler için k-ortalaması gösterilmektedir. K-ortalamanın örnekleri birçok özellik genelinde gruplandırabileceğini unutmayın.

k-ortanca değeri

#clustering

k-ortalama ile yakından ilişkili bir kümeleme algoritması. Bu ikisi arasındaki pratik fark şudur:

K-ortalama olarak merkezî değer, bir merkez adayı ile bu adayın örnekleri arasındaki mesafenin karelerinin toplamı en aza indirilerek belirlenir.

K-ortanda ise merkezler, bir merkez adayı ile bu adayın örnekleri arasındaki mesafenin toplamı en aza indirilerek belirlenir.

Mesafe tanımlarının da farklı olduğunu unutmayın:

k-ortalaması, örneklem merkezden Öklid uzaklığı'na dayanır. (İki boyutta, Öklid mesafesi, hipotenüsü hesaplamak için Pisagor teoreminin kullanılması anlamına gelir.) Örneğin, k-değeri, (2,2) ve (5,-2) arasındaki mesafeyi ifade eder:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-ortanca değeri, örnekle birlikte merkezden Manhattan mesafesine dayanır. Bu mesafe, her bir boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ve (5,-2) arasındaki k-ortanca mesafe şöyle olur:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ normalleştirmesi

#fundamentals

Bir modeldeki sıfır olmayan ağırlıkların toplam sayısını cezalandıran bir normalleştirme türü. Örneğin, sıfır olmayan 11 ağırlığa sahip bir model, 10 sıfır olmayan ağırlığa sahip benzer bir modele göre daha fazla cezalandırılır.

L₀ normalleştirmesi bazen L0-norm normalleştirmesi olarak adlandırılır.

Ek notlar için simgeyi tıklayın.

L₀ normalleştirmesi, eğitimi dış mekanik bir optimizasyon sorununa dönüştürdüğü için L₀ normalleştirmesi genellikle büyük modellerde pratik değildir.

L₁ kaybı

#fundamentals

Gerçek label değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın mutlak değerini hesaplayan bir kayıp işlevi. Örneğin, beş örnek için grup için L₁ kaybının hesaplaması aşağıda verilmiştir:

Örneğin gerçek değeri Modelin tahmini değeri Mutlak delta değeri

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = L₁ kaybı

L₁ kaybı, aykırı değerlere karşı L₂ kaybına göre daha az hassastır.

Ortalama Mutlak Hata, örnek başına ortalama L₁ kaybıdır.

Resmi matematik işlemlerini görmek için simgeyi tıklayın.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$
burada:

$n$, örnek sayısıdır.

Etiketin gerçek değeri $y$ olacaktır.

$\hat{y}$, modelin $y$ için tahmin ettiği değerdir.

L₁ normalleştirmesi

#fundamentals

Ağırlıkları ağırlıkların mutlak değerinin toplamıyla orantılı olarak cezalandıran bir normalleştirme türü. L₁ normalleştirmesi, alakasız veya neredeyse alakalı özelliklerin ağırlıklarını tam olarak 0'a çıkarmaya yardımcı olur. Ağırlığı 0 olan bir özellik, modelden etkili bir şekilde kaldırılır.

L₂ normalleştirmesi ile kontrast.

L₂ kaybı

#fundamentals

Gerçek label değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın karesini hesaplayan bir kayıp işlevi. Örneğin, beş örnek için grup için L₂ kaybının hesaplaması aşağıda verilmiştir:

Örneğin gerçek değeri Modelin tahmini değeri Delta karesi

7 6 1

5 4 1

8 11 9

4 6 4

9 8 1

16 = L₂ kaybı

Kare oluşturma nedeniyle L₂ kaybı, aykırı değerlerin etkisini artırır. Yani L₂ kaybı, L₁ kaybına kıyasla kötü tahminlere daha güçlü tepki verir. Örneğin, önceki grup için L₁ kaybı 16 yerine 8 olur. Tek bir aykırı sayının 16'dan 9'unu kapsadığına dikkat edin.

Regresyon modelleri, kayıp işlevi olarak genellikle L₂ kaybını kullanır.

Ortalama Kare Hatası, örnek başına ortalama L₂ kaybıdır. Kare karesi, L₂ kaybının diğer adıdır.

Resmi matematik işlemlerini görmek için simgeyi tıklayın.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$
burada:

$n$, örnek sayısıdır.

Etiketin gerçek değeri $y$ olacaktır.

$\hat{y}$, modelin $y$ için tahmin ettiği değerdir.

L₂ normalleştirmesi

#fundamentals

Ağırlıklara ağırlıkların karelerinin toplamıyla orantılı olarak ceza veren bir normalleştirme türü. L₂ normalleştirmesi, aykırı ağırlıkların (yüksek pozitif veya düşük negatif değerlere sahip olanlar) 0'a yakın ama tam 0'a yakın olmamasına yardımcı olur. 0'a çok yakın değerlere sahip özellikler modelde kalır ancak modelin tahminini çok fazla etkilemez.

L₂ normalleştirmesi doğrusal modellerde genelleştirmeyi her zaman iyileştirir.

L₁ normalleştirmesi ile kontrast.

etiket

#fundamentals

Gözetimli makine öğreniminde bir örneğin "yanıt" veya "sonuç" kısmıdır.

Her etiketli örnek, bir veya daha fazla özellikten ve bir etiketten oluşur. Örneğin, bir spam algılama veri kümesinde etiket muhtemelen "spam" veya "spam değil" olur. Yağış veri kümesinde etiket, belirli bir dönemde düşen yağmur miktarı olabilir.

etiketli örnek

#fundamentals

Bir veya daha fazla özellik ve bir etiket içeren örnek. Örneğin, aşağıdaki tabloda her biri üç özellik ve bir etikete sahip bir kurum değerleme modelinden alınmış üç etiketli örnek gösterilmektedir:

Yatak odası sayısı Banyo sayısı Ev yaşı Kurum fiyatı (etiket)

3 2 15 345.000 $

2 1 72 179.000 $

4 2 34 392.000 $

Gözetimli makine öğreniminde modeller, etiketli örnekler üzerinde eğitilir ve etiketlenmemiş örnekler üzerinde tahminde bulunur.

Etiketli örneği etiketsiz örneklerle karşılaştırın.

etiket sızıntısı

Bir özelliğin etiket için temsili olduğu bir model tasarım hatası. Örneğin, potansiyel bir müşterinin belirli bir ürünü satın alıp almayacağını tahmin eden bir ikili sınıflandırma modeli kullanabilirsiniz. Modelin özelliklerinden birinin SpokeToCustomerAgent adlı bir Boole olduğunu varsayalım. Ayrıca bir müşteri aracısının, yalnızca potansiyel müşteri ürünü gerçekten satın aldıktan sonra atandığını varsayalım. Model, eğitim sırasında SpokeToCustomerAgent ile etiket arasındaki ilişkilendirmeyi hızla öğrenir.

Lambda

#fundamentals

Normalleştirme oranı ile eş anlamlı.

Lambda aşırı yüklü bir terimdir. Burada, terimin düzenleme içindeki tanımına odaklanıyoruz.

LaMDA (Diyalog Uygulamaları İçin Dil Modeli)

#language

Google tarafından geliştirilen Dönüştürücü tabanlı bir büyük dil modeli, gerçekçi diyalog yanıtları oluşturabilen büyük bir diyalog veri kümesi kullanılarak eğitilmiştir.

LaMDA: Çığır açan sohbet teknolojimiz size bir genel bakış sağlıyor.

önemli noktalar

#image

keypoints ile eş anlamlı.

dil modeli

#language

Bir jetonun veya jeton dizisinin daha uzun bir jeton dizisinde gerçekleşme olasılığını tahmin eden bir model.

Ek notlar için simgeyi tıklayın.

Mantığa aykırı gibi görünse de, metni değerlendiren birçok model dil modeli değildir. Örneğin, metin sınıflandırma modelleri ve yaklaşım analizi modelleri dil modeli değildir.

büyük dil modeli

#language

Kesin bir tanımı olmayan, genellikle çok sayıda parametresi olan dil modeli anlamına gelen gayriresmi bir terim. Bazı büyük dil modelleri 100 milyardan fazla parametre içerir.

Ek notlar için simgeyi tıklayın.

Bir dil modelinin ne zaman büyük dil modeli olarak adlandırılacak kadar büyüdüğünü merak ediyor olabilirsiniz. Şu anda parametre sayısı için üzerinde anlaşmaya varılmış bir satır yoktur.

Mevcut büyük dil modellerinin çoğu (ör. GPT) Transformer mimarisini temel alır.

gizli alan

#language

Yerleştirme alanı ile eş anlamlı.

katman

#fundamentals

Bir nöral ağ'daki bir nöron grubu. Sık karşılaşılan üç katman türü şunlardır:

Tüm özellikler için değer sağlayan giriş katmanı.

Özellikler ve etiket arasındaki doğrusal olmayan ilişkileri bulan bir veya daha fazla gizli katman.

Tahmin sağlayan çıkış katmanı.

Örneğin, aşağıdaki resimde bir giriş katmanı, iki gizli katman ve bir çıkış katmanına sahip bir nöral ağ gösterilmektedir:

TensorFlow'da, katmanlar aynı zamanda giriş olarak Tensors ve yapılandırma seçeneklerini alıp çıkış olarak başka tensörler oluşturan Python işlevleridir.

Katmanlar API'sı (tf.layers)

#TensorFlow

Katmanlardan oluşan bir derin nöral ağ oluşturmak için kullanılan bir TensorFlow API. Katmanlar API'si, aşağıdakiler gibi farklı katmanlar türleri oluşturmanıza olanak tanır:

Tamamen bağlı bir katman için tf.layers.Dense.

Konvolüsyonel katman için tf.layers.Conv2D.

Katmanlar API'si, Keras katmanlarıyla ilgili API kurallarına uyar. Yani Katmanlar API'sindeki tüm işlevler, farklı bir ön ek dışında Keras layers API'deki eşdeğerleriyle aynı ada ve imzaya sahiptir.

yaprak

#df

Karar ağacındaki herhangi bir uç nokta. Koşul'dan farklı olarak, yapraklar bir test gerçekleştirmez. Yaprak daha çok olası bir tahmindir. Yaprak aynı zamanda bir çıkarım yolunun düğümüdür.

Örneğin, aşağıdaki karar ağacı üç yaprak içerir:

Öğrenme Yorumlanabilirlik Aracı (LIT)

Görsel, etkileşimli bir model anlama ve veri görselleştirme aracı.

Modelleri yorumlamak veya metin, resim ve tablo verilerini görselleştirmek için açık kaynak LIT'yi kullanabilirsiniz.

öğrenme hızı

#fundamentals

gradyan azalma algoritmasına, her bir iterasyonda ağırlıkların ve sapmaların ne kadar güçlü bir şekilde ayarlanacağını bildiren kayan nokta sayısı. Örneğin, 0,3'lük bir öğrenme hızı, ağırlıkları ve yanlılıkları 0,1 olan bir öğrenme hızından üç kat daha güçlü bir şekilde ayarlar.

Öğrenme hızı önemli bir hiperparametredir. Öğrenme hızını çok düşük bir değere ayarlarsanız eğitim çok uzun sürer. Öğrenme hızını çok yüksek ayarlarsanız gradyan iniş genellikle tümleşme ulaşma konusunda sorun yaşanır.

Daha matematiksel açıklama için simgeyi tıklayın.

Her iterasyon sırasında gradyan azalma algoritması, öğrenme hızını gradyanla çarpar. Elde edilen ürüne gradyan adımı denir.

en küçük kareler regresyonu

L₂ Kaybı en aza indirilerek eğitilen bir doğrusal regresyon modeli.

doğrusal

#fundamentals

İki veya daha fazla değişken arasındaki, yalnızca toplama ve çarpma yoluyla temsil edilebilen bir ilişki.

Doğrusal bir ilişkinin grafiği bir çizgidir.

Doğrusal olmayan ile kontrast.

doğrusal model

#fundamentals

Tahmin yapmak için her özellik için bir ağırlık atayan model. (Doğrusal modeller bir önyargı da içerir.) Buna karşılık, derin modellerdeki özelliklerin tahminlerle ilişkisi genellikle doğrusal değildir.

Doğrusal modeller genellikle daha kolay eğitilir ve derin modellere kıyasla daha yorumlanabilir. Ancak derin modeller, özellikler arasındaki karmaşık ilişkileri öğrenebilir.

Doğrusal regresyon ve mantıksal regresyon iki tür doğrusal modeldir.

Hesaplamayı görmek için simgeyi tıklayın.

Doğrusal bir model şu formülle hesaplanır:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$
burada:

y', ham tahmindir. (Bazı doğrusal model türlerinde, bu ham tahmin daha fazla değiştirilir. Örneğin, mantıksal regresyon bölümüne bakın.)

b ise önyargıdır.

w bir ağırlıktır. Dolayısıyla w₁ ilk özelliğin ağırlığıdır, w₂ ikinci özelliğin ağırlığıdır ve bu şekilde devam eder.

x bir özellik. x₁ ilk özelliğin, x₂ ise ikinci özelliğin değeridir. x₂ ise bu şekilde devam eder.

Örneğin, üç özelliğe ilişkin doğrusal bir modelin aşağıdaki ön yargıları ve ağırlıkları öğrendiğini varsayalım:

b = 7

h₁ = -2,5

g₂ = -1,2

g₃ = 1,4

Bu nedenle, üç özellik dikkate alındığında (x₁, x₂ ve x₃) doğrusal model, her bir tahmini oluşturmak için aşağıdaki denklemi kullanır:
y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Belirli bir örneğin aşağıdaki değerleri içerdiğini varsayalım:

x₁ = 4

x₂ = -10

x₃ = 5

Bu değerleri formüle eklediğinizde şu örnekle ilgili bir tahmin elde edilir:
y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5) y' = 16

Doğrusal modeller, tahminde bulunmak için yalnızca doğrusal bir denklem kullanan modelleri değil, aynı zamanda formülün tahminde bulunan yalnızca bir bileşeni olarak doğrusal denklemleri kullanan daha geniş bir model grubunu da içerir. Örneğin, mantıksal regresyon, ham tahmini (y') işleyerek yalnızca 0 ile 1 arasında nihai bir tahmin değeri üretir.

doğrusal regresyon

#fundamentals

Aşağıdakilerin her ikisinin de doğru olduğu bir makine öğrenimi modeli türü:

Bu model doğrusal bir model olmalıdır.

Tahmin, kayan nokta değeridir. (Bu, doğrusal regresyonun regresyon kısmıdır.)

Doğrusal regresyonu mantıksal regresyon ile karşılaştırın. Ayrıca, sınıflandırma ile regresyonu karşılaştırın.

LIT

Daha önce Dil Yorumlanabilirlik Aracı olarak bilinen Learning Yorumlanabilirlik Aracı (LIT) kısaltması.

Geniş kapsamlı dil modeli

#language

Büyük dil modeli'nin kısaltmasıdır.

mantıksal regresyon

#fundamentals

Olasılığı tahmin eden bir regresyon modeli türü. Mantıksal regresyon modelleri aşağıdaki özelliklere sahiptir:

Etiket kategoriktir. Mantıksal regresyon terimi genellikle ikili mantıksal regresyon, yani iki olası değere sahip etiketlerin olasılıklarını hesaplayan bir model anlamına gelir. Daha az yaygın bir varyant olan çok terimli mantıksal regresyon, ikiden fazla olası değere sahip etiketlerin olasılıklarını hesaplar.

Eğitim sırasındaki kayıp işlevi Günlük Kaybı'dır. (İkiden fazla olası değere sahip etiketler için birden fazla Günlük Kaybı birimi paralel olarak yerleştirilebilir.)

Model, derin bir sinir ağına değil, doğrusal bir mimariye sahip. Ancak bu tanımın geri kalanı, kategorik etiketlerin olasılıklarını tahmin eden derin modeller için de geçerlidir.

Örneğin, giriş e-postasının spam veya spam olma olasılığını hesaplayan bir mantıksal regresyon modelini düşünün. Çıkarım sırasında modelin 0, 72 değerini tahmin ettiğini varsayalım. Dolayısıyla model şöyle tahmin ediyor:

E-postanın spam olma olasılığı% 72.

E-postanın spam olmama ihtimali% 28'dir.

Mantıksal regresyon modeli, aşağıdaki iki adımlı mimariyi kullanır:

Model, giriş özelliklerinin doğrusal bir işlevini uygulayarak ham tahmin (y') oluşturur.

Model, bu ham tahmini bir sigmoid işlevine girdi olarak kullanır. Bu işlev, ham tahmini 0 ile 1 arasında bir değere (bu hariç) dönüştürür.

Tüm regresyon modelleri gibi mantıksal bir regresyon modeli de bir sayıyı tahmin eder. Ancak, bu sayı genellikle aşağıdaki gibi ikili sınıflandırma modelinin bir parçası haline gelir:

Tahmin edilen sayı sınıflandırma eşiğinden büyükse ikili sınıflandırma modeli, pozitif sınıfı tahmin eder.

Tahmin edilen sayı sınıflandırma eşiğinden düşükse ikili sınıflandırma modeli negatif sınıfı tahmin eder.

Logits

Bir sınıflandırma modelinin oluşturduğu ve normalde daha sonra bir normalleştirme işlevine iletilen ham (normalleştirilmemiş) tahminlerin vektörü. Model, çok sınıflı bir sınıflandırma sorununu çöziyorsa logitler genellikle softmax işlevi için girdi haline gelir. Daha sonra softmax işlevi, her olası sınıf için bir değerle (normalleştirilmiş) olasılık vektörü oluşturur.

Günlük Kaybı

#fundamentals

İkili mantıksal regresyon'da kullanılan kayıp işlevi.

Hesaplamayı görmek için simgeyi tıklayın.

Aşağıdaki formül Günlük Kaybı'nı hesaplar:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$
burada:

$(x,y)\in D$ birçok etiketli örnek (çift $(x,y)$ ) içeren veri kümesidir.

$y$ , etiketli bir örnekteki etikettir. Bu mantıksal regresyon olduğundan her $y$ değeri 0 veya 1 olmalıdır.

$y'$ , $x$içindeki özellik grubu göz önünde bulundurulduğunda, tahmin edilen değerdir (0 ile 1 arasında, bu değerler hariç).

günlük-olasılıklar

#fundamentals

Bir olayın olasılıklarının logaritması.

Hesaplamayı görmek için simgeyi tıklayın.

Etkinlik ikili bir olasılıksa olasılık, başarı olasılığının (p) başarısızlık olasılığına (1-p) oranını ifade eder. Örneğin, belirli bir etkinliğin başarı olasılığının %90, başarısızlık olasılığının% 10 olduğunu varsayalım. Bu durumda, oranlar şu şekilde hesaplanır:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Logaritma, basit bir şekilde olasılıkların logaritmasıdır. Genel olarak "logaritma", doğal logaritmayı ifade eder ancak logaritma gerçekte 1'den büyük herhangi bir taban olabilir. Geleneksele bağlı kalarak, örneğimizin günlük olasılıkları şu şekildedir:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Log-odds işlevi, sigmoid işlevinin tersidir.

Uzun Kısa Süreli Bellek (LSTM)

#seq

El yazısı tanıma, makine çevirisi ve resim altyazısı gibi uygulamalardaki veri dizilerini işlemek için kullanılan, yinelenen nöral ağ üzerindeki bir hücre türüdür. LSTM'ler, RNN'deki önceki hücrelere ait yeni giriş ve bağlama göre geçmişi dahili bir bellek durumunda tutarak RNN'leri uzun veri dizileri nedeniyle eğitirken ortaya çıkan kaybolan gradyan sorununu ele alır.

LoRA

#language

#üretken yapay zeka

Düşük Dereceli Uyarlanabilirlik'in kısaltmasıdır.

mağlubiyet

#fundamentals

Gözetimli modelin eğitimi sırasında, bir modelin tahmininin etiketinden ne kadar uzakta olduğunu ölçer.

Kayıp işlevi kaybı hesaplar.

kayıp toplayıcı

Birden fazla modelin tahminlerini birleştirerek ve bu tahminleri tek bir tahminde bulunmak için kullanarak bir modelin performansını iyileştiren bir tür makine öğrenimi algoritması. Sonuç olarak, kayıp toplayıcı, tahminlerin varyansını azaltabilir ve tahminlerin doğruluğunu iyileştirebilir.

kayıp eğrisi

#fundamentals

Eğitim iterasyonlarının sayısının işlevi olarak kayıp grafiği. Aşağıdaki grafikte tipik bir kayıp eğrisi gösterilmektedir:

Kayıp eğrileri, modelinizin ne zaman yakınleştiğini veya öteleştirdiğini belirlemenize yardımcı olabilir.

Kayıp eğrileri aşağıdaki kayıp türlerinin tümünü gösterebilir:

eğitim kaybı

doğrulama kaybı

test kaybı

Ayrıca bkz. genelleme eğrisi.

kayıp fonksiyonu

#fundamentals

Eğitim veya test sırasında, bir toplu örnekteki kaybı hesaplayan matematiksel işlev. Kayıp işlevi, iyi tahminler yapan modeller için, kötü tahminler yapan modellere göre daha düşük bir kayıp döndürür.

Eğitimin amacı, genellikle bir kayıp işlevinin döndürdüğü kaybı en aza indirmektir.

Birçok farklı kayıp fonksiyonu türü vardır. Oluşturduğunuz model türü için uygun kayıp işlevini seçin. Örneğin:

L₂ kaybı (veya Ortalama Kareli Hata), doğrusal regresyon için bir kayıp işlevidir.

Günlük Kaybı, mantıksal regresyon için bir kayıp işlevidir.

kayıp yüzeyi

Ağırlık ve kayıp karşılaştırması grafiği. Gradyan inişi, kayıp yüzeyinin yerel minimum olduğu ağırlıkları bulmayı amaçlar.

Düşük Seviyede Uyarlanabilirlik (LoRA)

#language

#üretken yapay zeka

Büyük dil modelinin parametrelerinin yalnızca bir alt kümesinde ince ayar yapan, parametre açısından verimli ayar yapmaya yönelik bir algoritma. LoRA aşağıdaki avantajları sağlar:

Bir modelin tüm parametrelerinde ince ayar yapılmasını gerektiren tekniklere kıyasla daha hızlı ince ayarlar yapar.

İnce ayar yapılmış modelde çıkarım işleminin işlem maliyetini azaltır.

LoRA ile ayarlanmış bir model, tahminlerinin kalitesini korur veya iyileştirir.

LoRA, bir modelin birden fazla özel versiyonunu kullanabilmenizi sağlar.

Güvenlik Düzeyi (LSTM)

#seq

Uzun Kısa Vadeli Hafıza'nın kısaltmasıdır.

M

makine öğrenimi

#fundamentals

Giriş verilerinden modeli eğiten bir program veya sistem. Eğitilen model, modeli eğitmek için kullanılan dağıtımla aynı dağıtımdan alınan yeni (daha önce görülmemiş) verilerden faydalı tahminlerde bulunabilir.

Makine öğrenimi ayrıca bu program veya sistemlerle ilgili alanı da ifade eder.

çoğunluk sınıfı

#fundamentals

Sınıf dengesiz veri kümesinde daha yaygın olan etiket. Örneğin, %99 negatif etiket ve% 1 pozitif etiket içeren bir veri kümesi düşünüldüğünde, negatif etiketler çoğunluk sınıftır.

Azınlık sınıfı ile kontrast.

Markov karar süreci (MDP)

#rl

Markov mülkünün bulunduğu varsayımı kapsamında bir dizi durum arasında gezinmek için kararların (veya eylemlerin) alındığı karar verme modelini temsil eden bir grafik. Pekiştirmeli öğrenmede, durumlar arasındaki bu geçişler sayısal bir ödül döndürür.

Markov mülkü

#rl

Durum geçişlerinin tamamen geçerli durum ve temsilcinin işlemi içindeki örtülü bilgilere göre belirlendiği belirli ortamların özelliği.

maskeli dil modeli

#language

Aday jetonlarının bir dizideki boşlukları doldurma olasılığını tahmin eden bir dil modeli. Örneğin, maskeli dil modeli, aday kelimelerin aşağıdaki cümlenin altını çizerek değiştirilme olasılığını hesaplayabilir:

Şapkadaki ____ geri geldi.

Edebiyatta genellikle alt çizgi yerine "MASK" dizesi kullanılmaktadır. Örneğin:

Şapkadaki "MASK" geri döndü.

Modern maskeli dil modellerinin çoğu iki yönlüdür.

Matplotlib

Açık kaynak Python 2D çizim kitaplığı. matplotlib, makine öğreniminin farklı yönlerini görselleştirmenize yardımcı olur.

matris çarpanlarına ayırma

#recsystems

Matematikte, nokta çarpımı bir hedef matrise yakın olan matrisleri bulmak için kullanılan bir mekanizma.

Öneri sistemlerinde, hedef matris genellikle kullanıcıların öğeler ile ilgili puanlarını içerir. Örneğin, bir film öneri sisteminin hedef matrisi aşağıdaki gibi görünebilir. Burada pozitif tam sayılar kullanıcı puanlarıdır ve 0, kullanıcının filmi derecelendirmediği anlamına gelir:

Kazablanka Philadelphia'nın Hikayesi Black Panther Wonder Woman Ucuz Kurgu

1. Kullanıcı 5,0 3,0 0,0 2,0 0,0

2. Kullanıcı 4.0 0,0 0,0 1.0 5,0

3. Kullanıcı 3,0 1.0 4.0 5,0 0,0

Film öneri sistemi, derecelendirilmemiş filmler için kullanıcı puanlarını tahmin etmeyi amaçlar. Örneğin, 1. Kullanıcı Kara Panter'i beğenir mi?

Öneri sistemlerine yönelik yaklaşımlardan biri, matrisi çarpanlara ayırarak aşağıdaki iki matrisi oluşturmaktır:

Kullanıcı sayısı X yerleştirme boyutlarının sayısı şeklinde hesaplanan bir kullanıcı matrisi.

Yerleştirme boyutlarının sayısı X öğe sayısı şeklinde hesaplanan bir öğe matrisi.

Örneğin, üç kullanıcımız ve beş öğemiz için matrisi çarpanlara ayırma, aşağıdaki kullanıcı matrisini ve öğe matrisini elde edebilir:

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

Kullanıcı matrisinin ve öğe matrisinin nokta çarpımı, yalnızca orijinal kullanıcı puanlarını değil, aynı zamanda her bir kullanıcının görmediği filmlerle ilgili tahminleri de içeren bir öneri matrisi elde eder. Örneğin, 1.Kullanıcı'nın Kazablanka olan 5, 0 olan puanına bakalım. Öneri matrisinde o hücreye karşılık gelen nokta çarpımının 5, 0 civarında olması beklenmektedir.Bu da şu şekildedir:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Daha da önemlisi, 1. Kullanıcı Kara Panter'i beğenecek mi? İlk satıra ve üçüncü sütuna karşılık gelen nokta çarpımı alındığında 4,3 tahmini puan alınır:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Matrisi çarpanlara ayırma, genelde birlikte hedef matristen önemli ölçüde daha kompakt olan bir kullanıcı matrisi ve öğe matrisi elde edilmesini sağlar.

Ortalama Mutlak Hata (MAE)

L₁ kaybı kullanıldığında örnek başına ortalama kayıptır. Ortalama Mutlak Hatayı aşağıdaki şekilde hesaplayın:

Bir grup için L₁ kaybını hesaplayın.

L₁ kaybını, gruptaki örnek sayısına bölün.

Resmi matematik işlemlerini görmek için simgeyi tıklayın.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

Bu örnekte:

$n$, örnek sayısıdır.

Etiketin gerçek değeri $y$ olacaktır.

$\hat{y}$, modelin $y$ için tahmin ettiği değerdir.

Örneğin, aşağıdaki beş örnekten oluşan grupta L₁ kaybının hesaplanmasını düşünün:

Örneğin gerçek değeri Modelin tahmini değeri Kayıp (gerçek ile tahmin edilen arasındaki fark)

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = L₁ kaybı

Dolayısıyla, L₁ kaybı 8 ve örnek sayısı 5'tir. Bu nedenle, Ortalama Mutlak Hata şöyle olur:

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

Ortalama Kare Hatası ve Kök Ortalama Kare Hatası ile Kontrast Ortalama Mutlak Hata.

Ortalama Kare Hatası (MSE)

L₂ kaybı kullanıldığında örnek başına ortalama kayıptır. Ortalama Kareli Hatayı aşağıdaki gibi hesaplayın:

Bir grup için L₂ kaybını hesaplayın.

L₂ kaybını, gruptaki örnek sayısına bölün.

Resmi matematik işlemlerini görmek için simgeyi tıklayın.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ burada:

$n$, örnek sayısıdır.

Etiketin gerçek değeri $y$ olacaktır.

$\hat{y}$, modelin $y$ için yapılan tahminidir.

Örneğin, aşağıdaki beş örnek grubundaki kaybı göz önünde bulundurun:

Gerçek değer Model tahmini Mağlubiyet Kaybın kareli

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = L₂ kaybı

Bu nedenle, Ortalama Kareli Hata şöyle olur:

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

Ortalama Kare Hatası, özellikle doğrusal regresyon için popüler bir eğitim optimize edicidir.

Ortalama Mutlak Hata ve Kök Ortalama Kare Hatası ile Kontrast Ortalama Kareli Hata.

TensorFlow Playground kayıp değerlerini hesaplamak için Ortalama Kareli Hata'yı kullanır.

Aykırı değerler hakkında daha fazla ayrıntı görmek için simgeyi tıklayın.

Aykı değerler, Ortalama Kareli Hatayı önemli ölçüde etkiler. Örneğin, 1 kaybı 1'in karesel kaybı, 3 kaybı ise kare kaybı olarak 9'dur. Yukarıdaki tabloda 3 kaybı olan örnek, Ortalama Kareli Hatanın yaklaşık% 56'sını, 1 kayba sahip örneklerin her biri ise Ortalama Kareli Hatanın yalnızca% 6'sını teşkil eder.

Aykırı değerler Ortalama Mutlak Hatayı, Ortalama Kareli Hata kadar güçlü bir şekilde etkilemez. Örneğin, 3 kaybı, Ortalama Mutlak Hatanın yalnızca yaklaşık% 38'ini oluşturur.

Kırpma, aşırı aykırı değerlerin modelinizin tahmin yeteneğine zarar vermesini önlemenin bir yoludur.

örgü

#TensorFlow

#GoogleCloud

ML paralel programlamasında, TPU çiplerine veri ve model atamak ve bu değerlerin nasıl parçalanacağını ya da çoğaltılacağını tanımlamakla ilişkilendirilen bir terim.

Ağ, aşırı yüklenen bir terimdir. Aşağıdakilerden herhangi biri anlamına gelebilir:

TPU çiplerinin fiziksel düzeni.

Verileri ve modeli TPU çipleriyle eşlemek için soyut mantıksal bir yapı.

Her iki durumda da bir örgü, şekil olarak belirtilir.

meta-öğrenim

#language

Bir öğrenme algoritmasını keşfeden veya iyileştiren makine öğrenimi alt kümesi. Bir meta öğrenme sistemi, bir modeli az miktarda veriden veya önceki görevlerde edinilen deneyimden hızla yeni bir görev öğrenecek şekilde eğitmeyi de hedefleyebilir. Meta öğrenme algoritmaları genellikle aşağıdakileri sağlamaya çalışır:

Elle tasarlanan özellikleri (ör. başlatıcı veya optimize edici) iyileştirin veya öğrenin.

Veri ve işlem açısından daha verimlidir.

Genelleştirmeyi geliştirin.

Meta öğrenme, birkaç atışlık öğrenmeyle ilgilidir.

metrik

#TensorFlow

Sizin için önemli bir istatistik.

Hedef, makine öğrenimi sisteminin optimize etmeye çalıştığı bir metriktir.

Metrics API'si (tf.metrics)

Modelleri değerlendirmek için bir TensorFlow API. Örneğin tf.metrics.accuracy, bir modelin tahminlerinin etiketlerle ne sıklıkta eşleştiğini belirler.

mini toplu e-ticaret

#fundamentals

Bir grubun rastgele seçilmiş küçük bir alt kümesi ve tek bir yineleme halinde işlenir. Bir mini grubun toplu boyutu genellikle 10 ile 1.000 örnek arasındadır.

Örneğin, tüm eğitim verisinin (tam grup) 1.000 örnekten oluştuğunu varsayalım. Ayrıca her mini grubun grup boyutunu 20 olarak ayarladığınızı varsayalım. Bu nedenle, her yineleme 1.000 örnekten rastgele 20 tanesindeki kaybı belirler ve ardından ağırlıklar ile önyargıları buna göre ayarlar.

Mini toplu gruplardaki kaybın hesaplanması, tam paketteki tüm örneklerin kaybından çok daha etkilidir.

mini toplu stokastik gradyan iniş

Küçük gruplar kullanan bir gradyan azalma algoritması. Başka bir deyişle, mini toplu stokastik gradyan azalma, gradyanı eğitim verilerinin küçük bir alt kümesini temel alarak tahmin eder. Normal olasılıksal gradyan iniş için 1 boyutunda küçük bir grup kullanılır.

minimum kayıp

Oluşturulan verilerin ve gerçek verilerin dağılımı arasındaki çapraz entropi'ye dayanan, üretken zararlı ağlar için bir kayıp işlevi.

Minimax kaybı, ilk makalede üretken ve rahatsız edici ağları açıklamak için kullanılmıştır.

azınlık sınıfı

#fundamentals

Sınıf dengesiz veri kümesinde daha az yaygın olan etiket. Örneğin, %99 negatif ve% 1 pozitif etiket içeren bir veri kümesi düşünüldüğünde, pozitif etiketler azınlık sınıfıdır.

Çoğunluk sınıfı ile kontrast oluşturun.

Ek notlar için simgeyi tıklayın.

Milyonlarca örnek içeren bir eğitim seti etkileyici görünüyor. Ancak azınlık sınıfı yeterince temsil edilmiyorsa çok büyük bir eğitim seti bile yeterli olmayabilir. Veri kümesindeki toplam örnek sayısına ve azınlık sınıfındaki örneklerin sayısına daha çok odaklanın.

Veri kümenizde yeterli sayıda azınlık sınıfı örneği yoksa azınlık sınıfını desteklemek için aşağı örnekleme (ikinci maddedeki tanım) kullanmayı düşünün.

ML

Makine öğrenimi kısaltmasıdır.

MNIST

#image

LeCun, Cortes ve Burges tarafından derlenen, her görüntüde bir insanın 0-9 arasındaki belirli bir rakamı manuel olarak nasıl yazdığını gösteren 60.000 görüntü içeren, herkese açık bir veri kümesi. Her resim, 28x28 boyutunda bir tam sayı dizisi olarak depolanır. Her tam sayı, 0 ile 255 arasında (0 ve 255 dahil) gri tonlamalı bir değerdir.

MNIST, genellikle yeni makine öğrenimi yaklaşımlarını test etmek için kullanılan, makine öğrenimi için standart bir veri kümesidir. Ayrıntılar için MNIST El Yazısı Rakamlar Veritabanı sayfasını inceleyin.

modalite

#language

Üst düzey bir veri kategorisi. Örneğin, sayılar, metin, resimler, video ve ses, beş farklı moddur.

model

#fundamentals

Genel olarak, giriş verilerini işleyen ve çıktıyı döndüren herhangi bir matematiksel yapı. Farklı şekilde ifade edilen model, bir sistemin tahmin yapması için gereken parametre ve yapı kümesidir. Gözetimli makine öğreniminde ise bir model girdi olarak bir örnek alır ve çıkış olarak bir tahmin çıkarımı yapar. Gözetimli makine öğreniminde modeller biraz farklıdır. Örneğin:

Doğrusal regresyon modeli, bir dizi ağırlıktan ve bir önyargıdan oluşur.

Nöral ağ modeli aşağıdakilerden oluşur:

Her biri bir veya daha fazla nöron içeren bir gizli katman kümesi.

Her bir nöronla ilişkili ağırlıklar ve yanlılık.

Karar ağacı modeli şunlardan oluşur:

Ağacın şekli; yani koşulların ve yaprakların birbirine bağlı olduğu kalıp.

Koşullar ve yapraklar.

Bir modeli kaydedebilir, geri yükleyebilir veya kopyalarını oluşturabilirsiniz.

Gözetimsiz makine öğrenimi de modeller oluşturur. Bu işlev genellikle bir giriş örneğini en uygun kümeye eşleyebilen bir işlevdir.

Cebir ve programlama fonksiyonlarını makine öğrenimi modelleriyle karşılaştırmak için simgeyi tıklayın.

Aşağıdaki gibi cebirsel bir fonksiyon bir modeldir:

f(x, y) = 3x -5xy + y² + 17

Önceki işlev, giriş değerlerini (x ve y) çıkışla eşleştirir.

Benzer şekilde, aşağıdaki gibi bir programlama işlevi de modeldir:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

Bir çağrı, önceki Python işlevine bağımsız değişkenleri iletir ve Python işlevi çıktı üretir (return ifadesiyle).

Derin nöral ağlar, cebir veya programlama işlevinden çok farklı bir matematiksel yapıya sahip olsa da derin bir sinir ağı yine de girdi (bir örnek) ve çıktı (tahmin) döndürür.

İnsan programcı, bir programlama işlevini manuel olarak kodluyor. Makine öğrenimi modeli ise otomatik eğitim sırasında optimum parametreleri kademeli olarak öğrenir.

model kapasitesi

Bir modelin öğrenebileceği sorunların karmaşıklığı. Bir modelin öğrenebileceği sorunlar ne kadar karmaşıksa modelin kapasitesi de o kadar yüksek olur. Bir modelin kapasitesi genellikle model parametrelerinin sayısıyla birlikte artar. Sınıflandırıcı kapasitesinin resmi tanımı için VC boyutu bölümüne bakın.

model basamaklı

#üretken yapay zeka

Belirli bir çıkarım sorgusu için ideal model seçen bir sistem.

Çok büyük (çok sayıda parametre) veya çok daha küçük (çok daha az parametre) arasında değişen bir model grubu düşünün. Çok büyük modeller, daha küçük modellere kıyasla çıkarım zamanında daha fazla işlem kaynağı tüketir. Bununla birlikte, çok büyük modeller genellikle daha küçük modellere kıyasla daha karmaşık istekler sonucuna varabilir. Model basamaklama, çıkarım sorgusunun karmaşıklığını belirler ve ardından çıkarımı gerçekleştirmek için uygun modeli seçer. Model basamaklamanın başlıca nedeni, genellikle daha küçük modelleri seçip daha karmaşık sorgular için yalnızca daha büyük bir model seçerek çıkarım maliyetlerini azaltmaktır.

Küçük bir modelin telefonda, daha büyük bir modelin ise uzak bir sunucuda çalıştığını hayal edin. İyi model basamaklandırması, daha küçük modelin basit istekleri işlemesini sağlayarak ve yalnızca karmaşık istekleri ele almak için uzak modeli çağırarak maliyeti ve gecikmeyi azaltır.

Ayrıca model yönlendirici bölümüne de bakın.

model paralelliği

#language

Bir model farklı parçalarını farklı model yerleştiren, eğitim veya çıkarımı ölçeklendirme yöntemi. Model paralelliği, tek bir cihaza sığmayacak kadar büyük modellerin kullanılmasını sağlar.

Bir sistem, model paralelliğini uygulamak için genellikle aşağıdakileri yapar:

Modeli daha küçük parçalara ayırır (bölür).

Bu küçük parçaların eğitimini birden fazla işlemciye dağıtır. Her işlemci, modelin kendi bölümünü eğitir.

Tek bir model oluşturmak için sonuçları birleştirir.

Model paralelliği, eğitimi yavaşlatır.

Ayrıca veri paralelliği konusunu inceleyin.

model yönlendirici

#üretken yapay zeka

model model için ideal model belirleyen algoritmadır. Model yönlendiricinin kendisi genellikle belirli bir giriş için en iyi modeli nasıl seçeceğini adım adım öğrenen bir makine öğrenimi modelidir. Bununla birlikte, bir model yönlendiricisi bazen daha basit ve makine öğrenimi olmayan bir algoritma olabilir.

model eğitimi

En iyi model belirleme süreci.

İlgiyi Artırma

Bir öğrenme adımının yalnızca geçerli adımdaki türeve değil, aynı zamanda kendisinden hemen önce gelen adımların türevlerine de bağlı olduğu, karmaşık bir gradyan azalma algoritması. Momentum, fizikteki momentuma benzer şekilde, zaman içindeki gradyanların üstel ağırlıklı hareketli ortalamasının hesaplamasını içerir. Momentum bazen öğrenmenin yerel minimumda takılıp kalmasını engeller.

çok sınıflı sınıflandırma

#fundamentals

Gözetimli öğrenmede, veri kümesinin ikiden fazla sınıf içerdiği bir sınıflandırma sorunudur. Örneğin, Iris veri kümesindeki etiketler aşağıdaki üç sınıftan biri olmalıdır:

Süsen setosa

İris virginica

Süsen yeşil

Yeni örneklerde Iris türünü tahmin eden Iris veri kümesinde eğitilen bir model çok sınıflı sınıflandırma yapıyor.

Buna karşın, tam olarak iki sınıfı birbirinden ayıran sınıflandırma sorunları ikili sınıflandırma modelleridir. Örneğin, spam veya spam değil tahmin eden bir e-posta modeli, ikili sınıflandırma modelidir.

Kümeleme problemlerinde çok sınıflı sınıflandırma, ikiden fazla kümeyi ifade eder.

çok sınıflı mantıksal regresyon

Çok sınıflı sınıflandırma problemlerinde mantıksal regresyon kullanma.

birden fazla kafa ile kendi kendine dikkat

#language

Giriş dizisindeki her pozisyon için kendi kendine dikkat mekanizmasını birden çok kez uygulayan kendi kendine dikkat özelliğinin uzantısı.

Transformers, birden çok kafalı öz dikkat becerisini tanıttı.

çok modlu model

#language

Giriş ve/veya çıkışları birden fazla modülasyon içeren model. Örneğin, özellik olarak hem bir resmi hem de bir metin başlığını (iki mod) alıp metin altyazısının resim için ne kadar uygun olduğunu belirten bir puan veren bir model düşünün. Dolayısıyla bu modelin girişleri çok modlu, çıktıları ise tek modludur.

çok terimli sınıflandırma

Çok sınıflı sınıflandırma ile eş anlamlı.

çok terimli regresyon

Çok sınıflı mantıksal regresyon ile eş anlamlıdır.

çoklu görev

Birden fazla model gerçekleştirmek üzere tek bir model eğitildiği bir makine öğrenimi tekniği.

Çoklu görev modelleri, farklı görevlerin her biri için uygun veriler kullanılarak eğitilir. Bu sayede model, görevler genelinde bilgi paylaşmayı öğrenerek daha etkili öğrenmeye yardımcı olur.

Birden çok görev için eğitilen bir model, genellikle daha iyi genelleme yeteneğine sahiptir ve farklı veri türlerini işlerken daha sağlam olabilir.

N

NaN tuzağı

Modelinizdeki bir sayının eğitim sırasında NaN haline gelmesi, modelinizdeki çok sayıda veya diğer tüm sayıların nihayetinde NaN'e dönüşmesine neden olur.

NaN, Not a Number'ın kısaltmasıdır.

doğal dil anlama

#language

Kullanıcının yazdıklarına veya söylediklerine göre niyetini belirleme. Örneğin, bir arama motoru, kullanıcının yazdıklarına veya söylediklerine göre kullanıcının ne aradığını belirlemek için doğal dil anlama özelliğini kullanır.

negatif sınıf

#fundamentals

İkili sınıflandırmada, bir sınıf pozitif, diğeri ise negatif olarak adlandırılır. Pozitif sınıf, modelin test ettiği şey veya etkinliktir. Negatif sınıf ise diğer olasılıktır. Örneğin:

Tıbbi testteki negatif sınıf "tümör değil" olabilir.

Bir e-posta sınıflandırıcıdaki negatif sınıf, "spam değil" olabilir.

Pozitif sınıf ile kontrast oluşturun.

negatif örnekleme

Aday örnekleme ile eş anlamlıdır.

Nöral Mimari Araması (NAS)

Nöral ağın mimarisini otomatik olarak tasarlamaya yönelik bir teknik. NAS algoritmaları, bir nöral ağı eğitmek için gereken zaman ve kaynak miktarını azaltabilir.

NAS genellikle şunları kullanır:

Olası mimariler kümesi olan bir arama alanı.

Belirli bir mimarinin belirli bir görevde ne kadar iyi performans gösterdiğinin ölçüsü olan fitness fonksiyonu.

NAS algoritmaları genellikle küçük bir olası mimari grubuyla başlar ve algoritma hangi mimarilerin etkili olduğu hakkında daha fazla bilgi edindikçe arama alanını kademeli olarak genişletir. Fitness işlevi, genellikle bir eğitim setindeki mimarinin performansına dayanır ve algoritma, genellikle pekiştirmeli öğrenme tekniği kullanılarak eğitilir.

NAS algoritmalarının görüntü sınıflandırma, metin sınıflandırma ve makine çevirisi gibi çeşitli görevler için yüksek performanslı mimarileri bulmada etkili olduğu kanıtlanmıştır.

nöral ağ

#fundamentals

En az bir gizli katman içeren model. Derin sinir ağı, birden fazla gizli katman içeren bir nöral ağ türüdür. Örneğin, aşağıdaki şemada iki gizli katman içeren bir derin nöral ağ gösterilmektedir.

Bir nöral ağdaki her nöron, bir sonraki katmandaki tüm düğümlere bağlanır. Örneğin, yukarıdaki şemada, birinci gizli katmandaki üç nöronun her birinin ikinci gizli katmandaki iki nörona ayrı ayrı bağlandığına dikkat edin.

Bilgisayarlarda uygulanan nöral ağlar, beyinlerde ve diğer sinir sistemlerinde bulunan nöral ağlardan ayırt edilmeleri için bazen yapay nöral ağlar olarak da adlandırılır.

Bazı nöral ağlar, farklı özellikler ile etiket arasındaki son derece karmaşık doğrusal olmayan ilişkileri taklit edebilir.

Ayrıca bkz. evrimsel nöral ağ ve yinelenen nöral ağ.

nöron

#fundamentals

Makine öğreniminde, bir sinir ağının gizli katmanında bulunan ayrı bir birim. Her nöron aşağıdaki iki adımlı eylemi gerçekleştirir:

Giriş değerlerinin ağırlıklı toplamını karşılık gelen ağırlıklarıyla çarparak hesaplar.

Ağırlıklı toplamı bir etkinleştirme işlevine girdi olarak geçirir.

İlk gizli katmandaki bir nöron, giriş katmanındaki özellik değerlerinden gelen girişleri kabul eder. İlkinin ötesinde herhangi bir gizli katmanda bulunan bir nöron, önceki gizli katmandaki nöronlardan gelen girişleri kabul eder. Örneğin, ikinci gizli katmandaki bir nöron, birinci gizli katmandaki nöronlardan gelen girişleri kabul eder.

Aşağıdaki resimde iki nöron ve bunların girişleri vurgulanmaktadır.

Bir nöral ağdaki bir nöron, beyindeki nöronların ve sinir sistemlerinin diğer kısmlarının davranışını taklit eder.

N-gram

#seq

#language

N kelimelik sıralı bir dizi. Örneğin, gerçekten çılgın ifadesi 2 gramlık bir kelimedir. Düzen ilgili bir konu olduğundan, çılgınca 2 gramlık ile çok çılgınca karşılaştırılır.

N Bu N-gram türü için adlar Örnekler

2 bigram veya 2 gram gidip gitme, öğle yemeği içme, akşam yemeği yeme

3 trigram veya 3 gram çok fazla yeme, üç görme engelli fare ve zil zıplama

4 4 gram parkta yürüyün, rüzgârda toz kıstırın, çocuk mercimek yediyse

Birçok doğal dil anlama modeli, kullanıcının yazacağı veya söyleyeceği bir sonraki kelimeyi tahmin etmek için N-gramlardan yararlanır. Örneğin, bir kullanıcının üç kör yazdığını varsayalım. Trigramlara dayalı bir NLU modeli muhtemelen kullanıcının bir sonraki mikro türünü tahmin eder.

N-gramları, sırasız kelime kümeleri olan kelime torbaları ile karşılaştırın.

NLU

#language

Doğal dil anlama kısaltması.

düğüm (karar ağacı)

#df

Karar ağacında, herhangi bir koşul veya yaprak.

düğüm (nöral ağ)

#fundamentals

Gizli katman içindeki bir nöron.

düğüm (TensorFlow grafiği)

#TensorFlow

TensorFlow grafiğindeki işlem.

gürültü

Genel anlamda, veri kümesinde sinyali engelleyen her şey. Gürültü, verilere çeşitli şekillerde eklenebilir. Örneğin:

Derecelendirme yapan gerçek kişiler, etiketleme sırasında hata yapabilir.

İnsanlar ve araçlar, özellik değerlerini yanlış kaydeder veya atlar.

ikili olmayan koşul

#df

İkiden fazla olası sonuç içeren koşul. Örneğin, aşağıdaki ikili olmayan koşulda üç olası sonuç bulunur:

doğrusal olmayan

#fundamentals

Yalnızca toplama ve çarpma yoluyla temsil edilemeyen iki veya daha fazla değişken arasındaki ilişki. Doğrusal ilişki bir çizgi olarak temsil edilebilir; doğrusal olmayan ilişki ise bir çizgi olarak temsil edilemez. Örneğin, her biri tek bir özelliği tek bir etiketle ilişkilendiren iki model düşünün. Soldaki model doğrusal, sağdaki model ise doğrusal değil:

yanıt vermeme yanlılığı

#fairness

Seçim yanlılığı bölümünü inceleyin.

durağanlık

#fundamentals

Değerleri bir veya daha fazla boyutta (genellikle zaman) değişen bir özellik. Örneğin, aşağıdaki durağanlık örneklerine göz atın:

Belirli bir mağazada satılan mayo sayısı mevsime göre değişir.

Belirli bir bölgede toplanan belirli bir meyvenin miktarı yılın büyük bölümünde sıfır olsa da kısa bir süreliğine büyük olur.

İklim değişikliği nedeniyle yıllık ortalama sıcaklıklar değişiyor.

Sabitlik ile kontrast.

normalleştirme

#fundamentals

Genel olarak, bir değişkenin gerçek değer aralığını aşağıdaki gibi standart bir değer aralığına dönüştürme süreci:

-1'den +1'e

0 - 1

normal dağılım

Örneğin, belirli bir özelliğin gerçek değer aralığının 800 ila 2.400 olduğunu varsayalım. Özellik mühendisliği kapsamında, gerçek değerleri -1 ile +1 gibi standart bir aralığa kadar normalleştirebilirsiniz.

Normalleştirme, özellik mühendisliğinde yaygın olarak yapılan bir görevdir. Özellik vektöründeki her sayısal özellik hemen hemen aynı aralığa sahip olduğunda modeller genellikle daha hızlı eğitilir (ve daha iyi tahminler üretir).

yenilik algılama

Yeni (yeni) bir örneğin, eğitim kümesi ile aynı dağıtımdan gelip gelmediğini belirleme süreci. Başka bir deyişle, eğitim veri kümesiyle ilgili eğitimden sonra yenilik algılama, yeni bir örneğin (çıkarım sırasında veya ek eğitim sırasında) aykırı değer olup olmadığını belirler.

Aykı değer algılama ile kontrast.

sayısal veriler

#fundamentals

Tam sayı veya reel değerli sayılarla temsil edilen özellikler. Örneğin, bir ev değerleme modeli büyük olasılıkla bir evin boyutunu (fitkare veya metrekare cinsinden) sayısal veri olarak temsil eder. Bir özelliğin sayısal veriler olarak temsil edilmesi, özelliğin değerlerinin etiketle matematiksel bir ilişkisi olduğunu gösterir. Yani bir evdeki metrekare sayısının evin değeri ile matematiksel bir ilişkisi olabilir.

Tüm tamsayı veriler sayısal veri olarak temsil edilmemelidir. Örneğin, dünyanın bazı yerlerindeki posta kodları tam sayıdır. Ancak, tamsayılı posta kodları modellerde sayısal veri olarak temsil edilmemelidir. Bunun nedeni, 20000 tutarındaki bir posta kodunun, 10.000'lik bir posta kodundan iki kat (veya yarı) daha güçlü olmamasıdır. Ayrıca, farklı posta kodları farklı emlak değerleriyle ilişkili bulunsa da, 20000 posta kodundaki emlak değerlerinin, 10000 posta kodundaki emlak değerlerinden iki kat daha değerli olduğunu varsayamayız. Posta kodları bunun yerine kategorik veri olarak temsil edilmelidir.

Sayısal özellikler bazen sürekli özellikler olarak adlandırılır.

NumPy

Python'da verimli dizi işlemleri sağlayan bir açık kaynak matematik kitaplığı. pandas, NumPy'de geliştirilmiştir.

O

hedef

Algoritmanızın optimize etmeye çalıştığı bir metrik.

hedef fonksiyon

Bir modelin optimize etmeyi hedeflediği matematiksel formül veya metrik. Örneğin, doğrusal regresyon için hedef işlevi genellikle Ortalama Kare Kayb'dır. Dolayısıyla, bir doğrusal regresyon modelini eğitirken eğitimde Ortalama Kare Kaybı en aza indirmek amaçlanır.

Bazı durumlarda amaç, hedef işlevini en üst düzeye çıkarmaktır. Örneğin, hedef işlevi doğruluk ise amaç, doğruluğu en üst düzeye çıkarmaktır.

Ayrıca bkz. kayıp.

eğik koşul

#df

Karar ağacında, birden fazla özellik içeren koşul. Örneğin, yükseklik ve genişliğin her ikisi de özelliklerse aşağıdaki koşul, eğik bir koşuldur:

height > width

Eksene ayarlı koşul ile kontrast oluşturun.

çevrimdışı

#fundamentals

Statik ile eş anlamlıdır.

çevrimdışı çıkarım

#fundamentals

Bir modelin bir grup tahmin oluşturma ve ardından bu tahminleri önbelleğe alma (kaydetme) işlemidir. Böylece uygulamalar, modeli yeniden çalıştırmak yerine önbellekten tahmine erişebilir.

Örneğin, dört saatte bir yerel hava durumu tahminleri (tahminler) oluşturan bir model düşünün. Her model çalıştırıldıktan sonra, sistem tüm yerel hava durumu tahminlerini önbelleğe alır. Hava durumu uygulamaları, tahminleri önbellekten alır.

Çevrimdışı çıkarım, statik çıkarım olarak da adlandırılır.

Online çıkarım ile kontrast oluşturun.

tek kullanımlık kodlama

#fundamentals

Kategorik verileri bir vektör olarak gösterme:

Bir öğe 1 olarak ayarlanmış.

Diğer tüm öğeler 0'a ayarlanır.

Tek kullanımlık kodlama, genellikle sınırlı bir olası değer kümesine sahip dizeleri veya tanımlayıcıları temsil etmek için kullanılır. Örneğin, Scandinavia adlı belirli bir kategorik özelliğin beş olası değere sahip olduğunu varsayalım:

"Danimarka"

"İsveç"

"Norveç"

"Finlandiya"

"İzlanda"

Tek seferlik kodlama, beş değerin her birini aşağıdaki gibi temsil edebilir:

country Vektör

"Danimarka" 1 0 0 0 0

"İsveç" 0 1 0 0 0

"Norveç" 0 0 1 0 0

"Finlandiya" 0 0 0 1 0

"İzlanda" 0 0 0 0 1

Tek seferlik kodlama sayesinde, bir model beş ülkenin her birine bağlı olarak farklı bağlantılar öğrenebilir.

Bir özelliğin sayısal veri olarak temsil edilmesi, tek seferlik kodlamaya alternatiftir. Maalesef İskandinav ülkelerini sayısal olarak temsil etmek iyi bir seçim değil. Örneğin, aşağıdaki sayısal temsili düşünün:

"Danimarka" 0'dır

"İsveç" 1

"Norveç" 2

"Finlandiya" 3

"İzlanda" 4

Sayısal kodlama ile, bir model ham sayıları matematiksel olarak yorumlar ve bu sayılar üzerinde eğitmeye çalışır. Ancak İzlanda, Norveç'inkinin iki katı (veya yarısı kadar) değildir; dolayısıyla model bazı tuhaf sonuçlara ulaşabilirdi.

tek seferlik öğrenme

Genellikle nesne sınıflandırma için kullanılan, tek bir eğitim örneğinden etkili sınıflandırıcılar öğrenmek amacıyla tasarlanmış bir makine öğrenimi yaklaşımı.

Ayrıca, kısa süreli öğrenme ve sıfır çekim öğrenme konularına da göz atın.

tek seferlik istem

#language

#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesi gerektiğini gösteren bir örnek içeren istem. Örneğin, aşağıdaki istemde büyük bir dil modelinin bir sorguyu nasıl yanıtlaması gerektiğini gösteren bir örnek yer almaktadır.

Tek bir istemin bölümleri Notlar

Belirtilen ülkenin resmi para birimi nedir? LLM'nin yanıtlamasını istediğiniz soru.

Fransa: EUR Bir örnek.

Hindistan: Asıl sorgu.

Tek seferlik isteme özelliğini aşağıdaki terimlerle karşılaştırın:

sıfır çekim istemi

birkaç atış istemi

bir veya tümü

#fundamentals

N sınıfındaki bir sınıflandırma sorunu dikkate alındığında, N ayrı ikili sınıflandırıcıdan (olası her sonuç için bir ikili sınıflandırıcı) oluşan bir çözüm elde edilmiştir. Örneğin, örnekleri hayvan, sebze veya mineral olarak sınıflandıran bir model göz önünde bulundurulduğunda, "hepsine karşı" bir çözelti aşağıdaki üç ayrı ikili sınıflandırıcıyı sağlar:

hayvan mı hayvan mı değil mi

sebze mi, sebze olmayan mı

mineral mi, mineral değil mi

online

#fundamentals

Dinamik ile eş anlamlı.

online çıkarım

#fundamentals

İsteğe bağlı olarak tahminler oluşturma Örneğin, bir uygulamanın bir modele giriş ilettiğini ve tahmin için istekte bulunduğunu varsayalım. Online çıkarım kullanan bir sistem, modeli çalıştırarak (ve tahmini uygulamaya döndürerek) isteğe yanıt verir.

Çevrimdışı çıkarım ile kontrast oluşturun.

işlem (op)

#TensorFlow

TensorFlow'da, bir Tensor'u oluşturan, değiştiren veya yok eden tüm prosedürler. Örneğin, matris çarpım, giriş olarak iki Tensor alıp çıkış olarak bir Tensor oluşturan bir işlemdir.

Optaks

JAX için bir gradyan işleme ve optimizasyon kitaplığı. Optax, derin nöral ağlar gibi parametrik modelleri optimize etmek için özel yöntemlerle yeniden birleştirilebilecek yapı taşları sağlayarak araştırmayı kolaylaştırır. Diğer hedefler şunlardır:

Temel bileşenlerin okunabilir, test edilmiş ve verimli uygulamalarını sağlama.

Düşük seviyeli malzemelerin özel optimize edicilerle (veya diğer gradyan işleme bileşenleriyle) birleştirilmesini mümkün kılarak verimliliği artırma.

Herkesin katkıda bulunmasını kolaylaştırarak yeni fikirlerin benimsenmesini hızlandırma.

optimize edici

gradyan azalma algoritmasının özel bir uygulaması. Popüler optimize ediciler şunlardır:

AdaGrad, ADAptive GRADient iniş anlamına gelir.

Adı, Momentum ile ADAptive'i (ADAptive) kısaltmasıdır.

grup dışı homojenlik yanlılığı

#fairness

Tutumları, değerleri, kişilik özelliklerini ve diğer özellikleri karşılaştırırken grup dışı üyeleri grup içi üyelere göre daha benzer görme eğilimi. Grup içi, düzenli olarak etkileşimde bulunduğunuz kişileri, grup dışı ise düzenli olarak etkileşimde bulunmadığınız kişileri ifade eder. Kullanıcılardan grup dışı hakkında özellikler sağlamalarını isteyerek bir veri kümesi oluşturursanız bu özellikler, katılımcıların gruplarındaki kişiler için listeledikleri özelliklerden daha az incelikli ve daha basmakalıp olabilir.

Örneğin, Lilliputcular, mimari tarzlar, pencereler, kapı ve boyutlardaki küçük farklılıkları da belirterek diğer Lilliputyenlerin evlerini ayrıntılı bir şekilde açıklayabilir. Ancak, aynı Lilliputcular Brobdingnag'ların hepsinin aynı evde yaşadığını beyan edebilir.

Grup dışı homojenlik yanlılığı bir grup ilişkilendirme yanlılığı biçimidir.

Ayrıca bkz. grup içi önyargı.

aykırı değer algılama

Bir eğitim grubundaki aykırı değerleri belirleme süreci.

Yenilik algılama ile kontrast.

düşünün

Değerler, diğer çoğu değerden uzaktadır. Makine öğreniminde aşağıdakilerden herhangi biri aykırı değerlerdir:

Değerleri ortalamadan yaklaşık 3 standart sapmadan daha fazla olan verileri girin.

Yüksek mutlak değerlere sahip ağırlıklar.

Tahmini değerler, gerçek değerlerden nispeten uzaktadır.

Örneğin, widget-price değerinin belirli bir modelin özelliği olduğunu varsayalım. Ortalama widget-price değerinin 7 avro ve standart sapma 1 avro olduğunu varsayalım. Dolayısıyla, 12 avro veya 2 avro widget-price içeren örnekler, aykırı olarak kabul edilir. Çünkü bu fiyatların her biri, ortalama değerden beş standart sapma oluşturur.

Aykırı değerler genellikle yazım hatalarından veya diğer giriş hatalarından kaynaklanır. Diğer durumlarda, aykırı değerler hata değildir. Sonuçta, ortalamadan beş standart sapma dışındaki değerler nadiren görülür ancak neredeyse imkansızdır.

Aykırı değerler model eğitiminde genellikle sorunlara yol açar. Kırpma, aykırı değerleri yönetmenin yollarından biridir.

paket dışı değerlendirmesi (OOB değerlendirmesi)

#df

Her bir karar ağacını, söz konusu karar ağacının eğitimi sırasında kullanılmayan örnekler ile test ederek karar ormanının kalitesini değerlendirmeye yönelik bir mekanizma. Örneğin aşağıdaki şemada, sistemin her karar ağacını örneklerin yaklaşık üçte ikisinde eğittiğini ve ardından örneklerin kalan üçte birine göre değerlendirme yaptığını fark edeceksiniz.

Kullanıma hazır değerlendirme, çapraz doğrulama mekanizmasının hesaplama açısından verimli ve konservatif bir yaklaşımıdır. Çapraz doğrulamada, her çapraz doğrulama aşaması için bir model eğitilir (örneğin, 10 model 10 kat çapraz doğrulamayla eğitilir). OOB değerlendirmesiyle tek bir model eğitilir. baglama, eğitim sırasında her ağaçtan bazı verileri sakladığından OOB değerlendirmesi bu verileri çapraz doğrulamayı tahmin etmek için kullanabilir.

çıkış katmanı

#fundamentals

Bir sinir ağının "son" katmanı. Çıkış katmanı tahmini içerir.

Aşağıdaki resimde bir giriş katmanı, iki gizli katman ve bir çıkış katmanı bulunan küçük bir derin nöral ağ gösterilmektedir:

fazla uyumlu

#fundamentals

Eğitim verileriyle o kadar yakından eşleşen bir model oluşturmak, modelin yeni veriler hakkında doğru tahminlerde bulunamamasına neden olur.

Normalleştirme, fazla uyumu azaltabilir. Geniş ve çeşitlilik barındıran bir eğitim setiyle eğitim, aşırı uyumu azaltabilir.

Ek notlar için simgeyi tıklayın.

Fazla bütçelendirmek, yalnızca en sevdiğiniz öğretmenin tavsiyelerini tam olarak uygulamak gibidir. Muhtemelen o öğretmenin sınıfında başarılı olursunuz ama öğretmenin fikirlerine "uyuşturabilirsiniz" ve diğer sınıflarda başarısız olabilirsiniz. Çeşitli öğretmenlerden gelen tavsiyeleri uygulamak, yeni durumlara daha iyi uyum sağlamanıza olanak tanır.

aşırı örnekleme

Daha dengeli bir eğitim grubu oluşturmak için bir azınlık sınıfının örneklerini sınıf dengesiz veri kümesinde yeniden kullanma.

Örneğin, çoğunluk sınıfının azınlık sınıfına oranının 5.000:1 olduğu bir ikili sınıflandırma problemini ele alalım. Veri kümesi bir milyon örnek içeriyorsa veri kümesi yalnızca azınlık sınıfından yaklaşık 200 örnek içerir ve bu da etkili eğitim için çok az örnek olabilir. Bu eksikliğin üstesinden gelmek için bu 200 örneği birkaç kez üzerinden örneklendirebilirsiniz (yeniden kullanabilirsiniz) ve muhtemelen yararlı eğitim için yeterli sayıda örnek elde edersiniz.

Fazla örnekleme yaparken fazla ayarlama konusunda dikkatli olmanız gerekir.

Yetersiz örnekleme ile kontrast.

P

paketlenmiş veri

Verileri daha verimli depolamaya yönelik bir yaklaşım.

Paketlenmiş veriler, verileri sıkıştırılmış bir biçim kullanarak veya daha verimli bir şekilde erişilmesine olanak tanıyan başka bir şekilde depolar. Paketli veriler, bu verilere erişmek için gereken bellek ve hesaplama miktarını en aza indirerek daha hızlı eğitim ve daha verimli model çıkarımı sağlar.

Paketlenmiş veriler genellikle veri genişletme ve düzenleme gibi diğer tekniklerle birlikte kullanılır ve modellerin performansını daha da artırır.

pandalar

#fundamentals

numpy temel alınarak oluşturulmuş, sütun odaklı bir veri analizi API'si. TensorFlow dahil birçok makine öğrenimi çerçevesi giriş olarak pandas veri yapılarını destekler. Ayrıntılı bilgi için pandas belgelerine bakın.

parametre

#fundamentals

Bir modelin eğitim sırasında öğrendiği ağırlıklar ve ön yargılar. Örneğin, doğrusal regresyon modelinde parametreler aşağıdaki formüldeki yanlılık (b) ve tüm ağırlıklardan (w₁, w₂ vb.) oluşur:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Öte yandan hyperparameter, sizin (veya bir hiperparametre ayarlama hizmetinin) modele sağladığı değerlerdir. Örneğin, öğrenme hızı bir hiperparametredir.

parametre verimli ayarlama

#language

#üretken yapay zeka

Tam ince ayar yerine önceden eğitilmiş büyük bir dil modelinde (PLM) daha verimli bir şekilde ince ayar yapmak için bir dizi teknik. Parametre tasarruflu ayar, genellikle tam ince ayara kıyasla çok daha az parametrede ince ayar yapar. Ancak genellikle tam ince ayarla derlenen büyük bir dil modeli kadar iyi (veya neredeyse aynı) performans gösteren büyük bir dil modeli üretir.

Parametre verimli ayarı aşağıdakilerle kıyaslayın ve karşılaştırın:

eğitim ayarlama

istem ayarı

Parametre verimli ayarlama, parametre açısından verimli ince ayar olarak da bilinir.

Parametre Sunucusu (PS)

#TensorFlow

Dağıtılmış bir ayarda bir modelin parametrelerini izleyen iş.

parametre güncellemesi

Eğitim sırasında bir modelin parametrelerini genellikle tek bir gradyan azalma yinelemesinde ayarlama işlemi.

kısmi türev

Değişkenlerden biri hariç tümünün sabit kabul edildiği bir türev. Örneğin, f(x, y)'nin x'e göre kısmi türevi, f'nin türevidir ve yalnızca x'in bir fonksiyonu olarak kabul edilir (yani y sabit tutulur). f'nin x'e göre kısmi türevi yalnızca x'in nasıl değiştiğine odaklanır ve denklemdeki diğer tüm değişkenleri yok sayar.

katılım önyargısı

#fairness

Yanıt vermeme yanlılığının eş anlamlısı. Seçim yanlılığı bölümünü inceleyin.

bölümlendirme stratejisi

Değişkenlerin parametre sunucuları arasında bölündüğü algoritma.

Pax

Birden fazla TPU hızlandırıcı çipi dilimi veya kapsülleri kaplayacak kadar büyük ölçekli nöral ağ modellerini eğitmek için tasarlanmış programlama çerçevesi.

Pax, JAX tabanlı olan Flax'te geliştirilmiştir.

algılayıcı

Bir veya daha fazla giriş değeri alan, girişlerin ağırlıklı toplamı üzerinde bir işlev çalıştıran ve tek bir çıkış değeri hesaplayan bir sistem (donanım veya yazılım). Makine öğreniminde işlev genellikle doğrusal değildir (ör. ReLU, sigmoid veya tanh). Örneğin, aşağıdaki algılayıcı, üç giriş değerini işlemek için sigmoid işlevinden yararlanır:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Aşağıdaki çizimde, algılayıcı üç giriş alır. Bu girişlerin her biri, algılayıcı girilmeden önce bir ağırlıkla değiştirilir:

Algılayıcılar, nöral ağlardaki nöronlardır.

performans

Şu anlamları taşıyan aşırı yüklenmiş terim:

Yazılım mühendisliğindeki standart anlam. Örnek olarak: Bu yazılım ne kadar hızlı (veya verimli) çalışıyor?

Makine öğreniminin anlamı. Burada performans, şu soruyu yanıtlar: Bu model ne kadar doğrudur? Yani modelin tahminleri ne kadar iyi?

permütasyon değişkeninin önemleri

#df

Özelliğin değerlerine sonra tahmin hatasındaki artışı değerlendiren değişken önem türü. Permütasyon değişkeninin önemi, modelden bağımsız bir metriktir.

şaşkınlık

Bir model görevini ne kadar iyi yerine getirdiğini gösteren bir ölçüm. Örneğin, görevinizin, kullanıcının telefon klavyesinde yazdığı bir kelimenin ilk birkaç harfini okumak ve tamamlanması için kullanılan olası kelimelerin bir listesini sunmak olduğunu varsayalım. Kafa karışıklığı, P, bu görevde listenizin kullanıcının yazmaya çalıştığı kelimeyi içermesi için sunmanız gereken tahminin sayısıdır.

Karışıklık aşağıdaki şekilde çapraz entropi ile ilgilidir:

$$P= 2^{-\text{cross entropy}}$$

ardışık düzen

Makine öğrenimi algoritmasını çevreleyen altyapı. Ardışık düzen; veri toplamayı, verileri eğitim veri dosyalarına yerleştirme, bir veya daha fazla modeli eğitme ve modelleri üretime aktarma işlemlerini içerir.

ardışık düzen

#language

Bir modelin işleme sürecinin ardışık aşamalara ayrıldığı ve her aşamanın farklı bir cihazda yürütüldüğü bir model paralelliği biçimi. Bir aşama bir grubu işlerken, bir önceki aşama bir sonraki grupta çalışabilir.

Ayrıca aşamalı eğitimlere de göz atın.

Pjit

Birden çok hızlandırıcı çipinde çalışacak kodu bölen bir JAX işlevi. Kullanıcı, pjit'e bir işlev iletir. Bu işlev, eşdeğer anlamlara sahip olan ancak birden çok cihazda (GPU veya TPU çekirdekleri gibi) çalışan bir XLA hesaplamasında derlenmiş bir işlev döndürür.

pjit, kullanıcıların SPMD bölümlendirme aracını kullanarak hesaplamaları yeniden yazmadan parçalara ayırmalarını sağlar.

Mart 2023 itibarıyla pjit, jit ile birleştirildi. Daha fazla ayrıntı için Dağıtılmış diziler ve otomatik paralelleştirme bölümüne bakın.

PLM

#language

#üretken yapay zeka

Önceden eğitilmiş dil modeli'nin kısaltmasıdır.

pmap

Birden fazla temel donanım cihazında (CPU, GPU veya TPU) bir giriş işlevinin kopyalarını çalıştıran JAX işlevi. pmap SPMD'yi kullanır.

policy

#rl

Pekiştirmeli öğrenmede bir aracının durumlardan işlemlere olasılık eşlemesi.

havuza alma

#image

Daha önceki bir konvolüsyonel katman tarafından oluşturulan matrisi (veya matrisleri) daha küçük bir matrise dönüştürme. Havuzlama, genellikle havuz alanı genelinde maksimum veya ortalama değerin alınmasını içerir. Örneğin, aşağıdaki 3x3 matrisine sahip olduğumuzu varsayalım:

Havuzlama işlemi, tıpkı konvolüsyonel işlemde olduğu gibi, bu matrisi dilimlere böler ve ardından bu kıvrımlı işlemi adımlara kaydırır. Örneğin, havuzlama işleminin kıvrımlı matrisi 1x1 adımlı 2x2 dilimlere böldüğünü varsayalım. Aşağıdaki şemada gösterildiği gibi dört havuz oluşturma işlemi gerçekleşir. Her bir havuz oluşturma işleminin bu dilimdeki dörtün maksimum değerini seçtiğini düşünün:

Havuzlama, giriş matrisinde çeviri değişkenliğinin uygulanmasına yardımcı olur.

Görsel uygulamalar için havuz oluşturma, daha resmi olarak uzamsal havuz olarak bilinir. Zaman serisi uygulamaları genellikle havuza geçici havuz denir. Daha resmî olmayan bir şekilde, havuzlama genellikle alt örnekleme veya aşağı örnekleme olarak adlandırılır.

konumsal kodlama

#language

Jetonun sırayla yerleştirilmesine jetonun konumu hakkında bilgi ekleyen teknik. Dönüştürücü modelleri, dizinin farklı bölümleri arasındaki ilişkiyi daha iyi anlamak için konumsal kodlama kullanır.

Konumsal kodlamanın yaygın bir uygulaması, sinüsoidal fonksiyonları kullanır. (Sinüzoidal işlevin frekansı ve genliği, jetonun dizideki konumuna göre belirlenir.) Bu teknik, Transformer modelinin konumlarına göre dizinin farklı bölümlerine katılmayı öğrenmesini sağlar.

pozitif sınıf

#fundamentals

Test ettiğiniz sınıf.

Örneğin, bir kanser modelindeki pozitif sınıf "tümör" olabilir. Bir e-posta sınıflandırıcıdaki pozitif sınıf "spam" olabilir.

Negatif sınıf ile kontrast oluşturun.

Ek notlar için simgeyi tıklayın.

Çoğu testin "olumlu" sonucu genellikle istenmeyen bir sonuçtur, çünkü pozitif sınıf terimi kafa karıştırıcı olabilir. Örneğin, birçok tıbbi testteki pozitif sınıf tümörleri veya hastalıkları ifade eder. Genelde bir doktorun “Tebrikler! Test sonuçlarınız negatifti." Her ne olursa olsun, pozitif sınıf, testin bulmaya çalıştığı etkinliktir.

Ayrıca, aynı anda hem pozitif hem negatif sınıfları test ediyorsunuz.

işleme sonrası

#fairness

#fundamentals

Model çalıştırıldıktan sonra model çıktısını düzenleme. İşleme sonrası süreci, modellerin kendisi değiştirilmeden adalet kısıtlamalarını uygulamak için kullanılabilir.

Örneğin, bazı özellikler için gerçek pozitif oranın aynı olup olmadığı kontrol edilerek fırsat eşitliği sağlanacak şekilde bir sınıflandırma eşiği ayarlanarak ikili bir sınıflandırıcıya işleme sonrası süreci uygulanabilir.

PR AUC (PR eğrisinin altındaki alan)

Sınıflandırma eşiğinin farklı değerleri için noktalar çizilerek (geri çağırma, hassasiyet) elde edilen interpolasyonlu hassas-geri çağırma eğrisinin altındaki alan. Nasıl hesaplandığına bağlı olarak PR AUC, modelin ortalama hassasiyetine eşdeğer olabilir.

Praks

Pax'in temel ve yüksek performanslı makine öğrenimi kitaplığı. Plaksis genellikle "Katman kitaplığı" olarak adlandırılır.

Pratiks yalnızca Katman sınıfının tanımlarını değil, aynı zamanda aşağıdakileri içeren destekleyici bileşenlerinin çoğunu da içerir:

veri girişleri

yapılandırma kitaplıkları (HParam ve Fiddle)

optimize ediciler

Plaksis, Model sınıfının tanımlarını sağlar.

precision

Sınıflandırma modelleri için aşağıdaki soruyu yanıtlayan bir metrik:

Model pozitif sınıfı tahmin ettiğinde tahminlerin yüzde kaçı doğruydu?

Formülü şu şekildedir:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Bu örnekte:

doğru pozitif, modelin pozitif sınıfı doğru şekilde tahmin ettiği anlamına gelir.

yanlış pozitif, modelin pozitif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, bir modelin 200 olumlu tahminde bulunduğunu varsayalım. Bu 200 olumlu tahminden:

150 doğru pozitifti.

50 yanlış pozitif sonuç verdi.

Bu durumda:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Doğruluk ve geri çağırma ile kontrast oluşturun.

hassasiyet-geri çağırma eğrisi

Farklı sınıflandırma eşiklerinde geri çağırma ile hassaslık eğrisi.

tahmin

#fundamentals

Bir modelin çıkışı. Örneğin:

İkili program sınıflandırma modelinin tahmini, pozitif veya negatif sınıftır.

Çok sınıflı sınıflandırma modeli için tahmin tek sınıftır.

Doğrusal regresyon modelinde tahmin, bir sayıdır.

tahmin yanlılığı

Tahminlerin ortalamasının, veri kümesindeki etiketlerin ortalamasından ne kadar uzakta olduğunu gösteren değer.

Makine öğrenimi modellerindeki önyargı terimi veya etik ve adaletteki ön yargı ile karıştırılmamalıdır.

tahmine dayalı makine öğrenimi

Herhangi bir standart ("klasik") makine öğrenimi sistemi.

Tahmine dayalı makine öğrenimi teriminin resmi bir tanımı yoktur. Bu terim, bir makine öğrenimi sistemi kategorisini üretken yapay zeka'ya dayanmaz.

tahmini denklik

#fairness

Belirli bir sınıflandırıcıda hassaslık oranlarının söz konusu alt gruplarda eşdeğer olup olmadığını kontrol eden adillik metriği.

Örneğin, üniversite kabulünü tahmin eden bir modelin kesinlik oranı Lilliputanlar ve Brobdingnagiyenler için aynıysa uyruk için tahmine dayalı denkliği karşılayacaktır.

Tahmini parite zaman zaman tahmini hız paritesi olarak da adlandırılır.

Tahmine dayalı denkliğin daha ayrıntılı bir açıklaması için "Adalet Tanımları Açıklandı" (bölüm 3.2.1) bölümüne bakın.

tahmini oran paritesi

#fairness

Tahmine dayalı denklik'in diğer bir adıdır.

ön işleme

#fairness

Verileri, model eğitmek için kullanılmadan önce işleme. Ön işleme, İngilizce sözlükte yer almayan İngilizce metin topluluğundaki kelimeleri kaldırmak kadar basit olabileceği gibi, hassas özelliklerle ilişkili olan mümkün olduğunca çok sayıda özelliği kaldırarak veri noktalarını yeniden ifade etmek kadar karmaşık olabilir. Ön işleme, adillik kısıtlamalarının yerine getirilmesine yardımcı olabilir.

önceden eğitilmiş model

#language

#image

#üretken yapay zeka

Önceden eğitilmiş modeller veya model bileşenleri (yerleştirme vektörü gibi). Bazen, önceden eğitilmiş yerleştirme vektörlerini bir nöral ağa aktarırsınız. Bazı durumlarda ise modeliniz, önceden eğitilmiş yerleştirmelere güvenmek yerine yerleştirme vektörlerini kendilerini eğitir.

Önceden eğitilmiş dil modeli terimi, ön eğitim sürecinden geçmiş büyük dil modelini ifade eder.

ön eğitim

#language

#image

#üretken yapay zeka

Bir modelin büyük bir veri kümesi üzerinde ilk eğitimi. Bazı önceden eğitilmiş modeller sakar devlerdir ve genellikle ek eğitimle geliştirilmeleri gerekir. Örneğin, makine öğrenimi uzmanları Vikipedi'deki tüm İngilizce sayfalar gibi geniş bir metin veri kümesi üzerinde büyük bir dil modelini önceden eğitebilir. Ön eğitimin ardından sonuçta elde edilen model, aşağıdaki teknikler kullanılarak daha da hassaslaştırılabilir:

damıtma

ince ayar

eğitim ayarlama

parametre açısından verimli ayarlama

istem ayarlama

önceki inanç

Eğitime başlamadan önce veriler hakkında ne düşünüyorsunuz? Örneğin, L₂ normalleştirmesi ağırlıkların küçük olması ve normalde sıfır civarında dağıtılması gerektiği inancına dayanır.

olasılıksal regresyon modeli

Her özellik için yalnızca ağırlıkları değil, aynı zamanda bu ağırlıkların belirsizliğini de kullanan bir regresyon modeli. Olasılıksal regresyon modeli bir tahmin ve o tahminin belirsizliğini üretir. Örneğin, olasılıksal bir regresyon modeli, 12 standart sapma ile 325 tahmini üretebilir. Olasılıksal regresyon modelleri hakkında daha fazla bilgi için tensorflow.org'daki bu Colab sitesine bakın.

olasılık yoğunluk fonksiyonu

Tam olarak belirli bir değere sahip veri örneklerinin sıklığını tanımlayan bir işlev. Veri kümesinin değerleri sürekli kayan nokta sayıları olduğunda tam eşlemeler nadiren gerçekleşir. Bununla birlikte, bir olasılık yoğunluk işlevinin x değerinden y değerine integrating, x ile y arasında veri örneklerinin beklenen sıklığını elde eder.

Örneğin, ortalaması 200, standart sapması ise 30 olan bir normal dağılımı ele alalım. 211,4 ile 218,7 aralığında kalan veri örneklerinin beklenen sıklığını belirlemek amacıyla 211,4 ile 218,7 arasındaki normal dağılım için olasılık yoğunluk işlevini entegre edebilirsiniz.

istem

#language

#üretken yapay zeka

Modelin belirli bir şekilde davranmasını sağlamak için büyük dil modeline girdi olarak girilen herhangi bir metin. İstemler bir kelime öbeği kadar kısa veya rastgele uzun olabilir (örneğin, bir roman metninin tamamı). İstemler, aşağıdaki tabloda gösterilenler de dahil olmak üzere birden fazla kategoriye ayrılır:

İstem kategorisi Örnek Notlar

Soru Güvercin ne kadar hızlı uçabilir?

Talimat Arbitraj hakkında komik bir şiir yazın. Büyük dil modelinden bir işlem yapmasını isteyen bir istem.

Örnek Markdown kodunu HTML'ye çevirin. Örneğin: Markdown: * liste öğesi HTML: <ul> <li>liste öğesi</li> </ul> Bu örnek istemdeki ilk cümle bir talimattır. İstemin geri kalanı örnek olarak verilmiştir.

Rol Fizik alanında doktora yapmak için gradyan inişin makine öğrenimi eğitiminde neden kullanıldığını açıklayın. Cümlenin ilk bölümü bir talimattır. "Fizik alanında doktora yapmak" ifadesi ise rol kısmıdır.

Modelin tamamlanması için kısmi giriş Birleşik Krallık Başbakanı'nın yaşadığı yer Kısmi giriş istemi aniden sona erebilir (bu örnekte olduğu gibi) veya bir alt çizgiyle bitebilir.

Üretken yapay zeka modelleri, isteklere metin, kod, resim, yerleştirme, video gibi neredeyse her şeyle yanıt verebilir.

isteme dayalı öğrenim

#language

#üretken yapay zeka

Belirli modeller, davranışlarını rastgele metin girişlerine (istemler) göre uyarlamalarını sağlar. Tipik bir istem tabanlı öğrenme paradigmasında büyük bir dil modeli, istemlere metin oluşturarak yanıt verir. Örneğin, bir kullanıcının aşağıdaki istemi girdiğini varsayalım:

Newton'un üçüncü hareket yasasını özetleme.

İsteme dayalı öğrenme yeteneğine sahip bir model, önceki istemi yanıtlamak için özel olarak eğitilmemiştir. Daha ziyade, model fizik, genel dil kuralları ve genel olarak neyin faydalı yanıtlar olduğuyla ilgili birçok olguyu "biliyor". Bu bilgi (umarız) faydalı bir yanıt vermek için yeterlidir. İnsanların ek geri bildirimleri ("Bu cevap çok karmaşıktı" veya "Tepki nedir?") bazı isteme dayalı öğrenim sistemlerinin yanıtlarının yararlılığını kademeli olarak iyileştirmesine olanak tanır.

istem tasarımı

#language

#üretken yapay zeka

İstem mühendisliği ile eş anlamlıdır.

istem mühendisliği

#language

#üretken yapay zeka

Büyük bir dil modelinden istenen yanıtları üreten istemler oluşturma sanatı. İnsanlar istem mühendisliği gerçekleştirir. İyi yapılandırılmış istemler yazmak, büyük bir dil modelinden faydalı yanıtlar almanın önemli bir parçasıdır. İstem mühendisliği aşağıdakileri içeren birçok faktöre bağlıdır:

Önceden eğitmek ve büyük dil modeline ince ayar yapmak için kullanılan veri kümesi.

Modelin yanıt oluşturmak için kullandığı sıcaklık ve diğer kod çözme parametreleri.

Faydalı istemler yazma hakkında daha fazla bilgi için İstem tasarımına giriş bölümüne bakın.

İstem tasarımı, istem mühendisliği ile eş anlamlıdır.

istem ayarı

#language

#üretken yapay zeka

Sistemin gerçek isteme eklediği bir "önek" öğrenen, parametresi verimli ayarlama mekanizması.

İstem ayarlamanın bir varyasyonu da (bazen önek ayarı olarak da adlandırılır) her katmana ön eki eklemektir. Buna karşılık, çoğu istem ayarı yalnızca giriş katmanına bir önek ekler.

Önekler hakkında daha fazla bilgi edinmek için simgeyi tıklayın.

İstem ayarı için "ön ek" ("yumuşak istem" olarak da bilinir), gerçek istemdeki metin jetonu yerleştirmelerinin başına eklenen öğrenilmiş, göreve özgü bir dizi vektörden oluşur. Sistem, diğer model parametrelerini dondurarak ve belirli bir görevde ince ayarlar yaparak yumuşak istemi öğrenir.

proxy etiketleri

#fundamentals

Veri kümesinde doğrudan mevcut olmayan etiketleri tahmin etmek için kullanılan veriler.

Örneğin, çalışan stres seviyesini tahmin etmek için bir model eğitmeniz gerektiğini varsayalım. Veri kümeniz çok sayıda tahmin özelliği içeriyor ancak stres seviyesi adlı bir etiket içermiyor. Bu durumda, stres seviyesi için temsili etiket olarak "iş yeri kazaları"nı seçiyorsunuz. Sonuçta yüksek stres altındaki çalışanlar sakin çalışanlara kıyasla daha fazla kaza yaşanıyor. Yoksa yapıyorlar mı? İş yeri kazaları pek çok nedenden dolayı artırıp düşer.

İkinci bir örnek olarak, veri kümeniz için Boole etiketi olmasını yağmur yağıyor mu? sorusunu istediğinizi ancak veri kümenizin yağmur verisi içermediğini varsayalım. Fotoğraflar varsa yağmur yağıyor mu? şeklinde temsili bir etiket olarak şemsiye taşıyan insanların resimlerini oluşturabilirsiniz. Bu iyi bir proxy etiketi mi? Muhtemelen ama bazı kültürlerdeki kişilerin güneşten korunmak için yağmurdan daha çok şemsiye taşıması daha olasıdır.

Proxy etiketleri genellikle kusursuz değildir. Mümkün olduğunda proxy etiketleri yerine gerçek etiketleri seçin. Bununla birlikte, gerçek bir etiket olmadığında, proxy etiketini çok dikkatli bir şekilde ve en kötü proxy etiketi adayını seçin.

proxy (hassas özellikler)

#fairness

Hassas bir özelliği destekleyen özellik. Örneğin, bir kişinin posta kodu geliri, ırkı veya etnik kökeni için temsili olarak kullanılabilir.

yalın fonksiyon

Çıkışları yalnızca girişlere dayalı olan ve yan etkisi olmayan bir işlev. Özellikle, salt işlev hiçbir genel durumu (ör. bir dosyanın içeriği veya işlevin dışındaki bir değişkenin değeri) kullanmaz ya da değiştirmez.

İş parçacığı açısından güvenli kod oluşturmak için saf işlevler kullanılabilir. Bu, model kodunu birden fazla hızlandırıcı çipinde parçalarken faydalıdır.

JAX'ın işlev dönüştürme yöntemleri, giriş işlevlerinin salt işlev olmasını gerektirir.

SORU

Q İşlevi

#rl

Pekiştirmeli öğrenme'de, bir durum içinde gerçekleşen bir eylemden ve ardından belirli bir politikayı uygulayarak beklenen getiriyi tahmin eden işlev.

Q işlevi, durum-işlem değeri işlevi olarak da bilinir.

Q-öğrenim

#rl

Pekiştirmeli öğrenme'de, bir aracının Bellman denklemini uygulayarak Markov karar sürecinin optimum Q işlevini öğrenmesini sağlayan bir algoritma. Markov karar süreci bir ortam modeli oluşturur.

yüzdelik dilim

Kıdemli paketleme kapsamındaki her paket.

yüzdelik dilim grubu

Bir özelliğin değerlerini paketlere dağıtarak her bir paketin aynı (veya neredeyse aynı) sayıda örnek içermesi gerekir. Örneğin, aşağıdaki şekilde 44 puan, her biri 11 puan içeren 4 gruba ayrılmıştır. Şekildeki her bir paketin aynı sayıda nokta içermesi için bazı paketler farklı x değerlerini kapsar.

nicelleştirme

Aşağıdaki şekillerde kullanılabilecek aşırı yüklenmiş terim:

Belirli bir özellik üzerinde çeyrek grubu uygulama.

Daha hızlı depolama, eğitme ve çıkarım için verileri sıfırlara ve birlere dönüştürme. Boole verileri gürültü ve hatalara karşı diğer biçimlere kıyasla daha dayanıklıdır. Bu nedenle niceleme, modelin doğruluğunu iyileştirebilir. Nicelendirme teknikleri arasında yuvarlama, kesme ve binleme bulunur.

Bir modelin parametrelerini depolamak için kullanılan bit sayısını azaltma. Örneğin, bir modelin parametrelerinin 32 bitlik kayan nokta sayıları olarak depolandığını varsayalım. Nicelendirme, 32 bit olan bu parametreleri 4, 8 veya 16 bite dönüştürür. Nicelendirme şunları azaltır:

İşlem, bellek, disk ve ağ kullanımı

Bir tahminde sonuç elde etme zamanı

Güç tüketimi

Ancak nicelik, bazen bir modelin tahminlerinin doğruluğunu azaltır.

sıra

#TensorFlow

Sıra veri yapısı uygulayan bir TensorFlow İşlemi. Genellikle G/Ç'de kullanılır.

R

RAG (RAG)

#fundamentals

Almayla artırılmış oluşturma için kullanılan kısaltma.

rastgele orman

#df

Her karar ağacının belirli bir rastgele gürültüyle (ör. bagaj) eğitildiği bir karar ağaçları topluluğu.

Rastgele ormanlar, bir tür karar ormanıdır.

rastgele politika

#rl

Pekiştirmeli öğrenme'de rastgele bir eylem seçen bir politika yer alır.

sıralama

Amacı, öğelerden oluşan bir liste hazırlamak olan bir gözetimli öğrenme türü.

sıralama (sıralılık)

Bir makine öğrenimi problemindeki sınıfın en yüksekten en düşüğe doğru sınıflandıran sıra konumu. Örneğin, davranış sıralama sistemi bir köpeğin ödüllerini en yüksekten (biftek) en düşüğe (solmuş lahana) sıralayabilir.

rütbe (Tensor)

#TensorFlow

Bir Tensor'daki boyut sayısı. Örneğin, bir skaler sıralaması 0, vektörün sıralaması 1 ve matrisin sıralaması 2'dir.

Sıralama (ordinasyon) ile karıştırılmamalıdır.

değerlendirici

#fundamentals

Örnekler için etiketler sağlayan bir insan. "Açıklama oluşturucu", değerlendiricinin başka bir adıdır.

hatırlama

Sınıflandırma modelleri için aşağıdaki soruyu yanıtlayan bir metrik:

Kesin referans pozitif sınıf olduğunda, modelin pozitif sınıf olarak doğru şekilde tanımladığı tahminlerin yüzde kaçı?

Formülü şu şekildedir:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Bu örnekte:

doğru pozitif, modelin pozitif sınıfı doğru şekilde tahmin ettiği anlamına gelir.

false negatif, modelin negatif sınıfı yanlış bir şekilde tahmin ettiği anlamına gelir.

Örneğin, modelinizin gerçek doğrunun pozitif sınıf olduğu örnekler hakkında 200 tahmin yaptığını varsayalım. Bu 200 tahminden:

180 sayı doğru pozitifti.

20 tanesi yanlış negatifti.

Bu durumda:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Sınıf dengesiz veri kümeleriyle ilgili notlar için simgeyi tıklayın.

Geri çağırma, özellikle pozitif sınıfın nadir olduğu sınıflandırma modellerinin tahmin gücünü belirlemek için yararlıdır. Örneğin, belirli bir hastalığın pozitif sınıfının bir milyon hastadan yalnızca 10'unda oluştuğu bir sınıf dengesiz veri kümesi düşünün. Modelinizin aşağıdaki sonuçları veren beş milyon tahmin yaptığını varsayalım:

30 Gerçek Pozitif

20 Yanlış Negatif

4.999.000 Gerçek Negatif

950 Yanlış Pozitif

Bu nedenle, bu model geri çağrıldığında:

recall = TP / (TP + FN) recall = 30 / (30 + 20) = 0.6 = 60%
Buna karşın, bu modelin doğruluğu şudur:
accuracy = (TP + TN) / (TP + TN + FP + FN) accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Bu yüksek doğruluk değeri etkileyici görünse de aslında hiçbir anlam ifade etmez. Geri çağırma, sınıf dengesiz veri kümeleri için doğruluktan çok daha yararlı bir metriktir.

öneri sistemi

#recsystems

Her kullanıcı için büyük bir kitaplıktan nispeten az sayıda, istenen öğeleri seçen bir sistem. Örneğin, bir video öneri sistemi, bir kullanıcı için Kazablanka ve Philadelphia Hikayesi'ni, başka bir kullanıcı için de Wonder Woman ve Black Panther'ı seçerek 100.000 videodan oluşan bir topluluktan iki video önerebilir. Video öneri sistemi, önerilerini şu gibi unsurlara dayandırabilir:

Benzer kullanıcıların oyladığı veya izlediği filmler.

Tür, yönetmenler, aktörler, hedef demografi...

Düzeltilmiş Doğrusal Birim (ReLU)

#fundamentals

Aşağıdaki davranışa sahip bir etkinleştirme işlevi:

Giriş negatif veya sıfır ise çıkış 0 olur.

Giriş pozitifse çıkış, girişe eşit olur.

Örneğin:

Giriş -3 ise çıkış 0 olur.

Giriş +3 ise çıkış 3, 0 olur.

ReLU'nun bir hikayesi şöyle:

ReLU çok popüler bir aktivasyon fonksiyonudur. ReLU, basit davranışına rağmen nöral ağların özellikler ve etiket arasındaki doğrusal olmayan ilişkileri öğrenmesini sağlar.

yinelenen nöral ağ

#seq

Kasıtlı olarak birden fazla kez çalıştırılan ve her bir bölümün feed'i bir sonraki çalıştırmaya çalıştırdığı sinirsel ağ. Özellikle, önceki çalıştırmadaki gizli katmanlar, bir sonraki çalıştırmada girişin bir kısmını aynı gizli katmana sağlar. Yinelenen nöral ağlar, özellikle dizilerin değerlendirilmesinde faydalıdır. Böylece gizli katmanlar, dizinin önceki bölümlerinde nöral ağın önceki çalıştırmalarından bir şeyler öğrenebilir.

Örneğin, aşağıdaki şekilde dört kez çalışan yinelenen bir nöral ağ gösterilmektedir. Gizli katmanlarda ilk çalıştırmadan öğrenilen değerlerin, ikinci çalıştırmada aynı gizli katmanlara ait girişin bir parçası haline geldiğine dikkat edin. Benzer şekilde, ikinci çalıştırmada gizli katmanda öğrenilen değerler, üçüncü çalıştırmada aynı gizli katmana ait girişin bir parçası haline gelir. Bu şekilde, yinelenen nöral ağ kademeli olarak eğitilir ve yalnızca tek tek kelimelerin anlamı yerine dizinin tamamının anlamını tahmin eder.

regresyon modeli

#fundamentals

Gayri resmî olarak, sayısal tahmin oluşturan bir modeldir. (Öte yandan, sınıflandırma modeli bir sınıf tahmini oluşturur.) Örneğin, aşağıdakilerin tümü regresyon modelleridir:

423.000 avro gibi belirli bir evin değerini tahmin eden bir model.

Belirli bir ağacın yaşam süresini (ör.23, 2 yıl) tahmin eden bir model.

Önümüzdeki 6 saat içinde belirli bir şehirde düşecek yağmur miktarını (0, 18 inç gibi) tahmin eden bir model.

Yaygın iki regresyon modeli türü şunlardır:

Doğrusal regresyon, etiket değerlerine özelliklere en uygun satırı bulur.

Mantıksal regresyon, 0,0 ile 1,0 arasında bir olasılık oluşturur. Bir sistem genellikle daha sonra bir sınıf tahminiyle eşlenir.

Sayısal tahmin üreten her model regresyon modeli değildir. Bazı durumlarda sayısal tahmin, sayısal sınıf adlarına sahip olan bir sınıflandırma modelinden ibarettir. Örneğin, sayısal bir posta kodunu tahmin eden bir model regresyon modeli değil, sınıflandırma modelidir.

normalleştirme

#fundamentals

Fazla uyumu azaltan mekanizmalar. Popüler normalleştirme türleri şunlardır:

L₁ normalleştirmesi

L₂ normalleştirmesi

bırakmaların normalleştirilmesi

erken durma (bu, resmî bir düzenleme yöntemi değildir ancak fazla uyum sağlamayı etkili bir şekilde sınırlandırabilir)

Normalleştirme, bir modelin karmaşıklığına uygulanan ceza olarak da tanımlanabilir.

Ek notlar için simgeyi tıklayın.

Normalleştirme mantıksızdır. Standartlaştırmanın artırılması genellikle eğitim kaybını artırır. Bu da kafa karıştırıcıdır çünkü eğitim kaybını en aza indirme hedefi değildir.

Aslında hayır. Amaç eğitim kaybını en aza indirmek değil. Amaç, gerçek hayattan örnekler hakkında mükemmel tahminlerde bulunmaktır. Önemli bir biçimde, normalleştirmenin artırılması eğitim kaybını artırsa da genellikle modellerin gerçek dünyadaki örnekler hakkında daha iyi tahminlerde bulunmasına yardımcı olur.

normalleştirme oranı

#fundamentals

Eğitim sırasında düzenlemenin göreceli önemini belirten bir sayı. Normalleştirme oranını artırmak fazla uyum olasılığını azaltır ancak modelin tahmin gücünü azaltabilir. Öte yandan, normalleştirme oranının azaltılması veya atlanması, fazla uyumu artırır.

Hesaplamayı görmek için simgeyi tıklayın.

Normalleştirme oranı genellikle Yunan alfabesindeki lambda harfiyle gösterilir. Aşağıdaki basitleştirilmiş kayıp denklemi lambda'nın etkisini gösterir:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

Burada düzenleme, aşağıdakileri de içeren bir düzenleme mekanizmasıdır;

L₁ normalleştirmesi

L₂ normalleştirmesi

pekiştirmeli öğrenme (RL)

#rl

Optimum politikayı öğrenen, hedefi ortamla etkileşim sırasında getiriyi en üst düzeye çıkarmak olan bir algoritma ailesi. Örneğin, çoğu oyunun nihai ödülü zaferdir. Pekiştirmeli öğrenme sistemleri, karmaşık oyunları oynamada uzmanlaşabilir. Bunun için önceki oyun hamlelerinin, nihayetinde kazanılan ve sonuçta kayıplara yol açan hamlelerin sırasını değerlendirebilir.

İnsan Geri Bildiriminden (RLHF) Pekiştirmeli Öğrenme

#üretken yapay zeka

#rl

Modellere verilen yanıtların kalitesini artırmak için gerçek kişilerden oluşan değerlendirme ekiplerinin geri bildirimlerinden yararlanma Örneğin bir RLHF mekanizması, kullanıcılardan bir modelin yanıtının kalitesini 👍 veya 👎 emoji ile derecelendirmelerini isteyebilir. Sistem bu geri bildirime göre gelecek yanıtları düzenleyebilir.

ReLU

#fundamentals

Doğrulanmış Doğrusal Birim'in kısaltması.

tekrar oynatma arabelleği

#rl

DQN benzeri algoritmalarda, aracı tarafından deneyim tekrarı işleminde kullanılmak üzere durum geçişlerini depolamak için kullanılan bellek.

replika

Eğitim grubunun veya modelinin genellikle başka bir makinedeki kopyası. Örneğin, bir sistem veri paralelliğini uygulamak için aşağıdaki stratejiyi kullanabilir:

Mevcut bir modelin replikalarını birden fazla makineye yerleştirin.

Eğitim kümesinin farklı alt kümelerini her replikaya gönderin.

Parametre güncellemelerini toplayın.

raporlama yanlılığı

#fairness

İnsanların eylemler, sonuçlar veya özellikler hakkında yazma sıklığının, gerçek dünyadaki sıklıklarını ya da bir mülkün, bir kişi sınıfının karakteristik derecesini yansıtmadığı gerçeği. Raporlama yanlılığı, makine öğrenimi sistemlerinin öğrendiği verilerin bileşimini etkileyebilir.

Örneğin, kitaplarda gülme kelimesi nefes kelimesinden daha yaygındır. Bir kitap kitaplığındaki gülme ve nefes almanın göreceli sıklığını tahmin eden bir makine öğrenimi modeli, muhtemelen gülmenin nefes almaktan daha yaygın olduğunu belirleyecektir.

temsil

Verileri faydalı özelliklerle eşleme işlemi.

yeniden sıralama

#recsystems

Öneri sisteminin son aşaması. Bu aşamada puanlanmış öğeler, başka bir algoritmaya (genellikle makine öğrenimi dışı) göre yeniden notlandırılır. Yeniden sıralama, puanlama aşamasında oluşturulan öğelerin listesini değerlendirir ve aşağıdaki gibi işlemleri gerçekleştirir:

Kullanıcının zaten satın aldığı öğelerden kurtulmak.

Daha yeni öğelerin puanını artırmak.

almayla artırılmış oluşturma (RAG)

#fundamentals

Model eğitildikten sonra toplanan bilgi kaynaklarını temel alarak büyük dil modeli (LLM) çıktısının kalitesini iyileştirmeye yönelik bir teknik. RAG, eğitimli LLM'ye güvenilir bilgi tabanlarından veya belgelerden alınan bilgilere erişim sağlayarak LLM yanıtlarının doğruluğunu artırır.

Almayla zenginleştirilmiş nesilleri kullanma konusunda yaygın motivasyonlar şunlardır:

Bir modelin oluşturulan yanıtlarının olgusal doğruluğunu artırma.

Modelin, eğitilmediği bilgilere erişmesine izin verme.

Modelin kullandığı bilgileri değiştirme.

Modelin kaynaklardan alıntı yapabilme özelliği etkinleştiriliyor.

Örneğin, bir kimya uygulamasının kullanıcı sorgularıyla ilgili özetler oluşturmak için PaLM API'yi kullandığını varsayalım. Uygulamanın arka ucu bir sorgu aldığında arka uç şunları yapar:

Kullanıcının sorgusuyla alakalı verileri ("alır") arar.

Alakalı kimya verilerini kullanıcının sorgusuna ekler ("artırma").

LLM'ye, eklenen verilere dayalı bir özet oluşturmasını söyler.

return

#rl

Pekiştirmeli öğrenmede, belirli bir politika ve belirli bir durum göz önünde bulundurulduğunda getiri, aracının politikayı eyaletten bölümün sonuna kadar takip ederken almayı beklediği tüm ödüllerin toplamıdır. Temsilci, ödülü almak için gereken durum geçişlerine göre ödüllerde indirim yaparak beklenen ödüllerin gecikmeli oluşumunu hesaba katar.

Bu nedenle, indirim faktörü $\gamma$ise ve $r_0, \ldots, r_{N}$bölümün sonuna kadar ödülleri belirtiyorsa getiri hesaplaması şu şekilde yapılır:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

ödül

#rl

Pekiştirmeli öğrenmede, ortam tarafından tanımlanan şekilde, bir durumda eylem yapmanın sayısal sonucu.

sırt normalleştirmesi

L₂ normalleştirmesi ile eş anlamlıdır. Sırt normalleştirme terimi salt istatistik bağlamlarında daha sık kullanılırken L₂ normalleştirme terimi makine öğreniminde daha sık kullanılır.

RNN

#seq

Yinelenen nöral ağların kısaltmasıdır.

ROC (alıcı çalışma özelliği) Eğrisi

#fundamentals

İkili sınıflandırmada farklı sınıflandırma eşikleri için gerçek pozitif oranı ile yanlış pozitif oranı karşılaştırmasını gösteren bir grafik.

ROC eğrisinin şekli, ikili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma becerisine işaret eder. Örneğin, bir ikili sınıflandırma modelinin tüm negatif sınıfları tüm pozitif sınıflardan mükemmel bir şekilde ayırdığını varsayalım:

Önceki modelin ROC eğrisi aşağıdaki gibi görünür:

Buna karşılık, aşağıdaki resimde negatif sınıfları pozitif sınıflardan hiç ayıramayan korkunç bir model için ham mantıksal regresyon değerleri grafik olarak verilmiştir:

Bu modelin ROC eğrisi aşağıdaki gibi görünür:

Gerçek dünyada ise çoğu ikili sınıflandırma modeli pozitif ve negatif sınıfları belirli bir dereceye kadar birbirinden ayırır ancak genelde tam olarak birbirinden farklıdır. Dolayısıyla, tipik bir ROC eğrisi iki uç nokta arasında bir yere denk gelir:

ROC eğrisinde (0,0,1,0) teorik olarak en yakın nokta, ideal sınıflandırma eşiğini tanımlar. Ancak ideal sınıflandırma eşiğinin seçilmesi, gerçek hayatta karşılaşılan diğer birkaç sorundan etkilenmektedir. Örneğin, yanlış negatifler yanlış pozitiflerden çok daha fazla acıya neden olabilir.

AUC adlı sayısal bir metrik, ROC eğrisini tek bir kayan nokta değerinde özetler.

rol isteme

#language

#üretken yapay zeka

Üretken yapay zeka modelinin yanıtı için hedef kitleyi tanımlayan istem'in isteğe bağlı bir bölümüdür. Rol istemi olmadığı durumlarda büyük bir dil modeli, soruları soran kişi için faydalı olabilecek ya da olmayabilecek bir yanıt sağlar. Büyük bir dil modeli, rol istemi kullanarak belirli bir hedef kitle için daha uygun ve faydalı bir şekilde yanıt verebilir. Örneğin, aşağıdaki istemlerin rol istemi bölümü kalın harflerle gösterilmiştir:

Ekonomi alanında doktora yapmak için bu makaleyi özetleyin.

On yaşında bir çocuk için akıntıların nasıl gerçekleştiğini açıklama.

2008 ekonomik krizini açıkla. Küçük bir çocuğa veya bir golden retriever'a konuştuğunuz gibi konuşun.

kök

#df

Karar ağacındaki başlangıç düğüm (ilk koşul). Genellikle diyagramlar kökü karar ağacının en üstüne yerleştirir. Örneğin:

kök dizin

#TensorFlow

TensorFlow kontrol noktasının alt dizinlerini ve birden fazla modelin etkinlik dosyalarını barındırmak için belirttiğiniz dizin.

Kök Ortalama Kare Hatası (RMSE)

#fundamentals

Ortalama Kare Hatanın karekökü.

dönme değişkeni

#image

Görüntü sınıflandırma sorunlarında, resmin yönü değişse bile algoritmanın resimleri başarıyla sınıflandırma becerisi. Örneğin, algoritma bir tenis raketinin yukarıyı gösteren, yan yatmış veya aşağı doğru olup olmadığını yine de tanımlayabilir. Dönme değişkenliğinin her zaman istenen bir durum olmadığını unutmayın. Örneğin, ters çevrilmiş 9, 9 olarak sınıflandırılmamalıdır.

Ayrıca çevirisel değişkenlik ve boyut tutarsızlığı konularına da bakın.

R-kare

Bir etiketteki ne kadar değişimin tek bir özellikten veya özellik grubundan kaynaklandığını gösteren regresyon metriği. R-kare, 0 ile 1 arasında bir değerdir ve aşağıdaki şekilde yorumlanabilir:

R karenin 0 olması, etiketteki hiçbir değişimin özellik grubundan kaynaklanmadığı anlamına gelir.

R karenin 1 olması, etiketteki tüm varyasyonun özellik grubundan kaynaklandığı anlamına gelir.

0 ile 1 arasındaki bir R kare değeri, etiket varyantının belirli bir özellikten veya özellik kümesinden ne ölçüde tahmin edilebileceğini gösterir. Örneğin, 0,10'luk bir R kare, etiketteki varyansın yüzde 10'unun özellik kümesinden, 0,20'lik bir R karesi ise yüzde 20'nin özellik kümesinden ve bu şekilde devam ettiğini ifade eder.

R-kare, bir modelin tahmin ettiği değerler ile kesin referanslık arasındaki Pearson korelasyon katsayısının karesidir.

S

örnekleme yanlılığı

#fairness

Seçim yanlılığı bölümünü inceleyin.

değiştirme ile örnekleme

#df

Aynı öğenin birden çok kez seçilebildiği bir dizi aday öğeden öğe seçme yöntemi. "Değişim amaçlı" ifadesi, her seçimden sonra seçilen öğenin aday öğeler havuzuna iade edildiği anlamına gelir. Ters yöntem olan değiştirilmeden örnekleme, aday öğenin yalnızca bir kez seçilebileceği anlamına gelir.

Örneğin, şu meyve kümesini ele alalım:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sistemin ilk öğe olarak fig öğesini rastgele seçtiğini varsayalım. Değiştirme ile örnekleme kullanılıyorsa sistem aşağıdaki kümeden ikinci öğeyi seçer:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Evet, bu önceden olduğu için sistem muhtemelen tekrar fig seçebilir.

Değişim yapılmadan örnekleme kullanılıyorsa seçilen bir örnek tekrar seçilemez. Örneğin, sistem ilk örnek olarak fig rastgele seçilirse fig tekrar seçilemez. Bu nedenle, sistem aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Ek notlar için simgeyi tıklayın.

Değişimle örneklendirmede değişim kelimesi birçok kişinin kafasını karıştırır. İngilizcede replacement (değişim) terimi, "ikame" anlamına gelir. Bununla birlikte, değişimle örnekleme, aslında değişim için Fransızca tanımı kullanır, yani "bir şeyi geri getirmek" anlamına gelir.

İngilizce replacement sözcüğü, Fransızca remplacement sözcüğü olarak çevrilir.

SavedModel

#TensorFlow

TensorFlow modellerini kaydetmek ve kurtarmak için önerilen biçim. SavedModel, üst düzey sistem ve araçların TensorFlow modellerini üretmesine, tüketmesine ve dönüştürmesine imkan tanıyan, dilden bağımsız ve kurtarılabilir bir serileştirme biçimidir.

Tüm ayrıntılar için TensorFlow Programcı Kılavuzu'ndaki Saveing and Restore (Kaydetme ve Geri Yükleme) bölümüne bakın.

Tasarruflu

#TensorFlow

Model kontrol noktalarını kaydetmekten sorumlu bir TensorFlow nesnesi.

skaler

rank 0'a sahip bir tensor olarak temsil edilebilen tek bir sayı veya tek bir dize. Örneğin, aşağıdaki kod satırlarının her biri TensorFlow'da bir skaler oluşturur:

breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)

ölçeklendirme

Bir etiketin ve/veya özellik değeri aralığını değiştiren herhangi bir matematiksel dönüşüm veya teknik. Bazı ölçeklendirme biçimleri, normalleştirme gibi dönüşümler için çok yararlıdır.

Makine öğreniminde yararlı olan yaygın ölçeklendirme biçimleri şunlardır:

genellikle orijinal değeri -1 ile +1 arasında veya 0 ile 1 arasında bir sayıyla değiştirmek için çıkarma ve bölme yöntemini kullanan doğrusal ölçeklendirme.

logaritmik ölçeklendirme, orijinal değeri logaritmasıyla değiştirir.

Z puanı normalleştirmesi, orijinal değeri, söz konusu özelliğin ortalamasından standart sapmaların sayısını temsil eden bir kayan nokta değeriyle değiştirir.

scikit-learn

Popüler bir açık kaynak makine öğrenimi platformu. scikit-learn.org adresini ziyaret edin.

puanlama

#recsystems

Aday oluşturma aşamasında üretilen her öğe için bir değer veya sıralama sağlayan bir öneri sistemi bölümü.

seçim yanlılığı

#fairness

Verilerde gözlemlenen ve gözlemlenmeyen örnekler arasında sistematik farklılıklar oluşturan bir seçim süreci nedeniyle, örneklenmiş verilerden alınan sonuçlardaki hatalar. Aşağıdaki seçim yanlılığı biçimleri mevcuttur:

kapsam yanlılığı: Veri kümesinde temsil edilen popülasyon, makine öğrenimi modelinin hakkında tahmin yaptığı popülasyonla eşleşmez.

örnekleme yanlılığı: Veriler, hedef gruptan rastgele toplanmaz.

yanıt vermeme yanlılığı (katılım yanlılığı olarak da adlandırılır): Belirli gruplardaki kullanıcılar, diğer gruplardaki kullanıcılardan farklı oranlarla anketlerin kapsamı dışında kalmayı seçer.

Örneğin, insanların bir filmden keyif aldığını tahmin eden bir makine öğrenimi modeli oluşturduğunuzu varsayalım. Eğitim verilerini toplamak için bir sinemanın ön sırasındaki herkese filmi gösteren bir anket düzenliyorsunuz. Önceden bu, veri kümesi toplamak için makul bir yol gibi görünebilir; ancak bu veri toplama biçimi aşağıdaki seçim yanlılığı biçimlerine yol açabilir:

kapsam yanlılığı: Filmi izlemeyi seçen bir popülasyondan örnek alındığında, modelinizin tahminleri filme yönelik bu ilgi düzeyini henüz ifade etmemiş olan kişiler için genelleme yapmayabilir.

örnekleme yanlılığı: Amaçlanan popülasyondan (filmdeki tüm kişiler) rastgele örnekleme yapmak yerine, yalnızca en ön sıradaki kişilerden örneklediniz. Ön sıralarda oturan kişilerin filmle diğer satırlardakilere göre daha fazla ilgilenmesi mümkündür.

yanıt vermeme yanlılığı: Genel olarak, güçlü görüşlere sahip kişiler isteğe bağlı anketlere hafif fikirleri olan kişilere göre daha sık yanıt verme eğilimindedir. Film anketi isteğe bağlı olduğundan, yanıtların normal (çan şeklindeki) dağılıma kıyasla iki modlu bir dağılım oluşturma olasılığı daha yüksektir.

kendi kendine dikkat (kendi kendine dikkat katmanı olarak da adlandırılır)

#language

Bir yerleştirme dizisini (örneğin, jeton yerleştirmeleri) başka bir yerleştirme sırasına dönüştüren bir nöral ağ katmanı. Çıkış sırasına her yerleştirme, bir dikkat mekanizması aracılığıyla giriş sırası öğelerindeki bilgilerin entegre edilmesiyle oluşturulur.

Kendi kendine dikkat çekmenin kendi kısmı, başka bir bağlamdan ziyade kişinin kendisine katıldığı diziyi ifade eder. Kendine dikkat etme Transformatörler için temel yapı taşlarından biridir ve "sorgu", "anahtar" ve "değer" gibi sözlük arama terimlerini kullanır.

Kendi kendine dikkat katmanı, her kelime için bir giriş gösterimleri dizisiyle başlar. Bir kelimenin giriş gösterimi, basit bir yerleştirme olabilir. Ağ, giriş dizisindeki her kelime için kelimenin, kelime dizisinin tamamındaki her öğeyle alaka düzeyini puanlar. Alaka düzeyi puanları, kelimenin son temsilinin diğer kelimelerin temsillerini ne kadar içerdiğini belirler.

Örneğin, şu cümleyi ele alalım:

Hayvan çok yorgun olduğu için karşıdan karşıya geçmedi.

Aşağıdaki çizimde (Transformer: A Novel Nural Network Architecture for LanguageUnderstanding) it zamiri için bir kendi kendine dikkat katmanının dikkat kalıbı gösterilmektedir. Her satırın koyu rengi, her kelimenin temsile ne kadar katkıda bulunduğunu gösterir:

Kendine dikkat katmanı, "kendine dikkat" katmanı ile alakalı kelimeleri vurgular. Bu örnekte, dikkat katmanı en yüksek ağırlığı hayvana atayarak kendi işaret edebileceği kelimeleri vurgulamayı öğrenmiştir.

Kendi kendine dikkat, bir n jeton dizisi için bir dizi yerleştirmeyi, dizideki her bir konumda bir kez olacak şekilde n ayrı kez dönüştürür.

Ayrıca dikkat ve çok kafalı kendi kendine dikkat konularına da bakın.

gözetimli öğrenim

Etiketlenmemiş örneklerden vekil etiketler oluşturarak gözetimli olmayan bir makine öğrenimi sorununu gözetimli makine öğrenimi sorununa dönüştürmeye yönelik bir teknik aile.

BERT gibi bazı Transformer tabanlı modeller, kendi kendine öğrenmeyi kullanır.

Kendi kendine gözetimli eğitim, yarı gözetimli bir öğrenme yaklaşımıdır.

kendi kendine eğitim

Kendi kendine gözetimli öğrenmenin bir varyantıdır. Bu varyant, özellikle aşağıdaki koşulların tamamı doğru olduğunda kullanışlıdır:

Veri kümesindeki etiketsiz örneklerin etiketli örneklere oranı yüksektir.

Bu bir sınıflandırma sorunudur.

Kendi kendine eğitim, model iyileşmeyi bırakıncaya kadar aşağıdaki iki adımdan sonra tekrarlanır:

Etiketli örnekler üzerinde bir model eğitmek için gözetimli makine öğrenimini kullanın.

Etiketlenmemiş örnekler hakkında tahminler (etiketler) oluşturmak için 1. adımda oluşturulan modeli kullanın ve yüksek güven düzeyine sahip olan örnekleri, tahmin edilen etiketle etiketli örneklere taşıyın.

2. Adım'ın her iterasyonunun, 1. Adım'ın eğitilmesi için daha fazla etiketli örnek eklediğine dikkat edin.

yarı gözetimli öğrenim

Bazı eğitim örneklerinde etiket bulunurken bazılarının bulunmadığı veriler üzerinde modeli eğitme. Yarı gözetimli öğrenme tekniklerinden biri, etiketlenmemiş örnekler için etiketleri tahmin etmek ve ardından yeni bir model oluşturmak üzere türetilmiş etiketler üzerinde eğitim yapmaktır. Yarı gözetimli öğrenme, etiket oluşturmanın pahalı olması ancak çok sayıda etiketsiz örnek olması durumunda faydalı olabilir.

Kendi kendine eğitim, yarı gözetimli öğrenme tekniklerinden biridir.

hassas özellik

#fairness

Yasal, etik, sosyal veya kişisel nedenlerle özel olarak değerlendirilebilecek insani özellik.

yaklaşım analizi

#language

Bir grubun hizmet, ürün, kuruluş veya konuya yönelik genel tutumunu (olumlu veya olumsuz) belirlemek için istatistiksel ya da makine öğrenimi algoritmalarından yararlanma. Örneğin, bir algoritma, doğal dil anlama özelliğini kullanarak öğrencilerin bir kursu ne ölçüde beğendiğini veya beğenmediğini belirlemek için üniversite kursundan alınan metinsel geri bildirim üzerinde yaklaşım analizi gerçekleştirebilir.

sıra modeli

#seq

Girdileri sıralı bağımlılığı olan bir model. Örneğin, önceden izlenen bir dizi video arasından izlenen bir sonraki videoyu tahmin edebilirsiniz.

sıralı görev

#language

Jetonlardan oluşan bir giriş dizisini, jeton çıkış sırasına dönüştüren bir görev. Örneğin, popüler olan iki tür sıralı görev görev şunlardır:

Çevirmenler:

Örnek giriş sırası: "Seni seviyorum."

Örnek çıkış sırası: "Je t'aime."

Soru yanıtlama:

Örnek giriş sırası: "Arabamın New York'ta olması gerekiyor mu?"

Örnek çıkış sırası: "Hayır. Lütfen arabanızı evde tutun."

porsiyon

Eğitilen bir modeli online çıkarım veya çevrimdışı çıkarım aracılığıyla tahmin sağlamak için kullanılabilir hale getirme süreci.

şekil (Tensör)

Bir tensörün her boyutundaki öğe sayısı. Şekil, tam sayılardan oluşan bir liste olarak gösterilir. Örneğin, aşağıdaki iki boyutlu tensör [3,4] şeklinde bir şekle sahiptir:

[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]

TensorFlow, boyutların sırasını temsil etmek için satır-major (C stili) biçimini kullanır. Bu nedenle, TensorFlow'daki şekil [4,3] yerine [3,4] şeklindedir. Başka bir deyişle, iki boyutlu bir TensorFlow Tensor'da şekil [satır sayısı, sütun sayısı] şeklindedir.

kırık

#TensorFlow

#GoogleCloud

Eğitim grubunun veya modelin mantıksal bölümü. Bazı işlemler genellikle örnekleri veya parametreleri (genellikle) eşit boyutlu parçalara bölerek parçalar oluşturur. Daha sonra her kırık farklı bir makineye atanır.

Bir modeli parçalamaya model paralelliği, verileri parçalamaya ise veri paralelliği adı verilir.

küçülme

#df

Renk yükseltmede fazla uygulamayı kontrol eden bir hiperparametre. Gradyan artırmadaki küçülme, gradyan iniş sırasındaki öğrenme hızına benzer. Daraltma 0,0 ile 1,0 arasında ondalık bir değerdir. Düşük bir küçülme değeri, fazla uyum sağlamayı daha büyük bir küçülme değerinden daha fazla azaltır.

sigmoid işlevi

#fundamentals

Girdi değerini sınırlı bir aralığa "sıkıştıran" (genellikle 0 ila 1 veya -1 ile +1 arası) matematiksel işlev. Yani bir sigmoid'e herhangi bir sayıyı (iki, bir milyon, negatif milyar, herhangi bir sayı) aktarabilirsiniz. Bu durumda, çıktı, sınırlı aralıkta olmaya devam eder. Sigmoid aktivasyon fonksiyonunun grafiği aşağıdaki gibi görünür:

Sigmoid işlevinin makine öğreniminde çeşitli kullanım alanları vardır. Örneğin:

Mantıksal regresyon veya çoklu terimli regresyon modelinin ham çıktısını olasılığa dönüştürme.

Bazı nöral ağlarda etkinleştirme işlevi olarak görev yapma.

Hesaplamayı görmek için simgeyi tıklayın.

x giriş sayısı üzerindeki sigmoid işlevi aşağıdaki formüle sahiptir:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Makine öğreniminde x genellikle ağırlıklı bir toplamdır.

benzerlik ölçüsü

#clustering

Kümeleme algoritmalarında, herhangi iki örneğin ne kadar benzer (ne kadar benzer) olduğunu belirlemek için kullanılan metriktir.

tek program / çoklu veri (SPMD)

Aynı hesaplamanın farklı cihazlardaki farklı giriş verileri üzerinde paralel olarak yapıldığı bir paralellik tekniği. SPMD'nin amacı sonuçları daha hızlı almaktır. Paralel programlamada en sık kullanılan stildir.

boyut değişkeni

#image

Görüntü sınıflandırma sorunlarında, resmin boyutu değişse bile algoritmanın görselleri başarıyla sınıflandırma becerisi. Örneğin, algoritma 2 milyon veya 200 bin piksel tüketen bir kediyi yine de tanımlayabilir. En iyi resim sınıflandırma algoritmalarının bile boyut değişiminde pratik sınırları olduğunu unutmayın. Örneğin, bir algoritmanın (veya insanın), sadece 20 piksel tüketen bir kedi görüntüsünü doğru şekilde sınıflandırma olasılığı düşüktür.

Ayrıca çevirisel değişkenlik ve dönümsel değişkenlik konularına da bakın.

çizim

#clustering

Gözetimsiz makine öğreniminde, örnekler üzerinde ön benzerlik analizi gerçekleştiren bir algoritma kategorisi. Çizim algoritmaları, benzer olabilecek noktaları belirlemek için konuma duyarlı bir karma işlevi kullanır ve daha sonra bunları gruplar halinde gruplandırır.

Çizim, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine, yalnızca her paketteki her bir nokta çifti için benzerliği hesaplarız.

gram atlama

#language

Orijinal bağlamdaki kelimeleri çıkarabilen (veya "atlayan") n-gram. Yani, N sözcükler başta bitişik olmayabilir. Daha açık bir şekilde ifade etmek gerekirse "k-skip-n-gram", en fazla bin kelimenin atlanmış olabileceği bir n-gramdır.

Örneğin, "saz tilki" aşağıdaki olası 2 gram kadar olabilir:

"hızlı"

"hızlı kahverengi"

"kahverengi tilki"

"1-at-2-gram", aralarında en fazla bir kelime bulunan bir çift kelimedir. Dolayısıyla, "hızlı kahverengi tilki" aşağıdaki 1 atlamalı 2 gram'a sahiptir:

"kahverengi"

"hızlı tilki"

Ayrıca, bir kelimeden azı atlanabileceği için tüm 2 gram ayrıca 1-2 gramlık bir ifadedir.

Atlama gramları, kelimenin çevresindeki bağlamı daha iyi anlamaya yardımcı olur. Bu örnekte "tilki", 1-at-2-gram grubunda "hızlı" ifadesiyle doğrudan ilişkilendirilirken 2 gramlık kümede bununla alakalı değildir.

Gram atlama, kelime yerleştirme modellerinin eğitilmesine yardımcı olur.

softmax

#fundamentals

Çok sınıflı sınıflandırma modelinde her olası sınıf için olasılıkları belirleyen bir işlev. Olasılıkların toplamı tam olarak 1,0'dır. Örneğin, aşağıdaki tabloda softmax'ın çeşitli olasılıkları nasıl dağıttığı gösterilmektedir:

Resim: Probability

köpek 0,85

Cat 0,13

at 0,02

Softmax, tam softmax olarak da adlandırılır.

Aday örneklemeyle kontrast.

Hesaplamayı görmek için simgeyi tıklayın.

Softmax denklemi aşağıdaki gibidir:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
burada:

$\sigma_i$, çıkış vektörüdür. Çıkış vektörünün her bir öğesi, bu öğenin olasılığını belirtir. Çıkış vektörindeki tüm öğelerin toplamı 1,0 olur. Çıkış vektörü, $z$ giriş vektörüyle aynı sayıda öğe içerir.

$z$ giriş vektörüdür. Giriş vektörünün her öğesi, bir kayan nokta değeri içerir.

$K$, giriş vektörindeki (ve çıkış vektörü) öğelerin sayısıdır.

Örneğin, giriş vektörünün şu olduğunu varsayalım:

[1.2, 2.5, 1.8]

Bu nedenle, softmax paydayı şu şekilde hesaplar:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Dolayısıyla, her bir öğenin softmax olasılığı şudur:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Dolayısıyla, çıkış vektörü şu şekildedir:

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ cinsinden üç elementin toplamı 1,0'dır. Bora

yumuşak istem ayarı

#language

#üretken yapay zeka

Büyük dil modelini belirli bir görev için yoğun kaynak kullanımına gerek kalmadan ince ayar yapma tekniğidir. Esnek istem ayarı, modeldeki tüm ağırlıkları yeniden eğitmek yerine aynı hedefe ulaşmak için bir istemi otomatik olarak ayarlar.

Metinsel bir istem doğrultusunda, yumuşak istem ayarı genellikle isteme ek jeton yerleştirmeleri ekler ve girişi optimize etmek için geri yayılımı kullanır.

"Sabit" bir istem, jeton yerleştirmeleri yerine gerçek jetonlar içerir.

seyrek özellik

#language

#fundamentals

Değerleri ağırlıklı olarak sıfır veya boş olan bir özellik. Örneğin, tek bir 1 değeri ve bir milyon 0 değeri içeren bir özellik nadirdir. Buna karşılık, yoğun bir özellik çoğunlukla sıfır veya boş olmayan değerlere sahiptir.

Makine öğreniminde şaşırtıcı sayıda özellik çok azdır. Kategorik özellikler genellikle az sayıdadır. Örneğin, bir ormandaki 300 olası ağaç türünden tek bir örnek yalnızca bir akçaağaç tanımlayabilir. Ya da bir video kitaplığındaki milyonlarca olası video arasından tek bir örnek yalnızca "Kazablanka"yı tanımlayabilir.

Bir modelde, genellikle tek kullanımlık kodlama ile seyrek özellikleri temsil edersiniz. Tek seferlik kodlama büyükse, daha fazla verimlilik için tek seferlik kodlamanın üzerine yerleştirme katmanı yerleştirebilirsiniz.

seyrek temsil

#language

#fundamentals

Sıfır olmayan öğelerin yalnızca konumlarını seyrek bir özellikte depolama.

Örneğin, species adlı kategorik bir özelliğin belirli bir ormandaki 36 ağaç türünü tanımladığını varsayalım. Ayrıca her örneğin yalnızca tek bir türü tanımladığını varsayın.

Her örnekte ağaç türlerini göstermek için tek seferlik bir vektör kullanabilirsiniz. Tek sıcak vektör, tek bir 1 (bu örnekte belirli ağaç türünü temsil etmek için) ve 35 0 (bu örnekte olmayan 35 ağaç türünü temsil etmek üzere) içerir. Dolayısıyla, maple işlevinin bir defada temsili aşağıdaki gibi görünebilir:

Alternatif olarak seyrek temsil, belirli bir türün konumunu belirleyebilir. maple 24. konumdaysa maple öğesinin seyrek temsili şöyle olur:

24

Seyrek temsilin, tek seferlik gösterime kıyasla çok daha kompakt olduğuna dikkat edin.

Not: Bir modele doğrudan özellik girişi olarak seyrek bir gösterim aktarmamanız gerekir. Bunun yerine, üzerinde eğitim vermeden önce seyrek gösterimi tek bir temsile dönüştürmeniz gerekir.

Biraz daha karmaşık bir örnek için simgeyi tıklayın.

Modelinizdeki her bir örneğin, İngilizce bir cümledeki kelimeleri temsil etmesi gerektiğini (bu kelimelerin sırasını değil) varsayalım. İngilizce yaklaşık 170.000 kelimeden oluşur. Yani İngilizce, yaklaşık 170.000 öğe içeren kategorik bir özelliktir. Çoğu İngilizce cümle bu 170.000 kelimenin çok küçük bir kısmını kullanır. Bu nedenle, tek bir örnekteki kelime kümesinin çok az veri olacağı kesindir.

Şu cümleyi ele alalım:

My dog is a great dog

Bu cümledeki kelimeleri temsil etmek için tek sıcak vektörün bir varyantını kullanabilirsiniz. Bu varyantta, vektördeki birden çok hücre sıfır dışında bir değer içerebilir. Ayrıca bu varyantta, bir hücre birden farklı bir tam sayı içerebilir. "Benim", "bir" ve "harika" kelimeleri cümle içinde yalnızca bir kez görünse de "köpek" kelimesi iki kez geçmektedir. Bu cümledeki kelimeleri temsil etmek için tek sıcak vektörlerin bu varyantını kullanmak,şu 170.000 öğeli vektörü elde eder:

Aynı cümlenin seyrek bir temsili şöyle olacaktır:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Kafanız karıştıysa simgeyi tıklayın.

"Az temsil" terimi birçok kişinin kafasını karıştırır, çünkü seyrek temsilin kendisi seyrek bir vektör değildir. Daha ziyade, seyrek gösterim, aslında seyrek bir vektörün yoğun gösterimidir. dizin gösterimi eş anlamlısı, "seyrek temsil" ifadesinden biraz daha nettir.

seyrek vektör

#fundamentals

Değerleri çoğunlukla sıfır olan bir vektör. Ayrıca bkz. seyrek özellik ve nadirlik.

seyreklik

Bir vektör veya matriste sıfıra (veya boşa) ayarlanan öğe sayısının, söz konusu vektör ya da matristeki toplam giriş sayısına bölünmesiyle elde edilen oran. Örneğin, 98 hücrenin sıfır içerdiği 100 öğeli bir matristir. Tutarsızlık şu şekilde hesaplanır:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Özellik azlığı, bir özellik vektörünün azlığı, model azlığı ise model ağırlıklarının azlığı anlamına gelir.

mekansal havuz

#image

Havuz bölümünü inceleyin.

split

#df

Karar ağacında, bir durum için başka bir ad kullanılır.

ayırıcı

#df

Bir karar ağacını eğitirken her bir düğümde en iyi durumu bulmaktan sorumlu rutin (ve algoritma) kullanılır.

SPMD

Tek program / çoklu veri kısaltması.

kare menteşe kaybı

Menteşe kaybının karesi. Kare içinde menteşe kaybı, aykırı değerleri normal menteşe kaybından daha sert bir şekilde cezalandırır.

kaybın kareli

#fundamentals

L₂ kaybı ile eş anlamlıdır.

aşamalı eğitim

#language

Bir modeli farklı aşamalar halinde eğitme taktiği. Hedef, eğitim sürecini hızlandırmak veya daha iyi model kalitesi elde etmek olabilir.

Progresif yığınlama yaklaşımının bir resmi aşağıda gösterilmektedir:

1. aşama 3 gizli katman, 2. aşama 6 gizli katman ve 3. aşama 12 gizli katman içerir.

2. aşama, 1. aşamanın 3 gizli katmanında öğrenilen ağırlıklarla eğitime başlar. 3. aşama, 2. aşamanın 6 gizli katmanında öğrenilen ağırlıklarla eğitime başlar.

Ardışık düzen konusunu da inceleyin.

state

#rl

Pekiştirmeli öğrenmede, aracının bir işlem seçmek için kullandığı, ortamın mevcut yapılandırmasını tanımlayan parametre değerleridir.

durum-işlem değeri işlevi

#rl

Q işlevi ile eş anlamlıdır.

statik

#fundamentals

Bir iş sürekli değil, bir kere yapılır. Statik ve çevrimdışı terimleri eş anlamlıdır. Makine öğreniminde statik ve çevrimdışı reklam öğelerinin yaygın kullanım alanları şunlardır:

statik model (veya çevrimdışı model), bir kez eğitildikten sonra bir süre kullanılan bir modeldir.

statik eğitim (veya çevrimdışı eğitim), statik bir modeli eğitme sürecidir.

statik çıkarım (veya çevrimdışı çıkarım), bir modelin aynı anda tahmin grubu oluşturduğu bir süreçtir.

dinamik ile kontrast oluşturun.

statik çıkarım

#fundamentals

Çevrimdışı çıkarım ile eş anlamlıdır.

sabitlik

#fundamentals

Değerleri bir veya daha fazla boyutta (genellikle zaman) değişmeyen özellik. Örneğin, 2021 ve 2023'te değerleri yaklaşık olarak aynı görünen bir özellik sabittir.

Gerçek dünyada çok az özellik sabittir. Kararlılıkla eş anlamlı olan özellikler (deniz seviyesi gibi) zaman içinde değişir.

Sürdürülebilirlik ile kontrast.

step

Bir toplu grubun ileriye ve geriye doğru geçişi.

İleriye ve geriye doğru geçiş hakkında daha fazla bilgi için geri yayılım bölümüne bakın.

adım boyutu

Öğrenme hızı ile eş anlamlı.

olasılıksal gradyan iniş (SGD)

#fundamentals

Grup boyutunun bir olduğu bir gradyan azalma algoritması. Diğer bir deyişle SGD, bir eğitim grubundan rastgele seçilmiş tek bir örnek üzerinden eğitilir.

stride

#image

Konvolüsyonlu işlem veya havuz oluşturmada, bir sonraki giriş dilimi serisinin her bir boyutundaki delta. Örneğin, aşağıdaki animasyonda kıvrımlı bir işlem sırasında (1,1) adım gösterilmektedir. Bu nedenle, sonraki giriş dilimi önceki giriş diliminin bir konum sağından başlar. İşlem sağ kenara ulaştığında, bir sonraki dilim tamamen sola, ancak bir konum aşağıya doğru ilerler.

Yukarıdaki örnekte iki boyutlu bir adım gösterilmektedir. Girdi matrisi üç boyutluysa adım da üç boyutlu olur.

yapısal risk minimumu (SRM)

İki hedefi dengeleyen bir algoritma:

En tahmine dayalı modeli oluşturma ihtiyacı (ör. en düşük kayıp).

Modeli mümkün olduğunca basit tutma ihtiyacı (örneğin, güçlü bir düzenleme).

Örneğin, eğitim kümesinde kayıp+normalleştirmeyi en aza indiren bir fonksiyon, yapısal risk azaltma algoritmasıdır.

ampirik risk minimumlaştırma ile kontrast.

alt örnekleme

#image

Havuz bölümünü inceleyin.

alt kelime jetonu

#language

Dil modellerinde, bir kelimenin alt dizesi olan ve kelimenin tamamı olabilen jeton

Örneğin, "itemize" gibi bir kelime, "item" (kök kelime) ve "ize" (sonek) parçalarına ayrılabilir. Bunların her biri kendi jetonuyla temsil edilir. Yaygın olmayan kelimeleri alt kelime olarak adlandırılan bu tür parçalara ayırmak, dil modellerinin kelimenin önek ve sonek gibi daha yaygın bileşen parçaları üzerinde çalışmasına olanak tanır.

Bunun aksine, "gitmek" gibi yaygın kelimeler bölünmez ve tek bir jetonla temsil edilebilir.

özet

#TensorFlow

TensorFlow'da, belirli bir adımda hesaplanan bir değer veya değer kümesi. Genellikle eğitim sırasında model metriklerini izlemek için kullanılır.

gözetimli makine öğrenimi

#fundamentals

Özelliklerden ve bunlara karşılık gelen etiketlerden bir model eğitme. Gözetimli makine öğrenimi, bir dizi soruyu ve bunlara ilişkin yanıtları inceleyerek bir konuyu öğrenmeye benzer. Öğrenciler, soru ve cevaplar arasındaki eşleme konusunda uzmanlaştıktan sonra aynı konudaki yeni (daha önce görülmemiş) sorulara yanıt verebilir.

Gözetimsiz makine öğrenimi ile karşılaştırma yapın.

sentetik özellik

#fundamentals

Giriş özellikleri arasında bulunmayan ancak bu özelliklerin birinden veya birkaçından derlenen özellik. Sentetik özellik oluşturma yöntemleri şunları içerir:

Sürekli bir özelliği aralık bölmelerine gruplandırma.

Özellik çaprazı oluşturma.

Bir özellik değerinin başka bir özellik değeriyle veya kendisiyle çarpılması (veya bölünmesi). Örneğin, a ve b giriş özellikleriyse aşağıda sentetik özelliklere örnekler verilmiştir:

ab

²

Bir özellik değerine transandantal fonksiyon uygulama. Örneğin, c bir giriş özelliğiyse aşağıda sentetik özelliklere örnekler verilmiştir:

sin(c)

ln(c)

Tek başına normalleştirme veya ölçeklendirme yoluyla oluşturulan özellikler sentetik özellik olarak kabul edilmez.

T

T5

#language

2020'de Google AI tarafından kullanıma sunulan metinden metne öğrenmeyi aktarma modeli. T5, çok büyük bir veri kümesi üzerinde eğitilmiş, Transformer mimarisine dayanan bir kodlayıcıkod çözücü modelidir. Metin oluşturma, dilleri çevirme ve soruları konuşmaya uygun bir şekilde yanıtlama gibi çeşitli doğal dil işleme görevlerinde etkilidir.

T5, adını "Metin-Metin Aktarım Dönüştürücüsü "ndeki beş T'den alır.

T5X

#language

Büyük ölçekli doğal dil işleme (NLP) modelleri oluşturup eğitmek için tasarlanmış açık kaynaklı makine öğrenimi çerçevesi. T5, T5X kod tabanında (JAX ve Flax'te oluşturulur) uygulanır.

tablo biçiminde Q-öğrenme

#rl

Pekiştirmeli öğrenme'de, her durum ve eylem kombinasyonu için Q işlevlerini bir tablo kullanarak Q-öğrenim'i uygulama.

hedef

label için eş anlamlı.

hedef ağ

#rl

Derin Q-learning'de, ana nöral ağın sabit bir yaklaşımı olan nöral ağ, ana nöral ağ tarafından Q işlevi veya politika uygulanır. Ardından ana ağı, hedef ağ tarafından tahmin edilen Q değerleriyle eğitebilirsiniz. Bu nedenle, ana ağ kendi başına tahmin edilen Q değerleriyle eğitildiğinde ortaya çıkan geri bildirim döngüsünü önlersiniz. Bu geri bildirimin önüne geçildiğinde eğitim istikrarı artar.

görev

Aşağıdakiler gibi makine öğrenimi teknikleri kullanılarak çözülebilecek bir problem:

sınıflandırma

regresyon

kümeleme

anormallik algılama

sıcaklık

#language

#image

#üretken yapay zeka

Bir model çıkışının rastgelelik derecesini kontrol eden bir hiperparametre. Yüksek sıcaklıklar daha fazla rastgele çıkışa, düşük sıcaklıklar ise daha az rastgele çıkışa neden olur.

En iyi sıcaklığın seçilmesi, ilgili uygulamaya ve model çıkışının tercih edilen özelliklerine bağlıdır. Örneğin, reklam öğesi çıktısı üreten bir uygulama oluştururken muhtemelen sıcaklığı artırırsınız. Buna karşılık, modelin doğruluğunu ve tutarlılığını artırmak için resimleri veya metinleri sınıflandıran bir model oluştururken muhtemelen sıcaklığı düşürürsünüz.

Sıcaklık genellikle softmax ile kullanılır.

zamansal veri

Farklı zaman noktalarında kaydedilen veriler. Örneğin, yılın her günü için kaydedilen kışlık mont satışları zamansal veri olur.

Tensör

#TensorFlow

TensorFlow programlarındaki birincil veri yapısı. Tensörler, N boyutlu (N çok büyük olabilir) veri yapılarıdır. Genellikle skaler, vektör veya matrislerdir. Tensor öğeleri tam sayı, kayan nokta veya dize değerleri içerebilir.

TensorBoard

#TensorFlow

Bir veya daha fazla TensorFlow programı yürütülürken kaydedilen özetleri gösteren kontrol paneli.

TensorFlow

#TensorFlow

Büyük ölçekli, dağıtılmış bir makine öğrenimi platformu. Bu terim aynı zamanda, TensorFlow yığınındaki, veri akışı grafiklerinde genel hesaplamayı destekleyen temel API katmanını da ifade eder.

TensorFlow esas olarak makine öğrenimi için kullanılsa da, Dataflow grafikleri kullanarak sayısal hesaplama gerektiren makine öğrenimi harici görevler için de TensorFlow'u kullanabilirsiniz.

TensorFlow Oyun Alanı

#TensorFlow

Farklı hiperparametrelerin model (esas olarak nöral ağ) eğitimini nasıl etkilediğini görselleştiren bir program. TensorFlow Playground ile deneme yapmak için http://playground.tensorflow.org adresine gidin.

TensorFlow Sunma

#TensorFlow

Eğitilmiş modelleri üretimde dağıtan bir platform.

Tensor İşleme Birimi (TPU)

#TensorFlow

#GoogleCloud

Makine öğrenimi iş yüklerinin performansını optimize eden uygulamaya özel entegre devre (ASIC). Bu ASIC'ler, bir TPU cihazda birden fazla TPU çipi olarak dağıtılır.

Tensor sıralaması

#TensorFlow

Sıralama (Tensor) bölümüne bakın.

Tensör şekli

#TensorFlow

Bir Tensor'un çeşitli boyutlarda içerdiği öğe sayısı. Örneğin, bir [5, 10] Tensor'unun şekli bir boyutta 5, başka bir boyutu 10'dur.

Tensor boyutu

#TensorFlow

Bir Tensor'un içerdiği toplam skaler sayısı. Örneğin, [5, 10] Tensor boyutu 50'dir.

TensorStore

Büyük çok boyutlu dizileri verimli bir şekilde okumak ve yazmak için bir kitaplık.

sonlandırma koşulu

#rl

Pekiştirmeli öğrenmede, bir bölümün ne zaman sona ereceğini belirleyen koşullar (ör. aracının belirli bir duruma ulaşması veya bir durum geçiş sayısı eşiği sayısını aşması). Örneğin, tic-tac-toe'da (noktalar ve çarpılar olarak da bilinir), oyuncu art arda üç boşluğu işaretlediğinde veya tüm boşluklar işaretlendiğinde bölüm sonlandırılır.

test

#df

Karar ağacında, bir durum için başka bir ad kullanılır.

test kaybı

#fundamentals

Bir modelin test kümesine göre kayıp oranını temsil eden bir metrik. Bir model oluştururken genellikle test kaybını en aza indirmeye çalışırsınız. Bunun nedeni, düşük test kaybının düşük eğitim kaybı veya düşük doğrulama kaybı yerine daha güçlü bir kalite sinyali olmasıdır.

Test kaybı ile eğitim kaybı veya doğrulama kaybı arasında büyük bir boşluk olması bazen düzenleme oranını artırmanız gerektiğini gösterir.

test kümesi

Eğitilmiş bir modeli test etmek için ayrılmış veri kümesinin bir alt kümesi.

Geleneksel olarak, veri kümesindeki örnekleri aşağıdaki üç farklı alt alt kümeye bölersiniz:

bir eğitim seti

bir doğrulama grubu

bir test kümesi

Bir veri kümesindeki her örnek, önceki alt kümelerden yalnızca birine ait olmalıdır. Örneğin, tek bir örnek hem eğitim kümesine hem de test kümesine ait olmamalıdır.

Eğitim kümesi ve doğrulama kümesi, modelin eğitilmesiyle yakından ilişkilidir. Test kümesi yalnızca eğitimle dolaylı olarak ilişkilendirildiğinden, test kaybı eğitim kaybı veya doğrulama kaybı'na göre daha az taraflı ve yüksek kalite metriğidir.

metin aralığı

#language

Bir metin dizesinin belirli bir alt bölümüyle ilişkilendirilmiş dizi dizini aralığı. Örneğin, s="Be good now" Python dizesindeki good kelimesi, 3'ten 6'ya kadar olan metni kaplar.

tf.Example

#TensorFlow

Makine öğrenimi modeli eğitimi veya çıkarımı için giriş verilerini açıklamak üzere kullanılan standart bir protokol arabelleği.

tf.keras

#TensorFlow

TensorFlow'a entegre edilmiş bir Keras uygulamasıdır.

eşik (karar ağaçları için)

#df

Eksene hizalı koşulda, bir özelliğin karşılaştırıldığı değer. Örneğin 75, aşağıdaki koşulda eşik değeridir:

grade >= 75

Eşik teriminin bu biçimi, sınıflandırma eşiğinden farklıdır.

zaman serisi analizi

#clustering

Zamansal verileri analiz eden bir makine öğrenimi ve istatistik alt alanı. Sınıflandırma, kümeleme, öngörme ve anormallik algılama gibi birçok makine öğrenimi problemi türünde zaman serisi analizi gerekir. Örneğin, zaman serisi analizini kullanarak geçmiş satış verilerine dayanarak aya göre kışlık montların gelecekteki satışlarını tahmin edebilirsiniz.

zaman adımı

#seq

Yinelenen nöral ağ içindeki bir "unroll" hücresi. Örneğin, aşağıdaki şekilde üç zaman adımı gösterilmektedir (t-1, t ve t+1 alt simgeleriyle etiketlenmiştir):

token

#language

Dil modelinde, modelin eğitildiği ve hakkında tahminde bulunduğu atom birimi. Jeton genellikle aşağıdakilerden biridir:

Örneğin, "kedi gibi köpekler" ifadesi üç kelimeden oluşur: "köpekler", "beğeni" ve "kediler".

bir karakterdir. Örneğin, "bisiklet balığı" ifadesi dokuz karakterden oluşur. (Boş alanın, jetonlardan biri olarak sayıldığını unutmayın.)

alt kelimeler (bu kelimelerde tek bir kelime, tek bir simge veya birden çok simge olabilir). Alt kelime bir kök kelime, bir ön ek veya bir son ekten oluşur. Örneğin, alt kelimeleri jeton olarak kullanan bir dil modeli, "köpekler" kelimesini iki simge olarak ("köpek" kök kelimesi ve çoğul sonek "s") olarak görebilir. Aynı dil modeli, "uzun" tek kelimesini iki alt kelime olarak görüntüleyebilir ("uzun" kök kelimesi ve "er" soneki).

Dil modelleri dışındaki alanlarda jetonlar diğer atom birimi türlerini temsil edebilir. Örneğin, bilgisayar vizyonunda jeton, bir resmin alt kümesi olabilir.

Tower

Kendisi de derin bir sinir ağı olan derin nöral ağ bileşeni. Bazı durumlarda, her kule bağımsız bir veri kaynağından okuma yapar ve bu kuleler, çıktıları son bir katmanda birleştirilene kadar bağımsız kalır. Diğer durumlarda (örneğin, birçok Transformatör'ün kodlayıcı ve kod çözücü yığınında/kulede) kulelerin birbiriyle çapraz bağlantıları vardır.

TPU

#TensorFlow

#GoogleCloud

Tensor İşleme Birimi'nin kısaltması.

TPU çipi

#TensorFlow

#GoogleCloud

Makine öğrenimi iş yükleri için optimize edilmiş, çip üzerinde yüksek bant genişliğinde belleğe sahip programlanabilir bir doğrusal cebir hızlandırıcı. TPU cihazlara birden fazla TPU çipi dağıtılır.

TPU cihazı

#TensorFlow

#GoogleCloud

Birden fazla TPU çipine, yüksek bant genişliğine sahip ağ arayüzüne ve sistem soğutma donanımına sahip bir baskı devre kartı (PCB).

TPU ana sistemi

#TensorFlow

#GoogleCloud

TPU çalışanlarına veri, sonuç, program, performans ve sistem durumu bilgilerini gönderip alan bir ana makine üzerinde çalışan merkezi koordinasyon süreci. TPU ana sistemi, TPU cihazların kurulumunu ve kapatılmasını da yönetir.

TPU düğümü

#TensorFlow

#GoogleCloud

Google Cloud'da belirli bir TPU türüne sahip TPU kaynağıdır. TPU düğümü, VPC Ağınıza bir eş VPC ağından bağlanır. TPU düğümleri, Cloud TPU API'de tanımlanan bir kaynaktır.

TPU Kapsülü

#TensorFlow

#GoogleCloud

Bir Google veri merkezindeki belirli bir TPU cihaz yapılandırması. TPU Kapsülü'ndeki tüm cihazlar, özel bir yüksek hızlı ağ üzerinden birbirine bağlıdır. TPU Kapsül, belirli bir TPU sürümü için mevcut olan en büyük TPU cihaz yapılandırmasıdır.

TPU kaynağı

#TensorFlow

#GoogleCloud

Google Cloud'da oluşturduğunuz, yönettiğiniz veya kullandığınız bir TPU varlığı. Örneğin, TPU düğümleri ve TPU türleri TPU kaynaklarıdır.

TPU dilimi

#TensorFlow

#GoogleCloud

TPU dilimi, TPU Kapsülü'ndeki TPU cihazların kesirli bir kısmıdır. TPU dilimindeki tüm cihazlar, özel bir yüksek hızlı ağ üzerinden birbirine bağlıdır.

TPU türü

#TensorFlow

#GoogleCloud

Belirli bir TPU donanım sürümüne sahip bir veya daha fazla TPU cihazından oluşan bir yapılandırma. Google Cloud'da TPU düğümü oluşturduğunuzda bir TPU türü seçersiniz. Örneğin, v2-8TPU türü, 8 çekirdekli tek bir TPU v2 cihazıdır. v3-2048 TPU türünde 256 ağa bağlı TPU v3 cihaz ve toplam 2.048 çekirdek bulunur. TPU türleri, Cloud TPU API'de tanımlanan bir kaynaktır.

TPU çalışanı

#TensorFlow

#GoogleCloud

Bir ana makinede çalışan ve TPU cihazlarda makine öğrenimi programlarını yürüten bir işlem.

eğitim

#fundamentals

Bir model içeren ideal parametreleri (ağırlıklar ve ön yargılar) belirleme süreci. Eğitim sırasında bir sistem, örnekleri okur ve parametreleri kademeli olarak ayarlar. Eğitimde her örnek birkaç kez veya milyarlarca kez kullanılır.

eğitim kaybı

#fundamentals

Belirli bir eğitim iterasyonu sırasında modelin kaybını temsil eden bir metrik. Örneğin, kayıp işlevinin Ortalama Kare Hata olduğunu varsayalım. 10.iterasyonda eğitim kaybı (Ortalama Kare Hatası) 2,2 ve 100.iterasyonda eğitim kaybı 1,9 olabilir.

Kayıp eğrisi, eğitim kaybını ve iterasyonların sayısını karşılaştırmalı olarak gösterir. Kayıp eğrisi, eğitimle ilgili aşağıdaki ipuçlarını sağlar:

Aşağı doğru eğim, modelin gelişmeye devam ettiğini gösterir.

Yukarı doğru eğim, modelin kötüleştiğini gösterir.

Düz bir eğim, modelin tümleşme sürecine ulaştığı anlamına gelir.

Örneğin, aşağıdaki biraz idealleştirilmiş kayıp eğrisi gösterilmektedir:

İlk iterasyonlarda aşağı doğru dik bir eğim vardır. Bu da modelin hızlı bir şekilde iyileştirileceğini gösterir.

Eğimin eğitimin sonuna doğru kademeli olarak ilerlemesi (ancak yine de aşağı doğru) olması, modelin ilk iterasyonlar sırasındakinden biraz daha yavaş bir hızda ilerlemeye devam edeceği anlamına gelir.

Eğitimin sonuna doğru yakınlaşmaya işaret eden düz bir eğim.

Eğitim kaybı önemli olsa da genelleştirme konusuna da bakın.

eğitim ve sunma arası sapma

#fundamentals

Bir modelin eğitim sırasındaki performansı ile aynı modelin sunum sırasındaki performansı arasındaki fark.

eğitim seti

#fundamentals

Bir modeli eğitmek için kullanılan veri kümesinin alt kümesi.

Geleneksel olarak, veri kümesindeki örnekler aşağıdaki üç farklı alt alt kümeye bölünür:

eğitim seti

bir doğrulama grubu

bir test kümesi

İdeal olarak, veri kümesindeki her bir örnek yalnızca önceki alt kümelerden birine ait olmalıdır. Örneğin, tek bir örnek hem eğitim kümesine hem de doğrulama kümesine ait olmamalıdır.

gidişat

#rl

Pekiştirmeli öğrenme'de, aracı'nın bir durum geçişleri dizisini temsil eden bir tuple dizisidir. Burada her unsur, belirli bir durum geçişi için durum, eylem, ödül ve sonraki duruma karşılık gelir.

öğrenim aktarma

Bir makine öğrenimi görevinden diğerine bilgi aktarma. Örneğin, çoklu görevli öğrenmede tek bir model birden çok görevi çözer. Örneğin, farklı görevler için farklı çıkış düğümlerine sahip derin bir model. Öğrenme aktarımı, daha basit bir görev çözümünden daha karmaşık bir göreve bilgi aktarmayı veya daha fazla verinin olduğu bir görevden, daha az verinin olduğu bir göreve bilgi aktarımını içerebilir.

Çoğu makine öğrenimi sistemi tek bir görevi çözer. Öğrenmeyi aktarma, tek bir programın birden fazla görevi çözebildiği yapay zekaya doğru atılan bir adımdır.

Transformatör

#language

Google'da geliştirilen ve konvolüsyonlara veya yinelenen nöral ağlara bağlı kalmadan bir dizi giriş yerleştirme sırasını çıkış yerleştirmeleri dizisine dönüştürmek amacıyla kendi kendine dikkat mekanizmalarını temel alan bir sinir ağı mimarisi. Transformer, bir kendi kendine dikkat katmanları yığını olarak görüntülenebilir.

Bir Dönüştürücü, aşağıdakilerden herhangi birini içerebilir:

bir kodlayıcı

kod çözücü

hem kodlayıcı hem de kod çözücü

Kodlayıcı, bir yerleştirme dizisini aynı uzunluktaki yeni bir diziye dönüştürür. Kodlayıcıda, her biri iki alt katman içeren N benzer katman bulunur. Bu iki alt katman, giriş yerleştirme dizisinin her bir konumuna uygulanır ve dizinin her bir öğesi yeni bir yerleştirmeye dönüştürülür. İlk kodlayıcı alt katmanı, giriş sırasından gelen bilgileri toplar. İkinci kodlayıcı alt katmanı, toplanan bilgileri bir çıkış yerleştirmeye dönüştürür.

Kod çözücü, bir dizi giriş yerleştirmeyi muhtemelen farklı uzunluktaki bir dizi çıkış yerleştirmesine dönüştürür. Kod çözücü ayrıca, ikisi kodlayıcı alt katmanlarına benzer olan üç alt katmana sahip, özdeş N katman içerir. Üçüncü kod çözücü alt katmanı, kodlayıcının çıkışını alır ve kodlayıcıdan bilgi toplamak için kendi kendine dikkat mekanizmasını uygular.

Transformer: A New Nural Network Architecture for Language Understanding (Dönüştürücü: Dil Anlama için Yeni Bir Nöral Ağ Mimarisi) blog yayını, Transformers hakkında iyi bir giriş sunmaktadır.

çevrimsel değişken

#image

Görüntü sınıflandırma sorunlarında, algoritmanın, görüntü içindeki nesnelerin konumu değiştiğinde bile görüntüleri başarıyla sınıflandırma becerisi. Örneğin, algoritma ister karenin merkezinde ister karenin sol ucunda olsun, bir köpeği yine de tanımlayabilir.

Ayrıca boyut değişkeni ve dönüşümlü değişkenlik konularına da bakın.

trigram

#seq

#language

N=3 olan bir N-gram.

doğru negatif (TN)

#fundamentals

Modelin negatif sınıfı doğru şekilde tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam olmadığı ve bu e-posta iletisinin gerçekten spam olmadığı sonucunu çıkarır.

doğru pozitif (TP)

#fundamentals

Modelin pozitif sınıfı doğru şekilde tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam ve bu e-posta iletisinin gerçekten de spam olduğu çıkarımını yapar.

gerçek pozitif oranı (TPR)

#fundamentals

Recall'ın eş anlamlısı. Yani:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Gerçek pozitif oran, ROC eğrisindeki y eksenidir.

U

farkındalık (hassas bir özellikle)

#fairness

Hassas özelliklerin bulunduğu ancak eğitim verilerine dahil edilmediği bir durumdur. Hassas özellikler genellikle kişinin verilerinin diğer özellikleriyle ilişkilendirildiğinden, hassas bir özelliğin farkında olmadan eğitilen bir modelin söz konusu özellik açısından farklı etkisi olabilir veya diğer adillik kısıtlamalarını ihlal edebilir.

yetersiz

#fundamentals

Model, eğitim verilerinin karmaşıklığını tam olarak yakalayamadığı için tahmin yeteneği zayıf bir model üretme Pek çok sorun, yetersiz uyuma neden olabilir. Örneğin:

Yanlış özelliklerle ilgili eğitim.

Çok az dönemde veya çok düşük öğrenme hızında eğitim.

Eğitimin düzenlenme oranı çok yüksek.

Derin bir nöral ağda çok az sayıda gizli katman sağlanması.

yetersiz örnekleme

Daha dengeli bir eğitim grubu oluşturmak için sınıf dengesiz veri kümesindeki ana sınıftan örnekler kaldırılır.

Örneğin, çoğunluk sınıfının azınlık sınıfına oranının 20:1 olduğu bir veri kümesini düşünün. Sınıftaki bu dengesizliğin üstesinden gelmek için azınlık sınıfı örneklerinin tümünü ancak çoğunluk sınıfı örneklerinin yalnızca onda birini içeren bir eğitim seti oluşturabilirsiniz. Bu durumda, eğitim kümesindeki sınıf oranı 2:1 olur. Düşük örnekleme sayesinde daha dengeli olan bu eğitim seti, daha iyi bir model üretebilir. Alternatif olarak, bu daha dengeli eğitim seti, etkili bir model eğitmek için yeterli sayıda örnek içermeyebilir.

Aşırı örnekleme ile kontrast oluşturun.

tek yönlü

#language

Yalnızca metnin hedef bölümünden önce gelen metni değerlendiren bir sistem. Buna karşın çift yönlü bir sistem, hem metnin hem hedef bölümünü önce gelen hem de takip eden metni değerlendirir. Daha fazla ayrıntı için çift yönlü konusuna bakın.

tek yönlü dil modeli

#language

Olasılıklarını yalnızca hedef jetonlardan önce, sonra görünen jetonlara dayanan bir dil modeli. İki yönlü dil modeli ile kontrast oluşturun.

etiketsiz örnek

#fundamentals

Özellikler'i içeren ancak etiket içermeyen bir örnek. Örneğin, aşağıdaki tabloda bir kurum değerleme modeline ait, her biri üç özellik içeren ancak kurum değeri olmayan üç etiketsiz örnek gösterilmektedir:

Yatak odası sayısı Banyo sayısı Ev yaşı

3 2 15

2 1 72

4 2 34

Gözetimli makine öğreniminde modeller, etiketli örnekler üzerinde eğitilir ve etiketlenmemiş örnekler üzerinde tahminde bulunur.

Yarı gözetimli ve gözetimli olmayan öğrenmede, etiketlenmemiş örnekler eğitim sırasında kullanılır.

Etiketsiz örneği etiketli örnek ile karşılaştırın.

gözetimsiz makine öğrenimi

#clustering

#fundamentals

Bir veri kümesindeki (genellikle etiketsiz bir veri kümesi) kalıpları bulmak amacıyla model eğitmek.

Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örnek grupları halinde kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, şarkıları müziğin çeşitli özelliklerine göre gruplandırabilir. Ortaya çıkan kümeler, diğer makine öğrenimi algoritmalarına (ör. müzik öneri hizmetine) giriş yapmak için kullanılabilir. Kümeleme, işe yarar etiketler olmadığında veya olmadığında yardımcı olabilir. Örneğin, kötüye kullanım karşıtı ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.

Gözetimli makine öğrenimi ile kontrast oluşturun.

Ek notlar için simgeyi tıklayın.

Gözetimsiz makine öğreniminin bir diğer örneği de ana bileşen analizidir (PCA). Örneğin, milyonlarca alışveriş sepetinin içeriğine sahip bir veri kümesine PCA uygulandığında, limon içeren alışveriş sepetlerinin sıklıkla asit giderici ilaçlar içerdiğini ortaya çıkarabilir.

artış modelleme

Bir "terapi"nin "birey" üzerindeki "nedensel etkisini" ("artımlı etki" olarak da bilinir) modelleyen, pazarlamada yaygın olarak kullanılan bir modelleme tekniği. Aşağıda iki örnek sunulmuştur:

Doktorlar, bir hastanın (bireysel) yaşına ve tıbbi geçmişine bağlı olarak tıbbi bir müdahalenin (terapi) ölüm oranındaki düşüşü (nedensel etki) tahmin etmek için artış modellemeden yararlanabilir.

Pazarlamacılar, bir kişi (bireysel) üzerindeki reklam (değerlendirme) nedeniyle satın alma olasılığındaki artışı (nedensel etki) tahmin etmek için artış modellemeyi kullanabilir.

Artış modellemesi sınıflandırma veya regresyondan farklıdır. Artış modellemede bazı etiketler (örneğin, ikili işlemlerdeki etiketlerin yarısı) her zaman eksiktir. Örneğin, bir hasta tedavi alabilir veya almayabilir. Bu nedenle, yalnızca bu iki durumdan birinde iyileşip iyileşmeyeceğini gözlemleyebiliriz (ancak her iki durumda iyileşemez). Artış modelinin temel avantajı, gözlemlenmeyen durum (karşı mümkün) için tahminler oluşturabilmesi ve nedensel etkiyi hesaplamak için bu modeli kullanabilmesidir.

yukarı ağırlıklandırma

Aşağı örneklenen sınıfına, aşağı örnekleme yaptığınız faktöre eşit bir ağırlık uygulayın.

kullanıcı matrisi

#recsystems

Öneri sistemlerinde, kullanıcı tercihleri hakkında gizli sinyalleri tutan matris çarpanlarına ayırarak yerleştirme vektörü kullanılır. Kullanıcı matrisinin her satırı, tek bir kullanıcı için çeşitli gizli sinyallerin göreli gücü hakkında bilgi içerir. Örneğin, bir film öneri sistemi düşünün. Bu sistemde, kullanıcı matrisindeki gizli sinyaller her kullanıcının belirli türlerdeki ilgisini temsil edebilir veya birden fazla faktör arasında karmaşık etkileşimler içeren, yorumlanması daha zor sinyaller olabilir.

Kullanıcı matrisinde, her gizli özellik için bir sütun ve her kullanıcı için bir satır bulunur. Yani kullanıcı matrisi, çarpanlara ayrılan hedef matrisle aynı sayıda satıra sahiptir. Örneğin, 1.000.000 kullanıcı için bir film öneri sistemi göz önüne alındığında, kullanıcı matrisinde 1.000.000 satır olacaktır.

V

validation

#fundamentals

Bir modelin kalitesinin ilk değerlendirmesi. Doğrulama, bir modelin tahminlerinin kalitesini doğrulama grubuyla karşılaştırarak kontrol eder.

Doğrulama grubu eğitim grubundan farklı olduğu için doğrulama, fazla uyum'a karşı koruma sağlamaya yardımcı olur.

Modeli, testin ilk aşaması olarak doğrulamaya göre değerlendirmeyi ve ikinci test aşaması olarak modelin test grubuna göre değerlendirmeyi düşünebilirsiniz.

doğrulama kaybı

#fundamentals

Bir modelin eğitimin belirli bir yinelemesi sırasında doğrulama kümesindeki kaybını temsil eden bir metrik.

Ayrıca bkz. genelleme eğrisi.

doğrulama grubu

#fundamentals

Eğitilmiş bir modele göre ilk değerlendirmeyi gerçekleştiren veri kümesi alt kümesi. Genellikle, eğitilen modeli test grubuna göre değerlendirmeden önce eğitilen modeli doğrulama grubuna göre birkaç kez değerlendirirsiniz.

Geleneksel olarak, veri kümesindeki örnekleri aşağıdaki üç farklı alt alt kümeye bölersiniz:

bir eğitim seti

doğrulama grubu

bir test kümesi

İdeal olarak, veri kümesindeki her bir örnek yalnızca önceki alt kümelerden birine ait olmalıdır. Örneğin, tek bir örnek hem eğitim kümesine hem de doğrulama kümesine ait olmamalıdır.

değer tahmini

Eksik bir değeri kabul edilebilir bir alternatifle değiştirme işlemi. Bir değer eksik olduğunda örneğin tamamını silebilir veya örneği kurtarmak için değer hesaplamasını kullanabilirsiniz.

Örneğin, saat başı kaydedilmesi gereken bir temperature özelliği içeren veri kümesini ele alalım. Ancak sıcaklık ölçümü belirli bir saat boyunca kullanılamıyordu. Veri kümesinin bir bölümünü aşağıda görebilirsiniz:

Zaman damgası Sıcaklık

1680561000 10

1680564600 12

1680568200 eksik

1680571800 20

1680575400 21

1680579000 21

Bir sistem, tahmin algoritmasına bağlı olarak eksik örneği silebilir veya eksik sıcaklığı 12, 16, 18 ya da 20 olarak tahmin edebilir.

kaybolan gradyan problemi

#seq

Bazı derin nöral ağların ilk gizli katmanlarının gradyanlarının şaşırtıcı derecede düz (düşük) olma eğilimi. Renk geçişlerinin giderek azalması, derin sinir ağındaki düğümlerin ağırlıklarında gittikçe daha az değişikliklere yol açar ve bu da öğrenmenin çok az olmasına veya hiç öğrenmemesine yol açar. Kaybolan gradyan sorunundan muzdarip modellerin eğitilmesi zor veya imkansız hale gelir. Uzun Kısa Vadeli Bellek hücreleri bu sorunu ele alır.

Patlayan gradyan problemi ile karşılaştırın.

değişken önemler

#df

Her bir özelliğin model için göreceli önemini gösteren puan grubu.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacını düşünün. Diyelim ki bu karar ağacında üç özellik kullanılıyor: beden, yaş ve stil. Bu üç özellik için değişken önemler kümesi {size=5.8, age=2.5, style=4.7} şeklinde hesaplanırsa boyut, karar ağacı için yaş veya stilden daha önemlidir.

Farklı değişken önem metrikleri mevcuttur. Bu metrikler, makine öğrenimi uzmanlarını modellerin farklı yönleri hakkında bilgilendirebilir.

varyasyon otomatik kodlayıcı (VAE)

#language

Girişlerin değiştirilmiş sürümlerini oluşturmak için giriş ve çıkışlar arasındaki tutarsızlıktan yararlanan bir otomatik kodlayıcı türü. Varyasyonsal otomatik kodlayıcılar, üretken yapay zeka için kullanışlıdır.

VAE'ler, varyasyon çıkarımına dayanır: olasılık modelinin parametrelerini tahmin etmek için kullanılan bir teknik.

vektör

Anlamı farklı matematiksel ve bilimsel alanlarda değişen çok aşırı yüklenmiş bir terim. Makine öğreniminde bir vektörün iki özelliği vardır:

Veri türü: Makine öğrenimindeki vektörlerde genellikle kayan nokta sayıları bulunur.

Öğe sayısı: Vektörün uzunluğu veya boyutudur.

Örneğin, sekiz kayan noktalı sayı içeren bir özellik vektörünü ele alalım. Bu özellik vektörünün uzunluğu veya boyutu sekizdir. Makine öğrenimi vektörlerinin genellikle çok sayıda boyutu olduğunu unutmayın.

Birçok farklı bilgi türünü vektör olarak temsil edebilirsiniz. Örneğin:

Dünya yüzeyindeki herhangi bir konum, 2 boyutlu bir vektör olarak temsil edilebilir. Burada bir boyut enlem, diğeri ise boylamdır.

500 hisse senedinin her birinin mevcut fiyatı 500 boyutlu bir vektör olarak temsil edilebilir.

Sonlu bir sınıf üzerindeki olasılık dağılımı vektör olarak temsil edilebilir. Örneğin, üç çıkış renginden (kırmızı, yeşil veya sarı) birini tahmin eden çok sınıflı bir sınıflandırma sistemi, (0.3, 0.2, 0.5) vektörünü P[red]=0.3, P[green]=0.2, P[yellow]=0.5 anlamına gelecek şekilde verebilir.

Vektörler birleştirilebilir. Bu nedenle, çeşitli farklı medyalar tek bir vektör olarak temsil edilebilir. Bazı modeller doğrudan birçok tek seferlik kodlamanın birleştirilmesiyle çalışır.

TPU'lar gibi özel işlemciler, vektörler üzerinde matematiksel işlemler gerçekleştirmek için optimize edilmiştir.

Vektör, sıralama 1'e ait bir tensor'dur.

W

Wasserstein kaybı

Üretken zararlı ağlarda yaygın olarak kullanılan kayıp işlevlerinden biri, oluşturulan veri ile gerçek verilerin dağılımı arasındaki hazır nakliyecinin mesafesine dayanır.

ağırlık

#fundamentals

Bir modelin başka bir değerle çarptığı değer. Eğitim, bir modelin ideal ağırlıklarını belirleme sürecidir. Çıkarım, tahminde bulunmak için bu öğrenilen ağırlıkları kullanma sürecidir.

Doğrusal modeldeki ağırlıklara ilişkin bir örnek görmek için simgeyi tıklayın.

İki özelliğe sahip bir doğrusal model düşünün. Eğitimin aşağıdaki ağırlıkları (ve önyargıları) belirlediğini varsayalım:

Yanlılık (b) 2,2 değerine sahiptir

Bir özellikle ilişkili ağırlık olarak w₁, 1,5'tir.

Diğer özellikle ilişkili ağırlık (w₂) 0, 4'tür.

Şimdi aşağıdaki özellik değerlerini içeren bir örnek düşünün:

x₁ adlı özelliğin değeri 6'dır.

Diğer özellik olan x₂'nin değeri 10'dur.

Bu doğrusal model, tahmin oluşturmak için aşağıdaki formülü kullanır: y'

$$y' = b + w_1x_1 + w_2x_2$$

Bu durumda tahmin şu şekildedir:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Ağırlık 0 ise ilgili özellik modele katkıda bulunmaz. Örneğin, w₁ 0 ise x₁ değeri alakasızdır.

Ağırlıklı Alternatif En Küçük Kareler (WALS)

#recsystems

Öneri sistemlerinde matrisi çarpanlara ayırma sırasında hedef işlevini en aza indiren bir algoritma. Bu algoritma, eksik örneklerin ağırlığının azaltılmasına olanak tanır. WALS, satır çarpanlarına ayırma ve sütun çarpanlarına ayırma arasında geçiş yaparak orijinal matris ile yeniden oluşturma arasındaki ağırlıklı kare hatasını en aza indirir. Bu optimizasyonların her biri en küçük kareler kullanılarak çözülebilir dışbükey optimizasyon. Ayrıntılar için Öneri Sistemleri kursuna göz atın.

ağırlıklı toplam

#fundamentals

İlgili tüm giriş değerlerinin toplamının, karşılık gelen ağırlıklarıyla çarpımı. Örneğin, ilgili girişlerin şunlardan oluştuğunu varsayalım:

giriş değeri giriş ağırlığı

2 -1,3

-1 0,6

3 0,4

Bu nedenle ağırlıklı toplam şu şekildedir:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Ağırlıklı toplam, bir etkinleştirme işlevinin giriş bağımsız değişkenidir.

geniş model

Genellikle çok sayıda seyrek giriş özelliğine sahip olan doğrusal bir modeldir. Bu model, doğrudan çıkış düğümüne bağlanan çok sayıda girişe sahip özel bir nöral ağ türü olduğundan "geniş" olarak adlandırılır. Geniş modellerde hata ayıklaması ve denetlenmesi derin modellere kıyasla genellikle daha kolaydır. Geniş modeller gizli katmanlar aracılığıyla doğrusal olmayanları ifade edemese de geniş modeller, doğrusal olmayanlıkları farklı şekillerde modellemek için özellik geçişi ve gruplandırma gibi dönüşümleri kullanabilir.

Derin model ile kontrast oluşturun.

genişlik

Bir nöral ağın belirli bir katmanındaki nöron sayısı.

kalabalığın bilgeliği

#df

Büyük bir grubun ("kalabalık") fikir veya tahminlerinin ortalamasını almanın genellikle şaşırtıcı iyi sonuçlar ürettiği fikri. Örneğin, kullanıcıların büyük bir kavanoza yerleştirilen jelibonların sayısını tahmin ettiği bir oyun düşünün. Bağımsız tahminlerin çoğu yanlış olsa da tüm tahminlerin ortalamasının, şaşırtıcı bir şekilde kavanozdaki gerçek jöle çekirdeği sayısına yakın olduğu görülmüştür.

Ensembles, kalabalığın bilgeliğinin bir yazılım benzetimidir. Tek tek modeller son derece yanlış tahminlerde bulunsa bile birçok modelin tahminlerinin ortalaması genellikle şaşırtıcı derecede iyi tahminler oluşturur. Örneğin, tek bir karar ağacı kötü tahminlerde bulunsa da karar ormanı genellikle çok iyi tahminlerde bulunur.

kelime yerleştirme

#language

Bir yerleştirme vektörü içinde yer alan bir kelime kümesindeki her bir kelimenin temsil edilmesi; yani her kelimenin 0,0 ile 1,0 arasındaki kayan nokta değerlerinin vektörü olarak temsil edilmesi anlamına gelir. Anlamı benzer olan kelimelerin, farklı anlamları olan kelimelere kıyasla daha benzer temsilleri vardır. Örneğin, havuç, kereviz ve salatalık, görece benzer temsillere sahiptir. Bu da uçak, güneş gözlüğü ve diş macunu temsillerinden çok farklı olur.

X

XLA (Hızlandırılmış Doğrusal Cebir)

GPU'lar, CPU'lar ve makine öğrenimi hızlandırıcılar için açık kaynak bir makine öğrenimi derleyici.

XLA derleyicisi; PyTorch, TensorFlow ve JAX gibi popüler makine öğrenimi çerçevelerinden model alıp bunları GPU, CPU ve ML hızlandırıcı gibi farklı donanım platformlarında yüksek performanslı yürütmeye uygun şekilde optimize eder.

Z

sıfır atışla öğrenme

Modelin, özel olarak eğitilmemiş bir görev için tahmin çıkardığı bir makine öğrenimi eğitimi türüdür. Başka bir deyişle, modele göreve özgü eğitim örnekleri verilmez ama bu görev için çıkarım yapması istenir.

sıfır atış isteme

#language

#üretken yapay zeka

Büyük dil modelinin nasıl yanıt vermesini istediğinize dair örnek sunmayan bir istem. Örneğin:

Tek bir istemin bölümleri Notlar

Belirtilen ülkenin resmi para birimi nedir? LLM'nin yanıtlamasını istediğiniz soru.

Hindistan: Asıl sorgu.

Büyük dil modeli, aşağıdakilerden herhangi biriyle yanıt verebilir:

Rupi

INR

₹

Hint rupisi

Rupi

Hint rupisi

Tüm yanıtlar doğru olsa da tercih ettiğiniz bir format olabilir.

Sıfır çekim istemini aşağıdaki terimlerle karşılaştırın:

tek seferlik istem

birkaç atış istemi

Z puanı normalleştirmesi

#fundamentals

Ham özellik değerini, özelliğin ortalamasından standart sapmaların sayısını temsil eden bir kayan nokta değeriyle değiştiren ölçeklendirme tekniği. Örneğin, ortalaması 800 ve standart sapması 100 olan bir özelliği düşünün. Aşağıdaki tabloda Z puanı normalleştirmesinin ham değeri Z puanıyla nasıl eşleştirdiği gösterilmektedir:

İşlenmemiş değer Z-puanı

800 0

950 +1,5

575 -2,25

Daha sonra makine öğrenimi modeli, ham değerler yerine bu özellik için Z puanlarıyla eğitilir.

	Tümör (tahmini)	Tümör olmayan (tahmin edilen)
Tümör (kesin referans)	18 (TP)	1 (yanlış negatif)
Tümör Olmayan (kesin referans)	6 (FP)	452 (TN)

	Setosa (tahmini)	Versicolor (tahmini)	Virginica (tahmini)
Setosa (kesin referans)	88	12	0
Versicolor (kesin referans)	6	141	7
Virginica (kesin referans)	2	27	109

	Uygun	Uygun Değil
Kabul edildi	45	3
Reddedildi	45	7
Toplam	90	10
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50 Uygun olmayan öğrencilerin yüzdesi: 7/10 =%70 Kabul edilen Lilliputya öğrencilerinin toplam yüzdesi: (45+3)/100 = %48

Özellikler			Şirket
Sıcaklık	Nem	Basınç	Test puanı
15	47	998	İyi
19	34	1020	Mükemmel
18	92	1012	Yetersiz

Tek bir istemin bölümleri	Notlar
`Belirtilen ülkenin resmi para birimi nedir?`	LLM'nin yanıtlamasını istediğiniz soru.
`Fransa: EUR`	Bir örnek.
`Birleşik Krallık: GBP`	Başka bir örnek.
`Hindistan:`	Asıl sorgu.

	Kazablanka	Philadelphia'nın Hikayesi	Black Panther	Wonder Woman	Ucuz Kurgu
1. Kullanıcı	5,0	3,0	0,0	2,0	0,0
2. Kullanıcı	4.0	0,0	0,0	1.0	5,0
3. Kullanıcı	3,0	1.0	4.0	5,0	0,0

N	Bu N-gram türü için adlar	Örnekler
2	bigram veya 2 gram	gidip gitme, öğle yemeği içme, akşam yemeği yeme
3	trigram veya 3 gram	çok fazla yeme, üç görme engelli fare ve zil zıplama
4	4 gram	parkta yürüyün, rüzgârda toz kıstırın, çocuk mercimek yediyse

country	Vektör
"Danimarka"	1	0	0	0	0
"İsveç"	0	1	0	0	0
"Norveç"	0	0	1	0	0
"Finlandiya"	0	0	0	1	0
"İzlanda"	0	0	0	0	1

İstem kategorisi	Örnek	Notlar
Soru	`Güvercin ne kadar hızlı uçabilir?`
Talimat	`Arbitraj hakkında komik bir şiir yazın.`	Büyük dil modelinden bir işlem yapmasını isteyen bir istem.
Örnek	`Markdown kodunu HTML'ye çevirin. Örneğin: Markdown: * liste öğesi HTML: <ul> <li>liste öğesi</li> </ul>`	Bu örnek istemdeki ilk cümle bir talimattır. İstemin geri kalanı örnek olarak verilmiştir.
Rol	`Fizik alanında doktora yapmak için gradyan inişin makine öğrenimi eğitiminde neden kullanıldığını açıklayın.`	Cümlenin ilk bölümü bir talimattır. "Fizik alanında doktora yapmak" ifadesi ise rol kısmıdır.
Modelin tamamlanması için kısmi giriş	`Birleşik Krallık Başbakanı'nın yaşadığı yer`	Kısmi giriş istemi aniden sona erebilir (bu örnekte olduğu gibi) veya bir alt çizgiyle bitebilir.

Zaman damgası	Sıcaklık
1680561000	10
1680564600	12
1680568200	eksik
1680571800	20
1680575400	21
1680579000	21