อิมเมจเน็ต2012

  • คำอธิบาย :

ILSVRC 2012 หรือที่รู้จักกันทั่วไปในชื่อ 'ImageNet' เป็นชุดข้อมูลภาพที่จัดระเบียบตามลำดับชั้นของ WordNet แนวคิดที่มีความหมายแต่ละแนวคิดใน WordNet ซึ่งอาจอธิบายด้วยคำหรือวลีหลายคำ เรียกว่า "ชุดคำพ้องความหมาย" หรือ "ชุดคำพ้องความหมาย" WordNet มี synset มากกว่า 100,000 รายการ ส่วนใหญ่เป็นคำนาม (80,000+) ใน ImageNet เรามุ่งมั่นที่จะจัดเตรียมรูปภาพโดยเฉลี่ย 1,000 ภาพเพื่อแสดงแต่ละชุดการซิงค์ รูปภาพของแต่ละแนวคิดได้รับการควบคุมคุณภาพและมีคำอธิบายประกอบโดยมนุษย์ เมื่อสร้างเสร็จแล้ว เราหวังว่า ImageNet จะนำเสนอรูปภาพที่จัดเรียงอย่างหมดจดนับสิบล้านสำหรับแนวคิดส่วนใหญ่ในลำดับชั้นของ WordNet

การแยกทดสอบมีรูปภาพ 100,000 ภาพ แต่ไม่มีป้ายกำกับ เนื่องจากไม่มีการเผยแพร่ป้ายกำกับต่อสาธารณะ เราให้การสนับสนุนสำหรับการแยกการทดสอบตั้งแต่ปี 2012 ด้วยแพตช์รองที่เผยแพร่เมื่อวันที่ 10 ตุลาคม 2019 หากต้องการดาวน์โหลดข้อมูลนี้ด้วยตนเอง ผู้ใช้จะต้องดำเนินการต่อไปนี้:

  1. ดาวน์โหลดการแยกการทดสอบปี 2012 ที่นี่
  2. ดาวน์โหลดแพตช์วันที่ 10 ตุลาคม 2019 มีลิงก์ Google Drive ไปยังแพตช์ที่ให้ไว้ในหน้าเดียวกัน
  3. รวม tar-ball ทั้งสองเข้าด้วยกัน โดยเขียนทับรูปภาพใดๆ ในไฟล์เก็บถาวรดั้งเดิมด้วยรูปภาพจากแพตช์ด้วยตนเอง ตามคำแนะนำใน image-net.org ขั้นตอนนี้จะเขียนทับรูปภาพเพียงไม่กี่ภาพ

tar-ball ที่ได้นั้นอาจถูกประมวลผลโดย TFDS

ในการประเมินความแม่นยำของแบบจำลองบนการแยกการทดสอบ ImageNet เราจะต้องทำการอนุมานกับรูปภาพทั้งหมดในการแยก จากนั้นส่งออกผลลัพธ์เหล่านั้นไปยังไฟล์ข้อความที่ต้องอัปโหลดไปยังเซิร์ฟเวอร์การประเมินผล ImageNet ผู้ดูแลเซิร์ฟเวอร์ประเมินผล ImageNet อนุญาตให้ผู้ใช้รายเดียวส่งการส่งได้สูงสุด 2 รายการต่อสัปดาห์ เพื่อป้องกันการส่งมากเกินไป

หากต้องการประเมินความแม่นยำของการแยกทดสอบ จะต้องสร้างบัญชีที่ image-net.org ก่อน บัญชีนี้จะต้องได้รับการอนุมัติจากผู้ดูแลไซต์ หลังจากสร้างบัญชีแล้ว คุณสามารถส่งผลการทดสอบไปยังเซิร์ฟเวอร์ทดสอบได้ที่ https://image-net.org/challenges/LSVRC/eval_server.php การส่งประกอบด้วยไฟล์ข้อความ ASCII หลายไฟล์ที่สอดคล้องกับงานต่างๆ งานที่สนใจคือ "การส่งการจัดประเภท (ข้อผิดพลาด cls 5 อันดับแรก)" ตัวอย่างของไฟล์ข้อความที่ส่งออกมีลักษณะดังนี้:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

รูปแบบการส่งออกได้รับการอธิบายอย่างครบถ้วนใน "readme.txt" ภายในชุดพัฒนาปี 2013 ซึ่งมีให้ที่นี่: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz โปรดดูหัวข้อ "3.3 CLS-LOC รูปแบบการส่งผลงาน" โดยสรุป รูปแบบของไฟล์ข้อความคือ 100,000 บรรทัดซึ่งสอดคล้องกับแต่ละภาพในการทดสอบแยก จำนวนเต็มแต่ละบรรทัดสอดคล้องกับการทำนาย 5 อันดับแรกสำหรับภาพทดสอบแต่ละภาพตามลำดับ จำนวนเต็มจะถูกจัดทำดัชนี 1 ซึ่งสอดคล้องกับหมายเลขบรรทัดในไฟล์ป้ายกำกับที่เกี่ยวข้อง ดูที่ label.txt

  • เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส

  • หน้าแรก : https://image-net.org/

  • ซอร์สโค้ด : tfds.datasets.imagenet2012.Builder

  • รุ่น :

    • 2.0.0 : แก้ไขป้ายกำกับการตรวจสอบความถูกต้อง
    • 2.0.1 : แก้ไขการเข้ารหัส ไม่มีการเปลี่ยนแปลงจากมุมมองของผู้ใช้
    • 3.0.0 : แก้ไขการปรับสีของภาพ ~12 ภาพ (CMYK -> RGB) แก้ไขรูปแบบเพื่อความสอดคล้อง (แปลงรูปภาพ PNG เดียวเป็น Jpeg) รุ่นที่เร็วกว่าอ่านโดยตรงจากไฟล์เก็บถาวร

    • 4.0.0 : (ไม่ได้เผยแพร่)

    • 5.0.0 : API แยกใหม่ ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (ค่าเริ่มต้น): เพิ่มการแยกการทดสอบ

  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 155.84 GiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้ต้องการให้คุณดาวน์โหลดข้อมูลต้นฉบับด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir ควรมีสองไฟล์: ILSVRC2012_img_train.tar และ ILSVRC2012_img_val.tar คุณต้องลงทะเบียนใน https://image-net.org/download-images เพื่อรับลิงก์สำหรับดาวน์โหลดชุดข้อมูล

  • แคชอัตโนมัติ ( เอกสาร ): No

  • แยก :

แยก ตัวอย่าง
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
ชื่อไฟล์ ข้อความ เชือก
ภาพ ภาพ (ไม่มี ไม่มี 3) uint8
ฉลาก ClassLabel int64

การแสดงภาพ

  • การอ้างอิง :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}