Nhiệm vụ MediaPipe Pose Tager cho phép bạn phát hiện các địa danh của cơ thể người trong một hình ảnh hoặc video. Bạn có thể sử dụng nhiệm vụ này để xác định vị trí chính của cơ thể, phân tích tư thế, và phân loại các chuyển động. Nhiệm vụ này sử dụng các mô hình học máy (ML) có thể dùng với từng hình ảnh hoặc video. Tác vụ sẽ xuất ra các điểm mốc tạo dáng cơ thể trong hình ảnh và toạ độ trong các toạ độ thế giới 3 chiều.
Bắt đầu
Bắt đầu sử dụng nhiệm vụ này bằng cách làm theo hướng dẫn triển khai cho nền tảng mục tiêu. Những hướng dẫn dành riêng cho nền tảng này sẽ hướng dẫn bạn từng bước việc triển khai tác vụ này, bao gồm mô hình được đề xuất và ví dụ về mã với các lựa chọn cấu hình được đề xuất:
- Android – Ví dụ về mã – Hướng dẫn
- Python – Ví dụ về mã – Hướng dẫn
- Web – Ví dụ về mã – Hướng dẫn
Thông tin chi tiết về việc cần làm
Phần này mô tả các chức năng, dữ liệu đầu vào, đầu ra và cấu hình các tuỳ chọn của nhiệm vụ này.
Tính năng
- Xử lý hình ảnh đầu vào – Quá trình xử lý bao gồm xoay, đổi kích thước, chuẩn hoá và chuyển đổi hệ màu.
- Ngưỡng điểm số – Lọc kết quả dựa trên điểm số dự đoán.
Dữ liệu đầu vào của việc cần làm | Kết quả đầu ra của việc cần làm |
---|---|
Điểm mốc Pose chấp nhận dữ liệu đầu vào là một trong các loại dữ liệu sau:
|
Trình xác định tư thế sẽ cho ra các kết quả sau:
|
Tuỳ chọn cấu hình
Tác vụ này có các lựa chọn cấu hình sau:
Tên lựa chọn | Mô tả | Khoảng giá trị | Giá trị mặc định |
---|---|---|---|
running_mode |
Thiết lập chế độ chạy cho tác vụ. Có ba
chế độ: HÌNH ẢNH: Chế độ cho đầu vào một hình ảnh. VIDEO: Chế độ cho khung đã giải mã của video. LIVE_STREAM: Chế độ phát trực tiếp đầu vào chẳng hạn như từ máy ảnh. Trong chế độ này, resultsListener phải để thiết lập trình nghe để nhận kết quả một cách không đồng bộ. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
num_poses |
Số lượng tư thế tối đa có thể được phát hiện bởi Điểm mốc tư thế. | Integer > 0 |
1 |
min_pose_detection_confidence |
Điểm tin cậy tối thiểu để phát hiện tư thế được coi là thành công. | Float [0.0,1.0] |
0.5 |
min_pose_presence_confidence |
Điểm số tin cậy tối thiểu khi xuất hiện tư thế điểm số trong tính năng phát hiện điểm mốc tư thế. | Float [0.0,1.0] |
0.5 |
min_tracking_confidence |
Điểm tin cậy tối thiểu cho hoạt động theo dõi tư thế để được coi là thành công. | Float [0.0,1.0] |
0.5 |
output_segmentation_masks |
Liệu Trình xác định tư thế có xuất ra mặt nạ phân đoạn cho tư thế. | Boolean |
False |
result_callback |
Thiết lập trình nghe kết quả để nhận kết quả của trình tạo mốc
không đồng bộ khi Điểm mốc tư thế đang ở chế độ phát trực tiếp.
Chỉ sử dụng được khi bạn đặt chế độ chạy thành LIVE_STREAM |
ResultListener |
N/A |
Mô hình
Điểm mốc tư thế sử dụng một loạt mô hình để dự đoán các địa danh tạo dáng. Đầu tiên phát hiện sự hiện diện của cơ thể người trong một khung hình ảnh, và mô hình xác định các mốc trên thân.
Các mô hình sau đây được đóng gói cùng nhau thành một gói mô hình có thể tải xuống:
- Mô hình phát hiện ống nước: phát hiện sự hiện diện của cơ thể bằng một số tư thế quan trọng mốc.
- Mô hình tạo điểm mốc: thêm bản đồ ánh xạ đầy đủ cho tư thế. Mô hình cho ra ước tính 33 điểm mốc tư thế 3 chiều.
Gói này sử dụng mạng nơron tích chập tương tự như MobileNetV2 và được tối ưu hoá cho các ứng dụng thể dục trên thiết bị theo thời gian thực. Biến thể này của Cách sử dụng mô hình BlazePose GHUM, quy trình lập mô hình 3D để ước tính tư thế 3D đầy đủ của cơ thể riêng lẻ trong hình ảnh hoặc video.
Gói mô hình | Hình dạng đầu vào | Loại dữ liệu | Thẻ mô hình | Phiên bản |
---|---|---|---|---|
Dấu mốc tạo dáng (thu gọn) | Trình phát hiện tư thế: 224 x 224 x 3 Điểm mốc tư thế: 256 x 256 x 3 |
số thực dấu phẩy động 16 | thông tin | Mới nhất |
Công cụ định vị tư thế (Đầy đủ) | Trình phát hiện tư thế: 224 x 224 x 3 Điểm mốc tư thế: 256 x 256 x 3 |
số thực dấu phẩy động 16 | thông tin | Mới nhất |
Dấu ấn tư thế (Nặng) | Trình phát hiện tư thế: 224 x 224 x 3 Điểm mốc tư thế: 256 x 256 x 3 |
số thực dấu phẩy động 16 | thông tin | Mới nhất |
Mô hình tạo điểm mốc tư thế
Mô hình tạo điểm mốc theo dõi 33 vị trí mốc trên cơ thể, đại diện cho vị trí gần đúng của các bộ phận cơ thể sau đây:
Dữ liệu đầu ra của mô hình chứa cả toạ độ chuẩn hoá (Landmarks
) và thế giới
toạ độ (WorldLandmarks
) cho từng mốc.