RU2721180C1 - Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it - Google Patents
Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it Download PDFInfo
- Publication number
- RU2721180C1 RU2721180C1 RU2019139078A RU2019139078A RU2721180C1 RU 2721180 C1 RU2721180 C1 RU 2721180C1 RU 2019139078 A RU2019139078 A RU 2019139078A RU 2019139078 A RU2019139078 A RU 2019139078A RU 2721180 C1 RU2721180 C1 RU 2721180C1
- Authority
- RU
- Russia
- Prior art keywords
- speech signal
- sequence
- visemes
- phonemes
- animation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 51
- 230000033001 locomotion Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 23
- 230000000306 recurrent effect Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 238000012986 modification Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000006403 short-term memory Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
Область техники, к которой относится изобретенияFIELD OF THE INVENTION
[0001] Настоящее изобретение относится, в общем, к области компьютерной графики и, в частности, к способу генерации анимационной модели головы по речевому сигналу и электронному вычислительному устройству, реализующему упомянутый способ.[0001] The present invention relates, in General, to the field of computer graphics and, in particular, to a method for generating an animated model of the head from a speech signal and an electronic computing device that implements the above method.
Описание предшествующего уровня техникиDescription of the Related Art
[0002] В настоящее время дополненную и виртуальную реальность все более часто используют в современных устройствах для получения эффекта присутствия путем анимации различных персонажей. Например, есть потребность в решении для генерации анимационной модели головы по речевому сигналу, обеспечивающем выполнение в реальном времени с хорошим качеством и малой задержкой между приемом речевого сигнала и движениями модели головы, а также уменьшение потребления вычислительных ресурсов, например, для создания персонализированных трехмерных (3D) моделей голов и использования их во время телефонных звонков или в виртуальных чатах, отображения головы при дублировании речи на другом языке. [0002] Currently, augmented and virtual reality is increasingly used in modern devices to obtain the effect of presence by animating various characters. For example, there is a need for a solution for generating an animated head model using a speech signal, which provides real-time performance with good quality and low delay between receiving a speech signal and movements of the head model, as well as reducing the consumption of computing resources, for example, to create personalized three-dimensional (3D ) models of heads and their use during phone calls or in virtual chats, displaying the head when duplicating speech in another language.
[0003] В предшествующем уровне техники известны решения, которые направлены на анимацию головы, например, такие как нижеописанные решения.[0003] In the prior art, solutions are known which are aimed at animating the head, for example, such as the solutions described below.
[0004] Патент США US 10169905 B2, выданный 01.01.2019 под названием «SYSTEMS AND METHODS FOR ANIMATING MODELS FROM AUDIO DATA», раскрывает систему и способы компьютерной анимации 3D моделей голов, сформированных из изображений лиц. Захваченное двумерное (2D) изображение, которое включает в себя изображение лица, может быть получено и использовано для формирования статической 3D модели головы. Средство анимации может быть приспособлено для статической 3D модели, чтобы генерировать готовую к анимации 3D генеративную модель. Наборы средств анимации могут быть параметрами, каждый из которых сопоставлен с конкретными звуками. Эти сопоставления могут использоваться для генерации списков воспроизведения наборов параметров средства анимации на основе принятого аудиоконтента. Эти сопоставления используются для обучения сети для сопоставления аудиоконтента с параметрами средства анимации. Техническое решение, раскрытое в данном патенте США, имеет следующие недостатки. Для обучения сети используются обучающие данные, содержащие глубину изображения и модель лица, которые не всегда возможно получить из общедоступных источников, таких как, например, видеосигнал, полученный видеокамерой, или видеосигнал, извлеченный из Интернета. Получение и использование глубины изображения и модели лица приводит к увеличению вычислительной нагрузки.[0004] US patent US 10169905 B2, issued 01/01/2019 under the name "SYSTEMS AND METHODS FOR ANIMATING MODELS FROM AUDIO DATA", discloses a system and methods for computer animation of 3D models of heads formed from images of faces. A captured two-dimensional (2D) image, which includes a face image, can be obtained and used to form a static 3D model of the head. The animation tool can be adapted for a static 3D model to generate a 3D-ready generative model for animation. Animation toolkits can be parameters, each of which is mapped to specific sounds. These mappings can be used to generate playlists of sets of animation tool parameters based on the received audio content. These mappings are used to train the network to map audio content to animation tool parameters. The technical solution disclosed in this US patent has the following disadvantages. To train the network, training data is used that contains the image depth and face model, which is not always possible to obtain from public sources, such as, for example, a video signal received by a video camera or a video signal extracted from the Internet. Obtaining and using the depth of the image and model of the face leads to an increase in computational load.
[0005] В публикации «Audio–driven animator–centric speech animation», VisemeNet, Zhou и др. 2018г. раскрыта модель, которая обучалась на основе созданных вручную анимационных кривых, построенных для некоторого общедоступного набора данных с четырехмерным (4D) сканированием профессиональным аниматором. В этой модели используется многозадачная подсеть для предсказания перемещения опорных точек лица (лендмарок) и фонем из аудиосигнала. Техническое решение, раскрытое в данной публикации, имеет недостатки, которые заключаются в том, что анимация, выполняемая этой моделью, зависит от предпочтений аниматора и имеет большую задержку.[0005] In the publication “Audio-driven animator – centric speech animation”, VisemeNet, Zhou et al. 2018 A model is disclosed that was trained on the basis of manually created animation curves constructed for a public dataset with four-dimensional (4D) scanning by a professional animator. This model uses a multi-tasking subnet to predict the movement of reference points of the face (landmarks) and phonemes from the audio signal. The technical solution disclosed in this publication has drawbacks in that the animation performed by this model depends on the preferences of the animator and has a large delay.
[0006] В публикации «A Deep Learning Approach for Generalized Speech Animation», Taylor и др. 2017г. раскрыто средство предсказания с функцией скользящего окна для анимации речи. Средство предсказания обучают на фонемах и коэффициентах, полученных путем обработки лендмарок методом главных компонент (PCA). Техническое решение, раскрытое в данной публикации, имеет недостатки, которые заключаются в том, что анимация, выполняемая этим средством предсказания, имеет большую задержку и обучение этого средства предсказания нужно выполнять для каждого персонажа отдельно. [0006] In the publication "A Deep Learning Approach for Generalized Speech Animation", Taylor et al. 2017. a prediction tool with a sliding window function for animating speech is disclosed. The prediction tool is trained on phonemes and coefficients obtained by processing the landmarks by the method of principal components (PCA). The technical solution disclosed in this publication has drawbacks in that the animation performed by this means of prediction has a large delay and the training of this means of prediction must be performed for each character separately.
[0007] В публикации «Audio–Driven Facial Animation by Joint End–to–End Learning of Pose and Emotion», Nvidia, Karras и др., 2017г. раскрыта модель для анимации лица по речевому сигналу. Эта модель была обучена на основе данных движения, полученных с помощью очень качественного и затратного 4D сканирования, для речи одного человека. В модели используются коэффициенты, вычисленные путем обработки методом PCA обучающего набора данных, полученного сканированием. Функцией потерь во время обучения является только ошибка коэффициентов PCA. Техническое решение, раскрытое в данной публикации, имеет следующие недостатки. Набор данных для обучения получают слишком затратным способом. Возможны проблемы с обобщением данных для генерации разных лиц, поскольку обучение необходимо выполнять для каждого человека отдельно. В данном техническом решении невозможно использовать более простой способ обработки визем по 3D данным, например, систему кодирования лицевых движений (FACS). [0007] In the publication “Audio – Driven Facial Animation by Joint End – to – End Learning of Pose and Emotion”, Nvidia, Karras et al., 2017. A model for animating a face by a speech signal is disclosed. This model was trained on the basis of motion data obtained using a very high-quality and costly 4D scan for one person’s speech. The model uses coefficients calculated by PCA processing of the training data set obtained by scanning. The learning loss function is only a PCA coefficient error. The technical solution disclosed in this publication has the following disadvantages. The data set for training is obtained in a too costly way. There may be problems with the synthesis of data for the generation of different people, since the training must be performed for each person separately. In this technical solution, it is impossible to use a simpler method of processing visas using 3D data, for example, a facial movement coding system (FACS).
[0008] В публикации «Synthesizing Obama: Learning Lip Sync from Audio», Washington university, S. SUWAJANAKORN и др., 2017г. раскрыто техническое решение, в котором обучение выполнено только на 3D–видео Барака Обамы, чтобы обеспечить 2D лендмарки лица на основе входного речевого сигнала Обамы. Для построения видеовыхода на основе лендмарок используются не методы на основе максимального правдоподобия (ML). Техническое решение, раскрытое в данной публикации, имеет следующие недостатки. Данное техническое решение может генерировать только 2D видео с тем человеком, на котором производилось обучение модели, в данном случае – Обамой. Данное техническое решение не поддерживает анимацию любых виртуальных персонажей.[0008] In the publication “Synthesizing Obama: Learning Lip Sync from Audio,” Washington University, S. SUWAJANAKORN et al., 2017. A technical solution is disclosed in which the training was performed only on 3D video of Barack Obama to provide 2D face markers based on Obama's input speech signal. To construct a video output based on landmarks, not methods based on maximum likelihood (ML) are used. The technical solution disclosed in this publication has the following disadvantages. This technical solution can only generate 2D video with the person who trained the model, in this case, Obama. This technical solution does not support animation of any virtual characters.
[0009] В целом, существующие технические решения для анимации головы имеют следующие недостатки:[0009] In general, existing technical solutions for animating the head have the following disadvantages:
– получение данных для обучения, как правило, требует высоких вычислительных затрат или большого количества труднодоступных данных;- obtaining data for training, as a rule, requires high computational costs or a large amount of hard-to-reach data;
– способы, основанные на двухмерных лендмарках в качестве описания движений лица, обычно дают очень плоские результаты анимации из–за недостатка трехмерной информации;- methods based on two-dimensional landmarks as a description of facial movements, usually give very flat animation results due to a lack of three-dimensional information;
– получение анимации виртуального персонажа с высоким качеством изображения на основе движений человеческого лица требует высоких вычислительных затрат из–за разницы в форме лица;- receiving an animation of a virtual character with high image quality based on the movements of a human face requires high computational costs due to the difference in the shape of the face;
– трудно обобщить данные для анимации на голос любого пользователя;- It is difficult to generalize data for animation to the voice of any user;
– модель для анимации с высоким качеством изображения имеет большую задержку.- The model for animation with high image quality has a large delay.
[0010] Настоящее изобретение создано для устранения, по меньшей мере, одного из вышеописанных недостатков и для обеспечения, по меньшей мере, одного из нижеописанных преимуществ.[0010] The present invention is made to eliminate at least one of the above disadvantages and to provide at least one of the advantages described below.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
[0011] Целью настоящего изобретения является обеспечение способа генерации анимационной модели головы по речевому сигналу и электронного вычислительного устройства, реализующего упомянутый способ, способных обеспечить анимацию головы по речевому сигналу в реальном времени с низкой задержкой и высоким качеством изображения. Такое преимущество достигается за счет того, что обученное средство искусственного интеллекта выдает поток фонем и поток визем, соответствующих фонемам в потоке фонем, путем обработки признаков речевого сигнала и определяет анимационные кривые для визем в полученном потоке визем на основе соответствующих им фонем. Затем поток фонем и поток визем объединяют путем наложения полученного потока фонем и полученного потока визем друг на друга с учетом определенных анимационных кривых и формируют анимацию модели головы путем анимации визем в объединенном потоке фонем и визем с использованием определенных анимационных кривых.[0011] An object of the present invention is to provide a method for generating an animated head model from a speech signal and an electronic computing device that implements the method, capable of real-time animation of the head from a speech signal with low delay and high image quality. This advantage is achieved due to the fact that the trained artificial intelligence tool generates a phoneme stream and a viseme stream corresponding to the phonemes in the phoneme stream by processing the characteristics of the speech signal and determines the animation curves for the visemes in the received viseme stream based on the corresponding phonemes. Then, the phoneme stream and the viseme stream are combined by superimposing the received phoneme stream and the received viseme stream on top of each other taking into account certain animation curves and form an animation of the head model by animating the visemes in the combined phoneme and viseme stream using certain animation curves.
[0012] Кроме того, настоящее изобретение позволяет дополнительно получить, по меньшей мере, одно из следующих преимуществ:[0012] In addition, the present invention further provides at least one of the following advantages:
– использование широко доступных данных для обучения;- the use of widely available data for training;
– генерация анимационной модели головы по голосу любого персонажа;- Generation of an animated model of the head by the voice of any character;
– генерация анимационной модели головы для любого персонажа.- Generation of an animated head model for any character.
[0013] Один аспект настоящего изобретения обеспечивает способ генерации анимационной модели головы по речевому сигналу, при этом упомянутый способ выполняется одним или более процессорами и содержит этапы, на которых: принимают речевой сигнал; преобразуют речевой сигнал в набор признаков речевого сигнала; извлекают признаки речевого сигнала из набора признаков речевого сигнала; получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, путем обработки признаков речевого сигнала обученным средством искусственного интеллекта; вычисляют обученным средством искусственного интеллекта анимационные кривые для визем в полученной последовательности визем на основе соответствующих им фонем; объединяют полученную последовательность фонем и полученную последовательность визем путем наложения полученной последовательности фонем и полученной последовательности визем друг на друга с учетом вычисленных анимационных кривых; и формируют анимацию модели головы путем анимации визем в объединенной последовательности фонем и визем с использованием вычисленных анимационных кривых.[0013] One aspect of the present invention provides a method for generating an animated head model from a speech signal, wherein said method is performed by one or more processors and comprises the steps of: receiving a speech signal; converting the speech signal into a set of features of the speech signal; extracting features of the speech signal from the feature set of the speech signal; receive a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes by processing the features of a speech signal with a trained artificial intelligence tool; animated curves for visemes in the obtained sequence of visemes are calculated by the trained artificial intelligence tool based on the corresponding phonemes; combine the obtained sequence of phonemes and the obtained sequence of visemes by superposing the obtained sequence of phonemes and the obtained sequence of visemes on each other taking into account the calculated animation curves; and form an animation of the head model by animating the visemes in a combined sequence of phonemes and visemes using the calculated animation curves.
[0014] В дополнительном аспекте обучение средства искусственного интеллекта содержит этапы, на которых: принимают набор обучающих данных, содержащий речевой сигнал, субтитры для речевого сигнала и видеосигнал, соответствующий речевому сигналу; выявляют последовательность фонем из субтитров для речевого сигнала; преобразуют речевой сигнал в набор признаков речевого сигнала; извлекают признаки речевого сигнала из набора признаков речевого сигнала; получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, на основании признаков речевого сигнала; вычисляют функцию формирования последовательности фонем путем сравнения последовательности фонем, выявленной из субтитров для речевого сигнала, и последовательности фонем, полученной на основании признаков речевого сигнала; вычисляют анимационные кривые для визем в последовательности визем, полученной на основании признаков речевого сигнала; применяют вычисленные анимационные кривые к заранее заданному набору визем; выявляют траектории перемещения опорных точек лица на заранее заданном наборе визем с примененными вычисленными анимационными кривыми; выявляют траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу; накладывают траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, на заранее заданное нейтральное лицо; вычисляют функцию формирования последовательности визем и функцию вычисления анимационных кривых путем сравнения траекторий перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, наложенных на заранее заданное нейтральное лицо, и выявленных траекторий перемещения опорных точек лица на заранее заданном наборе визем; и вычисляют функцию выбора визем на основании последовательности фонем, полученной на основании признаков речевого сигнала, последовательности визем, полученной на основании признаков речевого сигнала, и вычисленных анимационных кривых.[0014] In an additional aspect, artificial intelligence training comprises the steps of: receiving a set of training data comprising a speech signal, subtitles for the speech signal, and a video signal corresponding to the speech signal; identify the sequence of phonemes from the subtitles for the speech signal; converting the speech signal into a set of features of the speech signal; extracting features of the speech signal from the feature set of the speech signal; receive a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes, based on signs of a speech signal; calculate the function of forming a sequence of phonemes by comparing the sequence of phonemes identified from the subtitles for the speech signal, and the sequence of phonemes obtained on the basis of the characteristics of the speech signal; calculating animation curves for the visemes in the sequence of visemes obtained based on the characteristics of the speech signal; apply the calculated animation curves to a predefined set of visemes; identify the trajectory of the movement of the reference points of the face on a predetermined set of vises with the applied calculated animation curves; identify the trajectory of the movement of the reference points of the face in the video signal corresponding to the speech signal; superimpose the trajectory of the reference points of the face in the video signal corresponding to the speech signal on a predetermined neutral face; calculate the function of forming a sequence of vises and the function of computing animation curves by comparing the paths of movement of the reference points of the face in the video signal corresponding to the speech signal superimposed on a predetermined neutral face, and the identified paths of movement of the reference points of the face on a predetermined set of visas; and calculating the function of selecting visemes based on the sequence of phonemes obtained based on the characteristics of the speech signal, the sequence of visemes obtained on the basis of the characteristics of the speech signal, and the calculated animation curves.
[0015] В другом дополнительном аспекте этап преобразования речевого сигнала в набор признаков речевого сигнала и этап извлечения признаков речевого сигнала из набора признаков речевого сигнала выполняют одним из способа мел–частотных кепстральных коэффициентов (MFCC) или дополнительным предварительно обученным средством искусственного интеллекта.[0015] In another further aspect, the step of converting the speech signal to a set of features of the speech signal and the step of extracting the features of the speech signal from the set of features of the speech signal is performed by one of the method of small-frequency cepstral coefficients (MFCC) or additional pre-trained artificial intelligence tool.
[0016] В еще одном дополнительном аспекте дополнительное предварительно обученное средство искусственного интеллекта является по меньшей мере одним из рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0016] In yet another further aspect, the additional pre-trained artificial intelligence means is at least one of a recurrent neural network, long term short-term memory (LSTM) controlled by a recurrent unit (GRU), modifications thereof, or a combination of any of them.
[0017] В еще одном дополнительном аспекте обученное средство искусственного интеллекта содержит по меньшей мере два блока, при этом первый блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап, на котором получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, путем обработки признаков речевого сигнала, и второй блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап, на котором вычисляют обученным средством искусственного интеллекта анимационные кривые для визем в полученной последовательности визем на основе соответствующих им фонем.[0017] In yet a further aspect, the trained artificial intelligence tool comprises at least two blocks, wherein the first block of the at least two blocks of the trained artificial intelligence tool performs the step of obtaining a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes , by processing the features of the speech signal, and the second block of the at least two blocks of the trained artificial intelligence means performs the stage of calculating animation curves for the visemes in the obtained sequence of visemes using the corresponding phonemes by the trained artificial intelligence means.
[0018] В еще одном дополнительном аспекте первый блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта является по меньшей мере одним из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0018] In yet a further aspect, the first block of the at least two blocks of a trained artificial intelligence tool is at least one of a convolutional neural network, a recurrent neural network, a long short-term memory (LSTM) controlled by a recurrent block (GRU), their modifications or a combination of any of these.
[0019] В еще одном дополнительном аспекте второй блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта является по меньшей мере одним из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0019] In yet a further aspect, the second block of the at least two blocks of the trained artificial intelligence tool mentioned is at least one of a convolutional neural network, a recurrent neural network, long-term short-term memory (LSTM) controlled by a recurrent unit (GRU), their modifications or a combination of any of these.
[0020] В еще одном дополнительном аспекте этап вычисления анимационных кривых для визем в последовательности визем, полученной на основании признаков речевого сигнала выполняют с помощью системы кодирования лицевых движений (FACS).[0020] In yet a further aspect, the step of calculating the animation curves for the visemes in the sequence of visemes obtained based on the characteristics of the speech signal is performed using a facial encoding system (FACS).
[0021] Другой аспект настоящего изобретения обеспечивает электронное вычислительное устройство, содержащее: по меньшей мере один процессор; и память хранящую числовые параметры по меньшей мере одного обученного средства искусственного интеллекта и инструкции, которые при исполнении по меньшей мере одним процессором побуждают по меньшей мере один процессор выполнять способ генерации анимационной модели головы по речевому сигналу.[0021] Another aspect of the present invention provides an electronic computing device, comprising: at least one processor; and a memory storing the numerical parameters of the at least one trained artificial intelligence tool and instructions that, when executed by the at least one processor, cause the at least one processor to perform a method of generating an animated head model from a speech signal.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
[0022] Вышеописанные и другие аспекты, признаки и преимущества настоящего изобретения будут более понятны из последующего подробного описания, приведенного в сочетании с прилагаемыми чертежами, на которых:[0022] The above and other aspects, features and advantages of the present invention will be more apparent from the following detailed description, taken in conjunction with the accompanying drawings, in which:
[0023] Фиг. 1 – блок–схема, иллюстрирующая электронное вычислительное устройство.[0023] FIG. 1 is a block diagram illustrating an electronic computing device.
[0024] Фиг. 2 – блок–схема последовательности операций, иллюстрирующая предпочтительный вариант осуществления способа генерации анимационной модели головы по речевому сигналу.[0024] FIG. 2 is a flowchart illustrating a preferred embodiment of a method for generating an animated head model from a speech signal.
[0025] В последующем описании, если не указано иное, одинаковые ссылочные позиции используются для одинаковых элементов, когда они изображены на разных чертежах, и их параллельное описание не приводится.[0025] In the following description, unless otherwise indicated, the same reference numbers are used for the same elements when they are depicted in different drawings, and their parallel description is not given.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF EMBODIMENTS OF THE PRESENT INVENTION
[0026] Нижеследующее описание со ссылкой прилагаемые чертежи приведено, чтобы облегчить полное понимание различных вариантов осуществления настоящего изобретения, заданного формулой изобретения, и его эквивалентов. Описание включает в себя различные конкретные подробности, чтобы облегчить такое понимание, но данные подробности следует считать только примерными. Соответственно, специалисты в данной области техники обнаружат, что можно разработать различные изменения и модификации различных вариантов осуществления, описанных в настоящей заявке, без выхода за пределы объема настоящего изобретения. Кроме того, описания общеизвестных функций и конструкций могут быть исключены для ясности и краткости.[0026] The following description with reference to the accompanying drawings is provided in order to facilitate a thorough understanding of various embodiments of the present invention defined by the claims and its equivalents. The description includes various specific details to facilitate such an understanding, but these details should be considered only exemplary. Accordingly, those skilled in the art will find that various changes and modifications to the various embodiments described herein can be developed without departing from the scope of the present invention. In addition, descriptions of well-known functions and constructions may be omitted for clarity and conciseness.
[0027] Термины и формулировки, используемые в последующем описании и формуле изобретения не ограничены библиографическим значениями, а просто использованы создателем настоящего изобретения, чтобы обеспечить четкое и последовательное понимание настоящего изобретения. Соответственно, специалистам в данной области техники должно быть ясно, что последующее описание различных вариантов осуществления настоящего изобретения предлагается только для иллюстрации.[0027] The terms and wording used in the following description and claims are not limited to bibliographic meanings, but simply used by the creator of the present invention to provide a clear and consistent understanding of the present invention. Accordingly, it should be apparent to those skilled in the art that the following description of various embodiments of the present invention is provided for illustration only.
[0028] Следует понимать, что формы единственного числа включают в себя множественность, если контекст явно не указывает иное.[0028] It should be understood that the singular forms include the plural, unless the context clearly indicates otherwise.
[0029] Дополнительно следует понимать, что термины «содержит», «содержащий», «включает в себя» и/или «включающий в себя», при использовании в настоящей заявке, означают присутствие изложенных признаков, значений, операций, элементов и/или компонентов, но не исключают присутствия или добавления одного или более других признаков, значений, операций, элементов, компонентов и/или их групп.[0029] Additionally, it should be understood that the terms “comprises,” “comprising,” “includes” and / or “including,” as used herein, mean the presence of the features, meanings, operations, elements, and / or components, but do not exclude the presence or addition of one or more other features, values, operations, elements, components and / or groups thereof.
[0030] В дальнейшем, различные варианты осуществления настоящего изобретения описаны более подробно со ссылкой на прилагаемые чертежи.[0030] Hereinafter, various embodiments of the present invention are described in more detail with reference to the accompanying drawings.
[0030] На фиг.1 показана блок–схема, иллюстрирующая электронное вычислительное устройство 100, способное выполнять генерацию анимационной модели головы по речевому сигналу.[0030] FIG. 1 is a block diagram illustrating an
[0031] Электронное вычислительное устройство 100 включает в себя по меньшей мере один процессор 101 и память 102. Память 102 хранит числовые параметры по меньшей мере одного обученного средства искусственного интеллекта. Память 102 также хранит инструкции, которые при исполнении по меньшей мере одним процессором 101 побуждают по меньшей мере один процессор 101 выполнять способ генерации анимационной модели головы по речевому сигналу.[0031] The
[0032] Электронное вычислительное устройство 100 может быть любым вычислительным устройством, например, таким как смартфон, мобильный телефон, настольный компьютер, ноутбук, игровая приставка, диктофон, портативный музыкальный проигрыватель и т.д. [0032] The
[0033] На фиг.2 показана блок–схема последовательности операций, иллюстрирующая предпочтительный вариант осуществления способа генерации анимационной модели головы по речевому сигналу.[0033] FIG. 2 is a flowchart illustrating a preferred embodiment of a method for generating an animated head model from a speech signal.
[0034] Способ генерации анимационной модели головы по речевому сигналу выполняется электронным вычислительным устройством 100, содержащим один или более процессоров и память.[0034] A method for generating an animation model of a head from a speech signal is performed by an
[0035] На этапе 201 электронное вычислительное устройство 100 принимает речевой сигнал. Речевой сигнал может быть принят из любого доступного источника, такого как Интернет, телевизионная или радио передача, смартфон, мобильный телефон, диктофон, настольный компьютер, ноутбук и т.д. [0035] At
[0036] На этапе 202 речевой сигнал, принятый на этапе 201, преобразуют в набор признаков речевого сигнала. На этапе 203 из набора признаков речевого сигнала, полученного на этапе 202, извлекают признаки речевого сигнала. Преобразование речевого сигнала в набор признаков речевого сигнала и извлечение признаков речевого сигнала из набора признаков речевого сигнала может быть выполнено любым подходящим способом. [0036] In
[0037] В одном из вариантов осуществления этапы 202 и 203 выполняют способом мел–частотных кепстральных коэффициентов (MFCC). Поскольку способ MFCC известен в уровне техники, его подробное описание опущено. [0037] In one embodiment, steps 202 and 203 are performed by the method of Chalk Frequency Cepstral Coefficients (MFCC). Since the MFCC method is known in the art, a detailed description thereof is omitted.
[0038] В другом из вариантов осуществления этапы 202 и 203 выполняют дополнительным предварительно обученным средством искусственного интеллекта, которое сохранено в памяти электронного вычислительного устройства 100. Дополнительным предварительно обученным средством искусственного интеллекта может быть по меньшей мере одно из рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемого рекуррентного блока (GRU) и их модификациями. Дополнительным предварительно обученным средством искусственного интеллекта также может быть комбинация любых из выщеприведенных средств искусственного интеллекта. [0038] In another embodiment, steps 202 and 203 are performed by an additional pre-trained artificial intelligence tool that is stored in the memory of the
[0039] На этапе 204 обученное средство искусственного интеллекта обрабатывает признаки речевого сигнала, полученные на этапе 203, для получения последовательности фонем и последовательности визем, соответствующих фонемам в последовательности фонем. На этапе 205 обученное средство искусственного интеллекта вычисляет анимационные кривые для визем в последовательности визем, полученной на этапе 204, на основе соответствующих им фонем. Анимационные кривые задают параметры движения лица в анимации и длительность анимации визем.[0039] In
[0040] В одном из вариантов осуществления обученное средство искусственного интеллекта содержит по меньшей мере два блока. Первый блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап 204, а второй блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап 205.[0040] In one embodiment, the trained artificial intelligence tool comprises at least two blocks. The first block of the at least two blocks of the trained artificial intelligence tool performs
[0041] Первым блоком из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта может быть по меньшей мере одно из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0041] The first block of the at least two blocks of a trained artificial intelligence tool may be at least one of a convolutional neural network, a recurrent neural network, long-term short-term memory (LSTM) controlled by a recurrent block (GRU), modifications thereof, or a combination of any of them.
[0042] Вторым блоком из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта может быть по меньшей мере одно из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0042] The second block of the at least two blocks of a trained artificial intelligence tool may be at least one of a convolutional neural network, a recurrent neural network, long-term short-term memory (LSTM) controlled by a recurrent unit (GRU), modifications thereof, or a combination of any of them.
[0043] На этапе 206 последовательность фонем и последовательность визем, полученные на этапе 204, объединяют путем наложения полученной последовательности фонем и полученной последовательности визем друг на друга с учетом анимационных кривых, вычисленных на этапе 205. В объединенной последовательности фонем и визем каждой фонеме в объединенной последовательности сопоставлена соответственная визема. Длительность каждой фонемы и сопоставленной соответственной виземы в объединенной последовательности, задается анимационной кривой для данной виземы. [0043] At
[0044] На этапе 207 формируют анимацию модели головы путем анимации визем в объединенной последовательности фонем и визем с использованием параметров движения лица и длительности анимации визем, заданных анимационными кривыми, вычисленными на этапе 205.[0044] In
[0045] Числовые параметры обученного средства искусственного интеллекта и дополнительного обученного средства искусственного интеллекта могут быть приняты из любого доступного источника, такого как Интернет, настольный компьютер, ноутбук и т.д., и сохранены в памяти 102 электронного вычислительного устройства 100. Средство искусственного интеллекта и дополнительное средство искусственного интеллекта также может быть обучено в электронном вычислительном устройстве 100. [0045] The numerical parameters of the trained artificial intelligence tool and the additional trained artificial intelligence tool can be taken from any available source, such as the Internet, a desktop computer, a laptop, etc., and stored in the
[0046] Обучение средства искусственного интеллекта выполняют на наборе обучающих данных, который содержит речевой сигнал, субтитры для речевого сигнала и видеосигнал, соответствующий речевому сигналу. Такой набор обучающих данных может быть принят из любого доступного источника, такого как Интернет, телевизионная передача, смартфон, мобильный телефон, диктофон, настольный компьютер, ноутбук и т.д. Затем речевой сигнал, субтитры для речевого сигнала и видеосигнал отдельно обрабатывают. Обработка речевого сигнала, обработка субтитров для речевого сигнала и обработка видеосигнала может выполняться как параллельно, так и последовательно в зависимости от компоновки электронного вычислительного устройства 100 и его вычислительной способности. [0046] The artificial intelligence training is performed on a training data set that contains a speech signal, subtitles for the speech signal, and a video signal corresponding to the speech signal. Such a set of training data can be received from any available source, such as the Internet, television transmission, smartphone, mobile phone, voice recorder, desktop computer, laptop, etc. Then, the speech signal, subtitles for the speech signal, and the video signal are separately processed. The processing of the speech signal, the processing of subtitles for the speech signal and the processing of the video signal can be performed both in parallel and sequentially depending on the layout of the
[0047] Из субтитров для речевого сигнала выявляют последовательность фонем. Эта операция может быть выполнена любым известным способом, поэтому подробное описание этой операции опущено. [0047] A sequence of phonemes is detected from the subtitles for the speech signal. This operation can be performed in any known manner, therefore, a detailed description of this operation is omitted.
[0048] Речевой сигнал преобразуют в набор признаков речевого сигнала, и затем извлекают признаки речевого сигнала из набора признаков речевого сигнала. Как и для генерации анимационной модели головы по речевому сигналу преобразование речевого сигнала в набор признаков речевого сигнала и извлечение признаков речевого сигнала из набора признаков речевого сигнала может быть выполнено любым подходящим способом.[0048] The speech signal is converted into a feature set of the speech signal, and then features of the speech signal are extracted from the feature set of the speech signal. As for generating an animation model of the head from a speech signal, converting the speech signal to a set of features of a speech signal and extracting features of a speech signal from a set of features of a speech signal can be performed in any suitable way.
[0049] Последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, получают средством искусственного интеллекта на основании признаков речевого сигнала. [0049] The sequence of phonemes and the sequence of visemes corresponding to phonemes in the sequence of phonemes are obtained by artificial intelligence based on the characteristics of the speech signal.
[0050] Для того, чтобы обученное средство искусственного интеллекта могло формировать последовательность фонем, средство искусственного интеллекта обучают функции формирования последовательности фонем. Функцию формирования последовательности фонем вычисляют с использованием функции потерь путем сравнения последовательности фонем, выявленной из субтитров для речевого сигнала, и последовательности фонем, полученной на основании признаков речевого сигнала. Функция потерь является известной функцией, поэтому подробное описание этой операции опущено.[0050] In order for the trained artificial intelligence tool to form a sequence of phonemes, the artificial intelligence tool is trained in the formation of a sequence of phonemes. The formation function of the phoneme sequence is calculated using the loss function by comparing the sequence of phonemes detected from the subtitles for the speech signal and the sequence of phonemes obtained based on the characteristics of the speech signal. The loss function is a known function, therefore, a detailed description of this operation is omitted.
[0051] Анимационные кривые для визем в последовательности визем, полученной на основании признаков речевого сигнала, могут быть вычислены с помощью системы кодирования лицевых движений (FACS). Однако настоящее изобретение не ограничено только применением FACS для вычисления анимационных кривых. Для вычисления анимационных кривых могут быть использованы любые подходящие способы. [0051] Animation curves for visemes in the sequence of visemes obtained based on the characteristics of the speech signal can be calculated using the facial encoding system (FACS). However, the present invention is not limited only to the use of FACS for computing animation curves. Any suitable methods may be used to calculate animation curves.
[0052] Вычисленные анимационные кривые применяют к заранее заданному набору визем. Анимационные кривые задают параметры движения лица в анимации и длительность анимации визем. Применение анимационных кривых к заранее заданному набору визем вызывает анимацию/движение визем. [0052] The calculated animation curves are applied to a predefined set of visemes. Animation curves set the parameters for the movement of the face in the animation and the duration of the viseme animation. Applying animation curves to a predefined set of visemes causes the visems to animate / move.
[0053] Затем выявляют траектории перемещения опорных точек лица на заранее заданном наборе визем с примененными вычисленными анимационными кривыми. Опорные точки лица выявляют детектором опорных точек лица. Детектор опорных точек лица может быть любым известным детектором. Параметры движения, заданные анимационными кривыми, задают анимацию/движение визем и, следовательно, траектории перемещения опорных точек лица. [0053] Then, the trajectories of the reference points of the face on a predetermined set of vises with the calculated calculated animation curves are detected. Reference points of the face are detected by the detector of reference points of the face. The face reference point detector may be any known detector. The motion parameters specified by the animation curves define the animation / movement of the vises and, therefore, the trajectories of the movement of the reference points of the face.
[0054] Траектории перемещения опорных точек лица также выявляют в видеосигнале, соответствующем речевому сигналу. Опорные точки лица выявляют также, как и в описанной выше операции выявления траектории перемещения опорных точек лица на заранее заданном наборе визем. Затем при воспроизведении видеосигнала с выявленными опорными точками лица выявляют траектории перемещения опорных точек лица путем отслеживания перемещения опорных точек. [0054] The trajectories of the reference points of the face are also detected in the video signal corresponding to the speech signal. The reference points of the face are identified as in the above-described operation of detecting the trajectory of the movement of the reference points of the face on a predefined set of visemes. Then, when playing a video signal with detected reference points of the face, the trajectories of the movement of the reference points of the face are detected by tracking the movement of the reference points.
[0055] Выявленные траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, накладывают на заранее заданное нейтральное лицо.[0055] The detected trajectories of the movement of the reference points of the face in the video signal corresponding to the speech signal are superimposed on a predetermined neutral face.
[0056] Для того, чтобы обученное средство искусственного интеллекта могло формировать последовательность визем и вычислять анимационные кривые, средство искусственного интеллекта обучают функции формирования последовательности визем и функции вычисления анимационных кривых. Функцию формирования последовательности визем и функцию вычисления анимационных кривых вычисляют с использованием функции потерь путем сравнения траекторий перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, наложенных на заранее заданное нейтральное лицо, и выявленных траекторий перемещения опорных точек лица на заранее заданном наборе визем. Функция потерь является известной функцией, поэтому подробное описание этой операции опущено. [0056] In order for the trained artificial intelligence tool to form a sequence of visemes and calculate animation curves, the artificial intelligence tool is trained in the functions of forming a sequence of visemes and the functions of computing animation curves. The function of forming a sequence of vises and the function of computing animation curves are calculated using the loss function by comparing the paths of movement of the reference points of the face in the video signal corresponding to the speech signal superimposed on a predetermined neutral face, and the identified paths of movement of the reference points of the face on a predetermined set of vises. The loss function is a known function, therefore, a detailed description of this operation is omitted.
[0057] Существуют похожие виземы, которые могут частично соответствовать одной фонеме, поэтому средство искусственного интеллекта обучают для правильного выбора виземы для каждой фонемы. Функцию выбора визем для обученного средства искусственного интеллекта вычисляют с использованием метода регуляризации на основании последовательности фонем, полученной на основании признаков речевого сигнала, последовательности визем, полученной на основании признаков речевого сигнала, и вычисленных анимационных кривых. Регуляризация, как метод решения некорректно поставленной задачи или предотвращения переобучения, является известным методом, поэтому подробное описание этой операции опущено. [0057] There are similar visemes that may partially correspond to one phoneme, therefore, the artificial intelligence tool is trained to select the correct viseme for each phoneme. The function of selecting the visemes for the trained artificial intelligence tool is calculated using the regularization method based on the sequence of phonemes obtained on the basis of the characteristics of the speech signal, the sequence of visemes obtained on the basis of the characteristics of the speech signal, and the calculated animation curves. Regularization, as a method of solving an incorrectly posed problem or preventing retraining, is a well-known method, therefore, a detailed description of this operation is omitted.
[0058] Способ, раскрытый в данной заявке, может быть реализован посредством по меньшей мере одного процессора, интегральной схемы специального назначения (ASIC), программируемой пользователем вентильной матрицы (FPGA), или как система на кристалле (SoC). Кроме того, способ, раскрытый в данной заявке, может быть реализован посредством считываемого компьютером носителя, на котором хранятся числовые параметры множества обученных интеллектуальных систем и исполняемые компьютером инструкции, которые, при исполнении процессором компьютера, побуждают компьютер к выполнению раскрытого способа. Обученное средство искусственного интеллекта и инструкции по выполнению заявленного способа могут быть загружены в мобильное устройство по сети или с носителя.[0058] The method disclosed herein may be implemented by at least one processor, a special purpose integrated circuit (ASIC), a field programmable gate array (FPGA), or as a system on a chip (SoC). In addition, the method disclosed in this application may be implemented by a computer-readable medium that stores the numerical parameters of a plurality of trained intelligent systems and computer-executable instructions that, when executed by a computer processor, cause the computer to perform the disclosed method. A trained artificial intelligence tool and instructions for implementing the claimed method can be downloaded to a mobile device via a network or from a medium.
[0059] Вышеприведенные описания вариантов осуществления изобретения являются иллюстративными, и модификации конфигурации и реализации не выходят за пределы объема настоящего описания. Например, хотя варианты осуществления изобретения описаны, в общем, в связи с фигурами 1–2, приведенные описания являются примерными. Хотя предмет изобретения описан на языке, характерном для конструктивных признаков или методологических операций, понятно, что предмет изобретения, определяемый прилагаемой формулой изобретения, не обязательно ограничен конкретными вышеописанными признаками или операциями. Более того, конкретные вышеописанные признаки и операции раскрыты как примерные формы реализации формулы изобретения. Изобретение не ограничено также показанным порядком этапов способа, порядок может быть видоизменен специалистом без новаторских нововведений. Некоторые или все этапы способа могут выполняться последовательно или параллельно.[0059] The above descriptions of embodiments of the invention are illustrative, and modifications to the configuration and implementation are not beyond the scope of the present description. For example, although embodiments of the invention have been described generally in connection with figures 1-2, the descriptions given are exemplary. Although the subject matter of the invention is described in a language characteristic of design features or methodological operations, it is understood that the subject matter of the appended claims is not necessarily limited to the specific features or operations described above. Moreover, the specific features and operations described above are disclosed as exemplary forms of implementing the claims. The invention is not limited also to the shown order of the steps of the method, the order can be modified by a specialist without innovative innovations. Some or all of the steps of the method may be performed sequentially or in parallel.
[0060] Соответственно предполагается, что объем варианта осуществления изобретения ограничивается только нижеследующей формулой изобретения.[0060] Accordingly, it is contemplated that the scope of an embodiment of the invention is limited only by the following claims.
Claims (32)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019139078A RU2721180C1 (en) | 2019-12-02 | 2019-12-02 | Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it |
KR1020200089852A KR20210070169A (en) | 2019-12-02 | 2020-07-20 | Method for generating a head model animation from a speech signal and electronic device implementing the same |
PCT/KR2020/009663 WO2021112365A1 (en) | 2019-12-02 | 2020-07-22 | Method for generating head model animation from voice signal, and electronic device for implementing same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019139078A RU2721180C1 (en) | 2019-12-02 | 2019-12-02 | Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2721180C1 true RU2721180C1 (en) | 2020-05-18 |
Family
ID=70735302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019139078A RU2721180C1 (en) | 2019-12-02 | 2019-12-02 | Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20210070169A (en) |
RU (1) | RU2721180C1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2757563C1 (en) * | 2021-02-19 | 2021-10-18 | Самсунг Электроникс Ко., Лтд. | Method for visualizing a 3d portrait of a person with altered lighting and a computing device for it |
US11823327B2 (en) | 2020-11-19 | 2023-11-21 | Samsung Electronics Co., Ltd. | Method for rendering relighted 3D portrait of person and computing device for the same |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230394732A1 (en) * | 2022-06-06 | 2023-12-07 | Samsung Electronics Co., Ltd. | Creating images, meshes, and talking animations from mouth shape data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
DE102004059051A1 (en) * | 2004-12-07 | 2006-06-08 | Deutsche Telekom Ag | Virtual figure and avatar representing method for audiovisual multimedia communication, involves forming parameters according to preset control parameter, and representing animated model on display device in dependence of control parameter |
US20090184967A1 (en) * | 1999-05-21 | 2009-07-23 | Kulas Charles J | Script control for lip animation in a scene generated by a computer rendering engine |
RU2013158054A (en) * | 2011-07-01 | 2015-08-10 | Долби Лабораторис Лайсэнзин Корпорейшн | SYSTEM AND METHOD FOR GENERATING, CODING AND REPRESENTATION OF ADAPTIVE AUDIO SIGNAL DATA |
US20180174348A1 (en) * | 2016-06-23 | 2018-06-21 | LoomAi, Inc. | Systems and Methods for Animating Models from Audio Data |
-
2019
- 2019-12-02 RU RU2019139078A patent/RU2721180C1/en active
-
2020
- 2020-07-20 KR KR1020200089852A patent/KR20210070169A/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090184967A1 (en) * | 1999-05-21 | 2009-07-23 | Kulas Charles J | Script control for lip animation in a scene generated by a computer rendering engine |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
DE102004059051A1 (en) * | 2004-12-07 | 2006-06-08 | Deutsche Telekom Ag | Virtual figure and avatar representing method for audiovisual multimedia communication, involves forming parameters according to preset control parameter, and representing animated model on display device in dependence of control parameter |
RU2013158054A (en) * | 2011-07-01 | 2015-08-10 | Долби Лабораторис Лайсэнзин Корпорейшн | SYSTEM AND METHOD FOR GENERATING, CODING AND REPRESENTATION OF ADAPTIVE AUDIO SIGNAL DATA |
US20180174348A1 (en) * | 2016-06-23 | 2018-06-21 | LoomAi, Inc. | Systems and Methods for Animating Models from Audio Data |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823327B2 (en) | 2020-11-19 | 2023-11-21 | Samsung Electronics Co., Ltd. | Method for rendering relighted 3D portrait of person and computing device for the same |
RU2757563C1 (en) * | 2021-02-19 | 2021-10-18 | Самсунг Электроникс Ко., Лтд. | Method for visualizing a 3d portrait of a person with altered lighting and a computing device for it |
Also Published As
Publication number | Publication date |
---|---|
KR20210070169A (en) | 2021-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lahiri et al. | Lipsync3d: Data-efficient learning of personalized 3d talking faces from video using pose and lighting normalization | |
Wang et al. | One-shot talking face generation from single-speaker audio-visual correlation learning | |
Olszewski et al. | High-fidelity facial and speech animation for VR HMDs | |
US11551393B2 (en) | Systems and methods for animation generation | |
US12033259B2 (en) | Photorealistic talking faces from audio | |
WO2021248473A1 (en) | Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses | |
US20200234690A1 (en) | Text and audio-based real-time face reenactment | |
RU2721180C1 (en) | Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it | |
TWI766499B (en) | Method and apparatus for driving interactive object, device and storage medium | |
CN113228163B (en) | Real-time text and audio based face rendering | |
CN113272870A (en) | System and method for realistic real-time portrait animation | |
CN110874557A (en) | Video generation method and device for voice-driven virtual human face | |
CN112967212A (en) | Virtual character synthesis method, device, equipment and storage medium | |
WO2021196646A1 (en) | Interactive object driving method and apparatus, device, and storage medium | |
CN111459452B (en) | Driving method, device and equipment of interaction object and storage medium | |
WO2021196644A1 (en) | Method, apparatus and device for driving interactive object, and storage medium | |
CN110910479A (en) | Video processing method and device, electronic equipment and readable storage medium | |
CN115049016A (en) | Model driving method and device based on emotion recognition | |
JP2015038725A (en) | Utterance animation generation device, method, and program | |
CN116828129B (en) | Ultra-clear 2D digital person generation method and system | |
Ravichandran et al. | Synthesizing photorealistic virtual humans through cross-modal disentanglement | |
Heisler et al. | Making an android robot head talk | |
Barve et al. | Synchronized Speech and Video Synthesis | |
JP2001034785A (en) | Virtual transformation device | |
Kumar et al. | Multi modal adaptive normalization for audio to video generation |