[go: nahoru, domu]

RU2721180C1 - Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it - Google Patents

Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it Download PDF

Info

Publication number
RU2721180C1
RU2721180C1 RU2019139078A RU2019139078A RU2721180C1 RU 2721180 C1 RU2721180 C1 RU 2721180C1 RU 2019139078 A RU2019139078 A RU 2019139078A RU 2019139078 A RU2019139078 A RU 2019139078A RU 2721180 C1 RU2721180 C1 RU 2721180C1
Authority
RU
Russia
Prior art keywords
speech signal
sequence
visemes
phonemes
animation
Prior art date
Application number
RU2019139078A
Other languages
Russian (ru)
Inventor
Иван Викторович ГЛАЗИСТОВ
Илья Игоревич Кротов
Жакшылык Нурланович Нурланов
Иван Олегович КАРАЧАРОВ
Александр Владиславович СИМУТИН
Алексей Брониславович Данилевич
Original Assignee
Самсунг Электроникс Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Самсунг Электроникс Ко., Лтд. filed Critical Самсунг Электроникс Ко., Лтд.
Priority to RU2019139078A priority Critical patent/RU2721180C1/en
Application granted granted Critical
Publication of RU2721180C1 publication Critical patent/RU2721180C1/en
Priority to KR1020200089852A priority patent/KR20210070169A/en
Priority to PCT/KR2020/009663 priority patent/WO2021112365A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

FIELD: computer equipment.SUBSTANCE: invention relates to computer engineering. Method for generating a head animation model based on a speech signal: receiving a speech signal; converting a speech signal into a set of speech signal attributes; extracting speech signal attributes from a set of speech signal attributes; phonemes sequence and visemes sequence are obtained; by trained artificial intelligence means calculating animation curves; merging the obtained phoneme sequence and obtaining the visemes sequence by superimposing the obtained phoneme sequence and the obtained visemes sequence taking into account the calculated animation curves; and forming an animation of the head model by animation of the visemes in the combined phoneme and visemes sequence and using the calculated animation curves.EFFECT: technical result of present invention is to provide a method of generating an animation model of head on speech signal and an electronic computing device implementing said method, capable of providing head animation on a real-time speech signal with low delay and high image quality.9 cl, 2 dwg

Description

УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Область техники, к которой относится изобретенияFIELD OF THE INVENTION

[0001] Настоящее изобретение относится, в общем, к области компьютерной графики и, в частности, к способу генерации анимационной модели головы по речевому сигналу и электронному вычислительному устройству, реализующему упомянутый способ.[0001] The present invention relates, in General, to the field of computer graphics and, in particular, to a method for generating an animated model of the head from a speech signal and an electronic computing device that implements the above method.

Описание предшествующего уровня техникиDescription of the Related Art

[0002] В настоящее время дополненную и виртуальную реальность все более часто используют в современных устройствах для получения эффекта присутствия путем анимации различных персонажей. Например, есть потребность в решении для генерации анимационной модели головы по речевому сигналу, обеспечивающем выполнение в реальном времени с хорошим качеством и малой задержкой между приемом речевого сигнала и движениями модели головы, а также уменьшение потребления вычислительных ресурсов, например, для создания персонализированных трехмерных (3D) моделей голов и использования их во время телефонных звонков или в виртуальных чатах, отображения головы при дублировании речи на другом языке. [0002] Currently, augmented and virtual reality is increasingly used in modern devices to obtain the effect of presence by animating various characters. For example, there is a need for a solution for generating an animated head model using a speech signal, which provides real-time performance with good quality and low delay between receiving a speech signal and movements of the head model, as well as reducing the consumption of computing resources, for example, to create personalized three-dimensional (3D ) models of heads and their use during phone calls or in virtual chats, displaying the head when duplicating speech in another language.

[0003] В предшествующем уровне техники известны решения, которые направлены на анимацию головы, например, такие как нижеописанные решения.[0003] In the prior art, solutions are known which are aimed at animating the head, for example, such as the solutions described below.

[0004] Патент США US 10169905 B2, выданный 01.01.2019 под названием «SYSTEMS AND METHODS FOR ANIMATING MODELS FROM AUDIO DATA», раскрывает систему и способы компьютерной анимации 3D моделей голов, сформированных из изображений лиц. Захваченное двумерное (2D) изображение, которое включает в себя изображение лица, может быть получено и использовано для формирования статической 3D модели головы. Средство анимации может быть приспособлено для статической 3D модели, чтобы генерировать готовую к анимации 3D генеративную модель. Наборы средств анимации могут быть параметрами, каждый из которых сопоставлен с конкретными звуками. Эти сопоставления могут использоваться для генерации списков воспроизведения наборов параметров средства анимации на основе принятого аудиоконтента. Эти сопоставления используются для обучения сети для сопоставления аудиоконтента с параметрами средства анимации. Техническое решение, раскрытое в данном патенте США, имеет следующие недостатки. Для обучения сети используются обучающие данные, содержащие глубину изображения и модель лица, которые не всегда возможно получить из общедоступных источников, таких как, например, видеосигнал, полученный видеокамерой, или видеосигнал, извлеченный из Интернета. Получение и использование глубины изображения и модели лица приводит к увеличению вычислительной нагрузки.[0004] US patent US 10169905 B2, issued 01/01/2019 under the name "SYSTEMS AND METHODS FOR ANIMATING MODELS FROM AUDIO DATA", discloses a system and methods for computer animation of 3D models of heads formed from images of faces. A captured two-dimensional (2D) image, which includes a face image, can be obtained and used to form a static 3D model of the head. The animation tool can be adapted for a static 3D model to generate a 3D-ready generative model for animation. Animation toolkits can be parameters, each of which is mapped to specific sounds. These mappings can be used to generate playlists of sets of animation tool parameters based on the received audio content. These mappings are used to train the network to map audio content to animation tool parameters. The technical solution disclosed in this US patent has the following disadvantages. To train the network, training data is used that contains the image depth and face model, which is not always possible to obtain from public sources, such as, for example, a video signal received by a video camera or a video signal extracted from the Internet. Obtaining and using the depth of the image and model of the face leads to an increase in computational load.

[0005] В публикации «Audio–driven animator–centric speech animation», VisemeNet, Zhou и др. 2018г. раскрыта модель, которая обучалась на основе созданных вручную анимационных кривых, построенных для некоторого общедоступного набора данных с четырехмерным (4D) сканированием профессиональным аниматором. В этой модели используется многозадачная подсеть для предсказания перемещения опорных точек лица (лендмарок) и фонем из аудиосигнала. Техническое решение, раскрытое в данной публикации, имеет недостатки, которые заключаются в том, что анимация, выполняемая этой моделью, зависит от предпочтений аниматора и имеет большую задержку.[0005] In the publication “Audio-driven animator – centric speech animation”, VisemeNet, Zhou et al. 2018 A model is disclosed that was trained on the basis of manually created animation curves constructed for a public dataset with four-dimensional (4D) scanning by a professional animator. This model uses a multi-tasking subnet to predict the movement of reference points of the face (landmarks) and phonemes from the audio signal. The technical solution disclosed in this publication has drawbacks in that the animation performed by this model depends on the preferences of the animator and has a large delay.

[0006] В публикации «A Deep Learning Approach for Generalized Speech Animation», Taylor и др. 2017г. раскрыто средство предсказания с функцией скользящего окна для анимации речи. Средство предсказания обучают на фонемах и коэффициентах, полученных путем обработки лендмарок методом главных компонент (PCA). Техническое решение, раскрытое в данной публикации, имеет недостатки, которые заключаются в том, что анимация, выполняемая этим средством предсказания, имеет большую задержку и обучение этого средства предсказания нужно выполнять для каждого персонажа отдельно. [0006] In the publication "A Deep Learning Approach for Generalized Speech Animation", Taylor et al. 2017. a prediction tool with a sliding window function for animating speech is disclosed. The prediction tool is trained on phonemes and coefficients obtained by processing the landmarks by the method of principal components (PCA). The technical solution disclosed in this publication has drawbacks in that the animation performed by this means of prediction has a large delay and the training of this means of prediction must be performed for each character separately.

[0007] В публикации «Audio–Driven Facial Animation by Joint End–to–End Learning of Pose and Emotion», Nvidia, Karras и др., 2017г. раскрыта модель для анимации лица по речевому сигналу. Эта модель была обучена на основе данных движения, полученных с помощью очень качественного и затратного 4D сканирования, для речи одного человека. В модели используются коэффициенты, вычисленные путем обработки методом PCA обучающего набора данных, полученного сканированием. Функцией потерь во время обучения является только ошибка коэффициентов PCA. Техническое решение, раскрытое в данной публикации, имеет следующие недостатки. Набор данных для обучения получают слишком затратным способом. Возможны проблемы с обобщением данных для генерации разных лиц, поскольку обучение необходимо выполнять для каждого человека отдельно. В данном техническом решении невозможно использовать более простой способ обработки визем по 3D данным, например, систему кодирования лицевых движений (FACS). [0007] In the publication “Audio – Driven Facial Animation by Joint End – to – End Learning of Pose and Emotion”, Nvidia, Karras et al., 2017. A model for animating a face by a speech signal is disclosed. This model was trained on the basis of motion data obtained using a very high-quality and costly 4D scan for one person’s speech. The model uses coefficients calculated by PCA processing of the training data set obtained by scanning. The learning loss function is only a PCA coefficient error. The technical solution disclosed in this publication has the following disadvantages. The data set for training is obtained in a too costly way. There may be problems with the synthesis of data for the generation of different people, since the training must be performed for each person separately. In this technical solution, it is impossible to use a simpler method of processing visas using 3D data, for example, a facial movement coding system (FACS).

[0008] В публикации «Synthesizing Obama: Learning Lip Sync from Audio», Washington university, S. SUWAJANAKORN и др., 2017г. раскрыто техническое решение, в котором обучение выполнено только на 3D–видео Барака Обамы, чтобы обеспечить 2D лендмарки лица на основе входного речевого сигнала Обамы. Для построения видеовыхода на основе лендмарок используются не методы на основе максимального правдоподобия (ML). Техническое решение, раскрытое в данной публикации, имеет следующие недостатки. Данное техническое решение может генерировать только 2D видео с тем человеком, на котором производилось обучение модели, в данном случае – Обамой. Данное техническое решение не поддерживает анимацию любых виртуальных персонажей.[0008] In the publication “Synthesizing Obama: Learning Lip Sync from Audio,” Washington University, S. SUWAJANAKORN et al., 2017. A technical solution is disclosed in which the training was performed only on 3D video of Barack Obama to provide 2D face markers based on Obama's input speech signal. To construct a video output based on landmarks, not methods based on maximum likelihood (ML) are used. The technical solution disclosed in this publication has the following disadvantages. This technical solution can only generate 2D video with the person who trained the model, in this case, Obama. This technical solution does not support animation of any virtual characters.

[0009] В целом, существующие технические решения для анимации головы имеют следующие недостатки:[0009] In general, existing technical solutions for animating the head have the following disadvantages:

– получение данных для обучения, как правило, требует высоких вычислительных затрат или большого количества труднодоступных данных;- obtaining data for training, as a rule, requires high computational costs or a large amount of hard-to-reach data;

– способы, основанные на двухмерных лендмарках в качестве описания движений лица, обычно дают очень плоские результаты анимации из–за недостатка трехмерной информации;- methods based on two-dimensional landmarks as a description of facial movements, usually give very flat animation results due to a lack of three-dimensional information;

– получение анимации виртуального персонажа с высоким качеством изображения на основе движений человеческого лица требует высоких вычислительных затрат из–за разницы в форме лица;- receiving an animation of a virtual character with high image quality based on the movements of a human face requires high computational costs due to the difference in the shape of the face;

– трудно обобщить данные для анимации на голос любого пользователя;- It is difficult to generalize data for animation to the voice of any user;

– модель для анимации с высоким качеством изображения имеет большую задержку.- The model for animation with high image quality has a large delay.

[0010] Настоящее изобретение создано для устранения, по меньшей мере, одного из вышеописанных недостатков и для обеспечения, по меньшей мере, одного из нижеописанных преимуществ.[0010] The present invention is made to eliminate at least one of the above disadvantages and to provide at least one of the advantages described below.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0011] Целью настоящего изобретения является обеспечение способа генерации анимационной модели головы по речевому сигналу и электронного вычислительного устройства, реализующего упомянутый способ, способных обеспечить анимацию головы по речевому сигналу в реальном времени с низкой задержкой и высоким качеством изображения. Такое преимущество достигается за счет того, что обученное средство искусственного интеллекта выдает поток фонем и поток визем, соответствующих фонемам в потоке фонем, путем обработки признаков речевого сигнала и определяет анимационные кривые для визем в полученном потоке визем на основе соответствующих им фонем. Затем поток фонем и поток визем объединяют путем наложения полученного потока фонем и полученного потока визем друг на друга с учетом определенных анимационных кривых и формируют анимацию модели головы путем анимации визем в объединенном потоке фонем и визем с использованием определенных анимационных кривых.[0011] An object of the present invention is to provide a method for generating an animated head model from a speech signal and an electronic computing device that implements the method, capable of real-time animation of the head from a speech signal with low delay and high image quality. This advantage is achieved due to the fact that the trained artificial intelligence tool generates a phoneme stream and a viseme stream corresponding to the phonemes in the phoneme stream by processing the characteristics of the speech signal and determines the animation curves for the visemes in the received viseme stream based on the corresponding phonemes. Then, the phoneme stream and the viseme stream are combined by superimposing the received phoneme stream and the received viseme stream on top of each other taking into account certain animation curves and form an animation of the head model by animating the visemes in the combined phoneme and viseme stream using certain animation curves.

[0012] Кроме того, настоящее изобретение позволяет дополнительно получить, по меньшей мере, одно из следующих преимуществ:[0012] In addition, the present invention further provides at least one of the following advantages:

– использование широко доступных данных для обучения;- the use of widely available data for training;

– генерация анимационной модели головы по голосу любого персонажа;- Generation of an animated model of the head by the voice of any character;

– генерация анимационной модели головы для любого персонажа.- Generation of an animated head model for any character.

[0013] Один аспект настоящего изобретения обеспечивает способ генерации анимационной модели головы по речевому сигналу, при этом упомянутый способ выполняется одним или более процессорами и содержит этапы, на которых: принимают речевой сигнал; преобразуют речевой сигнал в набор признаков речевого сигнала; извлекают признаки речевого сигнала из набора признаков речевого сигнала; получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, путем обработки признаков речевого сигнала обученным средством искусственного интеллекта; вычисляют обученным средством искусственного интеллекта анимационные кривые для визем в полученной последовательности визем на основе соответствующих им фонем; объединяют полученную последовательность фонем и полученную последовательность визем путем наложения полученной последовательности фонем и полученной последовательности визем друг на друга с учетом вычисленных анимационных кривых; и формируют анимацию модели головы путем анимации визем в объединенной последовательности фонем и визем с использованием вычисленных анимационных кривых.[0013] One aspect of the present invention provides a method for generating an animated head model from a speech signal, wherein said method is performed by one or more processors and comprises the steps of: receiving a speech signal; converting the speech signal into a set of features of the speech signal; extracting features of the speech signal from the feature set of the speech signal; receive a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes by processing the features of a speech signal with a trained artificial intelligence tool; animated curves for visemes in the obtained sequence of visemes are calculated by the trained artificial intelligence tool based on the corresponding phonemes; combine the obtained sequence of phonemes and the obtained sequence of visemes by superposing the obtained sequence of phonemes and the obtained sequence of visemes on each other taking into account the calculated animation curves; and form an animation of the head model by animating the visemes in a combined sequence of phonemes and visemes using the calculated animation curves.

[0014] В дополнительном аспекте обучение средства искусственного интеллекта содержит этапы, на которых: принимают набор обучающих данных, содержащий речевой сигнал, субтитры для речевого сигнала и видеосигнал, соответствующий речевому сигналу; выявляют последовательность фонем из субтитров для речевого сигнала; преобразуют речевой сигнал в набор признаков речевого сигнала; извлекают признаки речевого сигнала из набора признаков речевого сигнала; получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, на основании признаков речевого сигнала; вычисляют функцию формирования последовательности фонем путем сравнения последовательности фонем, выявленной из субтитров для речевого сигнала, и последовательности фонем, полученной на основании признаков речевого сигнала; вычисляют анимационные кривые для визем в последовательности визем, полученной на основании признаков речевого сигнала; применяют вычисленные анимационные кривые к заранее заданному набору визем; выявляют траектории перемещения опорных точек лица на заранее заданном наборе визем с примененными вычисленными анимационными кривыми; выявляют траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу; накладывают траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, на заранее заданное нейтральное лицо; вычисляют функцию формирования последовательности визем и функцию вычисления анимационных кривых путем сравнения траекторий перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, наложенных на заранее заданное нейтральное лицо, и выявленных траекторий перемещения опорных точек лица на заранее заданном наборе визем; и вычисляют функцию выбора визем на основании последовательности фонем, полученной на основании признаков речевого сигнала, последовательности визем, полученной на основании признаков речевого сигнала, и вычисленных анимационных кривых.[0014] In an additional aspect, artificial intelligence training comprises the steps of: receiving a set of training data comprising a speech signal, subtitles for the speech signal, and a video signal corresponding to the speech signal; identify the sequence of phonemes from the subtitles for the speech signal; converting the speech signal into a set of features of the speech signal; extracting features of the speech signal from the feature set of the speech signal; receive a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes, based on signs of a speech signal; calculate the function of forming a sequence of phonemes by comparing the sequence of phonemes identified from the subtitles for the speech signal, and the sequence of phonemes obtained on the basis of the characteristics of the speech signal; calculating animation curves for the visemes in the sequence of visemes obtained based on the characteristics of the speech signal; apply the calculated animation curves to a predefined set of visemes; identify the trajectory of the movement of the reference points of the face on a predetermined set of vises with the applied calculated animation curves; identify the trajectory of the movement of the reference points of the face in the video signal corresponding to the speech signal; superimpose the trajectory of the reference points of the face in the video signal corresponding to the speech signal on a predetermined neutral face; calculate the function of forming a sequence of vises and the function of computing animation curves by comparing the paths of movement of the reference points of the face in the video signal corresponding to the speech signal superimposed on a predetermined neutral face, and the identified paths of movement of the reference points of the face on a predetermined set of visas; and calculating the function of selecting visemes based on the sequence of phonemes obtained based on the characteristics of the speech signal, the sequence of visemes obtained on the basis of the characteristics of the speech signal, and the calculated animation curves.

[0015] В другом дополнительном аспекте этап преобразования речевого сигнала в набор признаков речевого сигнала и этап извлечения признаков речевого сигнала из набора признаков речевого сигнала выполняют одним из способа мел–частотных кепстральных коэффициентов (MFCC) или дополнительным предварительно обученным средством искусственного интеллекта.[0015] In another further aspect, the step of converting the speech signal to a set of features of the speech signal and the step of extracting the features of the speech signal from the set of features of the speech signal is performed by one of the method of small-frequency cepstral coefficients (MFCC) or additional pre-trained artificial intelligence tool.

[0016] В еще одном дополнительном аспекте дополнительное предварительно обученное средство искусственного интеллекта является по меньшей мере одним из рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0016] In yet another further aspect, the additional pre-trained artificial intelligence means is at least one of a recurrent neural network, long term short-term memory (LSTM) controlled by a recurrent unit (GRU), modifications thereof, or a combination of any of them.

[0017] В еще одном дополнительном аспекте обученное средство искусственного интеллекта содержит по меньшей мере два блока, при этом первый блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап, на котором получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, путем обработки признаков речевого сигнала, и второй блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап, на котором вычисляют обученным средством искусственного интеллекта анимационные кривые для визем в полученной последовательности визем на основе соответствующих им фонем.[0017] In yet a further aspect, the trained artificial intelligence tool comprises at least two blocks, wherein the first block of the at least two blocks of the trained artificial intelligence tool performs the step of obtaining a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes , by processing the features of the speech signal, and the second block of the at least two blocks of the trained artificial intelligence means performs the stage of calculating animation curves for the visemes in the obtained sequence of visemes using the corresponding phonemes by the trained artificial intelligence means.

[0018] В еще одном дополнительном аспекте первый блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта является по меньшей мере одним из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0018] In yet a further aspect, the first block of the at least two blocks of a trained artificial intelligence tool is at least one of a convolutional neural network, a recurrent neural network, a long short-term memory (LSTM) controlled by a recurrent block (GRU), their modifications or a combination of any of these.

[0019] В еще одном дополнительном аспекте второй блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта является по меньшей мере одним из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0019] In yet a further aspect, the second block of the at least two blocks of the trained artificial intelligence tool mentioned is at least one of a convolutional neural network, a recurrent neural network, long-term short-term memory (LSTM) controlled by a recurrent unit (GRU), their modifications or a combination of any of these.

[0020] В еще одном дополнительном аспекте этап вычисления анимационных кривых для визем в последовательности визем, полученной на основании признаков речевого сигнала выполняют с помощью системы кодирования лицевых движений (FACS).[0020] In yet a further aspect, the step of calculating the animation curves for the visemes in the sequence of visemes obtained based on the characteristics of the speech signal is performed using a facial encoding system (FACS).

[0021] Другой аспект настоящего изобретения обеспечивает электронное вычислительное устройство, содержащее: по меньшей мере один процессор; и память хранящую числовые параметры по меньшей мере одного обученного средства искусственного интеллекта и инструкции, которые при исполнении по меньшей мере одним процессором побуждают по меньшей мере один процессор выполнять способ генерации анимационной модели головы по речевому сигналу.[0021] Another aspect of the present invention provides an electronic computing device, comprising: at least one processor; and a memory storing the numerical parameters of the at least one trained artificial intelligence tool and instructions that, when executed by the at least one processor, cause the at least one processor to perform a method of generating an animated head model from a speech signal.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0022] Вышеописанные и другие аспекты, признаки и преимущества настоящего изобретения будут более понятны из последующего подробного описания, приведенного в сочетании с прилагаемыми чертежами, на которых:[0022] The above and other aspects, features and advantages of the present invention will be more apparent from the following detailed description, taken in conjunction with the accompanying drawings, in which:

[0023] Фиг. 1 – блок–схема, иллюстрирующая электронное вычислительное устройство.[0023] FIG. 1 is a block diagram illustrating an electronic computing device.

[0024] Фиг. 2 – блок–схема последовательности операций, иллюстрирующая предпочтительный вариант осуществления способа генерации анимационной модели головы по речевому сигналу.[0024] FIG. 2 is a flowchart illustrating a preferred embodiment of a method for generating an animated head model from a speech signal.

[0025] В последующем описании, если не указано иное, одинаковые ссылочные позиции используются для одинаковых элементов, когда они изображены на разных чертежах, и их параллельное описание не приводится.[0025] In the following description, unless otherwise indicated, the same reference numbers are used for the same elements when they are depicted in different drawings, and their parallel description is not given.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF EMBODIMENTS OF THE PRESENT INVENTION

[0026] Нижеследующее описание со ссылкой прилагаемые чертежи приведено, чтобы облегчить полное понимание различных вариантов осуществления настоящего изобретения, заданного формулой изобретения, и его эквивалентов. Описание включает в себя различные конкретные подробности, чтобы облегчить такое понимание, но данные подробности следует считать только примерными. Соответственно, специалисты в данной области техники обнаружат, что можно разработать различные изменения и модификации различных вариантов осуществления, описанных в настоящей заявке, без выхода за пределы объема настоящего изобретения. Кроме того, описания общеизвестных функций и конструкций могут быть исключены для ясности и краткости.[0026] The following description with reference to the accompanying drawings is provided in order to facilitate a thorough understanding of various embodiments of the present invention defined by the claims and its equivalents. The description includes various specific details to facilitate such an understanding, but these details should be considered only exemplary. Accordingly, those skilled in the art will find that various changes and modifications to the various embodiments described herein can be developed without departing from the scope of the present invention. In addition, descriptions of well-known functions and constructions may be omitted for clarity and conciseness.

[0027] Термины и формулировки, используемые в последующем описании и формуле изобретения не ограничены библиографическим значениями, а просто использованы создателем настоящего изобретения, чтобы обеспечить четкое и последовательное понимание настоящего изобретения. Соответственно, специалистам в данной области техники должно быть ясно, что последующее описание различных вариантов осуществления настоящего изобретения предлагается только для иллюстрации.[0027] The terms and wording used in the following description and claims are not limited to bibliographic meanings, but simply used by the creator of the present invention to provide a clear and consistent understanding of the present invention. Accordingly, it should be apparent to those skilled in the art that the following description of various embodiments of the present invention is provided for illustration only.

[0028] Следует понимать, что формы единственного числа включают в себя множественность, если контекст явно не указывает иное.[0028] It should be understood that the singular forms include the plural, unless the context clearly indicates otherwise.

[0029] Дополнительно следует понимать, что термины «содержит», «содержащий», «включает в себя» и/или «включающий в себя», при использовании в настоящей заявке, означают присутствие изложенных признаков, значений, операций, элементов и/или компонентов, но не исключают присутствия или добавления одного или более других признаков, значений, операций, элементов, компонентов и/или их групп.[0029] Additionally, it should be understood that the terms “comprises,” “comprising,” “includes” and / or “including,” as used herein, mean the presence of the features, meanings, operations, elements, and / or components, but do not exclude the presence or addition of one or more other features, values, operations, elements, components and / or groups thereof.

[0030] В дальнейшем, различные варианты осуществления настоящего изобретения описаны более подробно со ссылкой на прилагаемые чертежи.[0030] Hereinafter, various embodiments of the present invention are described in more detail with reference to the accompanying drawings.

[0030] На фиг.1 показана блок–схема, иллюстрирующая электронное вычислительное устройство 100, способное выполнять генерацию анимационной модели головы по речевому сигналу.[0030] FIG. 1 is a block diagram illustrating an electronic computing device 100 capable of generating an animated head model from a speech signal.

[0031] Электронное вычислительное устройство 100 включает в себя по меньшей мере один процессор 101 и память 102. Память 102 хранит числовые параметры по меньшей мере одного обученного средства искусственного интеллекта. Память 102 также хранит инструкции, которые при исполнении по меньшей мере одним процессором 101 побуждают по меньшей мере один процессор 101 выполнять способ генерации анимационной модели головы по речевому сигналу.[0031] The electronic computing device 100 includes at least one processor 101 and a memory 102. Memory 102 stores numerical parameters of at least one trained artificial intelligence tool. The memory 102 also stores instructions that, when executed by at least one processor 101, cause the at least one processor 101 to perform a method of generating an animated head model from a speech signal.

[0032] Электронное вычислительное устройство 100 может быть любым вычислительным устройством, например, таким как смартфон, мобильный телефон, настольный компьютер, ноутбук, игровая приставка, диктофон, портативный музыкальный проигрыватель и т.д. [0032] The electronic computing device 100 may be any computing device, such as, for example, a smartphone, mobile phone, desktop computer, laptop, game console, voice recorder, portable music player, etc.

[0033] На фиг.2 показана блок–схема последовательности операций, иллюстрирующая предпочтительный вариант осуществления способа генерации анимационной модели головы по речевому сигналу.[0033] FIG. 2 is a flowchart illustrating a preferred embodiment of a method for generating an animated head model from a speech signal.

[0034] Способ генерации анимационной модели головы по речевому сигналу выполняется электронным вычислительным устройством 100, содержащим один или более процессоров и память.[0034] A method for generating an animation model of a head from a speech signal is performed by an electronic computing device 100 comprising one or more processors and a memory.

[0035] На этапе 201 электронное вычислительное устройство 100 принимает речевой сигнал. Речевой сигнал может быть принят из любого доступного источника, такого как Интернет, телевизионная или радио передача, смартфон, мобильный телефон, диктофон, настольный компьютер, ноутбук и т.д. [0035] At step 201, the electronic computing device 100 receives a speech signal. The speech signal can be received from any available source, such as the Internet, television or radio transmission, smartphone, mobile phone, voice recorder, desktop computer, laptop, etc.

[0036] На этапе 202 речевой сигнал, принятый на этапе 201, преобразуют в набор признаков речевого сигнала. На этапе 203 из набора признаков речевого сигнала, полученного на этапе 202, извлекают признаки речевого сигнала. Преобразование речевого сигнала в набор признаков речевого сигнала и извлечение признаков речевого сигнала из набора признаков речевого сигнала может быть выполнено любым подходящим способом. [0036] In step 202, the speech signal received in step 201 is converted to a feature set of the speech signal. At step 203, the features of the speech signal are extracted from the set of features of the speech signal obtained at step 202. Converting a speech signal to a set of features of a speech signal and extracting features of a speech signal from a set of features of a speech signal can be performed in any suitable way.

[0037] В одном из вариантов осуществления этапы 202 и 203 выполняют способом мел–частотных кепстральных коэффициентов (MFCC). Поскольку способ MFCC известен в уровне техники, его подробное описание опущено. [0037] In one embodiment, steps 202 and 203 are performed by the method of Chalk Frequency Cepstral Coefficients (MFCC). Since the MFCC method is known in the art, a detailed description thereof is omitted.

[0038] В другом из вариантов осуществления этапы 202 и 203 выполняют дополнительным предварительно обученным средством искусственного интеллекта, которое сохранено в памяти электронного вычислительного устройства 100. Дополнительным предварительно обученным средством искусственного интеллекта может быть по меньшей мере одно из рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемого рекуррентного блока (GRU) и их модификациями. Дополнительным предварительно обученным средством искусственного интеллекта также может быть комбинация любых из выщеприведенных средств искусственного интеллекта. [0038] In another embodiment, steps 202 and 203 are performed by an additional pre-trained artificial intelligence tool that is stored in the memory of the electronic computing device 100. The additional pre-trained artificial intelligence tool may be at least one of a recurrent neural network, long-term short-term memory ( LSTM) controlled by the recurrence block (GRU) and their modifications. A combination of any of the above artificial intelligence tools may also be an additional pre-trained artificial intelligence tool.

[0039] На этапе 204 обученное средство искусственного интеллекта обрабатывает признаки речевого сигнала, полученные на этапе 203, для получения последовательности фонем и последовательности визем, соответствующих фонемам в последовательности фонем. На этапе 205 обученное средство искусственного интеллекта вычисляет анимационные кривые для визем в последовательности визем, полученной на этапе 204, на основе соответствующих им фонем. Анимационные кривые задают параметры движения лица в анимации и длительность анимации визем.[0039] In step 204, the trained artificial intelligence tool processes the features of the speech signal obtained in step 203 to obtain a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes. In step 205, the trained artificial intelligence tool calculates the animation curves for the visemes in the sequence of visemes obtained in step 204 based on their respective phonemes. Animation curves set the face movement parameters in the animation and the duration of the viseme animation.

[0040] В одном из вариантов осуществления обученное средство искусственного интеллекта содержит по меньшей мере два блока. Первый блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап 204, а второй блок из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап 205.[0040] In one embodiment, the trained artificial intelligence tool comprises at least two blocks. The first block of the at least two blocks of the trained artificial intelligence tool performs step 204, and the second block of the mentioned at least two blocks of the trained artificial intelligence tool performs step 205.

[0041] Первым блоком из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта может быть по меньшей мере одно из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0041] The first block of the at least two blocks of a trained artificial intelligence tool may be at least one of a convolutional neural network, a recurrent neural network, long-term short-term memory (LSTM) controlled by a recurrent block (GRU), modifications thereof, or a combination of any of them.

[0042] Вторым блоком из упомянутых меньшей мере двух блоков обученного средства искусственного интеллекта может быть по меньшей мере одно из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.[0042] The second block of the at least two blocks of a trained artificial intelligence tool may be at least one of a convolutional neural network, a recurrent neural network, long-term short-term memory (LSTM) controlled by a recurrent unit (GRU), modifications thereof, or a combination of any of them.

[0043] На этапе 206 последовательность фонем и последовательность визем, полученные на этапе 204, объединяют путем наложения полученной последовательности фонем и полученной последовательности визем друг на друга с учетом анимационных кривых, вычисленных на этапе 205. В объединенной последовательности фонем и визем каждой фонеме в объединенной последовательности сопоставлена соответственная визема. Длительность каждой фонемы и сопоставленной соответственной виземы в объединенной последовательности, задается анимационной кривой для данной виземы. [0043] At step 206, the sequence of phonemes and the sequence of visemes obtained at step 204 are combined by superposing the obtained sequence of phonemes and the obtained sequence of visemes on top of each other, taking into account the animation curves calculated at step 205. In the combined sequence of phonemes and visemes, each phoneme in the combined the sequence is matched by the corresponding viseme. The duration of each phoneme and associated corresponding viseme in a combined sequence is set by the animation curve for this viseme.

[0044] На этапе 207 формируют анимацию модели головы путем анимации визем в объединенной последовательности фонем и визем с использованием параметров движения лица и длительности анимации визем, заданных анимационными кривыми, вычисленными на этапе 205.[0044] In step 207, an animation of the head model is generated by animating the visemes in a combined sequence of phonemes and visemes using the face movement parameters and the duration of the viseme animation defined by the animation curves calculated in step 205.

[0045] Числовые параметры обученного средства искусственного интеллекта и дополнительного обученного средства искусственного интеллекта могут быть приняты из любого доступного источника, такого как Интернет, настольный компьютер, ноутбук и т.д., и сохранены в памяти 102 электронного вычислительного устройства 100. Средство искусственного интеллекта и дополнительное средство искусственного интеллекта также может быть обучено в электронном вычислительном устройстве 100. [0045] The numerical parameters of the trained artificial intelligence tool and the additional trained artificial intelligence tool can be taken from any available source, such as the Internet, a desktop computer, a laptop, etc., and stored in the memory 102 of the electronic computing device 100. The artificial intelligence tool and an additional artificial intelligence tool can also be trained in electronic computing device 100.

[0046] Обучение средства искусственного интеллекта выполняют на наборе обучающих данных, который содержит речевой сигнал, субтитры для речевого сигнала и видеосигнал, соответствующий речевому сигналу. Такой набор обучающих данных может быть принят из любого доступного источника, такого как Интернет, телевизионная передача, смартфон, мобильный телефон, диктофон, настольный компьютер, ноутбук и т.д. Затем речевой сигнал, субтитры для речевого сигнала и видеосигнал отдельно обрабатывают. Обработка речевого сигнала, обработка субтитров для речевого сигнала и обработка видеосигнала может выполняться как параллельно, так и последовательно в зависимости от компоновки электронного вычислительного устройства 100 и его вычислительной способности. [0046] The artificial intelligence training is performed on a training data set that contains a speech signal, subtitles for the speech signal, and a video signal corresponding to the speech signal. Such a set of training data can be received from any available source, such as the Internet, television transmission, smartphone, mobile phone, voice recorder, desktop computer, laptop, etc. Then, the speech signal, subtitles for the speech signal, and the video signal are separately processed. The processing of the speech signal, the processing of subtitles for the speech signal and the processing of the video signal can be performed both in parallel and sequentially depending on the layout of the electronic computing device 100 and its computing ability.

[0047] Из субтитров для речевого сигнала выявляют последовательность фонем. Эта операция может быть выполнена любым известным способом, поэтому подробное описание этой операции опущено. [0047] A sequence of phonemes is detected from the subtitles for the speech signal. This operation can be performed in any known manner, therefore, a detailed description of this operation is omitted.

[0048] Речевой сигнал преобразуют в набор признаков речевого сигнала, и затем извлекают признаки речевого сигнала из набора признаков речевого сигнала. Как и для генерации анимационной модели головы по речевому сигналу преобразование речевого сигнала в набор признаков речевого сигнала и извлечение признаков речевого сигнала из набора признаков речевого сигнала может быть выполнено любым подходящим способом.[0048] The speech signal is converted into a feature set of the speech signal, and then features of the speech signal are extracted from the feature set of the speech signal. As for generating an animation model of the head from a speech signal, converting the speech signal to a set of features of a speech signal and extracting features of a speech signal from a set of features of a speech signal can be performed in any suitable way.

[0049] Последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, получают средством искусственного интеллекта на основании признаков речевого сигнала. [0049] The sequence of phonemes and the sequence of visemes corresponding to phonemes in the sequence of phonemes are obtained by artificial intelligence based on the characteristics of the speech signal.

[0050] Для того, чтобы обученное средство искусственного интеллекта могло формировать последовательность фонем, средство искусственного интеллекта обучают функции формирования последовательности фонем. Функцию формирования последовательности фонем вычисляют с использованием функции потерь путем сравнения последовательности фонем, выявленной из субтитров для речевого сигнала, и последовательности фонем, полученной на основании признаков речевого сигнала. Функция потерь является известной функцией, поэтому подробное описание этой операции опущено.[0050] In order for the trained artificial intelligence tool to form a sequence of phonemes, the artificial intelligence tool is trained in the formation of a sequence of phonemes. The formation function of the phoneme sequence is calculated using the loss function by comparing the sequence of phonemes detected from the subtitles for the speech signal and the sequence of phonemes obtained based on the characteristics of the speech signal. The loss function is a known function, therefore, a detailed description of this operation is omitted.

[0051] Анимационные кривые для визем в последовательности визем, полученной на основании признаков речевого сигнала, могут быть вычислены с помощью системы кодирования лицевых движений (FACS). Однако настоящее изобретение не ограничено только применением FACS для вычисления анимационных кривых. Для вычисления анимационных кривых могут быть использованы любые подходящие способы. [0051] Animation curves for visemes in the sequence of visemes obtained based on the characteristics of the speech signal can be calculated using the facial encoding system (FACS). However, the present invention is not limited only to the use of FACS for computing animation curves. Any suitable methods may be used to calculate animation curves.

[0052] Вычисленные анимационные кривые применяют к заранее заданному набору визем. Анимационные кривые задают параметры движения лица в анимации и длительность анимации визем. Применение анимационных кривых к заранее заданному набору визем вызывает анимацию/движение визем. [0052] The calculated animation curves are applied to a predefined set of visemes. Animation curves set the parameters for the movement of the face in the animation and the duration of the viseme animation. Applying animation curves to a predefined set of visemes causes the visems to animate / move.

[0053] Затем выявляют траектории перемещения опорных точек лица на заранее заданном наборе визем с примененными вычисленными анимационными кривыми. Опорные точки лица выявляют детектором опорных точек лица. Детектор опорных точек лица может быть любым известным детектором. Параметры движения, заданные анимационными кривыми, задают анимацию/движение визем и, следовательно, траектории перемещения опорных точек лица. [0053] Then, the trajectories of the reference points of the face on a predetermined set of vises with the calculated calculated animation curves are detected. Reference points of the face are detected by the detector of reference points of the face. The face reference point detector may be any known detector. The motion parameters specified by the animation curves define the animation / movement of the vises and, therefore, the trajectories of the movement of the reference points of the face.

[0054] Траектории перемещения опорных точек лица также выявляют в видеосигнале, соответствующем речевому сигналу. Опорные точки лица выявляют также, как и в описанной выше операции выявления траектории перемещения опорных точек лица на заранее заданном наборе визем. Затем при воспроизведении видеосигнала с выявленными опорными точками лица выявляют траектории перемещения опорных точек лица путем отслеживания перемещения опорных точек. [0054] The trajectories of the reference points of the face are also detected in the video signal corresponding to the speech signal. The reference points of the face are identified as in the above-described operation of detecting the trajectory of the movement of the reference points of the face on a predefined set of visemes. Then, when playing a video signal with detected reference points of the face, the trajectories of the movement of the reference points of the face are detected by tracking the movement of the reference points.

[0055] Выявленные траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, накладывают на заранее заданное нейтральное лицо.[0055] The detected trajectories of the movement of the reference points of the face in the video signal corresponding to the speech signal are superimposed on a predetermined neutral face.

[0056] Для того, чтобы обученное средство искусственного интеллекта могло формировать последовательность визем и вычислять анимационные кривые, средство искусственного интеллекта обучают функции формирования последовательности визем и функции вычисления анимационных кривых. Функцию формирования последовательности визем и функцию вычисления анимационных кривых вычисляют с использованием функции потерь путем сравнения траекторий перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, наложенных на заранее заданное нейтральное лицо, и выявленных траекторий перемещения опорных точек лица на заранее заданном наборе визем. Функция потерь является известной функцией, поэтому подробное описание этой операции опущено. [0056] In order for the trained artificial intelligence tool to form a sequence of visemes and calculate animation curves, the artificial intelligence tool is trained in the functions of forming a sequence of visemes and the functions of computing animation curves. The function of forming a sequence of vises and the function of computing animation curves are calculated using the loss function by comparing the paths of movement of the reference points of the face in the video signal corresponding to the speech signal superimposed on a predetermined neutral face, and the identified paths of movement of the reference points of the face on a predetermined set of vises. The loss function is a known function, therefore, a detailed description of this operation is omitted.

[0057] Существуют похожие виземы, которые могут частично соответствовать одной фонеме, поэтому средство искусственного интеллекта обучают для правильного выбора виземы для каждой фонемы. Функцию выбора визем для обученного средства искусственного интеллекта вычисляют с использованием метода регуляризации на основании последовательности фонем, полученной на основании признаков речевого сигнала, последовательности визем, полученной на основании признаков речевого сигнала, и вычисленных анимационных кривых. Регуляризация, как метод решения некорректно поставленной задачи или предотвращения переобучения, является известным методом, поэтому подробное описание этой операции опущено. [0057] There are similar visemes that may partially correspond to one phoneme, therefore, the artificial intelligence tool is trained to select the correct viseme for each phoneme. The function of selecting the visemes for the trained artificial intelligence tool is calculated using the regularization method based on the sequence of phonemes obtained on the basis of the characteristics of the speech signal, the sequence of visemes obtained on the basis of the characteristics of the speech signal, and the calculated animation curves. Regularization, as a method of solving an incorrectly posed problem or preventing retraining, is a well-known method, therefore, a detailed description of this operation is omitted.

[0058] Способ, раскрытый в данной заявке, может быть реализован посредством по меньшей мере одного процессора, интегральной схемы специального назначения (ASIC), программируемой пользователем вентильной матрицы (FPGA), или как система на кристалле (SoC). Кроме того, способ, раскрытый в данной заявке, может быть реализован посредством считываемого компьютером носителя, на котором хранятся числовые параметры множества обученных интеллектуальных систем и исполняемые компьютером инструкции, которые, при исполнении процессором компьютера, побуждают компьютер к выполнению раскрытого способа. Обученное средство искусственного интеллекта и инструкции по выполнению заявленного способа могут быть загружены в мобильное устройство по сети или с носителя.[0058] The method disclosed herein may be implemented by at least one processor, a special purpose integrated circuit (ASIC), a field programmable gate array (FPGA), or as a system on a chip (SoC). In addition, the method disclosed in this application may be implemented by a computer-readable medium that stores the numerical parameters of a plurality of trained intelligent systems and computer-executable instructions that, when executed by a computer processor, cause the computer to perform the disclosed method. A trained artificial intelligence tool and instructions for implementing the claimed method can be downloaded to a mobile device via a network or from a medium.

[0059] Вышеприведенные описания вариантов осуществления изобретения являются иллюстративными, и модификации конфигурации и реализации не выходят за пределы объема настоящего описания. Например, хотя варианты осуществления изобретения описаны, в общем, в связи с фигурами 1–2, приведенные описания являются примерными. Хотя предмет изобретения описан на языке, характерном для конструктивных признаков или методологических операций, понятно, что предмет изобретения, определяемый прилагаемой формулой изобретения, не обязательно ограничен конкретными вышеописанными признаками или операциями. Более того, конкретные вышеописанные признаки и операции раскрыты как примерные формы реализации формулы изобретения. Изобретение не ограничено также показанным порядком этапов способа, порядок может быть видоизменен специалистом без новаторских нововведений. Некоторые или все этапы способа могут выполняться последовательно или параллельно.[0059] The above descriptions of embodiments of the invention are illustrative, and modifications to the configuration and implementation are not beyond the scope of the present description. For example, although embodiments of the invention have been described generally in connection with figures 1-2, the descriptions given are exemplary. Although the subject matter of the invention is described in a language characteristic of design features or methodological operations, it is understood that the subject matter of the appended claims is not necessarily limited to the specific features or operations described above. Moreover, the specific features and operations described above are disclosed as exemplary forms of implementing the claims. The invention is not limited also to the shown order of the steps of the method, the order can be modified by a specialist without innovative innovations. Some or all of the steps of the method may be performed sequentially or in parallel.

[0060] Соответственно предполагается, что объем варианта осуществления изобретения ограничивается только нижеследующей формулой изобретения.[0060] Accordingly, it is contemplated that the scope of an embodiment of the invention is limited only by the following claims.

Claims (32)

1. Способ генерации анимационной модели головы по речевому сигналу, при этом упомянутый способ выполняется одним или более процессорами и содержит этапы, на которых:1. A method of generating an animated head model from a speech signal, wherein said method is performed by one or more processors and comprises the steps of: принимают речевой сигнал;receive a speech signal; преобразуют речевой сигнал в набор признаков речевого сигнала; converting the speech signal into a set of features of the speech signal; извлекают признаки речевого сигнала из набора признаков речевого сигнала;extracting features of the speech signal from the feature set of the speech signal; получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, путем обработки признаков речевого сигнала обученным средством искусственного интеллекта;receive a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes by processing the features of a speech signal with a trained artificial intelligence tool; вычисляют обученным средством искусственного интеллекта анимационные кривые для визем в полученной последовательности визем на основе соответствующих им фонем;animated curves for visemes in the obtained sequence of visemes are calculated by the trained artificial intelligence tool based on the corresponding phonemes; объединяют полученную последовательность фонем и полученную последовательность визем путем наложения полученной последовательности фонем и полученной последовательности визем друг на друга с учетом вычисленных анимационных кривых; иcombine the obtained sequence of phonemes and the obtained sequence of visemes by superposing the obtained sequence of phonemes and the obtained sequence of visemes on each other taking into account the calculated animation curves; and формируют анимацию модели головы путем анимации визем в объединенной последовательности фонем и визем с использованием вычисленных анимационных кривых.form an animation of the head model by animating visemes in a combined sequence of phonemes and visemes using the calculated animation curves. 2. Способ по п.1, в котором обучение средства искусственного интеллекта содержит этапы, на которых:2. The method according to claim 1, in which the training of artificial intelligence contains the steps in which: принимают набор обучающих данных, содержащий речевой сигнал, субтитры для речевого сигнала и видеосигнал, соответствующий речевому сигналу;receiving a training data set comprising a speech signal, subtitles for the speech signal, and a video signal corresponding to the speech signal; выявляют последовательность фонем из субтитров для речевого сигнала;identify the sequence of phonemes from the subtitles for the speech signal; преобразуют речевой сигнал в набор признаков речевого сигнала; converting the speech signal into a set of features of the speech signal; извлекают признаки речевого сигнала из набора признаков речевого сигнала;extracting features of the speech signal from the feature set of the speech signal; получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, на основании признаков речевого сигнала;receive a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes, based on signs of a speech signal; вычисляют функцию формирования последовательности фонем путем сравнения последовательности фонем, выявленной из субтитров для речевого сигнала, и последовательности фонем, полученной на основании признаков речевого сигнала;calculate the function of forming a sequence of phonemes by comparing the sequence of phonemes identified from the subtitles for the speech signal, and the sequence of phonemes obtained on the basis of the characteristics of the speech signal; вычисляют анимационные кривые для визем в последовательности визем, полученной на основании признаков речевого сигнала;calculating animation curves for the visemes in the sequence of visemes obtained based on the characteristics of the speech signal; применяют вычисленные анимационные кривые к заранее заданному набору визем;apply the calculated animation curves to a predefined set of visemes; выявляют траектории перемещения опорных точек лица на заранее заданном наборе визем с примененными вычисленными анимационными кривыми;identify the trajectory of the movement of the reference points of the face on a predetermined set of vises with the applied calculated animation curves; выявляют траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу;identify the trajectory of the movement of the reference points of the face in the video signal corresponding to the speech signal; накладывают траектории перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, на заранее заданное нейтральное лицо;superimpose the trajectory of the reference points of the face in the video signal corresponding to the speech signal on a predetermined neutral face; вычисляют функцию формирования последовательности визем и функцию вычисления анимационных кривых путем сравнения траекторий перемещения опорных точек лица в видеосигнале, соответствующем речевому сигналу, наложенных на заранее заданное нейтральное лицо, и выявленных траекторий перемещения опорных точек лица на заранее заданном наборе визем; иcalculate the function of forming a sequence of vises and the function of computing animation curves by comparing the paths of movement of the reference points of the face in the video signal corresponding to the speech signal superimposed on a predetermined neutral face, and the identified paths of movement of the reference points of the face on a predetermined set of visas; and вычисляют функцию выбора визем на основании последовательности фонем, полученной на основании признаков речевого сигнала, последовательности визем, полученной на основании признаков речевого сигнала, и вычисленных анимационных кривых.the function of selecting the visemes is calculated based on the sequence of phonemes obtained based on the characteristics of the speech signal, the sequence of visemes obtained on the basis of the characteristics of the speech signal, and the calculated animation curves. 3. Способ по п.1 или 2, в котором этап преобразования речевого сигнала в набор признаков речевого сигнала и этап извлечения признаков речевого сигнала из набора признаков речевого сигнала выполняют одним из способа мел–частотных кепстральных коэффициентов (MFCC) или дополнительным предварительно обученным средством искусственного интеллекта.3. The method according to claim 1 or 2, in which the step of converting the speech signal into a set of features of the speech signal and the step of extracting the features of the speech signal from the set of features of the speech signal is performed by one of the method of shallow-frequency cepstral coefficients (MFCC) or additional pre-trained artificial intelligence. 4. Способ по п.3, в котором дополнительное предварительно обученное средство искусственного интеллекта является по меньшей мере одним из рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.4. The method according to claim 3, in which the additional pre-trained artificial intelligence means is at least one of a recurrent neural network, long-term short-term memory (LSTM), controlled by a recurrent unit (GRU), their modifications, or a combination of any of them. 5. Способ по п.1, в котором обученное средство искусственного интеллекта содержит по меньшей мере два блока, 5. The method according to claim 1, in which the trained artificial intelligence tool contains at least two blocks, при этом первый блок из упомянутых по меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап, на котором получают последовательность фонем и последовательность визем, соответствующих фонемам в последовательности фонем, путем обработки признаков речевого сигнала, и второй блок из упомянутых по меньшей мере двух блоков обученного средства искусственного интеллекта выполняет этап, на котором вычисляют обученным средством искусственного интеллекта анимационные кривые для визем в полученной последовательности визем на основе соответствующих им фонем.wherein the first block of said at least two blocks of trained artificial intelligence means performs the stage of obtaining a sequence of phonemes and a sequence of visemes corresponding to phonemes in a sequence of phonemes by processing the features of a speech signal, and a second block of the said at least two blocks of trained artificial intelligence tools performs the stage at which the animated curves for the visemes in the obtained sequence of visemes are calculated on the basis of the corresponding phonemes using the trained artificial intelligence tool. 6. Способ по п.5, в котором первый блок из упомянутых по меньшей мере двух блоков обученного средства искусственного интеллекта является по меньшей мере одним из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.6. The method according to claim 5, in which the first block of the at least two blocks of the trained artificial intelligence means is at least one of a convolutional neural network, a recurrent neural network, a long short-term memory (LSTM) controlled by a recurrent unit (GRU) , their modifications or a combination of any of them. 7. Способ по п.5, в котором второй блок из упомянутых по меньшей мере двух блоков обученного средства искусственного интеллекта является по меньшей мере одним из сверточной нейронной сети, рекуррентной нейронной сети, долгой краткосрочной памяти (LSTM), управляемым рекуррентным блоком (GRU), их модификациями или комбинацией любых из них.7. The method according to claim 5, in which the second block of the at least two blocks of the trained artificial intelligence means is at least one of a convolutional neural network, a recurrent neural network, a long short-term memory (LSTM) controlled by a recurrent unit (GRU) , their modifications or a combination of any of them. 8. Способ по п.2, в котором этап вычисления анимационных кривых для визем в последовательности визем, полученной на основании признаков речевого сигнала выполняют с помощью системы кодирования лицевых движений (FACS).8. The method according to claim 2, in which the step of calculating the animation curves for the visemes in the sequence of visemes obtained based on the characteristics of the speech signal is performed using a facial encoding system (FACS). 9. Электронное вычислительное устройство, содержащее:9. An electronic computing device containing: по меньшей мере один процессор; иat least one processor; and память, хранящую числовые параметры по меньшей мере одного обученного средства искусственного интеллекта и инструкции, которые при исполнении по меньшей мере одним процессором побуждают по меньшей мере один процессор выполнять способ генерации анимационной модели головы по речевому сигналу по любому из пп. 1–8.a memory that stores the numerical parameters of at least one trained artificial intelligence tool and instructions that, when executed by at least one processor, cause the at least one processor to perform a method of generating an animated head model from a speech signal according to any one of claims. 1-8.
RU2019139078A 2019-12-02 2019-12-02 Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it RU2721180C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2019139078A RU2721180C1 (en) 2019-12-02 2019-12-02 Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it
KR1020200089852A KR20210070169A (en) 2019-12-02 2020-07-20 Method for generating a head model animation from a speech signal and electronic device implementing the same
PCT/KR2020/009663 WO2021112365A1 (en) 2019-12-02 2020-07-22 Method for generating head model animation from voice signal, and electronic device for implementing same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019139078A RU2721180C1 (en) 2019-12-02 2019-12-02 Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it

Publications (1)

Publication Number Publication Date
RU2721180C1 true RU2721180C1 (en) 2020-05-18

Family

ID=70735302

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019139078A RU2721180C1 (en) 2019-12-02 2019-12-02 Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it

Country Status (2)

Country Link
KR (1) KR20210070169A (en)
RU (1) RU2721180C1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2757563C1 (en) * 2021-02-19 2021-10-18 Самсунг Электроникс Ко., Лтд. Method for visualizing a 3d portrait of a person with altered lighting and a computing device for it
US11823327B2 (en) 2020-11-19 2023-11-21 Samsung Electronics Co., Ltd. Method for rendering relighted 3D portrait of person and computing device for the same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230394732A1 (en) * 2022-06-06 2023-12-07 Samsung Electronics Co., Ltd. Creating images, meshes, and talking animations from mouth shape data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
DE102004059051A1 (en) * 2004-12-07 2006-06-08 Deutsche Telekom Ag Virtual figure and avatar representing method for audiovisual multimedia communication, involves forming parameters according to preset control parameter, and representing animated model on display device in dependence of control parameter
US20090184967A1 (en) * 1999-05-21 2009-07-23 Kulas Charles J Script control for lip animation in a scene generated by a computer rendering engine
RU2013158054A (en) * 2011-07-01 2015-08-10 Долби Лабораторис Лайсэнзин Корпорейшн SYSTEM AND METHOD FOR GENERATING, CODING AND REPRESENTATION OF ADAPTIVE AUDIO SIGNAL DATA
US20180174348A1 (en) * 2016-06-23 2018-06-21 LoomAi, Inc. Systems and Methods for Animating Models from Audio Data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090184967A1 (en) * 1999-05-21 2009-07-23 Kulas Charles J Script control for lip animation in a scene generated by a computer rendering engine
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
DE102004059051A1 (en) * 2004-12-07 2006-06-08 Deutsche Telekom Ag Virtual figure and avatar representing method for audiovisual multimedia communication, involves forming parameters according to preset control parameter, and representing animated model on display device in dependence of control parameter
RU2013158054A (en) * 2011-07-01 2015-08-10 Долби Лабораторис Лайсэнзин Корпорейшн SYSTEM AND METHOD FOR GENERATING, CODING AND REPRESENTATION OF ADAPTIVE AUDIO SIGNAL DATA
US20180174348A1 (en) * 2016-06-23 2018-06-21 LoomAi, Inc. Systems and Methods for Animating Models from Audio Data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823327B2 (en) 2020-11-19 2023-11-21 Samsung Electronics Co., Ltd. Method for rendering relighted 3D portrait of person and computing device for the same
RU2757563C1 (en) * 2021-02-19 2021-10-18 Самсунг Электроникс Ко., Лтд. Method for visualizing a 3d portrait of a person with altered lighting and a computing device for it

Also Published As

Publication number Publication date
KR20210070169A (en) 2021-06-14

Similar Documents

Publication Publication Date Title
Lahiri et al. Lipsync3d: Data-efficient learning of personalized 3d talking faces from video using pose and lighting normalization
Wang et al. One-shot talking face generation from single-speaker audio-visual correlation learning
Olszewski et al. High-fidelity facial and speech animation for VR HMDs
US11551393B2 (en) Systems and methods for animation generation
US12033259B2 (en) Photorealistic talking faces from audio
WO2021248473A1 (en) Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses
US20200234690A1 (en) Text and audio-based real-time face reenactment
RU2721180C1 (en) Method for generating an animation model of a head based on a speech signal and an electronic computing device which implements it
TWI766499B (en) Method and apparatus for driving interactive object, device and storage medium
CN113228163B (en) Real-time text and audio based face rendering
CN113272870A (en) System and method for realistic real-time portrait animation
CN110874557A (en) Video generation method and device for voice-driven virtual human face
CN112967212A (en) Virtual character synthesis method, device, equipment and storage medium
WO2021196646A1 (en) Interactive object driving method and apparatus, device, and storage medium
CN111459452B (en) Driving method, device and equipment of interaction object and storage medium
WO2021196644A1 (en) Method, apparatus and device for driving interactive object, and storage medium
CN110910479A (en) Video processing method and device, electronic equipment and readable storage medium
CN115049016A (en) Model driving method and device based on emotion recognition
JP2015038725A (en) Utterance animation generation device, method, and program
CN116828129B (en) Ultra-clear 2D digital person generation method and system
Ravichandran et al. Synthesizing photorealistic virtual humans through cross-modal disentanglement
Heisler et al. Making an android robot head talk
Barve et al. Synchronized Speech and Video Synthesis
JP2001034785A (en) Virtual transformation device
Kumar et al. Multi modal adaptive normalization for audio to video generation