IA et voix DNE/TN2

Quels sont les utilisations de l'intelligence artificielle pour l'utilisation de la voix en contexte d'éducation.

Iniziamo. È gratuito!
o registrati con il tuo indirizzo email
IA et voix DNE/TN2 da Mind Map: IA et voix DNE/TN2

1. Quelles stratégies pour la DNE ?

1.1. contribuer à faire émerger un acteur français spécialisé

1.1.1. lequel ?

1.1.1.1. chercher sur VoiceTech ?

1.1.2. sur le NLU ?

1.1.3. sur la synthèse vocale ?

1.2. soutenir une initiative coordonnée franco-française

1.2.1. Le VoiceLab

1.2.1.1. labos

1.2.1.2. startups

1.2.1.3. entreprises

1.2.2. 5 M€ déja mobilisé

1.2.2.1. Préfet Vedel

1.2.2.2. Plan IA

1.2.3. actuellement pas d'action spécifique

1.2.3.1. voix d'enfant

1.2.3.2. vers la edtech

1.3. conforter un champion européen

1.3.1. SoapBox lab?

1.3.1.1. 12 M€ levé

1.3.1.2. 12 ans d'expérience

1.3.1.3. "Pure player"

1.3.2. autre ?

1.4. espérer une solution libre

1.4.1. Mozilla Common Voice

1.4.2. Mozilla DeepSpeech

1.4.3. la soutenir fortement ?

1.4.4. organiser un plan de collecte avec écoles et établissement ?

1.5. utiliser les services des grands acteurs

1.5.1. utiliser les API disponibles

1.5.1.1. dans les OS

1.5.1.2. en ligne via SaaS

1.5.2. au moins en phase de mise au point

1.5.3. ou pour gérer des parties non spécifiques

1.6. laisser faire le chacun pour soi

1.6.1. constaté aujourd'hui

1.6.2. petits projets

1.6.3. sans pure player français

1.6.4. laboratoires intéressés par la... recherche

1.6.5. pas d'universalité des jeux de données

1.6.6. conforter le "mode bidouille"

2. Les projets suivis DNE

2.1. P2IA

2.1.1. Mathia

2.1.1.1. interface vocale

2.1.1.1.1. maison

2.1.2. Kaligo

2.1.2.1. analyse de la lecture

2.1.2.1.1. maison

2.1.3. Lalilo

2.1.3.1. analyse de la lecture

2.1.3.1.1. maison

2.2. Captain Kelly

2.2.1. interface vocale

2.2.1.1. API Android

2.3. EduUp

2.3.1. Glose Education

2.3.1.1. analyse de la fluence

2.3.1.2. score de textes

2.3.1.3. maison

2.3.2. Cahier numérique Cantoo

2.3.2.1. API OS

2.3.2.2. TTS et STT

2.3.3. GraphoNemo ?

2.3.4. Lilemo ?

2.3.5. autres projets refusés

2.3.5.1. ??

2.4. Autres

2.4.1. EFran projet Metal

2.4.1.1. tête parlante avec correspondance lecture labiale et phonèmes procnoncés en allemand et en français

2.5. Projets non suivis directement

2.5.1. Authôt

2.5.2. VocaCoach

3. De quoi parle t'on ?

3.1. voix = un des élément de la personnalité

3.1.1. identifiable

3.1.1.1. biométrie

3.1.2. difficilement modifiable

3.1.3. change au cours du temps

3.1.4. trés spécifique chez les enfants jeunes

3.1.4.1. nécessite des jeux spécifiques

3.2. différentes finalités

3.2.1. interface avec robot

3.2.1.1. assistants vocaux

3.2.1.2. téléphones

3.2.1.3. ordinateur

3.2.1.4. machines

3.2.2. analyse (hors gestion de l'interface)

3.2.2.1. Biométrie

3.2.2.2. Phonétique

3.2.2.3. Détection de la toux COVID 19

3.2.3. transcription

3.2.3.1. speech to text

3.2.4. oralisation

3.2.4.1. text to speech

3.3. différentes techniques

3.3.1. détaillées ci aprés

4. A quoi ça sert ?

4.1. Interpréter des interractions orales

4.1.1. saisie vocale

4.1.1.1. je parle

4.1.1.2. le logiciel transcrit

4.1.2. interaction vocale

4.1.2.1. je parle

4.1.2.2. le logiciel me répond

4.2. Restituer un résultat

4.2.1. dialogue assistant vocal

4.2.1.1. Question

4.2.1.2. Réponse

4.3. Identifier un locuteur

4.3.1. PinDrop

4.3.2. Finalité biométrique

4.4. Lire un texte

4.4.1. Acapela

4.4.2. intégré aux OS

4.5. Remplacer la voix d'une personne

4.5.1. handicap/maladie évolutive

4.5.2. voix personnalisée

4.5.2.1. candyvoice

4.6. Améliorer la qualité d'un son

4.6.1. filtrage des bruits de fond

4.6.2. suppression d'un son spécifique

4.7. Décrire une scène ou un objet

4.7.1. Seeing AI

4.7.2. Show and tell sur Echo Show

5. Comment ça fonctionne ?

5.1. 1- processus d'analyse d'un signal sonore

5.1.1. nettoyage du son

5.1.1.1. milieu bruité

5.1.1.1.1. classe

5.1.1.2. suivi d'un seul locuteur

5.1.2. pour transcription en texte

5.1.2.1. association phonème/graphème

5.1.2.1.1. sans groupement

5.1.2.1.2. avec groupement

5.1.2.1.3. utilisation de classifieurs

5.1.2.2. correction grammaticale et syntaxique

5.1.2.3. transcription

5.1.2.3.1. obtention fichier texte

5.1.2.4. traitement ultérieur

5.1.2.4.1. requête sur un webservice

5.1.2.4.2. transcription

5.1.2.4.3. traduction

5.1.3. pour analyse du signal sans transcription

5.1.3.1. identification par empreinte vocale

5.1.3.2. analyse de la fluence

5.1.3.3. analyse de l'accent

5.1.3.4. détection de l'émotion

5.1.3.5. défauts de prononciation

5.1.3.6. maladie (analyse de la toux)

5.1.3.7. ...

5.2. 2- compréhension du texte (NLU)

5.2.1. détection des intentions

5.2.1.1. que veut faire l'utilisateur ?

5.2.2. extraction d'entités

5.2.2.1. quels sont les paramètres ?

5.2.2.1.1. lieu/date

5.2.2.1.2. produits

5.2.2.1.3. quantité

5.2.3. appel de code externe

5.2.3.1. via API

5.2.3.2. exemple météo

5.2.3.3. exemple "Pronote"

5.3. 3- processus de restitution par voix synthétique

5.3.1. en langue identique

5.3.2. dans une autre langue

5.3.2.1. traduction simultanée

5.4. Identification biometrique

5.4.1. Vectorisation de la voix

5.4.2. Comparaison de l'empreinte vectorisée

6. Les défis

6.1. fonctionner sans connexion

6.1.1. modèles pré entrainés dans les applications

6.1.2. utiliser les API des OS

6.2. interagir de façon spécifique avec des enfants

6.2.1. voix spécifiques

6.2.1.1. précision

6.2.2. structures grammaticales spécifiques

6.2.3. creativité et aléas inexistants chez les adultes

6.2.4. "pure player" analyse des voix d'enfants

6.2.4.1. SoapBox lab

6.2.5. "pure player" synthèse voix d'enfants

6.2.5.1. Acapela

6.3. disposer de jeux de données adéquats

6.3.1. voix d'enfants/d'ados

6.3.1.1. en quantité

6.3.1.2. en qualité

6.3.1.3. annotées (?)

6.3.2. données réelllement mutualisées ?

6.3.3. organiser la mutualisation ?

6.3.4. financer la production de jeux de données ?

6.4. questions éthiques

6.4.1. biais possibles

6.4.1.1. de genre

6.4.1.2. d'âge

6.4.1.3. accents

6.4.1.3.1. en métropole

6.4.1.3.2. dans les outre-mers

6.4.1.3.3. selon CSP

6.4.2. risques de manipulation ?

6.4.2.1. gestion de l'empathie

6.4.2.2. homme ou machine ?

6.4.2.3. nudging

6.4.2.4. renforcer les biais sexistes ?

6.5. quelle souveraineté ?

6.5.1. l'exemple israélien

6.5.1.1. «GAFAM» pour prototyper

6.5.1.2. puis développement ad hoc si modèle viable

6.5.2. Autres solutions ?

6.5.2.1. Projets entreprises

6.5.2.1.1. françaises

6.5.2.1.2. européennes

6.5.2.2. Projet libres de type Mozilla

6.5.3. Fait maison ?

6.5.3.1. et bidouille ?

6.6. conformité juridique ?

6.6.1. livre blanc CNIL

6.6.2. conformité RGPD

6.6.2.1. mise au point

6.6.2.2. utilisation

6.6.3. attention à la biométrie !

6.6.4. question de la collecte des jeux de données

6.7. expliquer les enjeux

6.7.1. les bénéfices

6.7.2. les risques

6.7.3. comment ca fonctionne ?

7. Exemples d'applications

7.1. Interface vocale

7.1.1. Assistants vocaux

7.1.1.1. Généraliste

7.1.1.1.1. Siri

7.1.1.1.2. Alexa

7.1.1.1.3. OK Google

7.1.1.2. Spécialisé

7.1.1.2.1. Linto AI

7.1.1.2.2. Snips

7.1.1.2.3. Haapie

7.1.2. Applications

7.1.2.1. téléphones

7.1.2.1.1. assistant vocaux

7.1.2.1.2. hors ligne/en ligne

7.1.2.2. ordinateurs

7.1.2.2.1. transcription

7.1.2.2.2. assistants vocaux

7.1.2.3. Sites web

7.1.2.3.1. transcription

7.1.3. ASH

7.1.3.1. handicap parole

7.1.3.1.1. oralisation de textes

7.1.3.1.2. substitution de parole

7.1.3.2. handicap visuel

7.1.3.2.1. oralisation de textes

7.1.3.2.2. saisie vocale

7.1.3.2.3. description d'image

7.1.3.3. dyslexie

7.1.3.3.1. saisie vocale

7.1.3.3.2. oralisation de textes

7.1.3.3.3. exemple

7.1.3.4. parole->pictogramme

7.1.3.4.1. Helpicto

7.1.3.5. pictogramme->parole synthétique

7.2. Transcription

7.2.1. Temps réel

7.2.1.1. traitement de texte

7.2.1.1.1. Word

7.2.1.1.2. Google Doc

7.2.1.1.3. Equatio

7.2.1.2. sous titrage

7.2.1.2.1. «vélotypie»

7.2.1.2.2. Powerpoint de Microsoft

7.2.1.2.3. Slide de Google

7.2.1.2.4. Visioconférence (avec traduction automatique possible)

7.2.2. A posteriori

7.2.2.1. Authot

7.2.2.2. Youtube

7.2.2.2.1. fonction sous titrage automatique

7.3. Analyse

7.3.1. Accent

7.3.1.1. Duolingo

7.3.2. Fluence

7.3.2.1. Glose

7.3.2.2. Lalilo

7.3.2.3. Kaligo

7.3.2.4. ReadAlong (en)

7.3.2.5. Amplify (techno SoapBoxLabs)

7.3.3. Oculométrie/fluence

7.3.3.1. Lexplore

8. Activités pédagogiques pour découvrir l'utilisation de la voix et de l'IA

8.1. Ecraftlearn

8.1.1. Snap! et tensorflow.js

8.1.2. fonctionne hors ligne

8.2. Cognimates

8.2.1. via instance Scratch !

8.2.2. en ligne

8.3. Scratch

8.3.1. compréhension et synthèse vocale + traduction

8.3.2. en ligne

8.4. Mbot

8.4.1. nombreuses API

8.4.2. possible d'entrainer des modèles localement

8.4.3. fonctionne hors ligne

8.5. Machine Learning for Kids

8.5.1. modèles pré-entrainés

8.5.2. activités à construire

8.5.3. IBM Watson et hors ligne

8.5.4. Scratch + Python

8.5.5. Tensorflow

8.6. Google

8.6.1. nombreuses expériences avec la voix

8.6.2. en ligne

8.7. avancé pour créer des robots vocaux

8.7.1. Amazon Lex

8.7.2. Google DialogFlow

8.7.3. IBM Watson S2T

8.7.4. Microsoft Azure S2T

8.8. tableau de ressources IA et éducation DNE Inria