Charlotte Faure

Charlotte Faure

Linguistique Informaticienne

Profil

Passionnée par les sciences mais aussi la langue Française, je me destinais à l'orthophonie. En chemin, j'ai rencontré la linguistique et ce domaine m'a définitivement convaincue. J'ai donc poursuivi mes études dans ce champ, le mêlant à l'informatique; je suis aujourd'hui Linguiste Informaticienne, je travaille chez Weborama et occupe mon temps libre avec les voyages, la plongée, les séries télévisées aussi bien Américaines que Françaises ou encore la lecture.

Experience

Global Annotation Manager & développeuse NLP chez Weboramaimage

Juin 2017 - Aujourd'hui

Au sein de Weborama, entreprise spécialisée dans la création de segments d'audiences en ligne, je m'occupe tout d'abord de gérer le lexique multilingue permettant d'analyser des pages Web. Je recrute et gère donc des annotateurs freelance souvent multilingues qui complètent lexique et taxonomies thématiques.
Je développe, par ailleurs, au sein et en complément de la chaine de traitement NLP, des preuves de concepts et des modules permettant d'exploiter ces données ou de tester de nouvelles approches afin d'améliorer l'analyse automatique des pages web.
Enfin, j'appuie également les membres des Business Units dans la mise au point de corpora répondant à des recherches précises demandées par les clients en établissant sur nos interfaces des requêtes pertinentes permettant de récupérer du contenu web. Celui-ci sera traité grâce aux outils NLP. Cette tâche s'étend aussi à des formations sur notre outil de visualisation et d'analyse contextuelle de ces contenus web.
Outils et technologies employés : MySQL, Linux, Java, Elasticsearch, Python.

Ingénieure d'études chez Huma-Numimage - Interopérabilité des données, référentiels et conception d’applications.

Novembre 2015 - Juin 2017

La Très Grande Infrastructure de Recherche (TGIR) Huma-Num est portée par une Unité Mixte de Services associant le CNRS, l'Université d'Aix-Marseille et le Campus Condorcet.
MAintenance des vocabulaires utilisés pour enrichir la plateforme Isidore.
Développement d'applications web et de traitements autour de ces vocabulaires et plus généralement de l'interface Isidore.
Outils et technologies employés : PHP, HTML, MySQL, PhpMyAdmin, Linux, Skos/RDF, XML, XSL.

Stage Ingénieure Traitement Automatique du Langage chez Trooclickimage

Mars 2015 - Septembre 2015

Maintenance et développement des chaînes NooJ (grammaires et dictionnaires) permettant l'extraction d'Entités Nommées dans de la presse anglophone. Développement d'une grammaire et d'une liste de référence reconnaissant les produits commerciaux.
Outils et technologies utilisés : Python, NooJ, SPARQL, DBpedia.

Stage Linguiste Informaticienne chez Semantiwebimage

Mai 2014 - Septembre 2014

Maintenance et création des ressources linguistiques destinées à l'établissement de l'e-réputation des entreprises clientes, basée sur du "discours spontané" : forums, commentaires sur sites commerciaux, etc.
Outils et technologies utilisés : Python, Linux, Java, SolR.

Vacation de Transcription pour Université Sorbonne-Nouvelle - Paris IIIimage

20h

Transcription de documents audio de tous types (discours politiques, histoires lues, dictées, etc.). Lancement de scripts Praat pour une segmentation (phrases, mots, syllables) et vérification des résultats.
Outils et technologies utilisés : Praat.

Stage Chargée de veille numérique et communication digitale chez Tendances Institutimage

Mai 2013 - Août 2013

Veille numérique et rédaction de notes pour les entreprises clientes. Rédaction d'articles d'actualité pour le blog de la société.
Outils et technologies utilisés : Google Actu, WordPress, Microsoft Office.

Travaux

Projet de Fin d'Etudes

Juin 2015 : Modélisation linguistique et extraction automatique de symptômes dans un corpus d’articles scientifiques

Le but du projet était de concevoir une chaîne de traitements pouvant détecter automatiquement des symptômes dans des résumés médicaux portant sur des maladies orphelines. Proposé dans le cadre du projet Hybride impliquant trois laboratoires de recherche (MoDyCo, LORIA et GREYC), il doit, à terme, aider au diagnostic des maladies rares. Nous avons opté pour un système par règles contextuelles implémenté avec Gate et préférant le rappel à la précision. Un système interactif a été mis au point permettant aux médecins et professionnels du domaine de confirmer/infirmer les symptômes reconnus. À terme, avec ce mécanisme et grâce à l'input de nombreux spécialistes, un apprentissage automatique pourrait être mis en place.

Compétences Linguistiques

  • Syntaxe
  • Phonétique/Phonologie
  • Morphologie
  • Lexicologie

Compétences Informatiques

  • Python, PHP, Java
  • HTML, CSS
  • XML, XSL, XPath
  • phpMyAdmin, MySQL
  • Windows & Linux, Microsoft Office & Libre Office

Compétences Orientées TAL

  • Praat, Unitex, NooJ, Gate, Lexico 3
  • RDF, SKOS, SPARQL, Protégé

Langues Maîtrisées

  • Français : langue maternelle

  • Anglais : lu, parlé, écrit

  • Allemand : lu, parlé, écrit (niveaux 3 à 5 au Test DaF de l'institut Goethe)

Formation et diplômes

Plus haut diplôme courant : Master 2 Ingénierie linguistique - Documents électroniques et flux d'informations/Ingénierie Linguistique (DEFI-IL)


France université numérique - INRIA

Mars 2015 : Web sémantique et Web de données

Participation à un MOOC sur les Web sémantique dispensé par trois enseignants de l'INRIA sur la plateforme FUN.

Paris X - Université Paris Ouest Nanterre La Défense

2014-2015 : Master 2 Documents Electroniques et Flux d'Informations - Ingénierie Linguistique (DEFI - IL)

Spécialisation PluriTAL dans un domaine à la croisée entre le TAL et la documentation. Mention Très Bien.

Paris III - Université Sorbonne-Nouvelle

2013-2014 : Master 1 PluriTAL

Première année de master en tronc commun PluriTAL. Tournée vers la découverte des outils et langages traitant automatiquement le langage naturel. Mention Très Bien.

Paris III - Université Sorbonne-Nouvelle

2010-2013 : Licence de Sciences du Langage

L1 et L2 en Sciences du Langages avec les options allemand, linguistiques finnoise et hongroise, initiation au traitement automatique des langues puis L3 avec option TAL.

Institut Goethe

2009 : Test Deutsch als Fremdsprache (l'allemand comme langue étrangère)

Niveau 3 à l'oral produit, 4 à l'oral compris et l'écrit produit 5 à l'écrit compris.

Lycée International Honoré de Balzac

2007 : Baccalauréat Scientifique option Mathématiques

Mention Assez Bien.

Ecole Lafayette & Collège International Honoré de Balzac

Formation à l'allemand dès le CP. Classes bilingues du CP à la 3ème

Divers & Centre d'Intérêts

  • Permis A et B
  • 2009 : B.A.F.A.
  • 2009 : P.S.C.1
  • Escalade
  • Plongée sous marine
  • Voyages