Guide pour bien classer vos phrases dans les Intentions


Pour que votre xBot soit bien entraîné, nous recommandons de bien classer les phrases en suivant les bonnes pratiques ci-dessous :

  1. de classer au moins 5 phrases par intention

  2. d’avoir un maximum de 30 phrases classées par intention. Il est inutile de classifier 100 phrases par intention, vous risqueriez de sur-classifier votre modèle IA et de le détériorer en créant des distorsions dans les calculs (phénomène d’overfitting)

  3. de classer au moins 1 phrase dans votre jeu de phrases de test (dans la page « Test set ») pour 5 phrases classées, ceci afin de pouvoir comparer les résultats après une session de classification

  4. d’équilibrer le nombre de phrases classifiées par intention. Idéalement, il faudrait garder le nombre de phrases classées approximativement identique entre toutes les intentions. Le modèle IA de compréhension du langage y est très sensible, il est préférable d’avoir 10 phrases de bonne qualité par intention que 70 phrases pour une intention et 5 pour les autres

  5. Si plusieurs intentions sont exprimées dans une phrase (“Sentence”) , alors il est judicieux d’archiver la phrase en question. Si celle-ci vous parait particulièrement intéressante réinjectez-la via la boîte de dialogue en la séparant en plusieurs phrases correspondant chacune à une intention, puis classifiez chacune des phrases dans la bonne intention

  6. d’éviter de classifier des phrases comportant « Bonjour » et « merci », ces phrases comportant à priori 3 intentions: intention de salutation, intention principale et intention de remerciement

  7. de classer des phrases pertinentes et bien distinctes. Votre xBot a besoin d’une base de phrases propres pour apprendre correctement. Ne classifiez pas des phrases qui ont des structures de conjugaison trop proche et des constructions grammaticale trop semblables. Il est préférable d’avoir 2 phrases de bonne qualité plutôt que 30 phrases de mauvaise qualité et proches en structure. Par exemple, Si la phrase “Quel temps fait-il à San Francisco ?” est déjà classifiée dans une intention et bien il vaut mieux classer la phrase “Est-ce qu’il sera ensoleillé demain à New York ?” dans la même intention plutot que celle-ci “Quel temps fait-il à New York ?” car cette dernière est moins distantes, est trop proche de la 1ère phrase.

  8. de classer uniquement des phrases sans erreurs orthographiques et grammaticales. Votre xBot sera suffisamment intelligent pour reconnaître les fautes de frappe. Par exemple classez plutôt la phrase “si une pièce ne correspond pas, puis-je la renvoyer ?” plutôt que “si une pièce nest pas adapter, puije la renvoyer ?

  9. de classer uniquement les phrases qui correspondent à la réponse / au scénario de cette intention. Inutile d’ « embrouiller » votre xBot dans son entrainement ! 😊

  10. d’éviter les acronymes et les abréviations … à moins qu’ils soient clairement utilisés et compris par vos utilisateurs

  11. Les phrases collectées dans la page « Pending » (Phrases en attente de classification) sont uniques, dans le sens où toute phrase identique (en incluant les fautes de frappes identiques, les espaces et la ponctuation) est filtrée par notre moteur, de sorte que vous ne classerez jamais la même phrase deux fois. Ainsi pour les phrases une fois classifiées (dans une intention, archivées ou mises dans un échantillon de test) n’apparaîtront plus dans la section « Pending ». Si elles sont utilisées de nouveau dans la boîte de dialogue, elles seront ignorées afin que vous n’ayez pas à les classifier de nouveau

  12. d’archiver une phrase plutôt que de la supprimer. En effet, cela permettra à la phrase indésirable de ne plus jamais apparaître dans la page « Pending ». Cette action vous permettra de garder une trace de ces données et permet à leurs doublons futurs de ne plus être listé dans la page « Pending » (Phrases en attente de classification)

  13. de ne pas hésiter d’utiliser la barre de recherche par mot afin de classifier plusieurs phrases à la fois.



Documented/reviewed 27/07/2017 7:12:55 AM