Articles les plus récents
Répondez à toutes vos questions grâce aux articles et témoignages proposés par les experts de Voxco et ses partenaires du secteur.

Market Research 101
Questionnaire Design Misconceptions: 6 Myths That Are Holding You Back
Whether you’re conducting market research, gathering customer feedback, or running an academic study, the quality of your questionnaire can make or break your results. Unfortunately, many people start the process with questionnaire misconceptions that lead to poorly designed surveys and sabotage their efforts before they even begin.
Whether you’re a seasoned researcher or a first-time questionnaire writer, understanding these pitfalls will help you design more effective, engaging, and accurate questionnaires. Let’s debunk the myths, avoid the mistakes, and get on the path to creating surveys that deliver meaningful insights.
Misconception #1: Anyone can write a questionnaire.
Despite how easy it looks, writing a high-quality questionnaire that generates valid and reliable data requires exceptional skill and experience. People are biased, fallible, and take shortcuts. Language is ambiguous, cultural, and plastic. Accommodating for people and language while translating a research objective into a set of questions that will be interpreted in a consistent way by most participants is a complex task. If you’re at the beginning of your questionnaire writing journey, partner with an experienced researcher who can guide and advise you along the way. The truth is, once you’ve gained sufficient expertise and mentorship, anyone can write a questionnaire.
Misconception #2: One size fits all.
Based on their personal experience and education, every researcher has a unique writing style that gets reflected their questionnaires. However, as much as you like your style, it’s not suited for every questionnaire. Younger people might prefer a more gamified survey. People who read English as a 2nd, 3rd, or 4th language might not understand the slang, expressions, idioms, and jargon that are second nature for you. Questionnaires that focus on sensitive issues need empathetic and gentle language. Before writing any questionnaire, researchers must think about their target audience and adjust their writing style to be appropriate for that audience.
Misconception #3: Any question will do.
In many cases, there are unnumerable ways to ask any single question and not one of them is perfect. Single-selects, multi-selects, rankings, ratings, open ends – all these question types could be suitable to ask any consumer, customer, and social behaviors and opinions. However, with experience, you’ll learn that each question type engenders different types of error and interpretations. By choosing a question type, you are also choosing which type of error you are willing to accept. Once you’ve decided what kind of data you need and which errors you can work with, the best questions are clear and concise.
Misconception #4: There is a perfect set of answers.
Just as there are no perfect questions, there are also no perfect answer sets. It’s impossible to say that 5 or 7 or 10 options is the correct number of options. And, it’s impossible to say which set of numbers, brands, or concepts should be included in the set. At some point, you must exclude answers that some people would want to choose in order to create a better experience for the majority of participants. Make sure you’ve got an effective opt-out in place (e.g., Other, Not applicable, None of the above) and then move on.
Misconception #5: People are perfect.
As much as we want participants to read and answer every question perfectly, it’s not going to happen. Researchers rely on sample companies to remove large scale fraud so when we see evidence of that, it’s important to report it back to the company. On the other hand, when we can identify people who are bored, tired, distracted, and not reading carefully, we need to remember that this is normal, human behavior. It’s the researcher’s responsibility to design questionnaires that identify and set aside participants who aren’t having a good day today.
Misconception #6: Questionnaires are boring.
I’m glad to say that questionnaires USED to be boring. Now, we have an abundance of question formats to choose from, including imagery, audio, videos, and gamification. When combined with engaging, fun, and interesting wording, questionnaires never have to be boring again.
Summary
Designing questionnaires is a perfect example of how tasks that appear simple are ultimately revealed to be complex once you dive in. As such, even the best questionnaire designers constantly seek to improve their work. They may seek advice from other experienced researchers, read new questionnaire design books, or take a course to sharpen their skills. Many survey platforms also offer pre-tested, templated questions that have been pre-tested to reduce bias and ensure high-quality results. If you’re seeking some expert guidance, please reach out to one of our survey experts today!
Read more

Market Research 101
Aborder le biais des données : comment le suréchantillonnage améliore la précision
Le suréchantillonnage est souvent mal compris comme une méthode d'études qui introduit un biais dans les résultats ou les données. Dans cet article, nous démontrerons qu'il est, en fait, un outil important et nécessaire pour réduire le biais dans les études sociales et de marché. En pratique, il nécessite des calculs mathématiques complexes, mais nous laisserons de côté les complexités pour nous concentrer sur les concepts généraux.
Interprétations difficiles sans suréchantillonnage
Pour votre projet d'études de marché ou sociales, vous pourriez étudier un échantillon de 300 personnes. Si nous utilisions un échantillon vraiment aléatoire, n=300 nous donnerait une marge d'erreur d'environ 6 points de pourcentage.
Dans un échantillon de 300 personnes des États-Unis, il y aurait probablement environ 6 personnes avec un doctorat (2 %), 24 personnes âgées de 74 ans ou plus (8 %) et 45 personnes dans des foyers de 3 personnes (15 %). Encore une fois, en supposant un échantillon vraiment aléatoire, la marge d'erreur serait d'environ 14 points pour le sous-échantillon de 45 personnes dans des foyers de 3 personnes, d'environ 20 points pour le sous-échantillon de 24 personnes âgées de 74 ans ou plus, et d'environ 45 points pour le sous-échantillon de 6 personnes avec un doctorat.
Effectuons une enquête en ligne hypothétique pour illustrer cela. Nous avons demandé aux gens s'ils préféraient la nouvelle saveur A ou la nouvelle saveur B ajoutée à leur paquet préféré de bonbons fruités. Notre outil d'analyse d'enquête révèle que 69 % des 300 personnes préfèrent la saveur B. Sachant que les erreurs d'échantillonnage et non d'échantillonnage peuvent s'infiltrer dans les données à de nombreux endroits, nous utilisons la marge d'erreur pour apprendre que la vérité est probablement quelque part entre 63 % et 75 %. Nous pouvons être confiants que, globalement, les gens préfèrent la saveur B.

Cependant, interpréter les résultats des sous-échantillons n'est pas simple. En raison de leurs hautes marges d'erreur, il est difficile d'être confiant quant aux saveurs que les gens préfèrent. Les personnes dans les foyers de trois personnes préfèrent probablement la saveur A, comme la plus haute marge d'erreur le suggère, jusqu'à 25 % peuvent préférer la saveur B. Pendant ce temps, les personnes âgées de 74 ans ou plus préfèrent probablement la saveur B. Cependant, les personnes avec un doctorat pourraient facilement préférer A ou B. Il est impossible de savoir. Les énormes marges d'erreur pour les petits sous-échantillons obscurcissent complètement les préférences réelles.
Le suréchantillonnage apporte de la confiance dans la prise de décision
Maintenant, faisons les choses différemment. Prenons toujours un échantillon aléatoire de 300 personnes car nous devons préserver les caractéristiques démographiques et la représentation de la population au sein d'un échantillon de taille appropriée. Mais cette fois, ajoutons des personnes supplémentaires afin que chacun des sous-échantillons ait 50 personnes. Aux 300, nous suréchantillonnerons 5 personnes dans des foyers de 3 personnes, 26 personnes âgées de 74 ans ou plus, et 44 personnes avec un doctorat pour un nouveau total de 375 personnes.
Ces ajouts signifient que les personnes dans les foyers de trois personnes représentent maintenant 13 % au lieu de 15 % de l'échantillon, les personnes âgées de 74 ans ou plus représentent maintenant 13 % au lieu de 8 %, et les personnes avec un doctorat représentent maintenant 13 % au lieu de 2 %. En augmentant chaque sous-échantillon à 50 personnes, nous avons perdu la représentativité de la population, mais nous avons amélioré la marge d'erreur.
Maintenant que nous avons des tailles de sous-échantillon plus grandes, le Tableau 2 montre des scores de préférence plus précis parmi les sous-échantillons : seulement 5 % des personnes dans des foyers de 3 personnes, 65 % des personnes âgées de 74 ans ou plus, et 10 % des personnes avec un doctorat préfèrent B. Après avoir pris en compte les marges d'erreur, nous réalisons que les personnes dans des foyers de 3 personnes préfèrent A, les personnes âgées de 74 ans ou plus préfèrent B, et les personnes avec un doctorat préfèrent A. Et, parmi les 375 personnes au total, 59 % préfèrent B.

Comment s'assurer que le suréchantillonnage n'introduit pas de biais
Bien que nous puissions déterminer que 59 % des 375 personnes préfèrent B, ce score ne reflète pas la population car nous avons suréchantillonné sur trois caractéristiques. Au lieu de cela, nous devons rapporter un score de préférence où les personnes dans des foyers de 3 personnes sont 15 % et non 13 % de l'échantillon, les personnes âgées de 74 ans ou plus sont 8 % et non 13 %, et les personnes avec un doctorat sont 2 % et non 13 %.
En pondérant les résultats totaux selon ces pourcentages, nous pouvons déterminer que 66 % de l'échantillon total préfèrent la saveur B. Avec la marge d'erreur, nous savons que la vérité se situe probablement entre 60 % et 72 %. Nous pouvons être confiants que la population préférerait la saveur B.
Le suréchantillonnage nous a apporté deux avantages majeurs. D'abord, nous avons découvert que l'utilisation de tailles d'échantillon insuffisamment petites a conduit à une surestimation des préférences pour la saveur B parmi les sous-échantillons. Et, nous avons légèrement surestimé la préférence globale pour la saveur B parmi l'échantillon total. En exploitant le suréchantillonnage, nous avons réduit le biais d'échantillon et augmenté la précision pour à la fois l'échantillon total et les trois sous-échantillons.
Résumé
Choisir parmi des saveurs, des formes, des tailles et des couleurs n'est pas nécessairement révolutionnaire mais cela peut l'être. Par exemple, nous pourrions avoir besoin de comprendre quelle forme d'emballage faciliterait l'ouverture des médicaments par les personnes, quel ensemble d'instructions convaincrait davantage de personnes à terminer leurs médicaments, ou quelle couleur de signalisation attirerait les gens dans un établissement de santé. Il y a des
situations commerciales et d'études infinies où il est profondément important que la précision par le suréchantillonnage et la pondération soit atteinte.
Le suréchantillonnage et la pondération ne sont pas des concepts faciles à saisir, et ils ne sont pas statistiquement simples à mettre en œuvre. Heureusement, parce que nous disposons de logiciels spécialisés et de statisticiens experts à nos côtés, la plupart des professionnels des études n'ont besoin que de comprendre pourquoi le suréchantillonnage et la pondération sont importants, comment ils fonctionnent généralement, et quand rapporter les résultats pondérés et non pondérés.
Si vous souhaitez en savoir plus sur l'échantillonnage et la pondération, n'hésitez pas à contacter l'un de nos experts en enquêtes. Nous serions heureux de vous aider à naviguer dans cette technique essentielle !
Read more

The Latest in Market Research
Créer des expériences clients exceptionnelles, une enquête à la fois
Prêt pour une nouvelle approche sur l’engagement des participants ? C’est ce que nous pensons ! C’est pourquoi nous avons invité Annie Pettit, experte du secteur en matière de qualité des données et d’engagement des participants, à nous faire part de ses réflexions. Que vous soyez à la recherche de conseils pratiques ou d’idées stimulantes, ce billet vous fera réfléchir. Bonne lecture !
Créer une expérience attrayante pour les clients est si important que presque tous les groupes de vente au détail ont élaboré des lignes directrices détaillées sur la façon de le faire. Parmi des milliers d’autres guides, manuels et recueils, l’AMA propose un Customer Engagement Playbook et Workbook, Hubspot son « Ultimate Guide to Customer Engagement in 2024 » et Forbes son « Customer Engagement in 2024 : The Ultimate Guide ».
Les détaillants, les spécialistes du marketing et les parties prenantes consacrent beaucoup d’efforts à la création d’expériences attrayantes pour leurs consommateurs, leurs clients et leurs employés, et ce pour de bonnes raisons. Selon Gallup, l’augmentation de l’engagement des clients peut entraîner une hausse de 10 % des bénéfices, de 66 % des ventes et de 25 % de la fidélité des clients.
Parce qu’elles consacrent beaucoup de temps à la recherche, les études de marché ont une connaissance approfondie de ce qu’est réellement une expérience client exceptionnelle et de l’importance qu’elle représente. Ils savent également que la participation à des études sociales et marketing peut être une expérience extrêmement intéressante et satisfaisante sur le plan personnel.
Pourquoi, alors, l’expérience d’étude de marché semble-t-elle être un échange si transactionnel ? Les professionnels des études rédigent des enquêtes. Les participants donnent des réponses. L’expérience des participants diminue. Les taux de réponse diminuent. Et ainsi de suite.
Il est temps pour les responsables de l’étude de marché et du marketing d’appliquer ce qu’ils ont appris sur l’expérience client à l’expérience de l’enquête. Examinons quelques moyens de créer des expériences d’enquête intensément engageantes pour les participants, qui profiteront en fin de compte aux parties prenantes et augmenteront le retour sur investissement de l’enquête.
Des incitants intéressants et des questions ludiques sont des éléments essentiels
Lorsque nous pensons à créer une expérience de recherche engageante, la plupart d’entre nous se tournent vers la création d’une expérience plus amusante et divertissante. Outre la création de questions de meilleure qualité, nous y parvenons en :
- Offrant des récompenses telles que de l’argent, des points de fidélité et des prix alléchants. Les participants aux études sont des êtres humains, après tout, et quelque chose vaut souvent mieux que rien pour convaincre quelqu’un de « cliquer pour commencer » une enquête. C’est un pas en avant pour les taux de réussite et la représentation.
- Incorporer des types de questions ludiques qui contribuent à maintenir la motivation des personnes. Par exemple, plutôt que de demander aux gens ce qu’ils préfèrent dans dix compagnies d’assurance différentes, on peut leur demander quel est le super pouvoir de chaque compagnie. Ou encore, quel est l’animal, le personnage de bande dessinée ou la célébrité qui reflète le mieux chaque compagnie.
Toutefois, les incitants et les questions ludiques sont des éléments essentiels. Les participants les recherchent et s’attendent à les trouver dans toutes les études. Si vos études n’intègrent pas déjà ces caractéristiques, il est temps d’exiger mieux.
Passez à l'étape suivante pour susciter la curiosité et encourager le développement personnel
Les expériences intrinsèquement engageantes sont peut-être plus importantes encore. De nombreuses personnes aiment participer à l’expérience de la recherche parce qu’elles apprécient d’être entendues et d’être informées sur les nouveaux produits et services. Il existe cependant des opportunités de développement personnel bien plus importantes. En voici un exemple :
- Les questionnaires qui intègrent des énoncés de personnalité, de description ou de préférence peuvent encourager l’auto-réflexion et mettre en évidence de nouveaux domaines de croissance et de développement personnel.
- Les études sur la santé, la forme physique, l’alimentation, les boissons, les finances et l’environnement peuvent amener les gens à réfléchir à leurs comportements personnels et à se demander s’ils souhaitent modifier certains aspects de leur mode de vie.
- De nombreuses études sont simplement un bon moyen de stimuler la réflexion, d’améliorer la concentration et de découvrir de nouvelles façons de penser, en particulier pour les personnes qui ont moins d’occasions de le faire dans leur vie quotidienne.
Revenons un instant sur l’expérience client. Lorsque les spécialistes du marketing présentent de nouveaux produits ou services aux clients, ils en expliquent clairement les avantages. Les gens s’attendent à découvrir ce qu’il y a de nouveau, d’amusant ou d’intrigant dans un produit qu’ils envisagent d’acheter.
L’expérience d’étude de marché ne devrait pas être différente. Les professionnels des études doivent aider les participants à comprendre les avantages qu’ils tireront de leur participation. Voici quelques moyens d’y parvenir, parmi tant d’autres.
- Au début d’un questionnaire, invitez les gens à considérer leur participation comme un petit voyage à la découverte de soi. Invitez-les à exploiter au maximum leur curiosité et à essayer de nouvelles façons de penser.
- À la fin de l’étude, ajoutez une question invitant les participants à partager avec les autres ce qu’ils ont appris sur eux-mêmes grâce à leur participation. La plupart des participants sont curieux de connaître les résultats des études de marché auxquels ils participent et, avec leur consentement, cette question est parfaite pour partager avec les autres ce qu’ils ont appris sur eux-mêmes.
- À la fin d’un questionnaire, proposez aux participants de partager des liens vers des sites Internet tiers dignes de confiance afin qu’ils puissent en savoir plus sur le sujet. Si quelqu’un sélectionne la case « Oui, veuillez partager », proposez des liens vers des cours universitaires gratuits ou des sites web neutres et fiables contenant des informations sur les finances, l’environnement, les soins de santé ou le développement de l’enfant.
N’oubliez pas que ces avantages doivent toujours être offerts avec le consentement des participants.
Aider les gens à être le changement qu'ils désirent voir
C’est drôle de plaisanter sur les algorithmes en ligne qui nous présentent pendant des semaines des publicités pour des aspirateurs alors que nous venons d’en acheter un qui devrait durer vingt ans. En revanche, dans le domaine de l’étude de marché, c’est une autre histoire.
Après avoir acheté cet aspirateur (ou ce savon ou cette bière), nous voulons en parler pendant des semaines. Nous voulons nous assurer que d’autres personnes bénéficient de notre expérience. Nous voulons partager nos opinions, offrir des conseils et contribuer à l’élaboration de nouvelles innovations. Il est agréable d’aider d’autres personnes à prendre des décisions qui leur conviennent.
En participant à des études de marché, les gens ne se contentent pas d’aider les autres à acheter un meilleur aspirateur. Le partage d’expériences avec de nouveaux produits et services aide les marques à concevoir des produits qui permettent aux gens de manger plus sainement, de s’amuser davantage, de devenir plus autonomes, d’accéder à des services sociaux essentiels et d’améliorer la vie elle-même. La recherche améliore la vie et peut même sauver des vies.
Comme auparavant, nous ne pouvons pas simplement supposer que les gens connaissent les avantages de la participation à la recherche. Tout comme les spécialistes du marketing disent aux gens que cet aspirateur a la meilleure puissance d’aspiration, les chercheurs devraient dire aux gens comment la recherche aide la communauté au sens large. Comment agir ?
- Au début d’une étude, rappelez aux gens les avantages qui en découleront. Vous connaissez déjà les objectifs de l’entreprise et les objectifs de l’étude de marché. Il vous suffit de les traduire en langage accessible aux consommateurs. Dites-leur que leur participation aidera de nombreuses personnes à l’avenir en créant des produits et des services plus avantageux.
- À la fin d’une étude, proposez des résultats plus spécifiques. Expliquez que leurs contributions aideront les personnes souffrant de problèmes de peau à trouver des produits cosmétiques moins irritants. Ou encore, que tout le monde mérite un peu de joie dans sa vie, même si cela signifie qu’il faut déterminer la prochaine saveur de chips qu’on va préparer. Dites aux gens que leurs contributions leur permettent de rester en bonne santé, de prendre des repas en famille ou de disposer de plus de temps libre.
Naturellement, il est important de ne pas compromettre les objectifs de la recherche et de veiller à ce que les détails soient laissés à la fin de la campagne.
Sommaire
Il est si facile de sortir un modèle d’enquête, de changer les noms de marque, d’ajouter quelques nouvelles questions et de le lancer. Nous avons des dizaines d’années d’expérience dans ce domaine. Cependant, il est temps de dire non aux modèles sur lesquels nous nous appuyons depuis des années et d’en créer un nouveau, et meilleur. Un modèle qui donne la priorité à l’expérience de l’enquête, tout comme les spécialistes du marketing, les entreprises et les organisations ont donné la priorité à l’expérience des clients et des employés.
Avec une enquête plus attrayante et plus satisfaisante sur le plan personnel, les participants à l’étude auront beaucoup plus de facilité à s’engager réellement dans le contenu, à réfléchir profondément à leurs réponses et à fournir des données plus riches et plus précises. En fin de compte, investir dans l’expérience de l’enquête se traduit par des informations de meilleure qualité, des décisions plus éclairées et des clients plus heureux.
Si vous tenez à avoir des clients satisfaits, n’hésitez pas à contacter nos experts en enquêtes. Ils seront ravis de vous aider à collecter des données plus valides et plus fiables. Parlez à un expert en enquêtes.
Read more
Text Analytics & AI
What is Linguistics Analysis?
Linguistic Analysis Explained
Editor’s note: This post was originally published on Ascribe and has been updated to reflect the latest data
Figuring out what humans are saying in written language is a difficult task. There is a huge amount of literature, and many great software attempts to achieve this goal. The bottom line is that we are a long way off from having computers truly understand real-world human language. Still, computers can do a pretty good job at what we are after. Gathering concepts and sentiment from text.
The term linguistic analysis covers a lot of territory. Branches of linguistic analysis correspond to phenomena found in human linguistic systems, such as discourse analysis, syntax, semantics, stylistics, semiotics, morphology, phonetics, phonology, and pragmatics. We will use it in the narrow sense of a computer’s attempt to extract meaning from text – or computational linguistics.
Linguistic analysis is the theory behind what the computer is doing. We say that the computer is performing Natural Language Processing (NLP) when it is doing an analysis based on the theory. Linguistic analysis is the basis for Text Analytics.
There are steps in linguistic analysis that are used in nearly all attempts for computers to understand text. It’s good to know some of these terms.
Here are some common steps, often performed in this order:
1. Sentence detection
Here, the computer tries to find the sentences in the text. Many linguistic analysis tools confine themselves to an analysis of one sentence at a time, independent of the other sentences in the text. This makes the problem more tractable for the computer but introduces problems.
“John was my service technician. He did a super job.“
Considering the second sentence on its own, the computer may determine that there is a strong, positive sentiment around the job. But if the computer considers only one sentence and individual word at a time, it will not figure out that it was John who did the super job.
2. Tokenization
Here the computer breaks the sentence into words. Again, there are many ways to do this, each with its strengths and weaknesses. The quality of the text matters a lot here.
“I really gotmad when the tech told me *your tires are flat*heck I knew that."
Lots of problems arise here for the computer. Humans see “gotmad" and know instantly that there should have been a space. Computers are not very good at this. Simple tokenizers simply take successive “word" characters and throw away everything else. Here that would do an OK job with flat*heck → flat heck, but it would remove the information that your tires are flat is a quote and not really part of the surrounding sentence. When the quality of text, syntax, or sentence structure is poor, the computer can get very confused.
This can also pose a problem when new words are introduced, or there are multiple meanings of words in one response or group of responses.
3. Lemmatization and cleaning
Most languages allow for multiple forms of the same word, particularly with verbs. The lemma is the base form of a word. So, in English, was, is, are, and were are all forms of the verb to be. The lemma for all these words is be.
There is a related technique called stemming, which tries to find the base part of a word, for example, ponies → poni. Lemmatization normally uses lookup tables, whereas stemming normally uses some algorithm to do things like discard possessives and plurals. Lemmatization is usually preferred over stemming.
Some linguistic analysis attempt to “clean up" the tokens. The computer might try to correct common misspellings or convert emoticons to their corresponding words.
4. Part of speech tagging
Once we have the tokens (words) we can try to figure out the part of speech for each of them, such as noun, verb, or adjective. Simple lookup tables let the computer get a start at this, but it is really a much more difficult job than that. Many words in the English language can be both nouns and verbs (and other parts of speech). To get this right, the words cannot simply be considered one at a time. The use of language can vary, and mistakes in part of speech tagging often lead to embarrassing mistakes by the computer.
Common Linguistic Analysis Techniques Explained
Most linguistic analysis tools perform the above steps before tackling the job of figuring out what the tokenized sentences mean. At this point, the various approaches to linguistic analysis diverge. We will describe in brief the three most common techniques.
Approach #1: Sentence parsing
Noam Chomsky is a key figure in linguistic theory. He conceived the idea of “universal grammar", a way of constructing speech that is somehow understood by all humans and used in all cultures. This leads to the idea that if you can figure out the rules, a computer could do it, and thereby can understand human speech and text. The sentence parsing approach to linguistic analysis has its roots in this idea.
A parser takes a sentence and turns it into something akin to the sentence diagrams you probably did in elementary school:
At the bottom, we have the tokens, and above them classifications that group the tokens. V = verb, PP = prepositional phrase, S = sentence, and so on.
Once the sentence is parsed the computer can do things like give us all the noun phrases. Sentence parsing does a good job of finding concepts in this way. But parsers expect well-formed sentences to work on. They do a poor job when the quality of the text is low. They are also poor at sentiment analysis.
Bitext is an example of a commercial tool that uses sentence parsing. More low-level tools include Apache OpenNLP, Stanford CoreNLP, and GATE.
Approach #2: Rules-Based Analysis
Rules-based linguistic analysis takes a more pragmatic approach. In a rule-based approach, the focus is simply on getting the desired results without attempting to really understand the semantics of the human language. Rules-based analysis always focuses on a single objective, say concept extraction. We write a set of rules that perform concept extraction and nothing else. Contrast this with a parsing approach, where the parsed sentence may yield concepts (nouns and noun phrases) or entities (proper nouns) equally well.
Rules-based linguistic analysis usually has an accompanying computer language used to write the rules. This may be augmented with the ability to use a general-purpose programming language for certain parts of the analysis. The GATE platform provides the ability to use custom rules using a tool it calls ANNIE, along with the Java programming language.
Rules-based analysis also uses lists of words called gazetteers. These are lists of nouns, verbs, pronouns, and so on. A gazetteer also provides something akin to lemmatization. Hence the verbs gazetteer may group all forms of the verb to be under the verb be. But the gazetteer can take a more direct approach. For sentiment analysis the gazetteer may have an entry for awful, with sub-entries horrible, terrible, nasty. Therefore, the gazetteer can do both lemmatization and synonym grouping.
The text analytics engines offered by SAP are rules-based. They make use of a rule language called CGUL (Custom Grouper User Language). Working with CGUL can be very challenging.
Here is an example of what a rule in the CGUL language looks like:
#subgroup VerbClause: {
(
[CC]
( %(Nouns)*%(NonBeVerbs)+)
|([OD VB]%(NonBeVerbs)+|%(BeVerbs) [/OD])
|([OD VB]%(BeVerbs)+|%(NonBeVerbs)+ [/OD])
[/CC]
)
| ( [OD VB]%(NonBeVerbs)[/OD] )
}
At its heart, CGUL uses regular expressions and gazetteers to form increasingly complex groupings of words. The final output of the rules is the finished groups, for example, concepts.
Many rules-based tools expect the user to become fluent in the rule language. Giving the user access to the rule language empowers the user to create highly customized analyses, at the expense of training and rule authoring.
Approach #3: Deep learning and neural networks
The third approach we will discuss is machine learning. The basic idea of machine learning is to give the computer a bunch of examples of what you want it to do, and let it figure out the rules for how to do it. This basic idea has been around for a long time and has gone through several evolutions. The current hot topic is neural networks. This approach to natural language machine learning is based loosely on the way our brains work. IBM has been giving this a lot of publicity with its Watson technology. You will recall that Watson beat the best human players of the game of Jeopardy. We can get insight into machine learning techniques from this example.
The idea of deep learning is to build neural networks in layers, each working on progressively broader sections of the problem. Deep learning is another buzzword that is often applied outside of the area intended by linguistic researchers.
We won’t try to dig into the details of these techniques, but instead, focus on the fundamental requirement they have. To work, machine learning and artificial intelligence need examples. Lots of examples. One area in which machine learning has excelled is image recognition. You may have used a camera that can find the faces in the picture you are taking. It’s not hard to see how machine learning could do this. Give the computer many thousands of pictures and tell it where the faces are. It can then figure out the rules to find faces. This works really well.
Back to Watson. It did a great job at Jeopardy. Can you see why? The game is set up perfectly for machine learning. First, the computer is given an answer. The computer’s job is to give back the correct question (in Jeopardy you are given the answer and must respond with the correct question). Since Jeopardy has been played for many years, the computer has just what it needs to work with: a ton of examples, all set up just the way needed by the computer.
Now, what if we want to use deep learning to perform sentiment and language analysis? Where are we going to get the examples? It’s not so easy. People have tried to build data sets to help machines learn things like sentiment, but the results to date have been disappointing. The Stanford CoreNLP project has a sentiment analysis tool that uses machine learning, but it is not well regarded. Machine learning today can deliver great results for concept extraction, but less impressive results for sentiment analysis.
BERT
Recent advances in machine learning language models have added exciting new tools for text analysis. At the forefront of these is BERT, which can be used to determine whether two phrases have similar meanings.
BERT stands for Bidirectional Encoder Representations from Transformers. This technique has been used to create language models from several very large data sets, including the text from all of Wikipedia. To train a BERT model a percentage of the words in the training data set are masked, and BERT is trained to predict the masked words from the surrounding text. Once the BERT model has been trained we can present two phrases to it and ask how similar in meaning they are. Given the phrases, BERT gives us a decimal number between 0 and 1, where 0 means very dissimilar and 1 means very similar.
Given the phrase “I love cats", BERT will tell us the phrase “felines make great pets" is similar, but “it is raining today" is very dissimilar. This is very useful when the computer is trying to tell us the main themes in a body of text. We can use tools such as sentence parsing to partition the text into phrases, determine the similarity between phrases using BERT, and then construct clusters of phrases with similar meanings. The largest clusters give us hints as to what the main themes are in the text. Word frequencies in the clusters and the parse trees for the phrases in the clusters allow us to extract meaningful names for each cluster. We can then categorize the sentences in the text by tagging them with the names of the clusters to which they belong.
Summary
Linguistic analysis is a complex and rapidly developing science. Several approaches to linguistic analysis have been developed, each with its own strengths and weaknesses. To obtain the best results you should choose the approach that gives superior performance for the type of analysis you need. For example, you may choose a machine learning approach to identify topics, a rules-based approach for sentiment analysis, and a sentence parsing approach to identify parts of speech and their interrelationships.
If you’re not sure where to start on your linguistic and semantic analysis endeavors, the Ascribe team is here to help. With CXI, you can analyze open-ended responses quickly with the visualization tool – helping to uncover key topics, sentiments, and insights to assist you in making more informed business decisions. By utilizing textual comments to analyze customer experience measurement, CXI brings unparalleled sentiment analysis to your customer experience feedback database.
Read more