Skip to content

[en-US] Missing words #58

@xenova

Description

@xenova

As I progressively work towards training a g2p model, there are some words in my training datasets which produce no phonemes (without any fallback). I'll add them here, and feel free to ignore or add whichever you think are worth it.

Some are quite archaic (e.g., abord), others not widely recognized or similar spellings (e.g., acknowledgement), but quite a few are normal English words which could benefit from being added (e.g., ambiance, artefact, verified).

{('abord', 'VBP'),
 ('acai', 'NN'),
 ('acai', 'NNP'),
 ('acknowledgement', 'NN'),
 ('advantare', 'NN'),
 ('aeons', 'NNS'),
 ('aether', 'NN'),
 ('affordances', 'NNS'),
 ('aficionada', 'NN'),
 ('agere', 'RB'),
 ('agreeance', 'NN'),
 ('alacritous', 'JJ'),
 ('alacritously', 'RB'),
 ('alchemic', 'JJ'),
 ('alichemical', 'JJ'),
 ('alma', 'NN'),
 ('ambiance', 'NN'),
 ('ambiances', 'NNS'),
 ('analyser', 'NN'),
 ('anapnea', 'NN'),
 ('annihilatory', 'NN'),
 ('annum', 'NNP'),
 ('anthropologic', 'JJ'),
 ('aphrodisiacal', 'JJ'),
 ('appelatur', 'NN'),
 ('arbitrar', 'NN'),
 ('arcanean', 'JJ'),
 ('argenteous', 'JJ'),
 ('arguendo', 'NN'),
 ('arnoldii', 'NNS'),
 ('artefact', 'NN'),
 ('artefacts', 'NNS'),
 ('articulative', 'JJ'),
 ('aspleenic', 'JJ'),
 ('assignare', 'NN'),
 ('astrobiologist', 'NN'),
 ('atheneum', 'NN'),
 ('auratum', 'NN'),
 ('autopoiesis', 'NN'),
 ('axiologist', 'NN'),
 ('backroom', 'NN'),
 ('bannisters', 'NNS'),
 ('barstool', 'NN'),
 ('battleground', 'NN'),
 ('beaute', 'NN'),
 ('beginnan', 'NN'),
 ('behaviour', 'NN'),
 ('bellus', 'NN'),
 ('beurre', 'NN'),
 ('biblioteca', 'NN'),
 ('biloba', 'NN'),
 ('biochromatic', 'JJ'),
 ('bioelectricity', 'NN'),
 ('bioglass', 'NN'),
 ('biomechanical', 'JJ'),
 ('biophilia', 'NNS'),
 ('biophilic', 'JJ'),
 ('birdcalls', 'NNS'),
 ('blanc', 'NNP'),
 ('blonde', 'JJ'),
 ('blæw', 'NNP'),
 ('boatkeeper', 'NN'),
 ('bookshelves', 'NNS'),
 ('bookshop', 'NN'),
 ('boulangerie', 'NN'),
 ('bowtie', 'NN'),
 ('breakroom', 'NN'),
 ('brightest', 'JJS'),
 ('brightest', 'RBS'),
 ('busied', 'VBD'),
 ('caftan', 'NN'),
 ('capricities', 'NNS'),
 ('catalogue', 'VB'),
 ('catalogued', 'VBD'),
 ('catalogued', 'VBN'),
 ('ceramist', 'NN'),
 ('cerulea', 'NN'),
 ('chanca', 'NN'),
 ('charlatanesque', 'JJ'),
 ('chimerical', 'JJ'),
 ('chocolaterie', 'NN'),
 ('chocolatier', 'JJR'),
 ('choux', 'NN'),
 ('chronomancy', 'NN'),
 ('chronotopic', 'JJ'),
 ('cidr', 'NN'),
 ('cliche', 'NN'),
 ('cliches', 'NNS'),
 ('cogwork', 'NN'),
 ('cohabitating', 'VBG'),
 ('collaboraative', 'JJ'),
 ('colours', 'NNS'),
 ('communique', 'NN'),
 ('competencies', 'NNS'),
 ('compilatory', 'JJ'),
 ('comprehendible', 'JJ'),
 ('comunicating', 'VBG'),
 ('conjurer', 'NN'),
 ('connectere', 'NN'),
 ('connoisseuse', 'NN'),
 ('connotate', 'VB'),
 ('considerare', 'NN'),
 ('consomme', 'NN'),
 ('contextuality', 'NN'),
 ('contortionism', 'NN'),
 ('conversationists', 'NNS'),
 ('copied', 'VBN'),
 ('corporealized', 'VBD'),
 ('correspondental', 'JJ'),
 ('counterbalancer', 'NN'),
 ('coworkers', 'NNS'),
 ('creaturas', 'NNP'),
 ('creditpreneurs', 'NNS'),
 ('creme', 'NN'),
 ('cri', 'NNP'),
 ('culinarian', 'NN'),
 ('culminative', 'JJ'),
 ('cyclicity', 'NN'),
 ('dammed', 'VBN'),
 ('de', 'FW'),
 ('de', 'NN'),
 ('de', 'NNP'),
 ('deductivism', 'NN'),
 ('defied', 'VBD'),
 ('deific', 'JJ'),
 ('denied', 'VBN'),
 ('denouement', 'JJ'),
 ('denouement', 'NN'),
 ('deor', 'JJ'),
 ('dernier', 'JJR'),
 ('desenrascanco', 'NN'),
 ('deux', 'FW'),
 ('dialogical', 'JJ'),
 ('dihydrogen', 'NN'),
 ('diminishment', 'NN'),
 ('disempowerment', 'NN'),
 ('dolcet', 'NN'),
 ('dolphinfish', 'NN'),
 ('domestica', 'NNP'),
 ('dramaturg', 'NN'),
 ('duplicacy', 'NN'),
 ('dynamizing', 'VBG'),
 ('dysregulates', 'VBZ'),
 ('eclecticities', 'NNS'),
 ('eclecticity', 'NN'),
 ('ecosystemic', 'JJ'),
 ('electromagnificence', 'NN'),
 ('elocuted', 'VBN'),
 ('eloquencies', 'NNS'),
 ('endeavour', 'VBP'),
 ('endeavours', 'NNS'),
 ('enquiry', 'NN'),
 ('entendre', 'NN'),
 ('enthalpic', 'JJ'),
 ('entomophobia', 'NN'),
 ('entrees', 'NNS'),
 ('equilibria', 'NNS'),
 ('equite', 'NN'),
 ('errantly', 'RB'),
 ('escalivada', 'NN'),
 ('espuma', 'DT'),
 ('espuma', 'NN'),
 ('et', 'NN'),
 ('exemplified', 'VBD'),
 ('exiliquy', 'NN'),
 ('existenz', 'NN'),
 ('exoplanetary', 'JJ'),
 ('fancied', 'VBD'),
 ('ferris', 'JJ'),
 ('fete', 'NN'),
 ('fillamentation', 'NN'),
 ('fillaments', 'NNS'),
 ('flaneur', 'NN'),
 ('florentis', 'NN'),
 ('flummoxery', 'NN'),
 ('foie', 'NN'),
 ('fois', 'NN'),
 ('folktale', 'NN'),
 ('folktales', 'NNS'),
 ('forebearers', 'NNS'),
 ('fraiche', 'NN'),
 ('fraisage', 'NN'),
 ('freefall', 'VBP'),
 ('frinctional', 'JJ'),
 ('frisson', 'NN'),
 ('frittare', 'NN'),
 ('fromage', 'NN'),
 ('frontline', 'NN'),
 ('frontlines', 'NNS'),
 ('fugit', 'NN'),
 ('fugit', 'VBD'),
 ('furiosity', 'NN'),
 ('furore', 'NN'),
 ('gamified', 'JJ'),
 ('gastronomist', 'NN'),
 ('gentlemen', 'NNS'),
 ('geometrical', 'JJ'),
 ('gnomologist', 'NN'),
 ('goldmine', 'NN'),
 ('grey', 'NN'),
 ('guesstimation', 'NN'),
 ('havocked', 'VBD'),
 ('heatwave', 'NN'),
 ('hempcrete', 'NN'),
 ('historia', 'NNP'),
 ('hoc', 'FW'),
 ('humanconnection', 'NN'),
 ('husbondi', 'NN'),
 ('hydrazoic', 'NN'),
 ('ichthyofauna', 'NN'),
 ('implementational', 'JJ'),
 ('inarticulable', 'NN'),
 ('incoporate', 'VBP'),
 ('incumbrance', 'NN'),
 ('inscipience', 'NN'),
 ('intellectualization', 'NN'),
 ('interconnectivity', 'NN'),
 ('intercultural', 'JJ'),
 ('interdependencies', 'NNS'),
 ('interdimensional', 'JJ'),
 ('interhuman', 'NN'),
 ('interpretive', 'JJ'),
 ('interspecies', 'NNS'),
 ('interwove', 'NN'),
 ('interwove', 'VB'),
 ('interwove', 'VBP'),
 ('interwoven', 'CD'),
 ('interwoven', 'JJ'),
 ('interwoven', 'NN'),
 ('interwoven', 'NNP'),
 ('interwoven', 'PRP'),
 ('interwoven', 'RB'),
 ('interwoven', 'VBD'),
 ('interwoven', 'VBN'),
 ('intoneddreamily', 'RB'),
 ('irreplicable', 'JJ'),
 ('joie', 'NN'),
 ('joie', 'NNP'),
 ('kaotic', 'JJ'),
 ('labour', 'NN'),
 ('labours', 'NNS'),
 ('launchpad', 'NN'),
 ('leche', 'NNP'),
 ('lexiconic', 'JJ'),
 ('ley', 'JJ'),
 ('ley', 'NNP'),
 ('liason', 'NN'),
 ('liberative', 'JJ'),
 ('liberatory', 'NN'),
 ('lifecycle', 'NN'),
 ('lightest', 'JJS'),
 ('lightheartedness', 'NN'),
 ('ligue', 'NN'),
 ('likeminded', 'VBN'),
 ('linework', 'NN'),
 ('longue', 'NN'),
 ('lumina', 'NN'),
 ('lumina', 'NNP'),
 ('luminescens', 'NNS'),
 ('luminist', 'NN'),
 ('macrochirus', 'NN'),
 ('magistery', 'NN'),
 ('magnified', 'VBD'),
 ('magnified', 'VBN'),
 ('malbec', 'NN'),
 ('margaritifera', 'NN'),
 ('marvelled', 'VBD'),
 ('marvellously', 'RB'),
 ('masse', 'NN'),
 ('masterstroke', 'NN'),
 ('mediatrix', 'NN'),
 ('melancholic', 'JJ'),
 ('melange', 'NN'),
 ('meritous', 'JJ'),
 ('mesophilic', 'JJ'),
 ('metacognitive', 'JJ'),
 ('metacosmic', 'JJ'),
 ('metafictional', 'JJ'),
 ('metamorphosize', 'VB'),
 ('metaphoric', 'JJ'),
 ('metatheatrical', 'JJ'),
 ('meteorological', 'JJ'),
 ('methodological', 'JJ'),
 ('methodological', 'NN'),
 ('mezcal', 'JJ'),
 ('mignon', 'NNP'),
 ('millennia', 'NN'),
 ('millennia', 'NNP'),
 ('millennia', 'NNS'),
 ('misalign', 'VB'),
 ('misaligning', 'VBG'),
 ('miscalculative', 'JJ'),
 ('miscalibrations', 'NNS'),
 ('misnavigation', 'NN'),
 ('misstepped', 'VBD'),
 ('mollified', 'VBN'),
 ('monocultural', 'JJ'),
 ('mujeres', 'NNS'),
 ('multihued', 'VBN'),
 ('multiplied', 'VBN'),
 ('musculus', 'NN'),
 ('mythril', 'NN'),
 ('naranga', 'NN'),
 ('nauseam', 'NN'),
 ('neurobiologist', 'NN'),
 ('neurophenomenology', 'NN'),
 ('nightblooming', 'VBG'),
 ('niruri', 'NNP'),
 ('nobodyhood', 'NN'),
 ('non', 'FW'),
 ('non', 'NNP'),
 ('normativity', 'NN'),
 ('obfuscator', 'NN'),
 ('obstinance', 'NN'),
 ('ochre', 'JJ'),
 ('ochre', 'NN'),
 ('ochre', 'NNP'),
 ('ochre', 'NNS'),
 ('ochres', 'NNS'),
 ('oenological', 'JJ'),
 ('oftimes', 'VBZ'),
 ('onboard', 'NN'),
 ('onetime', 'NNP'),
 ('onscreen', 'JJ'),
 ('optimizer', 'NN'),
 ('osmologist', 'JJ'),
 ('osteon', 'NN'),
 ('ouroboros', 'NNS'),
 ('outstripped', 'VBD'),
 ('overabstraction', 'NN'),
 ('overaccumulated', 'VBN'),
 ('overanalysis', 'NN'),
 ('overarticulated', 'JJ'),
 ('overcomplication', 'NN'),
 ('overfitting', 'NN'),
 ('overseership', 'NN'),
 ('overwritten', 'VBN'),
 ('oxymoronic', 'JJ'),
 ('pacified', 'VBD'),
 ('pacified', 'VBN'),
 ('palustris', 'NN'),
 ('paralyzation', 'NN'),
 ('parfume', 'JJ'),
 ('parried', 'VBD'),
 ('passersby', 'NNP'),
 ('passersby', 'NNS'),
 ('passersby', 'VBZ'),
 ('pastorality', 'NN'),
 ('patissiere', 'RB'),
 ('pauser', 'NN'),
 ('pepiniere', 'NN'),
 ('personalis', 'FW'),
 ('personified', 'VBD'),
 ('philologic', 'JJ'),
 ('phytoremediation', 'NN'),
 ('piedra', 'NNS'),
 ('pluripolar', 'JJ'),
 ('polysyndeton', 'NNP'),
 ('pontification', 'NN'),
 ('posulate', 'VB'),
 ('posulate', 'VBP'),
 ('pried', 'VBD'),
 ('propos', 'NN'),
 ('protege', 'NN'),
 ('proteges', 'NNS'),
 ('provocateur', 'NN'),
 ('provocateurs', 'NNS'),
 ('psilocybe', 'NN'),
 ('pueri', 'JJ'),
 ('purer', 'NN'),
 ('purest', 'JJS'),
 ('qandi', 'NN'),
 ('quantified', 'VBN'),
 ('quarterlife', 'NN'),
 ('queried', 'VBD'),
 ('queried', 'VBN'),
 ('quo', 'NN'),
 ('racquet', 'NN'),
 ('racquet', 'NNS'),
 ('rallied', 'VBD'),
 ('rawest', 'JJS'),
 ('readied', 'VBD'),
 ('reanimer', 'NN'),
 ('recalibration', 'NN'),
 ('receptibility', 'NN'),
 ('rechauffement', 'NN'),
 ('reconceived', 'VBD'),
 ('reconceptualize', 'VB'),
 ('recontextualization', 'NN'),
 ('recordkeeping', 'NN'),
 ('recurse', 'VBP'),
 ('reevaluate', 'VB'),
 ('reexamine', 'VB'),
 ('reexamined', 'VBN'),
 ('reified', 'VBD'),
 ('reimagination', 'NN'),
 ('relatability', 'NN'),
 ('reportare', 'NN'),
 ('reste', 'VB'),
 ('ribeye', 'NN'),
 ('ridgeline', 'NN'),
 ('rigour', 'NN'),
 ('rivetingly', 'RB'),
 ('rosebushes', 'NNS'),
 ('roundtable', 'JJ'),
 ('ruiners', 'NNS'),
 ('sacchariferous', 'JJ'),
 ('sanctified', 'JJ'),
 ('sanctified', 'VBN'),
 ('sandcastle', 'NN'),
 ('sandcastles', 'NNS'),
 ('sauteed', 'NN'),
 ('scarred', 'JJ'),
 ('schmutilitarian', 'NN'),
 ('scrutinity', 'NN'),
 ('scrutinous', 'JJ'),
 ('scurried', 'VBD'),
 ('se', 'FW'),
 ('se', 'RB'),
 ('seafloor', 'NN'),
 ('seeklends', 'VBZ'),
 ('sentinelled', 'VBN'),
 ('sesquipedalianism', 'NN'),
 ('silverscape', 'NN'),
 ('simplified', 'JJ'),
 ('skilfully', 'RB'),
 ('snowfolk', 'NN'),
 ('soccus', 'NN'),
 ('soiree', 'JJ'),
 ('soiree', 'NN'),
 ('soirees', 'NNS'),
 ('solidified', 'VBD'),
 ('solidified', 'VBN'),
 ('solutive', 'JJ'),
 ('soundwaves', 'NNS'),
 ('speakest', 'JJS'),
 ('specified', 'JJ'),
 ('specified', 'VBN'),
 ('sublayer', 'NN'),
 ('sumless', 'JJ'),
 ('summate', 'NN'),
 ('sunbaked', 'VBN'),
 ('sunbed', 'NN'),
 ('sunhat', 'NN'),
 ('superficializes', 'VBZ'),
 ('surintend', 'VBP'),
 ('surveilled', 'VBN'),
 ('suspection', 'NN'),
 ('symbiogenesis', 'NN'),
 ('tantalizeth', 'VBP'),
 ('tastebud', 'NN'),
 ('tearoom', 'NN'),
 ('tetherless', 'JJ'),
 ('theatre', 'NN'),
 ('tighter', 'JJR'),
 ('timeframe', 'NN'),
 ('toaille', 'NN'),
 ('tranexamic', 'JJ'),
 ('tranquilude', 'NN'),
 ('transcenda', 'VBP'),
 ('transcriptor', 'NN'),
 ('transdimensional', 'JJ'),
 ('tres', 'NNS'),
 ('troublingly', 'RB'),
 ('twixt', 'VB'),
 ('ulmus', 'NN'),
 ('unactualized', 'JJ'),
 ('unactualized', 'VBN'),
 ('unbeknownst', 'JJ'),
 ('uncurious', 'JJ'),
 ('undergone', 'VBN'),
 ('unfathomably', 'RB'),
 ('unfetteredly', 'RB'),
 ('unforgivingly', 'RB'),
 ('unformulated', 'JJ'),
 ('unicornlite', 'JJ'),
 ('unlayered', 'JJ'),
 ('unlikeliest', 'NN'),
 ('unmarred', 'JJ'),
 ('unmarred', 'VBN'),
 ('unreciprocal', 'JJ'),
 ('upliftment', 'NN'),
 ('vapour', 'NN'),
 ('variegation', 'NN'),
 ('veloute', 'NN'),
 ('verifiability', 'NN'),
 ('verified', 'VBN'),
 ('vermillion', 'NN'),
 ('vespertilionidae', 'NN'),
 ('viaje', 'NN'),
 ('vilified', 'VBN'),
 ('vivant', 'NN'),
 ('vivante', 'NN'),
 ('vivre', 'NN'),
 ('von', 'NNP'),
 ('warriers', 'NNS'),
 ('wearied', 'VBD'),
 ('wilfully', 'RB'),
 ('windbagged', 'JJ'),
 ('wisper', 'NN'),
 ('withdrew', 'VBD'),
 ('withheld', 'VBN'),
 ('wordsmithery', 'NN'),
 ('xylobium', 'NN'),
 ('zephyrous', 'JJ')}

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions