-
-
Notifications
You must be signed in to change notification settings - Fork 79
Open
Description
As I progressively work towards training a g2p model, there are some words in my training datasets which produce no phonemes (without any fallback). I'll add them here, and feel free to ignore or add whichever you think are worth it.
Some are quite archaic (e.g., abord), others not widely recognized or similar spellings (e.g., acknowledgement), but quite a few are normal English words which could benefit from being added (e.g., ambiance, artefact, verified).
{('abord', 'VBP'),
('acai', 'NN'),
('acai', 'NNP'),
('acknowledgement', 'NN'),
('advantare', 'NN'),
('aeons', 'NNS'),
('aether', 'NN'),
('affordances', 'NNS'),
('aficionada', 'NN'),
('agere', 'RB'),
('agreeance', 'NN'),
('alacritous', 'JJ'),
('alacritously', 'RB'),
('alchemic', 'JJ'),
('alichemical', 'JJ'),
('alma', 'NN'),
('ambiance', 'NN'),
('ambiances', 'NNS'),
('analyser', 'NN'),
('anapnea', 'NN'),
('annihilatory', 'NN'),
('annum', 'NNP'),
('anthropologic', 'JJ'),
('aphrodisiacal', 'JJ'),
('appelatur', 'NN'),
('arbitrar', 'NN'),
('arcanean', 'JJ'),
('argenteous', 'JJ'),
('arguendo', 'NN'),
('arnoldii', 'NNS'),
('artefact', 'NN'),
('artefacts', 'NNS'),
('articulative', 'JJ'),
('aspleenic', 'JJ'),
('assignare', 'NN'),
('astrobiologist', 'NN'),
('atheneum', 'NN'),
('auratum', 'NN'),
('autopoiesis', 'NN'),
('axiologist', 'NN'),
('backroom', 'NN'),
('bannisters', 'NNS'),
('barstool', 'NN'),
('battleground', 'NN'),
('beaute', 'NN'),
('beginnan', 'NN'),
('behaviour', 'NN'),
('bellus', 'NN'),
('beurre', 'NN'),
('biblioteca', 'NN'),
('biloba', 'NN'),
('biochromatic', 'JJ'),
('bioelectricity', 'NN'),
('bioglass', 'NN'),
('biomechanical', 'JJ'),
('biophilia', 'NNS'),
('biophilic', 'JJ'),
('birdcalls', 'NNS'),
('blanc', 'NNP'),
('blonde', 'JJ'),
('blæw', 'NNP'),
('boatkeeper', 'NN'),
('bookshelves', 'NNS'),
('bookshop', 'NN'),
('boulangerie', 'NN'),
('bowtie', 'NN'),
('breakroom', 'NN'),
('brightest', 'JJS'),
('brightest', 'RBS'),
('busied', 'VBD'),
('caftan', 'NN'),
('capricities', 'NNS'),
('catalogue', 'VB'),
('catalogued', 'VBD'),
('catalogued', 'VBN'),
('ceramist', 'NN'),
('cerulea', 'NN'),
('chanca', 'NN'),
('charlatanesque', 'JJ'),
('chimerical', 'JJ'),
('chocolaterie', 'NN'),
('chocolatier', 'JJR'),
('choux', 'NN'),
('chronomancy', 'NN'),
('chronotopic', 'JJ'),
('cidr', 'NN'),
('cliche', 'NN'),
('cliches', 'NNS'),
('cogwork', 'NN'),
('cohabitating', 'VBG'),
('collaboraative', 'JJ'),
('colours', 'NNS'),
('communique', 'NN'),
('competencies', 'NNS'),
('compilatory', 'JJ'),
('comprehendible', 'JJ'),
('comunicating', 'VBG'),
('conjurer', 'NN'),
('connectere', 'NN'),
('connoisseuse', 'NN'),
('connotate', 'VB'),
('considerare', 'NN'),
('consomme', 'NN'),
('contextuality', 'NN'),
('contortionism', 'NN'),
('conversationists', 'NNS'),
('copied', 'VBN'),
('corporealized', 'VBD'),
('correspondental', 'JJ'),
('counterbalancer', 'NN'),
('coworkers', 'NNS'),
('creaturas', 'NNP'),
('creditpreneurs', 'NNS'),
('creme', 'NN'),
('cri', 'NNP'),
('culinarian', 'NN'),
('culminative', 'JJ'),
('cyclicity', 'NN'),
('dammed', 'VBN'),
('de', 'FW'),
('de', 'NN'),
('de', 'NNP'),
('deductivism', 'NN'),
('defied', 'VBD'),
('deific', 'JJ'),
('denied', 'VBN'),
('denouement', 'JJ'),
('denouement', 'NN'),
('deor', 'JJ'),
('dernier', 'JJR'),
('desenrascanco', 'NN'),
('deux', 'FW'),
('dialogical', 'JJ'),
('dihydrogen', 'NN'),
('diminishment', 'NN'),
('disempowerment', 'NN'),
('dolcet', 'NN'),
('dolphinfish', 'NN'),
('domestica', 'NNP'),
('dramaturg', 'NN'),
('duplicacy', 'NN'),
('dynamizing', 'VBG'),
('dysregulates', 'VBZ'),
('eclecticities', 'NNS'),
('eclecticity', 'NN'),
('ecosystemic', 'JJ'),
('electromagnificence', 'NN'),
('elocuted', 'VBN'),
('eloquencies', 'NNS'),
('endeavour', 'VBP'),
('endeavours', 'NNS'),
('enquiry', 'NN'),
('entendre', 'NN'),
('enthalpic', 'JJ'),
('entomophobia', 'NN'),
('entrees', 'NNS'),
('equilibria', 'NNS'),
('equite', 'NN'),
('errantly', 'RB'),
('escalivada', 'NN'),
('espuma', 'DT'),
('espuma', 'NN'),
('et', 'NN'),
('exemplified', 'VBD'),
('exiliquy', 'NN'),
('existenz', 'NN'),
('exoplanetary', 'JJ'),
('fancied', 'VBD'),
('ferris', 'JJ'),
('fete', 'NN'),
('fillamentation', 'NN'),
('fillaments', 'NNS'),
('flaneur', 'NN'),
('florentis', 'NN'),
('flummoxery', 'NN'),
('foie', 'NN'),
('fois', 'NN'),
('folktale', 'NN'),
('folktales', 'NNS'),
('forebearers', 'NNS'),
('fraiche', 'NN'),
('fraisage', 'NN'),
('freefall', 'VBP'),
('frinctional', 'JJ'),
('frisson', 'NN'),
('frittare', 'NN'),
('fromage', 'NN'),
('frontline', 'NN'),
('frontlines', 'NNS'),
('fugit', 'NN'),
('fugit', 'VBD'),
('furiosity', 'NN'),
('furore', 'NN'),
('gamified', 'JJ'),
('gastronomist', 'NN'),
('gentlemen', 'NNS'),
('geometrical', 'JJ'),
('gnomologist', 'NN'),
('goldmine', 'NN'),
('grey', 'NN'),
('guesstimation', 'NN'),
('havocked', 'VBD'),
('heatwave', 'NN'),
('hempcrete', 'NN'),
('historia', 'NNP'),
('hoc', 'FW'),
('humanconnection', 'NN'),
('husbondi', 'NN'),
('hydrazoic', 'NN'),
('ichthyofauna', 'NN'),
('implementational', 'JJ'),
('inarticulable', 'NN'),
('incoporate', 'VBP'),
('incumbrance', 'NN'),
('inscipience', 'NN'),
('intellectualization', 'NN'),
('interconnectivity', 'NN'),
('intercultural', 'JJ'),
('interdependencies', 'NNS'),
('interdimensional', 'JJ'),
('interhuman', 'NN'),
('interpretive', 'JJ'),
('interspecies', 'NNS'),
('interwove', 'NN'),
('interwove', 'VB'),
('interwove', 'VBP'),
('interwoven', 'CD'),
('interwoven', 'JJ'),
('interwoven', 'NN'),
('interwoven', 'NNP'),
('interwoven', 'PRP'),
('interwoven', 'RB'),
('interwoven', 'VBD'),
('interwoven', 'VBN'),
('intoneddreamily', 'RB'),
('irreplicable', 'JJ'),
('joie', 'NN'),
('joie', 'NNP'),
('kaotic', 'JJ'),
('labour', 'NN'),
('labours', 'NNS'),
('launchpad', 'NN'),
('leche', 'NNP'),
('lexiconic', 'JJ'),
('ley', 'JJ'),
('ley', 'NNP'),
('liason', 'NN'),
('liberative', 'JJ'),
('liberatory', 'NN'),
('lifecycle', 'NN'),
('lightest', 'JJS'),
('lightheartedness', 'NN'),
('ligue', 'NN'),
('likeminded', 'VBN'),
('linework', 'NN'),
('longue', 'NN'),
('lumina', 'NN'),
('lumina', 'NNP'),
('luminescens', 'NNS'),
('luminist', 'NN'),
('macrochirus', 'NN'),
('magistery', 'NN'),
('magnified', 'VBD'),
('magnified', 'VBN'),
('malbec', 'NN'),
('margaritifera', 'NN'),
('marvelled', 'VBD'),
('marvellously', 'RB'),
('masse', 'NN'),
('masterstroke', 'NN'),
('mediatrix', 'NN'),
('melancholic', 'JJ'),
('melange', 'NN'),
('meritous', 'JJ'),
('mesophilic', 'JJ'),
('metacognitive', 'JJ'),
('metacosmic', 'JJ'),
('metafictional', 'JJ'),
('metamorphosize', 'VB'),
('metaphoric', 'JJ'),
('metatheatrical', 'JJ'),
('meteorological', 'JJ'),
('methodological', 'JJ'),
('methodological', 'NN'),
('mezcal', 'JJ'),
('mignon', 'NNP'),
('millennia', 'NN'),
('millennia', 'NNP'),
('millennia', 'NNS'),
('misalign', 'VB'),
('misaligning', 'VBG'),
('miscalculative', 'JJ'),
('miscalibrations', 'NNS'),
('misnavigation', 'NN'),
('misstepped', 'VBD'),
('mollified', 'VBN'),
('monocultural', 'JJ'),
('mujeres', 'NNS'),
('multihued', 'VBN'),
('multiplied', 'VBN'),
('musculus', 'NN'),
('mythril', 'NN'),
('naranga', 'NN'),
('nauseam', 'NN'),
('neurobiologist', 'NN'),
('neurophenomenology', 'NN'),
('nightblooming', 'VBG'),
('niruri', 'NNP'),
('nobodyhood', 'NN'),
('non', 'FW'),
('non', 'NNP'),
('normativity', 'NN'),
('obfuscator', 'NN'),
('obstinance', 'NN'),
('ochre', 'JJ'),
('ochre', 'NN'),
('ochre', 'NNP'),
('ochre', 'NNS'),
('ochres', 'NNS'),
('oenological', 'JJ'),
('oftimes', 'VBZ'),
('onboard', 'NN'),
('onetime', 'NNP'),
('onscreen', 'JJ'),
('optimizer', 'NN'),
('osmologist', 'JJ'),
('osteon', 'NN'),
('ouroboros', 'NNS'),
('outstripped', 'VBD'),
('overabstraction', 'NN'),
('overaccumulated', 'VBN'),
('overanalysis', 'NN'),
('overarticulated', 'JJ'),
('overcomplication', 'NN'),
('overfitting', 'NN'),
('overseership', 'NN'),
('overwritten', 'VBN'),
('oxymoronic', 'JJ'),
('pacified', 'VBD'),
('pacified', 'VBN'),
('palustris', 'NN'),
('paralyzation', 'NN'),
('parfume', 'JJ'),
('parried', 'VBD'),
('passersby', 'NNP'),
('passersby', 'NNS'),
('passersby', 'VBZ'),
('pastorality', 'NN'),
('patissiere', 'RB'),
('pauser', 'NN'),
('pepiniere', 'NN'),
('personalis', 'FW'),
('personified', 'VBD'),
('philologic', 'JJ'),
('phytoremediation', 'NN'),
('piedra', 'NNS'),
('pluripolar', 'JJ'),
('polysyndeton', 'NNP'),
('pontification', 'NN'),
('posulate', 'VB'),
('posulate', 'VBP'),
('pried', 'VBD'),
('propos', 'NN'),
('protege', 'NN'),
('proteges', 'NNS'),
('provocateur', 'NN'),
('provocateurs', 'NNS'),
('psilocybe', 'NN'),
('pueri', 'JJ'),
('purer', 'NN'),
('purest', 'JJS'),
('qandi', 'NN'),
('quantified', 'VBN'),
('quarterlife', 'NN'),
('queried', 'VBD'),
('queried', 'VBN'),
('quo', 'NN'),
('racquet', 'NN'),
('racquet', 'NNS'),
('rallied', 'VBD'),
('rawest', 'JJS'),
('readied', 'VBD'),
('reanimer', 'NN'),
('recalibration', 'NN'),
('receptibility', 'NN'),
('rechauffement', 'NN'),
('reconceived', 'VBD'),
('reconceptualize', 'VB'),
('recontextualization', 'NN'),
('recordkeeping', 'NN'),
('recurse', 'VBP'),
('reevaluate', 'VB'),
('reexamine', 'VB'),
('reexamined', 'VBN'),
('reified', 'VBD'),
('reimagination', 'NN'),
('relatability', 'NN'),
('reportare', 'NN'),
('reste', 'VB'),
('ribeye', 'NN'),
('ridgeline', 'NN'),
('rigour', 'NN'),
('rivetingly', 'RB'),
('rosebushes', 'NNS'),
('roundtable', 'JJ'),
('ruiners', 'NNS'),
('sacchariferous', 'JJ'),
('sanctified', 'JJ'),
('sanctified', 'VBN'),
('sandcastle', 'NN'),
('sandcastles', 'NNS'),
('sauteed', 'NN'),
('scarred', 'JJ'),
('schmutilitarian', 'NN'),
('scrutinity', 'NN'),
('scrutinous', 'JJ'),
('scurried', 'VBD'),
('se', 'FW'),
('se', 'RB'),
('seafloor', 'NN'),
('seeklends', 'VBZ'),
('sentinelled', 'VBN'),
('sesquipedalianism', 'NN'),
('silverscape', 'NN'),
('simplified', 'JJ'),
('skilfully', 'RB'),
('snowfolk', 'NN'),
('soccus', 'NN'),
('soiree', 'JJ'),
('soiree', 'NN'),
('soirees', 'NNS'),
('solidified', 'VBD'),
('solidified', 'VBN'),
('solutive', 'JJ'),
('soundwaves', 'NNS'),
('speakest', 'JJS'),
('specified', 'JJ'),
('specified', 'VBN'),
('sublayer', 'NN'),
('sumless', 'JJ'),
('summate', 'NN'),
('sunbaked', 'VBN'),
('sunbed', 'NN'),
('sunhat', 'NN'),
('superficializes', 'VBZ'),
('surintend', 'VBP'),
('surveilled', 'VBN'),
('suspection', 'NN'),
('symbiogenesis', 'NN'),
('tantalizeth', 'VBP'),
('tastebud', 'NN'),
('tearoom', 'NN'),
('tetherless', 'JJ'),
('theatre', 'NN'),
('tighter', 'JJR'),
('timeframe', 'NN'),
('toaille', 'NN'),
('tranexamic', 'JJ'),
('tranquilude', 'NN'),
('transcenda', 'VBP'),
('transcriptor', 'NN'),
('transdimensional', 'JJ'),
('tres', 'NNS'),
('troublingly', 'RB'),
('twixt', 'VB'),
('ulmus', 'NN'),
('unactualized', 'JJ'),
('unactualized', 'VBN'),
('unbeknownst', 'JJ'),
('uncurious', 'JJ'),
('undergone', 'VBN'),
('unfathomably', 'RB'),
('unfetteredly', 'RB'),
('unforgivingly', 'RB'),
('unformulated', 'JJ'),
('unicornlite', 'JJ'),
('unlayered', 'JJ'),
('unlikeliest', 'NN'),
('unmarred', 'JJ'),
('unmarred', 'VBN'),
('unreciprocal', 'JJ'),
('upliftment', 'NN'),
('vapour', 'NN'),
('variegation', 'NN'),
('veloute', 'NN'),
('verifiability', 'NN'),
('verified', 'VBN'),
('vermillion', 'NN'),
('vespertilionidae', 'NN'),
('viaje', 'NN'),
('vilified', 'VBN'),
('vivant', 'NN'),
('vivante', 'NN'),
('vivre', 'NN'),
('von', 'NNP'),
('warriers', 'NNS'),
('wearied', 'VBD'),
('wilfully', 'RB'),
('windbagged', 'JJ'),
('wisper', 'NN'),
('withdrew', 'VBD'),
('withheld', 'VBN'),
('wordsmithery', 'NN'),
('xylobium', 'NN'),
('zephyrous', 'JJ')}
Metadata
Metadata
Assignees
Labels
No labels