1
votes

Existe-t-il un moyen d'extraire le «NOM de l'entreprise», «TITRE du travail» et «LOCATION du travail» de chaque ligne de chaîne ci-dessous

De chaque ligne de chaîne ci-dessous, je souhaite extraire le nom de l'entreprise, le titre du poste et l'emplacement du poste. Y a-t-il un moyen de le faire? car le modèle n'est pas cohérent. Merci.

"Jerry (YC S17) Is Hiring Senior Software Dev, Data Engineer (Toronto/Remote)"

"Iris Automation Is Hiring an Account Executive for B2B Flying Vehicle Software"

"Strikingly (YC W13) is hiring in our Shanghai office"

"BuildZoom (YC W13) is hiring  help make remodeling cheaper"

"EquipmentShare (YC W15) Is Looking for an Experienced React Native Dev"

"Saleswhale (YC S16) AI Assistant Startup Is Hiring Customer Success Managers"

"Streak (YC S11) is profitable, well funded and hiring in Vancouver"

"Tesorio (YC S15) Is Hiring Engineering Managers, Senior Python Engineer"

"Checkr (YC S14) is hiring engineers to build the future of online trust"

"Rescale Is Hiring a Senior DevOps Engineer in San Francisco"

"Tremendous.com is hiring its first engineer"

"Remix is looking for a front-end engineer to help build better public transit"

"Atomwise (YC W15) Is Hiring a Senior Machine Learning Research Scientist in SF"

"Confident Cannabis (YC S15) Is Hiring Engineers"

"WaystoCap (YC W17) is hiring a software engineer in Spain"

"Smarking (YC W15) Is Hiring a Customer Service Manager"

"Sunsama (YC W19) Is Hiring a Senior Full Stack Engineer (RN/GraphQL/Node)"

"Pachyderm Raised $10M and Is Looking for a Senior Full-Stack Engineer"

"Picktrace (YC S15) is hiring a senior Android engineer"

"Segment is hiring engineers to create our developer platform"

"XIX Is Hiring a Senior Front End Engineer"

"Athelas (YC S16) is hiring software engineers"

"Dyneti (YC W19) is hiring software engineers"

"ZeroCater (YC W11) Is Hiring a Principal Engineer in SF: Must Love Food"

"Mux is looking for developers who want to help developers build better video"

"Munich, Germany: Demodesk (YC W19) Is Hiring Software Engineers"

"New Story (YC Nonprofit) Hiring a JavaScript Software Engineer"

"Quit Genius (YC W18) Is Hiring a Product Manager in London"

"Flexport is hiring senior engineers in SF  Come get to know us"

"OneSignal Is Hiring Ruby on Rails and DevOps Engineers in San Mateo"

************* C'est ce que je veux ************** b>

Exemple 1

"Jerry (YC S17) recrute un développeur logiciel senior, ingénieur de données (Toronto / Remote)"

Nom de l'entreprise:

Jerry

Intitulé du poste: Développement logiciel senior, ingénieur de données

Lieu: b> Toronto / Remote

Exemple 2

"Remix recherche un ingénieur front-end pour aider à construire de meilleurs transports en commun"

Nom de l'entreprise:

Remix

Titre du poste: ingénieur front-end

Lieu:

Exemple 3

"Munich, Allemagne: Demodesk (YC W19) recrute des ingénieurs logiciels"

Nom de l'entreprise : Demodesk

Intitulé du poste: Ingénieur logiciel

Lieu: Munich, Allemagne

p>


0 commentaires

3 Réponses :


0
votes
  1. Rassemblez un grand corpus d'exemples comme ceux-ci. 100 000 environ suffiraient probablement, mais si vous pouviez obtenir un million d'échantillons, ce serait mieux.
  2. Divisez-les manuellement. Si vous pouvez vous le permettre, ce sera beaucoup plus rapide si vous distribuez le travail aux stagiaires / turk mécanique / etc.
  3. Entraînez un modèle ML sur votre ensemble de données. N'oubliez pas de prendre une sélection aléatoire d'échantillons pour la formation / les tests. Visez une précision supérieure à 90%, mais essayez également de ne pas suradapter vos données.

1 commentaires

En fait, pour les modèles relativement simples (par exemple, les incorporations de mots pré-entraînés + CRF), beaucoup moins d'exemples sont nécessaires. D'après mon expérience, environ 1000 exemples suffisaient déjà pour obtenir une qualité décente. Quant à la structure exacte du modèle, vous pouvez réutiliser les architectures existantes pour le balisage POS.



0
votes

À ma connaissance, si le modèle n'est pas cohérent, nous ne pouvons pas extraire et récupérer les données de n'importe quelle chaîne. cela ne peut être fait que par des êtres humains car ils ont des compétences de compréhension, ou vous devez mettre en œuvre le ML.


0 commentaires

0
votes

Nous pouvons utiliser ces modèles SPACY, CRF, StanfordNLP et LSTM facilement. Entraînez-vous à 70% et testez sur 30% de données. Je préfère que Bidirectional-LSTM soit le meilleur pour cela.


0 commentaires