Word-Embedding Benchmarking

Bibtex

@Select Types{,
  
   
  
   
  title    = "Word-Embedding Benchmarking", 
  author    = "Philipp Behnen, Felix Kruse, Jorge Marx Gómez", 
  doi    = "https://doi.org/10.30844/wi_2020_c3-behnen", 
  abstract    = "Die automatisierte Verarbeitung natürlicher Sprache bietet großes Potenzial, um neues Wissen aus unstrukturierten Daten zu gewinnen. Für die Bewältigung dieser Herausforderung haben sich in den vergangenen Jahren Word-Embedding-Verfahren bewährt, da diese semantische Ähnlichkeiten abbilden können. Durch die intensive Forschung entstehen stetig neue Verfahren. Je nach Aufgabe ist dabei aber nicht immer eindeutig, welches Verfahren für den Einzelfall empfehlenswert ist. Um dieses Problem zu adressieren, liefert dieser Beitrag einen Word-Embedding Benchmark, der die NLP-Tasks Ähnlichkeit, Analogie und (Multiclass-/Multilabel-) Klassifikation für einheitlich trainierte Word-Embeddings betrachtet und neben der Genauigkeit auch auf Kriterien wie die Trainingsdauer und die Hardwareressourcen eingeht. Zudem werden die Standardparametereinstellungen der Word-Embeddings modifiziert, um die Ergebnisse zu validieren. Die besten Ergebnisse lieferten die Word-Embeddings FastText und ELMo. Mit diesem Benchmark werden Data Scientisten bei der Auswahl eines Word-Embeddings für den Einsatz in entsprechenden NLPAufgaben unterstützt.

", 
  keywords    = "Natural Language Processing, Machine Learning, Word Embedding, Character Embedding, Data Science", 
}

Abstract

Abstract

Die automatisierte Verarbeitung natürlicher Sprache bietet großes Potenzial, um neues Wissen aus unstrukturierten Daten zu gewinnen. Für die Bewältigung dieser Herausforderung haben sich in den vergangenen Jahren Word-Embedding-Verfahren bewährt, da diese semantische Ähnlichkeiten abbilden können. Durch die intensive Forschung entstehen stetig neue Verfahren. Je nach Aufgabe ist dabei aber nicht immer eindeutig, welches Verfahren für den Einzelfall empfehlenswert ist. Um dieses Problem zu adressieren, liefert dieser Beitrag einen Word-Embedding Benchmark, der die NLP-Tasks Ähnlichkeit, Analogie und (Multiclass-/Multilabel-) Klassifikation für einheitlich trainierte Word-Embeddings betrachtet und neben der Genauigkeit auch auf Kriterien wie die Trainingsdauer und die Hardwareressourcen eingeht. Zudem werden die Standardparametereinstellungen der Word-Embeddings modifiziert, um die Ergebnisse zu validieren. Die besten Ergebnisse lieferten die Word-Embeddings FastText und ELMo. Mit diesem Benchmark werden Data Scientisten bei der Auswahl eines Word-Embeddings für den Einsatz in entsprechenden NLPAufgaben unterstützt.

Keywords

Schlüsselwörter

Natural Language Processing, Machine Learning, Word Embedding, Character Embedding, Data Science

References

Referenzen

1. Enríquez, J.G., Domínguez-Mayo, F.J., Escalona, M.J., Ross, M., Staples, G.: Entity reconciliation in big data sources. A systematic mapping study. Expert Systems with Applications 80, 14–27 (2017)
2. Kooli, N., Allesiardo, R., Pigneul, E.: Deep Learning Based Approach for Entity Resolution in Databases. In: Nguyen, N.T., Hoang, D.H., Hong, T.-P., Pham, H., Trawiński, B. (eds.) Intelligent Information and Database Systems, 10752, pp. 3–
12. Springer International Publishing, Cham (2018)
3. Mudgal, S., Li, H., Rekatsinas, T., Doan, A., Park, Y., Krishnan, G., Deep, R., Arcaute, E., Raghavendra, V.: Deep Learning for Entity Matching. In: Das, G., Jermaine, C., Bernstein, P. (eds.) Proceedings of the 2018 International Conference on Management of Data – SIGMOD ’18, pp. 19–34. ACM Press, New York, New York, USA (2018)
4. Blazquez, D., Domenech, J.: Big Data sources and methods for social and economic analyses. Technological Forecasting and Social Change 130, 99–113 (2018)
5. Bojanowski, P., Grave, E., Joulin, A., Mikolov, T.: Enriching Word Vectors with Subword Information. In: Transactions of the Association for Computational Linguistics, 5, pp. 135–146
6. Peters, M.E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., Zettlemoyer, L.: Deep contextualized word representations (2018)
7. Ghannay, S., Favre, B., Esteve, Y., Camelin, N.: Word embedding evaluation and combination. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), pp. 300–305 (2016)
8. Lebret, R., Collobert, R.: Word Emdeddings through Hellinger PCA (2013)
9. Agirre, E., Alfonseca, E., Hall, K., Kravalova, J., Pasca, M., Soroa, A.: A Study on Similarity and Relatedness Using Distributional and WordNet-based Approaches. In: Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 19–27. Association for Computational Linguistics (2009)
10. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J.: Distributed Representations of Words and Phrases and their Compositionality. In: Advances in neural information processing systems, pp. 3111–3119 (2013)
11. Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient Estimation of Word Representations in Vector Space (2013)
12. Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jégou, H., Mikolov, T.: FastText.zip: Compressing text classification models (2016)
13. Pennington, J., Socher, R., Manning, C.: Glove: Global Vectors for Word Representation. In: Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pp. 1532–1543 (2014)
14. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
15. Joulin, A., Grave, E., Bojanowski, P., Mikolov, T.: Bag of Tricks for Efficient Text Classification (2016)
16. Dhillon, P.S., Foster, D.P., Ungar Lyle H.: Eigenwords: Spectral word embeddings. In: The Journal of Machine Learning Research, vol. 16(1)vol. , pp. 3035–3078 (2015)
17. Ji, S., Yun, H., Yanardag, P., Matsushima, S., Vishwanathan, S.V.N.: WordRank: Learning Word Embeddings via Robust Ranking (2015)
18. Shazeer, N., Doherty, R., Evans, C., Waterson, C.: Swivel: Improving Embeddings by Noticing What’s Missing (2016)
19. Bartunov, S., Kondrashkin, D., Osokin, A., Vetrov, D.P.: Breaking Sticks and Ambiguities with Adaptive Skip-gram. In: Artificial Intelligence and Statistics, pp. 130–138 (2016)
20. Speer, R., Chin, J., Havasi, C.: ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. In: Thirty-First AAAI Conference on Artificial Intelligence (2017)
21. Schnabel, T., Labutov, I., Mimno, D., Joachims, T.: Evaluation methods for unsupervised word embeddings. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 298–307 (2015)
22. Baroni, M., Dinu, G., Kruszewski, G.: Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 238–247 (2014)
23. Levy, O., Goldberg, Y., Dagan, I.: Improving Distributional Similarity with Lessons Learned from Word Embeddings. In: Transactions of the Association for Computational Linguistics, 3, pp. 211–225 (2015)
24. Rehurek, R., Sojka, P.: Software Framework for Topic Modelling with Large Corpora. In: Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, pp. 45–50. ELRA, Valletta, Malta (2010)
25. Gardner, M., Grus, J., Neumann, M., Tafjord, O., Dasigi, P., Liu, N.F., Peters, M., Schmitz, M., Zettlemoyer, L.S.: AllenNLP: A Deep Semantic Natural Language Processing Platform (2018)
26. Bruni, E., Boleda, G., Baroni, M., Khanh Tran, N.: Distributional Semantics in Technicolor. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1, pp. 136–145 (2012)
27. Mikolov, T., Yih, W.-t., Zweig, G.: Linguistic Regularities in Continuous Space Word Representations. In: Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 746–751 (2013)
28. Gladkova, A., Drozd, A., Matsuoka, S.: Analogy-based detection of morphological and semantic relations with word embeddings: what works and what doesn’t. In: Proceedings of the NAACL Student Research Workshop, pp. 8– 15 (2016)
29. Rogers, A., Drozd, A., Li, B.: The (too Many) Problems of Analogical Reasoning with Word Vectors. In: Proceedings of the 6th Joint Conference on Lexical and Computational Semantics (* SEM 2017), pp. 135–148 (2017)
30. Lewis, D.: Reuters-21578 text categorization test collection. Distribution 1.0, AT&T Labs-Research (1997)
31. Cady, F.: The data science handbook. Wiley, Hoboken NJ (2017)
32. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I.: Language Models are Unsupervised Multitask Learners (2019)

Most viewed articles

Meist angesehene Beiträge

GITO events | library.gito