Informace o projektu
Inteligentní software pro sémantické hledání dokumentů
(ISSHD)
- Kód projektu
- TD03000295
- Období řešení
- 1/2016 - 12/2017
- Investor / Programový rámec / typ projektu
-
Technologická agentura ČR
- OMEGA
- Fakulta / Pracoviště MU
-
Fakulta informatiky
- doc. RNDr. Petr Sojka, Ph.D.
- RNDr. Martin Líška
- RNDr. Michal Růžička, Ph.D.
- RNDr. Vít Starý Novotný, Ph.D.
- James Edward Thomas, M.A.
- WWW stránky projektu
- https://scaletext.com
- Klíčová slova
- škálovatelný systém sémantického vyhledávání; sémantické vyhledávání; modelování témat dokumentůů strojové učení; vyhledávání; hluboké učení
- Spolupracující organizace
-
RaRe Technologies s.r.o.
- Odpovědná osoba RNDr. Radim Řehůřek, Ph.D.
- Odpovědná osoba RNDr. Radim Řehůřek, Ph.D.
- Odpovědná osoba RNDr. Jan Pomikálek, Ph.D.
- Odpovědná osoba RNDr. Jan Rygl
Naše společensko-vědní kultura je definována slovy, které v dnešní
informační společnosti konstituují _dokumenty_.
Cílem projektu je vytvoření databázového systému (software),
který umožní hledání _významově_ příbuzných dokumentů.
Systém Scaletext se skládá ze tří částí:
- sémantická analýza: strojově analyzuje libovolný nestrukturovaný
dokument v přirozeném jazyce (čeština, angličtina)
- indexace: nalezená témata a strukturu každého dokumentu vnitřně uloží
ve vhodné reprezentaci _významů_ slov tak, aby systém umožnil posléze
hledat podobné dokumenty k dotazu (=dokumentu), index vizualizovat
- vyhledávání: pro vstupní dokument nalezne ty dokumenty, které odpovídají
(latentnímu) významu dotazu, a to i když nesdílí stejná slova
Výsledky
https://www.rvvi.cz/cep?s=jednoduche-vyhledavani&ss=detail&n=0&h=TD03000295
Publikace
Počet publikací: 9
2018
-
Implementation Notes for the Soft Cosine Measure
Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM '18), rok: 2018
-
Weighting of Passages in Question Answering
Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2018, rok: 2018
2017
-
Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines
CEUR Workshop Proceedings, Vol. 1923, rok: 2017
-
Math Information Retrieval for Digital Libraries
Rok: 2017, druh: Účelové publikace
-
ScaleText
Rok: 2017
-
Semantic Similarities between Locations based on Ontology
Proceedings of the Eleventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2017, rok: 2017
-
Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines
Proceedings of the 2nd Workshop on Representation Learning for NLP, RepL4NLP 2017 c/o ACL 2017, rok: 2017
-
Vector Space Representations in Information Retrieval
Rok: 2017, druh: Účelové publikace
2016
-
ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text
Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, rok: 2016