Skocz do zawartości

Wstęp do przetwarzania języka naturalnego – klasyfikacja tekstu


Pomocna odpowiedź

Wszystko fajnie, opisałeś tworzenie modelu dla języka angielskiego (i ogólnie dla języków pozycyjnych). Dla języka polskiego (i ogólnie dla języków fleksyjnych) zastosowanie stemmera usunęłoby praktycznie całą warstwę znaczeniową, pozostawiając "zupę" niezwiązanych ze sobą wyrazów. O ile w prostej klasyfikacji dłuższych tekstów przy założeniu niewielkiej ilości dobrze określonych gatunków i wzięcia jako cel wyłącznie ustalenia przynależności do danego gatunku algorytm pewnie by sobie poradził - o tyle przy klasyfikacji pojedynczych zdań (gdy nie wiadomo, co jest podmiotem, a czasem nawet orzeczeniem zdania) jest to kompletnie nieprzydatne. Czyli inaczej: algorytm będzie w stanie sklasyfikować książki w bibliotece, ale nie będzie umiał zanalizować większości kilkuwyrazowych poleceń.

Pomijam już fakt, że algorytmiczne stemmery dla języka polskiego nie istnieją (a przynajmniej takie, które nadają się do czegoś więcej niż wyszukiwarka w wordpressie), a ich rolę grają rozwiązania słownikowe (np. ispell i pochodne) - dla algorytmu jest to to samo, tym niemniej warto o tym wspomnieć.

Aha, tak poza tym "hello there" nie jest zdaniem, ale to szczegół 🙂

 

  • Lubię! 2

@ethanak rozumiem krytykę, ale nadal dla @kampo należą się podziękowania za to, że zdecydował się napisać artykuł. Oby każdy tak chętnie dzielił się swoimi doświadczeniami. Może dla języka polskiego nie sprawdzi się to zbyt dobrze, ale jak ktoś będzie szukał rozwiązania dla języka angielskiego to start będzie miał dobry 🙂

Ależ ja nie nic złego chyba nie napisałem 🙂 Sam czekam na to co będzie dalej (a mam nadzieję że będzie, bo to przecież "wstęp") - a jeśli coś będę mógł ze swoich doświadczeń dodać (dla języka polskiego) to mam nadzieję że mnie nikt nie wyklnie...

  • Lubię! 1
15 godzin temu, ethanak napisał:

Dla języka polskiego (i ogólnie dla języków fleksyjnych) zastosowanie stemmera usunęłoby praktycznie całą warstwę znaczeniową, pozostawiając "zupę" niezwiązanych ze sobą wyrazów.

Zgadza się, wspomniałem o tym już na początku artykułu, że do języka polskiego - w tym też innych słowiańskich czy fleksyjnych jak napisałeś - należy podejść nieco inaczej.

 

15 godzin temu, ethanak napisał:

Aha, tak poza tym "hello there" nie jest zdaniem, ale to szczegół 🙂

Generalnie pamiętajmy, że jest sporo ludzi, który nie mieli do czynienia z NLP w ogóle. Być może przesadnie używałem słowa "zdanie" i doświadczona osoba w tym obszarze może wskazać wiele uwag, ale chciałem artykuł utrzymać w jak najprostszej formie. Artykuł przedstawia pewne podejście i zawiera kawałek nowej wiedzy, którą trzeba przyswoić, więc aby nie komplikować za bardzo - uprościłem niektóre rzeczy. Jest to też trochę ten przypadek "skończ gadać i pokaż kod" (przynajmniej dla mnie 🙂)

Zakładam, że jeśli kogoś NLP zaintryguje i zacznie drążyć na własną rękę, to prędzej czy później dojdzie do takich wniosków odnośnie przedstawionego tutaj procesu zastosowanego do języka polskiego przykładowo 🙂 

14 godzin temu, ethanak napisał:

Ależ ja nie nic złego chyba nie napisałem 🙂 [...] a jeśli coś będę mógł ze swoich doświadczeń dodać (dla języka polskiego) to mam nadzieję że mnie nikt nie wyklnie...

Nie traktuję tego jako coś złego, dla mnie wszystkie uwagi i konstruktywna krytyka są mile widziane. Dobrze też wiedzieć, że masz z tym doświadczenie 😉 Inna sprawa, że cały czas uczę się przekazywać wiedzę w taki sposób, aby było to zrozumiałe. Także dziękuję za uwagi 🙂 

14 godzin temu, Treker napisał:

Może dla języka polskiego nie sprawdzi się to zbyt dobrze, ale jak ktoś będzie szukał rozwiązania dla języka angielskiego to start będzie miał dobry 🙂

Dokładnie taki był cel 😉 

  • Lubię! 1

Bądź aktywny - zaloguj się lub utwórz konto!

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto w ~20 sekund!

Zarejestruj nowe konto, to proste!

Zarejestruj się »

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się »
×
×
  • Utwórz nowe...