Skocz do zawartości

Wstęp do przetwarzania języka naturalnego – klasyfikacja tekstu


kampo

Pomocna odpowiedź

Wszystko fajnie, opisałeś tworzenie modelu dla języka angielskiego (i ogólnie dla języków pozycyjnych). Dla języka polskiego (i ogólnie dla języków fleksyjnych) zastosowanie stemmera usunęłoby praktycznie całą warstwę znaczeniową, pozostawiając "zupę" niezwiązanych ze sobą wyrazów. O ile w prostej klasyfikacji dłuższych tekstów przy założeniu niewielkiej ilości dobrze określonych gatunków i wzięcia jako cel wyłącznie ustalenia przynależności do danego gatunku algorytm pewnie by sobie poradził - o tyle przy klasyfikacji pojedynczych zdań (gdy nie wiadomo, co jest podmiotem, a czasem nawet orzeczeniem zdania) jest to kompletnie nieprzydatne. Czyli inaczej: algorytm będzie w stanie sklasyfikować książki w bibliotece, ale nie będzie umiał zanalizować większości kilkuwyrazowych poleceń.

Pomijam już fakt, że algorytmiczne stemmery dla języka polskiego nie istnieją (a przynajmniej takie, które nadają się do czegoś więcej niż wyszukiwarka w wordpressie), a ich rolę grają rozwiązania słownikowe (np. ispell i pochodne) - dla algorytmu jest to to samo, tym niemniej warto o tym wspomnieć.

Aha, tak poza tym "hello there" nie jest zdaniem, ale to szczegół 🙂

 

  • Lubię! 2
Link do komentarza
Share on other sites

@ethanak rozumiem krytykę, ale nadal dla @kampo należą się podziękowania za to, że zdecydował się napisać artykuł. Oby każdy tak chętnie dzielił się swoimi doświadczeniami. Może dla języka polskiego nie sprawdzi się to zbyt dobrze, ale jak ktoś będzie szukał rozwiązania dla języka angielskiego to start będzie miał dobry 🙂

Link do komentarza
Share on other sites

Ależ ja nie nic złego chyba nie napisałem 🙂 Sam czekam na to co będzie dalej (a mam nadzieję że będzie, bo to przecież "wstęp") - a jeśli coś będę mógł ze swoich doświadczeń dodać (dla języka polskiego) to mam nadzieję że mnie nikt nie wyklnie...

  • Lubię! 1
Link do komentarza
Share on other sites

Zarejestruj się lub zaloguj, aby ukryć tę reklamę.
Zarejestruj się lub zaloguj, aby ukryć tę reklamę.

jlcpcb.jpg

jlcpcb.jpg

Produkcja i montaż PCB - wybierz sprawdzone PCBWay!
   • Darmowe płytki dla studentów i projektów non-profit
   • Tylko 5$ za 10 prototypów PCB w 24 godziny
   • Usługa projektowania PCB na zlecenie
   • Montaż PCB od 30$ + bezpłatna dostawa i szablony
   • Darmowe narzędzie do podglądu plików Gerber
Zobacz również » Film z fabryki PCBWay

15 godzin temu, ethanak napisał:

Dla języka polskiego (i ogólnie dla języków fleksyjnych) zastosowanie stemmera usunęłoby praktycznie całą warstwę znaczeniową, pozostawiając "zupę" niezwiązanych ze sobą wyrazów.

Zgadza się, wspomniałem o tym już na początku artykułu, że do języka polskiego - w tym też innych słowiańskich czy fleksyjnych jak napisałeś - należy podejść nieco inaczej.

 

15 godzin temu, ethanak napisał:

Aha, tak poza tym "hello there" nie jest zdaniem, ale to szczegół 🙂

Generalnie pamiętajmy, że jest sporo ludzi, który nie mieli do czynienia z NLP w ogóle. Być może przesadnie używałem słowa "zdanie" i doświadczona osoba w tym obszarze może wskazać wiele uwag, ale chciałem artykuł utrzymać w jak najprostszej formie. Artykuł przedstawia pewne podejście i zawiera kawałek nowej wiedzy, którą trzeba przyswoić, więc aby nie komplikować za bardzo - uprościłem niektóre rzeczy. Jest to też trochę ten przypadek "skończ gadać i pokaż kod" (przynajmniej dla mnie 🙂)

Zakładam, że jeśli kogoś NLP zaintryguje i zacznie drążyć na własną rękę, to prędzej czy później dojdzie do takich wniosków odnośnie przedstawionego tutaj procesu zastosowanego do języka polskiego przykładowo 🙂 

14 godzin temu, ethanak napisał:

Ależ ja nie nic złego chyba nie napisałem 🙂 [...] a jeśli coś będę mógł ze swoich doświadczeń dodać (dla języka polskiego) to mam nadzieję że mnie nikt nie wyklnie...

Nie traktuję tego jako coś złego, dla mnie wszystkie uwagi i konstruktywna krytyka są mile widziane. Dobrze też wiedzieć, że masz z tym doświadczenie 😉 Inna sprawa, że cały czas uczę się przekazywać wiedzę w taki sposób, aby było to zrozumiałe. Także dziękuję za uwagi 🙂 

14 godzin temu, Treker napisał:

Może dla języka polskiego nie sprawdzi się to zbyt dobrze, ale jak ktoś będzie szukał rozwiązania dla języka angielskiego to start będzie miał dobry 🙂

Dokładnie taki był cel 😉 

  • Lubię! 1
Link do komentarza
Share on other sites

Dołącz do dyskusji, napisz odpowiedź!

Jeśli masz już konto to zaloguj się teraz, aby opublikować wiadomość jako Ty. Możesz też napisać teraz i zarejestrować się później.
Uwaga: wgrywanie zdjęć i załączników dostępne jest po zalogowaniu!

Anonim
Dołącz do dyskusji! Kliknij i zacznij pisać...

×   Wklejony jako tekst z formatowaniem.   Przywróć formatowanie

  Dozwolonych jest tylko 75 emoji.

×   Twój link będzie automatycznie osadzony.   Wyświetlać jako link

×   Twoja poprzednia zawartość została przywrócona.   Wyczyść edytor

×   Nie możesz wkleić zdjęć bezpośrednio. Prześlij lub wstaw obrazy z adresu URL.

×
×
  • Utwórz nowe...

Ważne informacje

Ta strona używa ciasteczek (cookies), dzięki którym może działać lepiej. Więcej na ten temat znajdziesz w Polityce Prywatności.