Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

15.04.2024 - Seminarium Instytutowe — godz. 12:00

Michał Makowski (Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego)

Streszczenie (autorskie):

Warunkowa niezależność zmiennych losowych X i Y pod warunkiem Z intuicyjnie oznacza, że znając Z, jakakolwiek wiedza o X nie mówi nam nic o Y i vice versa. Naturalnie pojawia się chęć wnioskowania o zależnościach pomiędzy tymi niezależnościami. Jak się okazuje, nie istnieje skończony system aksjomatów charakteryzujący warunkową niezależność zmiennych losowych. Co więcej, problem decyzyjny pytający, czy zachodzi implikacja pomiędzy daną koniunkcją warunkowych niezależności a inną daną warunkową niezależnością, jest nierozstrzygalny. Wykazał to w 2022 Cheuk Ting Li oraz niezależnie Kühne i Yashfe. Można rozważać wariant problemu, w którym dziedziny zmiennych są ograniczone, np. do zbioru dwuelementowego. Nietrudno pokazać, że wariant ten należy do klasy złożoności EXPSPACE. W pracy magisterskiej budującej na publikacji C. T. Li wykazałem co-NEXPTIME-trudność tego wariantu problemu. W wystąpieniu przedstawię elementy wykorzystanej konstrukcji, która pozwala za pomocą wyrażeń warunkowej niezależności modelować problem kafelkowania, a co za tym idzie dowolną maszynę Turinga.

Więcej…15.04.2024 - Seminarium Instytutowe

Polski, wielki, otwarty i inteligentny – jaki naprawdę będzie PLLuM?


Z pracującymi nad stworzeniem polskiego, wielkiego modelu językowego PLLuM specjalistkami i specjalistami rozmawiamy o szczegółach tego projektu.

Czym będzie PLLuM i dlaczego konsorcjum polskich uczelni zdecydowało się na jego stworzenie?

Zaczniemy od wyjaśnienia samej nazwy, bo ona w pewnym stopniu odpowiada już na postawione pytanie. PLLuM (Polish Large Language Model) to polski wielki model językowy, czyli odmiana bardzo popularnej ostatnio sztucznej inteligencji, której najsłynniejszymi przedstawicielami są ChatGPT, Claude, Gemini czy Mistral.

PLLuM powstaje w ramach współpracy wiodących jednostek naukowych z obszaru AI, ale warto podkreślić, że są to nie tylko uczelnie. Konsorcjum tworzą: Politechnika Wrocławska (lider projektu), Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN.

Najciekawsza jest jednak oczywiście odpowiedź na drugą część pytania – dlaczego powstaje? Przede wszystkim dlatego, że narodowe wielkie modele językowe są pod wieloma względami korzystne dla rozwoju krajów, które zdecydowały się na ich stworzenie. Z jednej strony jesteśmy świadkami wyścigu polegającego na budowie nowych modeli komercyjnych przez największe firmy technologiczne, takie jak OpenAI czy Google, i wiemy, że działają one również w języku polskim. Są to jednak modele wielojęzyczne z preferencjami, a nawet wiedzą bazującą na języku angielskim i kulturze krajów anglosaskich. W większości takich wielojęzycznych modeli korpusy opierają się w co najmniej 90% na danych anglojęzycznych, a język polski jest tam reprezentowany w bardzo niewielkim zakresie. My natomiast chcemy, by generowane treści formułowane były w dobrej, płynnej polszczyźnie i jak najlepiej odzwierciedlały polskie realia społeczno-kulturowe, ekonomiczne czy prawne.

Z drugiej strony, mamy świadomość, że tego typu inicjatywa musi być w naszym kraju realizowana przez instytucje publiczne, ponieważ dla globalnych graczy rynkowych stworzenie otwartego modelu nie jest priorytetem, zaś polskie podmioty prywatne zazwyczaj nie dysponują odpowiednimi zasobami. Właśnie dlatego powstał PLLuM.

Więcej…Polski, wielki, otwarty i inteligentny – jaki naprawdę będzie PLLuM? (ITwiz)

Polskie Powroty NAWA dla dra Andrzeja Lieberta w IPI PAN


Miło nam poinformować, że wniosek dra Andrzeja Lieberta znalazł się na liście wniosków zaakceptowanych do finansowania Polskie Powroty NAWA w naborze 2023. Istotą projektu będzie generacja sztucznych obrazów benchmarkowych MRI, które mają stanowić podstawę do detekcji anomalii związanych z rakiem piersi w obrazach rzeczywistych. Generacja ma opierać się o nowoczesne techniki generacji obrazów wykorzystujących głębokie sieci neuronowe, uczenie ze wzmocnieniem (reinforcement learning) i wnioskowanie kontradyktoryjne (sieci GAN; Generative Adversarial Networks).

Projekt ma być zlokalizowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk w Zakładzie Sztucznej Inteligencji, który w swoich badaniach intensywnie wykorzystuje głębokie uczenie maszynowe do rozwiązywania szeregu problemów analizy danych. Gratulujemy laureatowi i życzymy owocnej pracy w nowo tworzonym zespole badawczym w IPI PAN.

Więcej…Polskie Powroty NAWA dla dra Andrzeja Lieberta w IPI PAN

Zapytanie ofertowe nr EZ.26.6.2024
Prace nad rozszerzeniem narzędzia Korpusomat o moduł do wykrywania wyrażeń i relacji temporalnych w tekście w projekcie CLARIN-PL 5


Przedmiot zamówienie finansowany z projektu CLARIN 5 (Quintus),
pt. "Wniesienie wkładu własnego do europejskiej infrastruktury badawczej “CLARIN ERIC – European Research Infrastructure Consortium:
Common Language Resources and Technology Infrastructure – Wspólne Zasoby Językowe i Infrastruktura Technologiczna” na lata 2024-2026".

Więcej…Zapytanie ofertowe nr EZ.26.6.2024

28.03.2024 (czwartek) — Seminarium "Przetwarzania Języka Naturalnego" — godz. 11:00

Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu)

Odnośnik do spotkania w MS Teams (nowe okno)


Streszczenie (autorskie):

Prezentacja będzie skupiała się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.

Więcej…28.03.2024 - Seminarium "Przetwarzania Języka Naturalnego"


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności