logo
March 23, 2023

[TIL] Learn Prompt - Try to extract the information for Adverts using ChatGPT

How to use ChatGPT (or another LLM model) to extract the unstructured data

In today's blog post, I will share my experience of using ChatGPT, an AI language model, to extract information from unstructured data. The target data is house advertising in Vietnam.

Specifically, I will show how to extract information such as size, price, address, type, other benefits, and contact from the advertising data.

Getting Started

To begin, I found a website with house advertising and identified the information I wanted to extract. The information included the size of the house, the price, the address, the type of house, other benefits, and contact information.

Sample advert image

I want to extract the bellow information from this advertising data

The extracted information included the size of the house, the price, the address, the type of house, other benefits, and contact information.

plain text
- Size: 450 m2
- Price: 3 tỷ 200
- Address: Phường Phú Mỹ, Thành phố Thủ Dầu Một, Tỉnh Bình Dương
- Type: Đất nền
- Other benefit: Thổ cư 100%, Mặt tiền đường nhựa 16m, cạnh trường đại học Việt Đức
- Contact: 0934107713

So I prepare an example prompt for Chat GPT

plain text
I want you to act as an information extractor
I will provide the original data inside the `"""` and `"""` mark. And you reply me with the output data
If I need to talk to you in English, I will use {{something in english}}
For example, the original data is
"""
Cần bán 450m2 đất nằm cạnh trung tâm TP Thủ Dầu Một BD. Giá 3 tỷ 200
3,2 tỷ VND
Địa chỉ: Phường Phú Mỹ, Thành phố Thủ Dầu Một, Tỉnh Bình Dương
Loại hình: Đất nền
Diện tích: 450
Diện tích sử dụng: 450
Mô tả
Cần tiền để xử lý công việc gia đình , nên tôi cần ra gấp !
* Mục đích tôi mua để đầu tư , nên các vị trí trên đều nằm gần các tiện ích và tiếp giáp với khu công nghiệp .
Các lô đất với diện tích như sao :
+ 15 x 30 : 450m2
+ 5 x 30 : 150m2
+ 5,50 x 26 : 143m2 Lô đất này là 2 mặt tiền trước sao . vị trí này thì giáp đuôi với khu công nghiệp !
- Tất cả các vị trí trên đều đã có sổ hồng riêng . Thổ cư 100%
- Mặt tiền đường nhựa 16m cơ sở hạ tầng đã hoàn thiện .
- cạnh trường đại học Việt Đức - Trường ĐH Thủ Dầu Một
- cạnh các cụm KCN lớn nhất Bình Dương . kumho, vietsing , kingted...vvv !
- là khu vực đông dân cư , nên rất tiện để đầu tư hoặc xây dựng nhà trọ.
Liên hệ: 0934107713
"""
Extracted information you return me
- Size: 450 m2
- Price: 3 tỷ 200
- Address: Phường Phú Mỹ, Thành phố Thủ Dầu Một, Tỉnh Bình Dương
- Type: Đất nền
- Other benefit: Thổ cư 100%, Mặt tiền đường nhựa 16m, cạnh trường đại học Việt Đức
- Contact: 0934107713

For explanation,

  • I prepared an example prompt for ChatGPT that included the original data in between the """ and """ marks.
  • I asked ChatGPT to act as an information extractor machine and reply with the output data.
  • I then provided ChatGPT with advertising content only, and ChatGPT replied with the extracted information.

    For example

    plain text
    """
    Cần bán đất nền dự án giáp ranh thành phố HCM
    1,4 tỷ VND
    Địa chỉ: Xã Đức Hòa Đông, Huyện Đức Hòa, Tỉnh Long An
    Loại hình: Đất nền
    Diện tích: 90
    Diện tích sử dụng: 90
    Mô tả
    Vị trí đắc địa, mặt tiền đường Tỉnh Lộ 10
    Cách trung tâm thành phố HCM 30p đi xe.
    Diện tích 90m2 chỉ 1,4 tỷ
    Pháp lý đầy đủ, sổ hồng riêng.
    Tiện ích đầy đủ, đáp ứng nhu cầu an - sinh - giáo - dưỡng.
    Hạ tầng hoàn thiện, điện âm nước máy, nhận nền xây dựng ngay, xây dựng tự do.
    Nằm trong cụm KCN lớn đã được đầu tư phát triển.
    Đầy đủ hệ thống trung tâm thương mại, dịch vụ, y tế, giáo dục, giải trí...
    """
    Extracted information:
    Type: Đất nền
    Size: 90 m2
    Price: 1.4 tỷ VND
    Address: Xã Đức Hòa Đông, Huyện Đức Hòa, Tỉnh Long An
    Other benefits: Mặt tiền đường Tỉnh Lộ 10, Pháp lý đầy đủ, sổ hồng riêng, Tiện ích đầy đủ (an sinh, giáo dục, y tế, giải trí), Hạ tầng hoàn thiện, điện âm nước máy, Xây dựng tự do, Nằm trong cụm KCN lớn đã được đầu tư phát triển.

    Conclusion

    Using ChatGPT to extract information from unstructured data was a success.

    ChatGPT was able to extract the information I needed from house advertising data with high accuracy.

    This technique could be applied to various other industries, and I am excited to explore the possibilities further.